CN114223215A - 用于呈现音频内容的头部相关传递函数的动态自定义 - Google Patents

用于呈现音频内容的头部相关传递函数的动态自定义 Download PDF

Info

Publication number
CN114223215A
CN114223215A CN202080057687.6A CN202080057687A CN114223215A CN 114223215 A CN114223215 A CN 114223215A CN 202080057687 A CN202080057687 A CN 202080057687A CN 114223215 A CN114223215 A CN 114223215A
Authority
CN
China
Prior art keywords
user
head
hrtf
model
audio system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080057687.6A
Other languages
English (en)
Inventor
H·G·哈萨格
S·V·阿门瓜尔·加里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meta Platforms Technologies LLC
Original Assignee
Facebook Technologies LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Facebook Technologies LLC filed Critical Facebook Technologies LLC
Publication of CN114223215A publication Critical patent/CN114223215A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Stereophonic System (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种用于动态更新为用户自定义的头部相关传递函数(HRTF)模型的系统。该系统接收由一个或多个成像设备捕获的用户的一个或多个图像。系统使用所捕获的一个或多个图像确定用户的姿势。用户的姿势包括用户的头部‑躯干取向。该系统基于所确定的包括头部‑躯干取向的姿势来更新针对用户的HRTF模型。系统使用经更新的HRTF模型生成一个或多个声音滤波器,并且将一个或多个声音滤波器应用于音频内容以生成空间化的音频内容。系统向用户提供空间化的音频内容。

Description

用于呈现音频内容的头部相关传递函数的动态自定义
技术领域
本发明总体涉及双耳音频合成,并且更具体地,涉及动态地自定义用于呈现音频内容的头部相关传递函数(HRTF)。
背景技术
根据声源相对于每个耳朵的方向和位置,在两个耳朵处接收的来自给定源的声音可以不同。HRTF表征了针对声源的特定位置和频率在人的耳朵处接收的声音。HRTF模型用于表征人如何感知声音。对于音频系统的用户,可以使用一个或多个HRTF模型来呈现针对特定用户自定义的音频内容。
发明内容
一种用于为音频系统的用户动态自定义头部相关传递函数(HRTF)模型的系统(例如,可以被实现为头戴式设备的部分)。该系统包括服务器和音频系统。在一个实施例中,服务器确定模板HRTF模型和用户的自定义HRTF模型。服务器可以向音频系统提供模板HRTF模型和/或自定义HRTF模型。在一些实施例中,音频系统确定模板HRTF模型和自定义HRTF模型。模板HRTF模型和自定义HRTF模型包括静态分量和动态分量。可以基于用户的姿势来修改(例如,添加一个或多个陷波)分量中的一个或两个分量,使得可以为该用户自定义HRTF模型。例如,当用户的姿势改变时,相应地更新HRTF模型的动态分量。可以在低时延(例如,小于20毫秒)的情况下以快速率修改分量。音频系统利用经动态更新的HRTF模型来向用户呈现空间化的音频内容。
在一些实施例中,公开了一种用于由音频系统动态自定义HRTF模型的方法。该方法包括接收由一个或多个成像设备捕获的用户的一个或多个图像。音频系统使用所捕获的一个或多个图像来确定用户的姿势。用户的姿势包括头部-躯干取向。音频系统基于所确定的包括头部-躯干取向的姿势来更新针对用户的HRTF模型。音频系统使用经更新的HRTF模型生成一个或多个声音滤波器。将一个或多个声音滤波器应用于音频内容以生成空间化的音频内容。音频系统向用户提供空间化的音频内容。在一些实施例中,公开了一种非瞬态计算机可读介质,该非瞬态计算机可读介质被配置为存储程序代码指令,该程序代码指令在由处理器执行时使处理器执行上述步骤。
至少一个成像设备可以被集成到包括音频系统的设备中。
设备可以是头戴式设备。
在一些实施例中,至少一个成像设备被集成到与音频系统分离的设备中。
一个或更多个成像设备可以捕获用户的影像的至少一个图像,用户的影像的至少一个图像用于确定用户的姿势。
在一些实施例中,确定用户的姿势还基于使用由惯性测量单元(IMU)确定的一个或多个测量结果。
方法还可以包括向服务器提供经更新的HRTF模型,服务器基于所提供的经更新的HRTF模型来更新模板HRTF模型。
在一些实施例中,HRTF模型包括动态分量。方法还可以包括:检测随后捕获的图像中的头部-躯干取向的改变;至少部分地基于检测到的头部-躯干取向的改变来更新HRTF模型的动态分量。
更新HRTF模型可以包括:将梳状滤波器应用于HRTF模型,其中描述梳状滤波器的一个或多个滤波器参数值基于用户的头部-躯干取向。
在一些实施例中,公开了一种用于为用户动态自定义HRTF模型的音频系统。音频系统包括换能器阵列(例如,一个或多个扬声器),换能器阵列被配置为向用户呈现空间化的音频内容。音频系统还包括控制器。控制器被配置为接收由一个或一个以上成像设备捕获的用户的一个或更多个图像。控制器使用一个或多个被捕获的图像来确定用户的姿势。用户的姿势包括头部-躯干取向。控制器还基于所确定的姿势来更新针对用户的HRTF模型。所确定的姿势可以包括头部-躯干取向。控制器使用经更新的HRTF模型来生成一个或多个声音滤波器。控制器将一个或多个声音滤波器应用于音频内容以生成空间化的音频内容。控制器还经由换能器阵列向用户提供空间化的音频内容。
在一些实施例中,至少一个成像设备被集成到包括音频系统的设备中。
设备可以是头戴式设备。
至少一个成像设备可以被集成到与音频系统分离的设备中。
在一些实施例中,一个或更多个成像设备捕获用户的影像的至少一个图像,用户的影像的至少一个图像用于确定用户的姿势。
在一些实施例中,确定用户的姿势还基于使用由惯性测量单元(IMU)确定的一个或多个测量结果。
在一些实施例中,音频系统还包括:将经更新的HRTF模型提供给服务器,服务器基于所提供的经更新的HRTF模型来更新模板HRTF模型。
HRTF模型可以包括静态分量和动态分量。方法还可以包括:至少部分地基于头部-躯干取向来更新动态分量。在一些实施例中,更新HRTF模型的静态分量,该静态分量包括音频输出相对于音频源空间位置之间的函数,并且其中根据用户的耳朵形状、用户的头部形状和用户的躯干形状来更新该函数。
音频系统可以还包括:将梳状滤波器应用于HRTF模型以更新动态分量,其中描述梳状滤波器的一个或多个滤波器参数值基于用户的头部-躯干取向。
附图说明
图1A是根据一个或多个实施例的被实现为眼镜设备的头戴式设备的透视图。
图1B是根据一个或多个实施例的被实现为头戴式显示器的头戴式设备的透视图。
图2是根据一个或多个实施例的用于生成自定义HRTF模型的高级系统环境的示意图。
图3是根据一个或多个实施例的音频系统的框图。
图4A示出了根据一个或多个实施例的用户在第一头部-躯干取向上的HRTF模型的示例描绘。
图4B示出了根据图4A中的实施例的用户在第二头部-躯干取向上的HRTF模型的示例描绘。
图5是示出了根据一个或多个实施例的用于对HRTF模型进行动态自定义的过程的流程图。
图6是根据一个或多个实施例的包括头戴式设备的系统。
附图仅出于说明的目的描绘了各种实施例。本领域技术人员将从以下讨论中容易地认识到,在不脱离本文中所描述的原理的情况下,可以采用本文中所示出的结构和方法的备选实施例。
具体实施方式
一种被配置为动态地自定义头部相关传递函数(HRTF)模型的系统环境。HRTF表征了针对声源的特定位置在人的耳朵处接收的声音。HRTF模型用于表征(例如音频系统和/或头戴式设备的)用户如何感知声音。基于用户的姿势,用于相对于用户的特定声源方向的HRTF模型对于用户可以是唯一的(即,自定义HRTF模型),因为姿势影响声音如何到达用户的耳道。用户的姿势描述了用户的解剖结构的位置和方位。该姿势可以描述例如躯干形状、躯干大小、头部形状、头部大小、一只或两只耳朵的耳朵形状、一只或两只耳朵的耳朵大小,用户的部分的其他形状和/或大小、头部-躯干取向、耳朵-躯干取向(针对一只或两只耳朵)、或它们的某种组合。注意,头部-躯干取向描述了头部相对于躯干的取向。在一些实施例中,针对一只或两只耳朵(左和右)的耳朵-躯干取向可以根据头部-躯干取向来确定。与特定用户的姿势相关联的自定义HRTF模型包括用于为该特定用户自定义HRTF模型的特征(例如,陷波)。当前针对用户自定义HRTF模型的方法没有考虑到改变头部相对于躯干的位置或将HRTF模型拆分成可自定义分量的影响。
使用模板HRTF模型并且将一个或多个滤波器应用于模板HRTF模型来生成自定义HRTF模型。一个或多个滤波器由用户的姿势确定。因此,一个或多个滤波器用于通过在适当的频率位置处引入一个或多个陷波来为用户自定义HRTF模型,该一个或多个陷波具有以频率位置为中心的适当的频带宽度,并且在频率位置处的频带中具有适当的衰减值。当声能到达听者的头部并且在躯干、头部和耳廓周围反弹以在到达耳道入口之前经历抵消时,可以将陷波看作是该声能共振的结果。如上所述,陷波可以影响人如何感知声音(例如,声音听起来从相对于用户的什么高度发出)。
当用户的姿势改变时,自定义HRTF模型被更新。例如,当用户在其整个环境中移动时,用户的解剖结构定位(例如,头部-躯干取向和/或耳朵-躯干取向)改变。自定义HRTF模型随着方向改变而动态地更新。例如,当用户从左向右倾斜他们的头部时(即,滚动的改变),当用户向上或向下倾斜他们的头部时(即,俯仰的改变),和/或当用户从左向右转动他们的头部时(即,偏航的改变),声音可以不同地反射离开用户的躯干。被反射的声音不同地到达用户的每只耳朵。经更新的自定义HRTF模型考虑了用户如何听到被反射的声音的改变。在另一示例中,随着时间的推移,用户的解剖结构几何形状可能改变(例如,用户可能体重减轻并且他们的躯干形状和/或尺寸改变)。在这个示例中,自定义HRTF模型根据所监测的改变来动态地更新。
系统环境包括服务器和音频系统(例如,服务器和音频系统可以被全部或部分地实现为头戴式设备的部分,服务器和音频系统可以是分离的并且在头戴式设备外部等)。服务器可以根据用户的一个或多个隐私设置来接收描述用户和/或头戴式设备的特征的特征数据。例如,服务器可以被提供有用户的躯干、头部和耳朵的图像和/或视频、躯干、头部和耳朵的人体测量结果等。服务器至少部分地基于所接收的数据来确定针对一个或多个个性化滤波器(例如,添加陷波)的值。例如,服务器可以利用机器学习来基于所接收的数据标识针对一个或多个个性化滤波器的值。服务器基于模板HRTF模型和个性化滤波器(例如,针对一个或多个个性化陷波的确定值)生成针对用户的自定义HRTF模型。服务器可以向与用户相关联的音频系统(例如,可以是头戴式设备的部分)提供模板HRTF模型、自定义HRTF模型和/或个性化滤波器。在一些实施例中,音频系统接收特征数据并且生成针对用户的自定义HRTF模型。
在一些实施例中,音频系统从服务器接收HRTF模型并且接收描述用户特征的特征数据(例如,用户的躯干、头部和耳朵的图像和/或视频,人体测量结果,惯性测量单元(IMU)测量结果等)。音频系统使用所接收的特征数据来确定用户的姿势。音频系统可以基于所确定的姿势(例如,通过基于所确定的姿势来应用一个或多个个性化滤波器)来针对用户更新所接收的HRTF模型(即,进一步自定义HRTF模型)。音频系统使用经更新的HRTF模型来生成一个或多个声音滤波器,并将声音滤波器应用于音频内容以生成空间化的音频内容。音频系统然后可以向用户提供(例如,经由换能器阵列)空间化的音频内容。空间化的音频内容听起来源自一个或多个目标声源方向。
在一些实施例中,服务器的一些或全部功能性由音频系统执行。例如,服务器可以向音频系统提供模板HRTF模型,并且音频系统可以确定针对一个或多个个性化滤波器的值,并且基于模板HRTF模型和个性化滤波器来生成自定义HRTF模型。在一些实施例中,音频系统的一些功能性由服务器执行。例如,自定义的HRTF由服务器基于所确定的姿势(例如,通过基于所确定的姿势来应用一个或多个个性化滤波器)来更新。
本发明的实施例可以包括人工现实系统或结合人工现实系统来实现。人工现实是在呈现给用户之前已经以某种方式被调整的现实形式,其可以包括例如虚拟现实(VR)、增强现实(AR)、混合现实(mixed reality,MR)、混合现实(hybrid reality)、或它们的某种组合和/或衍生物。人工现实内容可以包括完全生成的内容或与所捕获的(例如,现实世界)内容组合而生成的内容。人工现实内容可以包括视频、音频、触觉反馈或它们的某种组合,其中任何一种可以在单个通道或多个通道(诸如对观看者产生三维效果的立体视频)中呈现。另外,在一些实施例中,人工现实还可以与用于在人工现实中创建内容和/或以其他方式在人工现实中使用的应用、产品、附件、服务或它们的某种组合相关联。提供人工现实内容的人工现实系统可以在各种平台上实现,包括连接到主机系统的可穿戴设备(例如,头戴式设备),独立的可穿戴设备(例如,头戴式设备),移动设备或计算系统,或能够向一个或多个观看者提供人工现实内容的任何其他硬件平台。
示例性头戴式设备
图1A是根据一个或多个实施例的被实现为眼镜设备的头戴式设备100的透视图。在一些实施例中,该眼镜设备是近眼显示器(NED)。通常,头戴式设备100可以戴在用户的脸上,使得使用显示组装件和/或音频系统来呈现内容(例如,媒体内容)。然而,也可以使用头戴式设备100,使得媒体内容以不同的方式被呈现给用户。由头戴式设备100呈现的媒体内容的示例包括一个或多个图像、视频、音频或它们的某种组合。头戴式设备100包括框架,并且可以包括:包括一个或多个显示元件120的显示组装件、深度相机组装件(DCA)、音频系统以及定位传感器190等其他组件。虽然图1A以头戴式设备100上的示例性位置示出了头戴式设备100的组件,但是这些组件可以位于头戴式设备100上的其它地方、与头戴式设备100配对的外围设备上、或者它们的某种组合。类似地,在头戴式设备100上可以存在比图1A所示更多或更少的组件。
框架110保持头戴式设备100的其它组件。框架110包括保持一个或多个显示元件120的前部和附接到用户头部的端部件(例如镜腿)。框架110的前部桥架于用户鼻子的顶部。端部件的长度可以是可调节的(例如,可调节的镜腿长度)以适合不同的用户。端部件还可以包括在用户的耳朵后面卷曲的部分(例如,镜腿尖端,接耳件)。
一个或多个显示元件120向佩戴头戴式设备100的用户提供光。如图所示,头戴式设备包括用于用户每只眼睛的显示元件120。在一些实施例中,显示元件120生成被提供给头戴式设备100的眼盒的图像光。眼盒是在佩戴头戴式设备100时用户的眼睛占据的空间中的位置。例如,显示元件120可以是波导显示。波导显示包括光源(例如,二维源,一个或多个线源,一个或多个点源等)和一个或多个波导。来自光源的光被内耦合到一个或多个波导中,该一个或多个波导以某种方式输出光,使得在头戴式设备100的眼盒中存在瞳孔复制。来自一个或多个波导的光的入耦合和/或出耦合可以使用一个或多个衍射光栅来完成。在一些实施例中,波导显示包括扫描元件(例如,波导,反射镜等),扫描元件在来自光源的光被内耦合到一个或多个波导中时扫描来自光源的光。注意,在一些实施例中,显示元件120中的一个或两个是不透明的,并且不透射来自头戴式设备100周围的局部区域的光。局部区域是环绕头戴式设备100的区域。例如,局部区域可以是佩戴头戴式设备100的用户在内部的房间,或者佩戴头戴式设备100的用户可以在外部,并且局部区域是外部区域。在此上下文中,头戴式设备100生成VR内容。备选地,在一些实施例中,显示元件120中的一个或两个至少部分透明,使得来自局部区域的光可以与来自一个或多个显示元件的光组合以产生AR和/或MR内容。
在一些实施例中,显示元件120不生成图像光,而是将来自局部区域的光传输到眼盒的透镜。例如,显示元件120中的一个或两个可以是没有校正的透镜(非处方的)或处方透镜(例如,单视觉,双焦和三焦,或渐进)以帮助校正用户视力中的缺陷。在一些实施例中,显示元件120可以被偏振和/或着色以保护用户的眼睛免受太阳的影响。
在一些实施例中,显示元件120可以包括附加的光学块(未示出)。光学块可以包括将来自显示元件120的光引导到眼盒的一个或多个光学元件(例如,透镜,菲涅耳透镜等)。光学块可以例如校正一些或全部图像内容中的像差,放大一些或全部图像,或它们的某种组合。
DCA确定头戴式设备100周围的局部区域的部分的深度信息。DCA包括一个或多个成像设备130和DCA控制器(图1A中未示出),并且还可以包括照明器140。在一些实施例中,照明器140利用光照明局部区域的部分。光可以是例如红外(IR)的结构光(例如,点图案,条等)、用于飞行时间的IR闪光等。在一些实施例中,一个或多个成像设备130捕获包括来自照明器140的光的局部区域的部分的图像。在一个实施例中,所捕获的图像可以包括头戴式设备100的用户的一个或多个图像和/或视频(例如,用户佩戴头戴式设备100并且站在反射镜的前面)。在一些实施例中,所捕获的图像可以包括一个或多个单独的头戴式设备用户的一个或多个图像和/或视频(例如,头戴式设备100捕获包括多个头戴式设备用户的局部区域的图像)。如图所示,图1A示出了单个照明器140和两个成像设备130。在备选实施例中,没有照明器140和至少两个成像设备130。
DCA控制器使用所捕获的图像和一种或多种深度确定技术来计算局部区域的该部分的深度信息。深度确定技术可以是例如直接飞行时间(ToF)深度感测、间接ToF深度感测、结构光、无源立体分析、有源立体分析(使用由来自照明器140的光添加到场景的纹理)、用于确定场景的深度的一些其它技术、或它们的某种组合。
音频系统提供音频内容。音频系统包括换能器阵列、传感器阵列和音频控制器150。然而,在其他实施例中,音频系统可以包括不同的和/或附加的组件。类似地,在一些情况下,参考音频系统的组件而描述的功能性可以以与这里所描述的不同的方式分布在组件之中。例如,控制器的一些或全部功能可以由远程服务器执行。
换能器阵列向用户呈现声音。在一些实施例中,换能器阵列基于一个或多个声音滤波器来呈现空间化的音频内容。换能器阵列包括多个换能器。换能器可以是扬声器160或组织换能器170(例如,骨传导换能器或软骨传导换能器)。虽然扬声器160被示为在框架110的外部,但是扬声器160可以被装在框架110中。在一些实施例中,代替用于每只耳朵的个体扬声器,头戴式设备100包括扬声器阵列,该扬声器阵列包括被集成到框架110中的多个扬声器,以改善所呈现的音频内容的方向性。组织换能器170耦合到用户的头部并且直接振动用户的组织(例如,骨或软骨)以生成声音。换能器的数目和/或位置可以与图1A所示的不同。
传感器阵列检测头戴式设备100的局部区域内的声音。传感器阵列包括多个声学传感器180。声学传感器180捕获从局部区域(例如房间)中的一个或多个声源发出的声音。每个声学传感器被配置为检测声音并且将检测到的声音转换成电子格式(模拟或数字)。声学传感器180可以是声波传感器、麦克风、声换能器或适于检测声音的类似传感器。
在一些实施例中,一个或多个声学传感器180可以被放置在每只耳朵的耳道中(例如,充当双耳麦克风)。在一些实施例中,声学传感器180可以被放置在头戴式设备100的外表面上,被放置在头戴式设备100的内表面上,与头戴式设备100分离(例如,某其他设备的部分),或者它们的某种组合。声学传感器180的数目和/或位置可以与图1A所示的不同。例如,可以增加声检测位置的数目以增加所收集的音频信息量以及信息的灵敏度和/或准确度。声检测位置可以被取向为使得麦克风能够检测在佩戴头戴式设备100的用户周围的宽范围方向上的声音。
音频控制器150处理来自传感器阵列的描述由传感器阵列检测的声音的信息。音频控制器150可以包括处理器和计算机可读存储介质。音频控制器150可以被配置为确定用户的姿势,生成头部相关传递函数(HRTF),动态地更新HRTF,生成到达方向(DOA)估计,跟踪声源的位置,在声源的方向上形成波束,对声源进行分类,生成用于扬声器160的声音滤波器,或它们的某种组合。结合图3更详细地描述音频控制器150。
响应于头戴式设备100的运动,定位传感器190生成一个或多个测量信号。定位传感器190可以位于头戴式设备100的框架110的部分上。定位传感器190可以包括惯性测量单元(IMU)。定位传感器190的示例包括:一个或多个加速度计、一个或多个陀螺仪、一个或多个磁力计、检测运动的另一合适类型的传感器、用于IMU的误差校正的一种类型的传感器、或它们的某种组合。定位传感器190可以位于IMU的外部、IMU的内部或它们的某种组合。
在一些实施例中,头戴式设备100可以提供针对头戴式设备100的定位的同时局部化和映射(SLAM)以及对局部区域的模型的更新。例如,头戴式设备100可以包括生成彩色图像数据的无源摄像机组装件(passive camera assembly,PCA)。PCA可以包括一个或多个RGB相机,该一个或多个RGB相机捕获局部区域中的一些或全部的图像。在一些实施例中,DCA的成像设备130中的一些或全部也可以用作PCA。由PCA捕获的图像和由DCA确定的深度信息可以用于确定局部区域的参数、生成局部区域的模型、更新局部区域的模型、或它们的某种组合。此外,定位传感器190跟踪头戴式设备100在房间内的定位(例如,位置和姿势)。下面结合图6讨论关于头戴式设备100的组件的附加细节。
音频系统针对用户动态地更新自定义HRTF模型。音频系统接收由一个或多个成像设备(例如,一个或多个成像设备130)捕获的用户的一个或多个图像。音频系统基于所捕获的图像确定用户的姿势(例如,躯干形状,耳朵形状,头部-躯干取向等)。音频系统基于所确定的姿势来动态地更新自定义HRTF模型。音频系统使用经更新的HRTF模型生成一个或多个声音滤波器,并且将声音滤波器应用于音频内容以生成空间化的音频内容。音频系统经由扬声器160向用户提供空间化的音频内容。参考图3至图5进一步描述用于动态自定义HRTF模型的过程。
图1B是根据一个或多个实施例的被实现为HMD的头戴式设备105的透视图。在描述AR系统和/或MR系统的实施例中,HMD的前侧的部分在可见频带(约380nm到750nm)中是至少部分透明的,并且HMD中在HMD的前侧与用户的眼睛之间的部分是至少部分透明的(例如,部分透明的电子显示)。HMD包括前刚体115和带175。头戴式设备105包括许多与上面参考图1A所描述的相同的组件,但是被修改为与HMD形状因子结合。例如,HMD包括显示组装件、DCA、图1A的音频系统和定位传感器190。图1B示出了照明器140、多个扬声器160、多个成像设备130、多个声学传感器180和定位传感器190。扬声器160可以位于各种位置,例如被耦合到带175(如图所示),被耦合到前刚体115,或者可以被配置为插入到用户的耳道内。
系统概述
图2是根据一个或多个实施例的用于生成自定义HRTF模型的系统环境200的示意图。系统环境200包括一个或多个头戴式设备(例如,头戴式设备220,头戴式设备225)和服务器240。一个或多个头戴式设备通过网络230与服务器240通信。每个头戴式设备220和头戴式设备225可以由用户(例如,分别为用户210、用户215)佩戴。图1A或图1B中的头戴式设备可以是头戴式设备220和头戴式设备225的实施例。
网络230将一个或多个头戴式设备耦合到服务器240。网络230可以包括使用无线和/或有线通信系统的局域网和/或广域网的任何组合。例如,网络230可以包括因特网以及移动电话网络。在一个实施例中,网络230使用标准通信技术和/或协议。因此,网络230可以包括使用诸如以太网、802.11、全球微波接入互操作性(worldwide interoperability formicrowave access,WiMAX)、2G/3G/4G移动通信协议、数字用户线(digital subscriberline,DSL),异步传输模式(ATM),无线带宽(InfiniBand),PCI快速高级交换(PCI expressadvanced switching)等技术的链路。类似地,网络230上使用的联网协议可以包括多协议标签交换(MPLS)、传输控制协议/互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)、简单邮件传输协议(SMTP)、文件传输协议(FTP)等。可以使用诸如安全套接字层(SSL)、传输层安全(TLS)、虚拟专用网络(VPN)、因特网协议安全(IPsec)等的常规加密技术来加密链路中的所有或一些。
服务器240可以根据用户的一个或多个隐私设置经由网络230从一个或多个设备(例如,头戴式设备220)接收特征数据。特征数据描述用户的躯干、头部和耳朵的大小、形状、定位和取向。特征数据可以包括例如躯干的一个或多个图像、头部的一个或多个图像、用户的耳朵的一个或多个图像、躯干的一个或多个视频、头部的一个或多个视频、用户的耳朵的一个或多个视频、躯干的人体测量结果、头部的人体测量结果、用户的耳朵的人体测量结果、佩戴头戴式设备的用户的头部的一个或多个图像、孤立的(例如,不由用户佩戴)的头戴式设备的一个或多个图像、佩戴头戴式设备的用户的头部的一个或多个视频、孤立的(例如,不由用户佩戴)的头戴式设备的一个或多个视频、或它们的某种组合。用户的人体测量结果是用户的躯干、头部和/或耳朵的测量结果。这些测量结果可以包括头部-躯干取向、耳朵-躯干取向、躯干的高度(或长度)、躯干的宽度、头部的高度(或长度)、头部的宽度、左耳和右耳的高度(或长度)、左耳和右耳的宽度、左耳和右耳的耳甲腔高度、左耳和右耳的耳甲腔宽度、左耳和右耳的耳甲艇高度、左耳和右耳的耳窝高度、左耳和右耳的耳廓高度和宽度、左耳和右耳的耳屏间切迹(intertragal incisure)宽度、其它相关的解剖学测量结果、或它们的一些组合。在一些实施例中,人体测量结果可以使用类似测量带和/或尺子的测量仪器来测量。在一些实施例中,使用成像设备(未示出)捕获用户的躯干、头部和/或耳朵的图像和/或视频。成像设备可以是头戴式设备220上的相机、头戴式设备225上的相机、作为头戴式设备220的部分的深度相机组装件(DCA)、作为头戴式设备225的部分的DCA、外部相机(例如,单独的移动设备的部分)、外部DCA、被配置为捕获图像和/或深度信息的一些其它设备或它们的某种组合。在一些实施例中,成像设备还用于捕获头戴式设备的图像。
根据用户的隐私设置,经由网络230向服务器240提供特征数据。在所图示的示例中,经由网络230将特征数据从一个或多个头戴式设备提供给服务器240。然而,在备选实施例中,一些其它设备(例如,移动设备(例如,智能电话,平板等),台式计算机,外部相机等)可以用于将特征数据上载到服务器240。用户可以调整隐私设置以允许或阻止头戴式设备220或头戴式设备225向服务器240发送信息。例如,用户可以选择保持头戴式设备上的所有信息而不向服务器240发送任何数据。在这种情况下,计算中的一些或全部可以在头戴式设备上局部地进行。
为了更准确地捕获用户210的躯干和/或头部,用户210(或一些其他方,例如用户215)将成像设备定位在相对于用户210的躯干和/或头部的不同位置,使得所捕获的图像根据用户210的一个或多个隐私设置覆盖用户210的躯干和/或头部的不同部分。用户210可以相对于用户210以不同的角度和/或距离保持成像设备。在一个示例中,用户210可以将成像设备以手臂的长度直接保持在用户210的面部的前面,并且使用成像设备来捕获用户210的面部的图像。在另一示例中,当成像设备是头戴式设备220上的相机时,用户210可以佩戴头戴式设备220并且站在反射镜前面,并且使用成像设备来捕获用户210的反射图像。在一些实施例中,成像设备可以根据用户210的一个或多个隐私设置运行特征识别软件,并且当在所捕获的图像中识别感兴趣的特征(例如,耳朵,肩部)时,根据隐私设置自动捕获图像。在一些实施例中,当设备接收到来自用户的输入以捕获图像时,成像设备可以捕获图像。
服务器240使用连同模板HRTF模型一起的用户的特征数据来针对用户210生成自定义HRTF模型。服务器240包括各种组件,包括例如数据存储250、通信模块260、模板HRTF生成模块270和HRTF自定义模块280。服务器240的一些实施例具有与这里所描述的组件不同的组件。类似地,功能可以以与这里所描述的不同的方式分布在组件之间。并且在一些实施例中,服务器240的一个或多个功能可以由其他组件(例如,头戴式设备的音频系统)来执行。
数据存储250存储供服务器240使用的数据。数据存储250中的数据可以包括例如一个或多个模板HRTF模型、一个或多个自定义HRTF模型、个性化滤波器(例如,滤波器参数值的个性化集合)、用户简档、特征数据、与服务器系统240使用相关的其它数据,或它们的某种组合。在一些实施例中,数据存储250可以周期性地接收和存储经更新的模板HRTF模型。
通信模块260与一个或多个头戴式设备(例如,头戴式设备220和/或头戴式设备225)通信。在一些实施例中,通信模块260还可以与一个或多个其他设备(例如,成像设备,智能电话等)通信。用户210和/或用户215可以调整隐私设置以分别允许或防止头戴式设备220和头戴式设备225向服务器240发送信息。通信模块260可以经由例如网络230和/或一些直接耦合(例如,通用串行总线(USB),WIFI等)进行通信。通信模块260可以从头戴式设备(例如,头戴式设备220)接收对用于特定用户(例如,用户210)的自定义HRTF模型的请求、特征数据(来自头戴式设备和/或一些其他设备)的请求、或它们的某种组合。通信模块260还可以向头戴式设备(例如,头戴式设备220)提供一个或多个自定义HRTF模型、一个或多个个性化的滤波器参数值的集合(即,描述要应用于HRTF模型的一个或多个滤波器的值)、一个或多个模板HRTF模型、或它们的某种组合。通信模块260可以从头戴式设备接收经更新的HRTF模型。
模板HRTF生成模块270生成模板HRTF模型。在一些实施例中,存在用于所有用户的单个模板HRTF模型。在备选实施例中,存在多个不同的模板HRTF模型,并且每个模板HRTF模型针对具有一个或多个共同特性(例如,姿势,性别,年龄等)的不同组。在一些实施例中,每个模板HRTF模型与特定特性相关联。这些特性可以是例如姿势、性别、年龄、影响人如何感知声音的一些其它特性、或它们的某种组合。例如,基于头部大小和/或年龄的变化可以存在不同的模板HRTF模型(例如,可以存在用于儿童的模板HRTF模型和用于成人的不同模板HRTF模型)。在另一示例中,基于头部-躯干取向和/或头部形状的变化,可以存在不同的模板HRTF模型(例如,对于圆形头部形状相对于其躯干以15度角倾斜的人,可以存在模板HRTF模型,而对于椭圆形头部形状以相同的15度角倾斜的人,可以存在不同的模板HRTF模型)。在一些实施例中,模板HRTF生成模块270使用用户210的特征数据来确定描述用户210的一个或多个特性。然后,模板HRTF生成模块270可以基于一个或多个特性来选择模板HRTF模型。
在一些实施例中,模板HRTF模型由多个可自定义的、个体模板组成。个体模板可以包括躯干模板、头部模板和多个耳朵模板(例如,螺旋模板,对耳轮模板,耳甲碗模板等)。模板HRTF生成模块270使用用户210的特征数据来确定描述用户210的一个或多个特性。模板HRTF生成模块270基于描述用户210的一个或多个特性来选择被组合以构成用于用户210的模板HRTF模型的特定个体模板。
在一些实施例中,HRTF生成模块270基于一个或多个特性根据通用HRTF模型生成模板HRTF模型。通用HRTF模型与一些用户群体相关联,并且可以包括一个或多个陷波。通用HRTF模型中的陷波与频率窗口或频带上的幅度的改变相对应。陷波由以下频率衰减特性描述:频率位置,以该频率位置为中心的频带的宽度,以及该频率位置处的频带中的衰减值。在一些实施例中,HRTF模型中的陷波被标识为幅度的改变高于预定阈值的频率位置。因此,通用HRTF模型中的陷波可以被认为表示作为针对用户群体的频率和方向的函数的平均衰减特性。
模板HRTF生成模块270在整个可听频带(人能够感知的声音范围)中的一些或全部上去除通用HRTF模型中的陷波,以形成模板HRTF模型。模板HRTF生成模块270还可以使模板HRTF模型平滑,使得它的一些或全部是平滑和连续函数。在一些实施例中,模板HRTF模型被生成为在一些频率范围上缺少陷波、但未必缺少在那些频率范围之外的陷波的平滑和连续函数。在一些实施例中,模板HRTF模型使得在5kHz-16kHz的频率范围内不存在陷波。这可能是重要的,因为该频率范围中的陷波倾向于在不同用户之间变化。这意味着,在大约5kHz-16kHz的频率范围处,陷波数目、陷波大小、陷波位置可以具有关于如何在耳道入口处接收声能(并且因此能够影响用户感知)的强烈影响。因此,具有作为平滑和连续函数的模板HRTF模型,而在大约5kHz-16kHz的该频率范围处没有陷波,这使得它成为可以随后针对不同用户进行个性化的合适模板。在一些实施例中,模板HRTF生成模块270生成HRTF模板模型,该模型是在所有频率范围处缺少陷波的平滑和连续函数。在一些实施例中,模板HRTF生成模块270生成在一个或多个频带上是平滑和连续函数的HRTF,但是该HRTF可以包括在这些一个或多个频带之外的陷波。例如,模板HRTF生成模块270可以生成在频率范围(例如,约5kHz-16kHz)上缺少陷波、但可以包括在该范围之外的一个或多个陷波的模板HRTF模型。
注意,用于生成模板HRTF模型的通用HRTF模型基于用户群体。在一些实施例中,群体可以被选择以使得它代表大多数用户,并且单个模板HRTF模型基于特定用户的一个或多个特性来从群体生成并被用于生成一些或全部自定义HRTF模型。
在其它实施例中,使用多个群体来生成不同的通用HRTF模型,并且群体使得每个群体与一个或多个共同特性相关联。例如,一个群体可以是成人群体、儿童群体、男性群体、女性群体等。模板HRTF生成模块270可以针对多个通用HRTF模型中的一个或多个通用HRTF模型生成模板HRTF模型。因此,可以存在多个不同的模板HRTF模型,并且每个模板HRTF模型针对共享某共同特性集合的不同组。
在一些实施例中,模板HRTF生成模块270可以周期性地生成新的模板HRTF模型和/或在获得更多群体HRTF数据时修改先前生成的模板HRTF模型。在一个示例中,模板HRTF生成模块270经由通信模块260从音频系统(例如,被集成在头戴式设备220上的音频系统)接收经更新的HRTF模型,并且相应地修改先前生成的模板HRTF模型。模板HRTF生成模块270可以将每个新生成的模板HRTF模型和/或对模板HRTF模型的每个更新存储在数据存储250中。在一些实施例中,服务器240可以向头戴式设备220发送新生成的模板HRTF模型和/或对模板HRTF模型的更新。
HRTF自定义模块280可以至少部分地基于与用户相关联的特征数据来确定对用户进行个性化的一个或多个滤波器。滤波器可以是例如带通(例如,描述峰值)、带阻(例如,描述陷波)、高通(例如,描述高频架(high frequency shelf))、低通(例如,描述低频架(lowfrequency shelf))、梳状滤波器(例如,描述规则间隔的陷波)或它们的某种组合。滤波器可以包括例如对用户进行个性化的一个或多个滤波器参数值。参数值可以包括例如频率位置、以频率位置为中心的频带的宽度(例如,由品质因数和/或滤波器阶数确定)、以及频率位置处的深度(例如,增益)。频率位置处的深度是指频带中在频率位置处的衰减值。单个滤波器或滤波器的组合可以用于描述一个或多个陷波。
HRTF自定义模块280对用户的特征数据采用经训练的机器学习(ML)模型来确定针对用户自定义的一个或多个个性化滤波器(例如,陷波)的个性化滤波器参数值(例如,滤波器参数值)。在一些实施例中,个性化滤波器参数值由声源仰角和方位角参数化。首先使用从用户群体收集的数据来训练ML模型。所收集的数据可以包括例如特征数据和声学数据。特征数据可以包括用户和/或头戴式设备的特征。声学数据可以包括使用音频测量装置测量的和/或经由来自用户头部的三维扫描的数值分析模拟的HRTF模型。训练可以包括监督或无监督学习算法,包括但不限于线性和/或逻辑回归模型、神经网络、分类和回归树、k均值聚类、矢量量化或任何其它机器学习算法。在一些实施例中,滤波器和/或滤波器参数值经由机器学习直接从用户的图像和/或视频数据得到,该图像和/或视频数据与(在电话中或以其它方式)捕获由相机获取的用户姿势的单个或多个图像相对应。在一些实施例中,滤波器和/或滤波器参数值从与用户姿势相对应的用户人体测量结果得到。在一些实施例中,滤波器和/或滤波器参数值从图像、视频和人体测量结果的加权组合得到。
在一些实施例中,ML模型使用具有节点层的卷积神经网络模型,其中当前层的节点处的值是先前层的节点处的值的变换。通过将当前层和先前层连接的一组权重和参数来确定模型中的变换。在一些示例中,还可以通过用于在模型中的先前层之间进行变换的一组权重和参数来确定变换。
神经网络模型的输入可以是连同被编码到第一卷积层上的模板HRTF模型一起的用户的特征数据中的一些或全部,并且神经网络模型的输出是针对要应用于模板HRTF模型的一个或多个个性化陷波的滤波器参数值,如由针对用户的仰角和方位角参数化的;这是从神经网络的输出层解码的。用于跨神经网络模型的多个层的变换的权重和参数可以指示被包含在起始层中的信息与从最终输出层获得的信息之间的关系。例如,权重和参数可以是被包括在用户图像数据中的信息中的用户特性的量化等。权重和参数也可以基于历史用户数据。
ML模型可以包括任意数目的机器学习算法。可以采用的一些其他ML模型是线性和/或逻辑回归、分类和回归树、k均值聚类、矢量量化等。在一些实施例中,ML模型包括已经利用强化学习(由此创建强化学习模型)来训练的确定性方法。该模型被训练以提高使用来自头戴式设备(例如,头戴式设备220)处的音频系统内的监测系统的测量结果而生成的个性化的滤波器参数值集合的质量。
HRTF自定义模块280选择HRTF模板模型,用于针对用户生成一个或多个自定义HRTF模型。在一些实施例中,HRTF自定义模块280简单地(例如,从数据存储250)检索单个HRTF模板模型。在其它实施例中,HRTF自定义模块280根据特征数据确定与用户相关联的一个或多个特性,并且使用所确定的一个或多个特性来从多个模板HRTF模型中选择模板HRTF模型。在其它实施例中,HRTF自定义模块280根据特征数据确定与用户相关联的一个或多个特性,并且使用所确定的一个或多个特性来选择个体模板(例如,躯干模板、头部模板、耳轮模板等),并且将个体模板组合成模板HRTF模型。
HRTF自定义模块280使用所选择的模板HRTF模型和个性化滤波器(例如,滤波器参数值的集合)中的一个或多个个性化滤波器来针对用户生成一个或多个自定义HRTF模型。HRTF自定义模块280将个性化滤波器(例如,滤波器参数值的一个或多个个性化集合)应用于所选择的模板HRTF模型以生成自定义HRTF模型。在一些实施例中,HRTF自定义模块280使用一个或多个个性化滤波器中的至少一个个性化滤波器来将至少一个陷波添加到所选择的模板HRTF模型,以生成自定义HRTF模型。在一些实施例中,为了生成自定义HRTF模型,HRTF自定义模块280使用个性化滤波器中的至少一个个性化滤波器来将至少一个陷波添加到构成模板HRTF模型的个体模板中的一个或多个个体模板。在一些实施例中,HRTF自定义模块280使用个性化滤波器中的至少一个个性化滤波器来增大或减小以频率位置为中心的陷波的宽度,以生成自定义HRTF模型。在其它实施例中,HRTF自定义模块280使用个性化滤波器中的至少一个个性化滤波器来增加或减小频率位置处的陷波的深度,以生成自定义HRTF模型。一个或多个个性化滤波器被应用于模板HRTF模型的静态分量和动态分量。静态分量与基本上随时间保持不变的姿势的特征相关联。例如,除非用户受到伤害,否则用户的头部形状不会随时间改变。动态分量与随时间改变的姿势的特征相关联。例如,用户的头部-躯干取向根据用户正在执行的动作(例如,梳他们的头发、系他们的鞋、随着音乐跳舞等)而改变。
HRTF自定义模块280继续对HRTF模型(即,动态地更新自定义HRTF模型)进行自定义。在一些实施例中,HRTF自定义模块280然后可以经由网络230向头戴式设备220提供(经由通信模块260)一个或多个自定义HRTF模型。头戴式设备220中的音频系统(未示出)存储自定义HRTF模型。头戴式设备220中的音频系统然后可以更新自定义HRTF模型以将空间化的音频内容呈现给用户210,使得其似乎起源于朝向用户210的特定位置(例如,在房间中的虚拟对象的前面、后面等等)。
在备选实施例中,HRTF自定义模块280经由网络230向头戴式设备220的音频系统提供滤波器参数值的个性化集合。在该实施例中,头戴式设备220的音频系统将个性化的滤波器参数值的集合应用于模板HRTF模型,以生成一个或多个自定义HRTF模型。模板HRTF模型可以被局部存储在头戴式设备220上和/或从一些其它位置(例如,服务器240)检索。
音频系统
图3是根据一个或多个实施例的音频系统300的框图。图1A或图1B中的音频系统可以是音频系统300的实施例。音频系统300确定用户的姿势并且基于所确定的用户姿势来更新HRTF模型。音频系统300然后可以使用经更新的HRTF模型来生成一个或多个声音滤波器,将声音滤波器应用于音频内容以生成空间化的音频内容,并且将空间化的音频内容提供给用户。在图3的实施例中,音频系统300包括换能器阵列310、传感器阵列320和音频控制器330。音频系统300的一些实施例具有与这里描述的那些不同的组件。类似地,在一些情况下,功能可以以与这里描述的方式不同的方式分布在组件之间。
换能器阵列310被配置为呈现音频内容。在一些实施例中,换能器阵列基于一个或多个声音滤波器来呈现空间化的音频内容。换能器阵列310包括多个换能器。换能器是提供音频内容的设备。换能器可以是例如扬声器(例如,扬声器160)、组织换能器(例如,组织换能器170)、提供音频内容的一些其它设备、或它们的某种组合。组织换能器可以被配置为用作骨传导换能器或软骨传导换能器。换能器阵列310可以经由空气传导(例如,经由一个或多个扬声器)、经由骨传导(经由一个或多个骨传导换能器)、经由软骨传导音频系统(经由一个或多个软骨传导换能器)或它们的某种组合来呈现音频内容。在一些实施例中,换能器阵列310可以包括一个或多个换能器以覆盖频率范围的不同部分。例如,压电换能器可以用于覆盖频率范围的第一部分,而移动线圈换能器可以用于覆盖频率范围的第二部分。
骨传导换能器通过振动用户头部中的骨/组织生成声压波。骨传导换能器可以被耦合到头戴式设备的一部分,并且可以被配置为处于被耦合到用户的颅骨的一部分的耳郭的后面。骨传导换能器从音频控制器330接收振动指令,并且基于所接收的指令来振动用户颅骨的部分。来自骨传导换能器的振动生成经组织传播的声压波,该声压波绕过鼓膜朝向用户的耳蜗传播。
软骨传导换能器通过振动用户耳朵的耳郭软骨的一个或多个部分来生成声压波。软骨传导换能器可以被耦合到头戴式设备的一部分,并且可以被配置为被耦合到耳朵的耳郭软骨的一个或多个部分。例如,软骨传导换能器可以耦合到用户耳朵的耳郭的背面。软骨传导换能器可以位于外耳周围沿耳郭软骨的任何地方(例如耳廓、耳屏、耳郭软骨的某其它部分、或它们的某种组合)。振动耳郭软骨的一个或多个部分可以生成:耳道外的空气传播的声压波;组织产生的声压波,该声压波使耳道的一些部分振动,由此在耳道内生成空气传播的声压波;或它们的某种组合。所生成的空气传播的声压波沿着耳道向鼓膜传播。
换能器阵列310根据来自音频控制器330的指令生成音频内容。由于由声音滤波器模块390确定的一个或多个声音滤波器,音频内容被空间化。空间化的音频内容是似乎起源自一个或多个目标声源方向(例如,局部区域中的对象和/或虚拟对象)的音频内容。例如,空间化的音频内容可以使其表现为声音源自与音频系统300的用户的跨房间的虚拟演唱者。换能器阵列310可以被耦合到可穿戴设备(例如,头戴式设备100或头戴式设备105)。在备选实施例中,换能器阵列310可以是与可穿戴设备分离的多个扬声器(例如,被耦合到外部控制台)。
传感器阵列320检测在传感器阵列320周围的局部区域内的声音。传感器阵列320可以包括多个声学传感器,每个声学传感器检测声波的气压变化并且将检测到的声音转换成电子格式(模拟或数字)。多个声学传感器可以被定位在头戴式设备(例如,头戴式设备100和/或头戴式设备105)上、用户(例如,在用户的耳道中)上、颈带上、或它们的某种组合。声学传感器可以是例如麦克风、振动传感器、加速度计或它们的任意组合。在一些实施例中,传感器阵列320被配置为使用多个声学传感器中的至少一些声学传感器来监测由换能器阵列310生成的音频内容。增加传感器的数目可以提高描述由换能器阵列310产生的声场和/或来自局部区域的声音的信息(例如,方向性)的准确性。
音频控制器330控制音频系统300的操作。在图3的实施例中,音频控制器330包括数据存储335、DOA估计模块340、声学功能模块350、跟踪模块360、波束形成模块370、HRTF自定义模块380以及声音滤波器模块390。在一些实施例中,音频控制器330可以位于头戴式设备内。音频控制器330的一些实施例具有与这里所描述的那些不同的组件。类似地,功能可以以与这里所描述的方式不同的方式分布在组件之间。例如,控制器的一些功能可以在头戴式设备外部被执行。用户可以选择允许音频控制器330将由头戴式设备捕获的数据发送到头戴式设备外部的系统,并且用户可以选择控制对任何这样的数据的访问的隐私设置。
数据存储335存储供音频系统300使用的数据。数据存储335中的数据可以包括一个或多个模板HRTF模型、一个或多个自定义HRTF模型、个性化滤波器(例如,个性化的滤波器参数值的集合)、用户简档(user profiles)、特征数据、被记录在音频系统300的局部区域中的声音、音频内容、声源位置、局部区域的虚拟模型、到达方向估计、声音滤波器、以及与音频系统300使用相关的其它数据,或它们的任意组合。
DOA估计模块340被配置为部分地基于来自传感器阵列320的信息来使声音源局部化在局部区域中。局部化是确定声源相对于音频系统300的用户位于何处的过程。DOA估计模块340执行DOA分析以使一个或多个声音源局部化在局部区域内。DOA分析可以包括分析每个声音在传感器阵列320处的强度、频谱和/或到达时间,以确定声音起源的方向。在一些情况下,DOA分析可以包括用于分析音频系统300所处的周围声学环境的任何合适的算法。
例如,DOA分析可以被设计为从传感器阵列320接收输入信号并且将数字信号处理算法应用于输入信号以估计到达方向。这些算法可以包括例如延迟和求和算法,其中对输入信号进行采样,并且将所得到的采样信号的加权和延迟版本一起进行平均以确定DOA。也可以实现最小均方(LMS)算法来创建自适应滤波器。该自适应滤波器然后可以用于标识例如信号强度的差异或到达时间的差异。然后可以使用这些差异来估计DOA。在另一实施例中,DOA可以通过以下来确定:将输入信号转换到频域中并且在时间-频率(TF)域内选择特定仓(bin)来处理。每个所选择的TF仓可以被处理以确定仓是否包括具有直接路径音频信号的音频频谱的一部分。然后具有直接路径信号的一部分的那些仓可以被分析以标识传感器阵列320接收直接路径音频信号的角度。所确定的角度然后可以用于标识针对所接收的输入信号的DOA。上面未列出的其它算法也可以单独使用或与上述算法结合使用以确定DOA。
在一些实施例中,DOA估计模块340还可以确定相对于音频系统300在局部区域内的绝对定位的DOA。传感器阵列320的定位可以从外部系统(例如,头戴式设备的某其它组件,人工现实控制台,映射服务器,定位传感器(例如,定位传感器190)等)接收。外部系统可以创建局部区域的虚拟模型,其中局部区域和音频系统300的定位被映射。所接收的位置信息可以包括音频系统300的一些或全部(例如,传感器阵列320的)的位置和/或取向。DOA估计模块340可以基于所接收的定位信息来更新所估计的DOA。
声学功能模块350被配置为生成一个或多个声学传递函数。通常,传递函数是针对每个可能的输入值给出相应输出值的数学函数。基于检测到的声音的参数,声学功能模块350生成与音频系统相关联的一个或多个声学传递函数。声学传递函数可以是阵列传递函数(ATF)、头部相关传递函数(HRTF)、其它类型的声学传递函数、或它们的某种组合。ATF表征麦克风如何从空间中的点接收声音。
ATF包括表征声源与由传感器阵列320中的声学传感器接收的对应声音之间的关系的若干传递函数。因此,对于声源,针对传感器阵列320中的声学传感器中的每个声学传感器存在对应的传递函数。并且传递函数的集合被统称为ATF。因此,对于每个声源,存在对应的ATF。注意,声源可以是例如在局部区域中生成声音的某人或某物、用户、或换能器阵列310的一个或多个换能器。由于当声音传播到人的耳朵时影响声音的人的解剖结构(例如,耳朵形状,肩膀等),针对相对于传感器阵列320的特定声源位置的ATF可以因用户而异。因此,传感器阵列320的ATF对于音频系统300的每个用户是个性化的。
跟踪模块360被配置为跟踪一个或多个声源的位置。跟踪模块360可以比较当前DOA估计并且将它们与先前DOA估计的存储历史进行比较。在一些实施例中,音频系统300可以在周期性调度(例如每秒一次或每毫秒一次)上重新计算DOA估计。跟踪模块可以将当前DOA估计与先前DOA估计进行比较,并且响应于针对声源的DOA估计的改变,跟踪模块360可以确定声源已移动。在一些实施例中,跟踪模块360可以基于从头戴式设备或某其他外部源接收的视觉信息来检测位置的改变。跟踪模块360可以跟踪一个或多个声源随时间的移动。跟踪模块360可以存储针对若干声源的值和每个声源在每个时间点的位置。响应于声源的数目或位置的值的改变,跟踪模块360可以确定声源已移动。跟踪模块360可以计算对局部化方差的估计。局部化方差可以用作每次确定移动改变的置信水平。
波束形成模块370被配置为处理一个或多个ATF,以选择性地强调来自一定区域内的声源的声音,而不强调来自其他区域的声音。在分析由传感器阵列320检测到的声音时,波束形成模块370可以对来自不同声学传感器的信息进行组合以强调与局部区域的特定区相关联的声音,而不强调来自该区外部的声音。波束形成模块370可以基于(例如)来自DOA估计模块340和跟踪模块360的不同DOA估计来将与来自特定声源的声音相关联的音频信号与局部区域中的其它声源隔离。因此,波束形成模块370可以选择性地分析局部区域中的离散声源。在一些实施例中,波束形成模块370可以增强来自声源的信号。例如,波束形成模块370可以应用声音滤波器,该声音滤波器消除在某些频率之上、之下或之间的信号。信号增强用于相对于由传感器阵列320检测到的其它声音增强与给定的经标识的声源相关联的声音。
HRTF自定义模块380被配置为动态地更新HRTF模型。在一些实施例中,图3中的HRTF自定义模块380可以执行与图2中的HRTF自定义模块280基本相同的操作。另外,HRTF自定义模块380更新HRTF模型的动态分量。
HRTF自定义模块380接收特征数据(例如,所捕获的用户的一个或多个图像,用户的一个或多个视频等)。在一个实施例中,特征数据由与音频系统300分离的设备被提供给HRTF自定义模块380。在一些实施例中,音频系统300被集成到向HRTF自定义模块380提供特征数据的同一设备中。在一个示例中,特征数据可以包括所捕获的用户的影像的一个或多个图像。在一个或多个图像中捕获的用户的影像包括用户的头部和躯干。在一些实施例中,HRTF自定义模块380可以从定位传感器(例如,定位传感器190)接收包括一个或多个测量结果的特征数据。定位传感器(例如,惯性测量单元(IMU))计算包括定位传感器的设备的估计定位。例如,被集成到头戴式设备中的定位传感器可以确定佩戴头戴式设备的用户的头部取向。在一些实施例中,定位传感器可以被集成在包括音频系统300的同一设备上。
HRTF自定义模块380基于所接收的特征数据来确定用户的姿势。用户的姿势描述了用户的解剖结构的位置和方位。头部-躯干取向描述了用户头部的定位与躯干的定位。可以通过使用三维(3D)坐标系来确定定位。例如,使用中心位于用户头部的精确中心的3D坐标系作为参考。当用户将其头部从左向右倾斜(即,滚动改变)、头部沿z轴旋转时,当用户将其头部向上或向下倾斜(即,俯仰改变)、头部沿x轴旋转时,以及当用户将其头部从左向右转动(即,偏航改变)、头部沿y轴旋转时,或它们的某种组合,用户改变其头部的定位。使用中心位于躯干的准确中心的单独的3D坐标系作为参考。当用户将其躯干从左向右倾斜(即,滚动改变)、躯干沿z轴旋转时,当用户将其躯干向上或向下倾斜(即,俯仰改变)、躯干沿x轴旋转时,以及当用户将其躯干从左向右转动(即,偏航改变)、躯干沿y轴旋转时,或它们的某种组合,用户改变其躯干的定位。头部的定位(例如,x1,y1和z1)与躯干的定位(例如,x2,y2和z2)可以确定用户的头部-躯干取向。该头部-躯干取向使得声音不同地反射离开用户的躯干并且不同地到达用户的耳朵(即,经反射的声音不同地到达用户的每只耳朵)。
用户的姿势包括静态分量和动态分量。静态分量与基本上随时间保持不变的姿势特征相关联。动态分量与随时间改变的姿势特征相关联。动态分量可以包括头部-躯干取向和耳朵-躯干取向。在一个实施例中,仅一次使用高质量图像和/或使用人体测量结果来确定用户姿势的静态分量。在一些实施例中,由于音频系统300被集成到经由位于设备上的传感器(例如,定位传感器,RGB相机等)提供特征数据的同一设备中,以快速率和/或低时延(小于20毫秒)来确定用户姿势的动态分量。
在一个实施例中,可以使用所捕获的图像的实时图像处理来确定用户的姿势。在一个实施例中,图像处理包括用于标识用户的解剖结构(例如,躯干,肩部,头部,耳朵,鼻子等)的图像识别技术。用户的解剖结构的特定部分在所捕获的图像中的位置被称为关键点。在一些实施例中,为了确定姿势的动态分量,测量每个图像中的关键点(例如,与头部相关联的关键点和与一个肩部相关联的关键点)之间的距离。在该实施例中,当关键点之间的距离改变(即增加或减小)时更新姿势。在一个示例中,基于关键点之间的距离超过阈值距离来更新姿势。
HRTF自定义模块380至少部分地基于与用户相关联的姿势来确定对用户个性化的滤波器。滤波器可以是例如带通、带阻、高通、低通、梳状滤波器或它们的某种组合。滤波器可以包括例如对用户个性化的一个或多个滤波器参数值。可以使用一个或多个滤波器来对HRTF模型进行自定义。HRTF自定义模块380可以采用关于用户姿势的经训练的机器学习(ML)模型来确定针对用户自定义的一个或多个个性化滤波器的个性化滤波器参数值。以与上面参考图2描述的ML模型相似的方式训练机器学习模型。
HRTF自定义模块380基于一个或多个个性化滤波器参数值来更新HRTF模型。在一个实施例中,待更新的HRTF模型(例如,模板HRTF模型和/或自定义HRTF模型)可以已由服务器(例如,服务器240)被提供给音频系统。在一些实施例中,HRTF自定义模块380从数据存储335检索HRTF模型(例如,模板HRTF模型)。HRTF自定义模块380使用个性化滤波器(例如,滤波器参数值的集合)中的一个或多个个性化滤波器来更新针对用户的HRTF模型。HRTF自定义模块380将个性化滤波器(例如,滤波器参数值的一个或多个个性化集合)应用于HRTF模型以生成经更新的HRTF模型。在一些实施例中,HRTF自定义模块380将经更新的HRTF模型提供给服务器。
声音滤波器模块390被配置为确定用于换能器阵列310的声音滤波器。声音滤波器模块390使用由HRTF自定义模块380确定的经更新的HRTF模型生成声音滤波器。声音滤波器使音频内容被空间化,使得音频内容似乎源自一个或多个目标声源方向。在一些实施例中,声音滤波器模块390可以结合声学参数使用经更新的HRTF模型来生成声音滤波器。声学参数描述局部区域的声学性质。声学参数可以包括例如混响时间、混响水平、房间脉冲响应等。在一些实施例中,声音滤波器模块390计算声学参数中的一个或多个声学参数。在一些实施例中,声音滤波器模块390从服务器请求声学参数(例如,如下面参考图6所描述的)。
声音滤波器模块390向换能器阵列310提供声音滤波器。在一些实施例中,声音滤波器可以使声音的正或负放大作为频率的函数。在一些实施例中,声音滤波器可以使音频内容变成空间化的音频内容。
HRTF模型和经更新的HRTF模型
图4A图示了根据一个或多个实施例的针对用户处于第一头部-躯干取向的HRTF模型400的示例描绘。HRTF模型400描绘了沿y轴的以分贝(dB)为单位的能量和沿x轴的以千赫(kHz)为单位的频率。注意,为了简单起见,HRTF模型400针对来自用户的单个方位角和单个仰角而示出。实际上,HRTF模型400更复杂,因为能量是频率、方位角和仰角的函数。HRTF模型400包括与用户姿势的静态分量和动态分量相关联的静态分量和动态分量。如上面参考图3所描述的,姿势的静态分量和动态分量有助于确定被应用于HRTF模型的一个或多个滤波器(即,一个或多个滤波器参数值)。在具有陷波(例如,陷波410,陷波420和陷波430)的HRTF模型400上图示了静态分量和动态分量。陷波由被应用于HRTF模型的一个或多个滤波器确定。陷波描述了频率衰减特性。频率衰减特性包括频率位置、以频率位置为中心的频带的宽度、以及频率位置处的深度。例如,陷波420和陷波430涉及静态分量(例如,陷波420涉及用户的耳朵形状,而陷波430涉及用户的头部尺寸)。针对陷波420和陷波430的频率衰减特性分别基本上不基于用户运动的任何改变而改变。在某些情况下,由于交叉耦合项,针对陷波420和陷波430的频率衰减特性可能有微小的改变。在该相同示例中,陷波410主要基于用户姿势的动态分量(例如,用户的头部-躯干取向)。针对陷波410的频率衰减特性可以基于用户运动的任何改变而改变。
图4B图示了根据图4A中针对用户的HRTF模型400的针对用户处于第二头部-躯干取向的HRTF模型405的示例描绘。HRTF模型405是HRTF模型400由于用户将其头部-躯干取向从第一定位改变到第二定位(即,用户姿势的动态分量已经改变)而已经针对用户动态地更新的版本。如以上参考图3所讨论的,基于所确定的用户姿势(即,基于姿势的静态分量和动态分量),将一个或多个滤波器应用于HRTF模型400。随着用户姿势的动态分量改变,HRTF模型被更新(例如,HRTF模型从HRTF模型400变为HRTF模型405)。如可以在HRTF模型405中看到的,陷波415已被更新(即,HRTF模型400的陷波410被更新以变成经更新的HRTF模型405的陷波415)。在该示例中,用户可以通过改变他们的躯干取向并保持他们的头部取向不变来改变他们的头部-躯干取向。陷波415在陷波410的相同频率位置处变得更深(即,能量改变更大)。在该示例中,在中频和高频位置中(例如,在2kHz和更大处)发现的陷波(即,陷波420和陷波430)可能经历比在低频位置(例如,低于2kHz)中发现的陷波更小的改变。
在另一示例中,用户可以通过改变其头部取向并保持其躯干取向不变来改变其头部-躯干取向。在该示例(未示出)中,在低频位置(例如,低于2kHz)中发现的陷波可以比在中频和高频位置中(例如,在2kHz和更大处)发现的陷波经历更少的改变。在另一示例中,用户可以通过改变其头部取向和躯干取向来改变其头部-躯干取向。在该示例中,各种频率位置中的陷波可以经历改变。
用于对HRTF模型进行动态自定义的过程
图5是图示了根据一个或多个实施例的用于对HRTF模型500进行动态自定义的过程的流程图。图5中所示的过程可以由音频系统(例如,音频系统300)的组件执行。在其它实施例中,其它实体(例如,服务器240)可以执行图5中的步骤中的一些或全部。实施例可以包括不同的和/或附加的步骤,或者以不同的顺序执行这些步骤。
音频系统接收510由一个或多个成像设备捕获的用户的一个或多个图像。例如,音频系统可以接收用户的躯干和头部的一个或多个图像和/或视频。在一个实施例中,一个或多个图像和/或视频可以由被集成到包括音频系统的设备(例如头戴式设备)中的成像设备捕获。在一些实施例中,一个或多个图像和/或视频可以由与音频系统分离的成像设备(例如,移动设备,分离的头戴式设备)根据一个或多个隐私设置来捕获。
音频系统使用所捕获的一个或多个图像来确定520用户的姿势。用户的姿势包括静态分量和动态分量。例如,静态分量可以是用户的头部形状,而动态分量可以是用户的头部-躯干取向。用户姿势的动态分量可以随时间改变。图像和/或视频处理可以用于确定用户姿势的静态分量和动态分量的任何改变。
音频系统基于所确定的姿势(即,基于姿势的静态分量和动态分量)来更新530针对用户的HRTF模型。通过对HRTF模型施加一个或多个个性化滤波器来更新HRTF模型。滤波器可以是例如带通、带阻、高通、低通、梳状滤波器或它们的某种组合。滤波器可以包括例如对用户个性化(即,对用户的特定姿势个性化)的一个或多个滤波器参数值。在一个实施例中,可以在用户的姿势上使用经训练的机器学习(ML)模型来确定针对用户自定义的一个或多个个性化滤波器的个性化滤波器参数值。
音频系统使用经更新的HRTF模型来生成540一个或多个声音滤波器。声音滤波器使音频内容被空间化,使得音频内容似乎源自一个或多个目标声源方向。
音频系统将一个或多个声音滤波器应用550于音频内容以生成空间化的音频内容。
音频系统向用户提供560空间化的音频内容。空间化的音频内容可以经由换能器阵列(例如,换能器阵列310)被提供给用户。
人工现实系统环境
图6是根据一个或多个实施例的包括头戴式设备605的系统600。在一些实施例中,头戴式设备605可以是图1A的头戴式设备100或图1B的头戴式设备105。系统600可以在人工现实环境(例如,虚拟现实环境,增强现实环境,混合现实环境或它们的某种组合)中操作。图6所示的系统600包括头戴式设备605、被耦合到控制台615的输入/输出(I/O)接口610、网络230和服务器240。虽然图6示出了包括一个头戴式设备605和一个I/O接口610的示例系统600,但是在其它实施例中,系统600中可以包括任意数目的这些组件。例如,可以有多个头戴式设备,每个头戴式设备具有相关联的I/O接口610,每个头戴式设备和I/O接口610与控制台615通信。在备选配置中,系统600中可以包括不同和/或附加的组件。另外,在一些实施例中,结合图6所示的组件中的一个或多个组件而描述的功能性可以以与结合图6所描述的方式不同的方式分布在组件之间。例如,控制台615的功能性中的一些或全部可以由头戴式设备605提供。
头戴式设备605包括显示组装件630、光学块635、一个或多个定位传感器640、DCA645和音频系统650。头戴式设备605的一些实施例具有与结合图6所描述的组件不同的组件。另外,在其它实施例中,由结合图6描述的各种组件所提供的功能性可以不同地分布在头戴式设备605的组件之间,或者被捕获在远离头戴式设备605的单独组装件中。
显示组装件630根据从控制台615接收的数据向用户显示内容。显示组装件630使用一个或多个显示元件(例如,显示元件120)来显示内容。显示元件可以是例如电子显示。在各种实施例中,显示组装件630包括单个显示元件或多个显示元件(例如,用于用户的每只眼睛的显示)。电子显示的示例包括:液晶显示(LCD),有机发光二极管(OLED)显示,有源矩阵有机发光二极管显示(AMOLED),波导显示,一些其它显示或它们的某种组合。注意,在一些实施例中,显示元件120还可以包括光学块635的功能性中的一些或全部。
光学块635可以对从电子显示接收的图像光进行放大,校正与图像光相关联的光学误差,并且将经校正的图像光呈现给头戴式设备605的一个或两个眼盒。在各种实施例中,光学块635包括一个或多个光学元件。被包括在光学块635中的示例光学元件包括:孔径,菲涅耳透镜,凸透镜,凹透镜,滤光器,反射表面或影响图像光的任何其它合适的光学元件。此外,光学块635可以包括不同光学元件的组合。在一些实施例中,光学块635中的光学元件中的一个或多个光学元件可以具有一个或多个涂层,诸如部分反射或抗反射涂层。
光学块635对图像光的放大和聚焦允许电子显示在物理上比更大的显示更小、更轻并且消耗更少的功率。另外,放大可以增加由电子显示呈现的内容的视场。例如,所显示的内容的视场使得所显示的内容使用用户的视场的几乎全部(例如,大约110度对角线)来呈现,并且在一些情况下,使用用户的视场的全部来呈现。另外,在一些实施例中,可以通过添加或移除光学元件来调整放大的量。
在一些实施例中,光学块635可以被设计为校正一种或多种类型的光学误差。光学误差的示例包括桶形或枕形失真、纵向色差或横向色差。其它类型的光学误差还可以包括球面像差、色差,或由透镜场曲引起的误差、像散、或任何其它类型的光学误差。在一些实施例中,被提供给电子显示用于显示的内容被预失真,并且当光学块635从电子显示接收基于内容而生成的图像光时,光学块635校正失真。
定位传感器640是生成指示头戴式设备605的定位的数据的电子设备。定位传感器640响应于头戴式设备605的运动生成一个或多个测量信号。定位传感器190是定位传感器640的实施例。定位传感器640的示例包括:一个或多个IMU,一个或多个加速度计,一个或多个陀螺仪,一个或多个磁力计,检测运动的另一合适类型的传感器,或它们的某种组合。定位传感器640可以包括用于测量平移运动(向前/向后,向上/向下,向左/向右)的多个加速度计和用于测量旋转运动(例如,俯仰,偏航,滚动)的多个陀螺仪。在一些实施例中,IMU快速对测量信号进行采样,并且根据采样数据计算头戴式设备605的估计定位。例如,IMU在时间上对从加速度计接收的测量信号进行积分以估计速度矢量,并且在时间上对速度矢量进行积分以确定在头戴式头戴式设备605上的参考点的估计定位。参考点是可以用于描述头戴式设备605的定位的点。虽然参考点通常可以被定义为空间中的点,但是实际上参考点被定义为头戴式设备605内的点。当用户佩戴头戴式设备605时,头戴式设备605的估计定位可以包括用户的头部取向。
DCA 645针对局部区域的一部分生成深度信息。DCA包括一个或多个成像设备和DCA控制器。DCA 645还可以包括照明器。上面参考图1A描述了DCA 645的操作和结构。
音频系统650使用经动态更新的HRTF模型向头戴式设备605的用户提供空间化的音频内容。音频系统650基本上与上面参考图3所描述的音频系统300相同。音频系统650可以包括一个或多个声学传感器、一个或多个换能器、以及音频控制器。在一些实施例中,音频系统650可以从服务器240接收自定义HRTF模型。在一些实施例中,音频系统650可以从服务器240接收模板HRTF模型。音频系统650接收由一个或多个成像设备(例如,DCA645)捕获的用户的一个或多个图像。音频系统650使用所捕获的图像来确定用户的姿势。音频系统可以基于所确定的姿势来更新HRTF模型(即,模板HRTF模型和/或自定义HRTF模型)。音频系统650使用经更新的HRTF模型来生成一个或多个声音滤波器,并且将声音滤波器应用于音频内容以生成空间化的音频内容。当被呈现给用户时,空间化的音频内容向用户呈现为源自目标声源方向和/或目标位置。在一些实施例中,音频系统可以根据隐私设置经由网络230向服务器240提供经更新的HRTF模型。
I/O接口610是允许用户发送动作请求并从控制台615接收响应的设备。动作请求是执行特定动作的请求。例如,动作请求可以是开始或结束图像或视频数据的捕获的指令,或执行应用内的特定动作的指令。I/O接口610可以包括一个或多个输入设备。示例输入设备包括:键盘,鼠标,游戏控制器或用于接收动作请求并将动作请求传送到控制台615的任何其它合适的设备。由I/O接口610接收的动作请求被传送到控制台615,控制台615执行与动作请求相对应的动作。在一些实施例中,I/O接口610包括IMU,该IMU捕获指示I/O接口610相对于I/O接口610的初始定位的估计定位的校准数据。在一些实施例中,I/O接口610可以根据从控制台615接收的指令向用户提供触觉反馈。例如,当接收到动作请求时提供触觉反馈,或者当控制台615执行动作时控制台615将指令传送到I/O接口610以使I/O接口610生成触觉反馈。
控制台615向头戴式设备605提供内容,用于根据从以下各项中的一项或多项接收的信息进行处理:DCA 645,头戴式设备605以及I/O接口610。在图6所示的示例中,控制台615包括应用存储655、跟踪模块660以及引擎665。控制台615的一些实施例具有与结合图6所描述的模块或组件不同的模块或组件。类似地,下面进一步描述的功能可以以与结合图6描述的方式不同的方式分布在控制台615的组件之间。在一些实施例中,本文中关于控制台615所讨论的功能性可以在头戴式设备605或远程系统中实现。
应用存储655存储由控制台615执行的一个或多个应用。应用是一组指令,其在由处理器执行时生成用于呈现给用户的内容。由应用生成的内容可以响应于经由头戴式设备605或I/O接口610的移动从用户接收的输入。应用的示例包括:游戏应用,会议应用,视频回放应用或其他合适的应用。
跟踪模块660使用来自DCA 645、一个或多个定位传感器640或它们的某种组合的信息来跟踪头戴式设备605或I/O接口610的移动。例如,跟踪模块660基于来自头戴式设备605的信息来确定头戴式设备605的参考点在局部区域的映射中的定位。跟踪模块660还可以确定对象或虚拟对象的定位。另外,在一些实施例中,跟踪模块660可以使用来自定位传感器640的指示头戴式设备605的定位的数据的部分以及来自DCA645的局部区域的表示来预测头戴式设备605的未来位置。跟踪模块660将头戴式设备605或I/O接口610的经估计或预测的未来定位提供给引擎665。
引擎665执行应用,并且从跟踪模块660接收头戴式设备605的定位信息、加速度信息、速度信息、经预测的未来定位或它们的某种组合。基于所接收的信息,引擎665确定要提供给头戴式设备605以呈现给用户的内容。例如,如果接收到的信息指示用户已经向左看,则引擎665生成用于头戴式设备605的内容,该内容反映用户在虚拟局部区域中或在利用附加内容扩充局部区域的局部区域中的移动。另外,引擎665响应于从I/O接口610接收的动作请求在控制台615上执行的应用内执行动作,并且向用户提供执行该动作的反馈。所提供的反馈可以是经由头戴式设备605的视觉或听觉反馈或者经由I/O接口610的触觉反馈。
网络230将头戴式设备605和/或控制台615耦合到服务器240。上面参考图2描述了网络230的操作和结构。
服务器240可以包括存储数据的数据库,该数据可以包括例如一个或多个模板HRTF模型、一个或多个自定义HRTF模型、个性化滤波器(例如,滤波器参数值的个性化集合)、用户简档、特征数据、与服务器系统240使用相关的其它数据、或它们的某种组合。服务器240经由网络230从头戴式设备605接收描述局部区域的至少一部分的信息和/或针对局部区域的位置信息。用户可以调整一个或多个隐私设置以允许或阻止头戴式设备605向服务器240发送信息。服务器240基于所接收的信息和/或位置信息来确定与头戴式设备605的局部区域相关联的虚拟模型中的位置。服务器240部分地基于虚拟模型中的所确定的位置和与所确定的位置相关联的任何声学参数来确定(例如,检索)与局部区域相关联的一个或多个声学参数。服务器240可以将局部区域的位置和与局部区域相关联的声学参数的任何值发送给头戴式设备605。
系统600的一个或多个组件可以包含存储用于用户数据元素的一个或多个隐私设置的隐私模块。用户数据元素描述用户或头戴式设备605。例如,用户数据元素可以描述用户的物理特性、由用户执行的动作、头戴式设备605的用户的位置、头戴式设备605的位置、针对用户的HRTF等。用于用户数据元素的隐私设置(或“访问设置”)可以以任何适当的方式(诸如,例如,与用户数据元素相关联地,在授权服务器上的索引中,以另一适当的方式,或它们的任何适当的组合)被存储。
用于用户数据元素的隐私设置指定如何能够访问,存储或以其他方式使用(例如,查看,共享,修改,复制,执行,表面处理或标识)用户数据元素(或与用户数据元素相关联的特定信息)。在一些实施例中,用于用户数据元素的隐私设置可以指定不可以访问与用户数据元素相关联的某信息的实体的“阻止列表”。与用户数据元素相关联的隐私设置可以指定被允许的访问或拒绝访问的任何合适的粒度。例如,一些实体可以具有看到特定用户数据元素存在的许可,一些实体可以具有查看特定用户数据元素的内容的许可,并且一些实体可以具有修改特定用户数据元素的许可。隐私设置可以允许用户允许其它实体针对有限时间段访问或存储用户数据元素。
隐私设置可以允许用户指定根据其可以访问用户数据元素的一个或多个地理位置。对用户数据元素的访问或拒绝访问可以根据试图访问用户数据元素的实体的地理位置。例如,用户可以允许访问用户数据元素,并且指定只有当用户处于特定位置时实体才能够访问用户数据元素。如果用户离开特定位置,则实体可能不再能够访问用户数据元素。作为另一示例,用户可以指定用户数据元素仅能够由在距用户的阈值距离内的实体(诸如在与用户相同的局部区域内的头戴式设备的另一用户)访问。如果用户随后改变位置,则具有对用户数据元素的访问的实体可能失去访问,而新的实体组可以在它们进入用户的阈值距离内时获得访问。系统600可以包括用于实施隐私设置的一个或多个授权/隐私服务器。如果授权服务器基于与该用户数据元素相关联的隐私设置来确定该实体被授权访问该用户数据元素,则实体的针对特定用户数据元素的请求可以标识与该请求相关联的实体,并且可以仅向该实体发送该用户数据元素。如果请求实体没有被授权访问用户数据元素,则授权服务器可以防止所请求的用户数据元素被检索,或者可以防止所请求的用户数据元素被发送给该实体。尽管本公开描述了以特定方式实施隐私设置,但是本公开预期以任何合适的方式实施隐私设置。
附加配置信息
实施例的前述描述已经被呈现用于说明;其并不旨在穷举或将专利权限制为所公开的精确形式。相关领域的技术人员可以理解,考虑到上述公开内容,许多修改和变化是可能的。
本说明书的某些部分在对信息的操作的算法和符号表示的方面描述实施例。数据处理领域的技术人员通常使用这些算法描述和表示来有效地向本领域的其他技术人员传达其工作的实质。虽然在功能上、计算上或逻辑上描述了这些操作,但是这些操作被理解为由计算机程序或等效电路、微代码等来实现。此外,在不失一般性的情况下,将这些操作布置称为模块有时也被证明是方便的。所描述的操作及其相关联的模块可以以软件、固件、硬件或它们的任何组合来实现。
本文中所描述的任何步骤、操作或过程可以单独地或与其它设备组合地利用一个或多个硬件或软件模块来执行或实现。在一个实施例中,利用计算机程序产品来实现软件模块,该计算机程序产品包括包含计算机程序代码的计算机可读介质,该计算机程序代码可以由计算机处理器执行以用于执行所描述的任何或所有步骤、操作或过程。
实施例在本文中还可以涉及用于执行操作的装置。该装置可以是为所需目的而专门构造的,和/或它可以包括由被存储在计算机中的计算机程序选择性地激活或重新配置的通用计算设备。这样的计算机程序可以被存储在非瞬态的、有形的计算机可读存储介质或适合于存储电子指令的任何类型的介质(可以被耦合到计算机系统总线)中。此外,本说明书中提到的任何计算系统可以包括单个处理器,或者可以是采用多个处理器设计以增加计算能力的体系结构。
实施例还可以涉及由本文中所描述的计算过程产生的产品。这样的产品可以包括由计算过程产生的信息,其中该信息被存储在非瞬态的、有形的计算机可读存储介质上,并且可以包括在本文中所描述的计算机程序产品或其它数据组合的任何实施例。
最后,本说明书中使用的语言主要是出于可读性和指导性的目的而选择的,并且它可能不被选择以标示或限制专利权。因此,意图是专利权的范围不受该具体实施方式的限制,而是受基于本申请的任何权利要求的限制。因此,实施例的公开旨在说明而非限制在所附权利要求中阐述的专利权的范围。

Claims (15)

1.一种方法,包括:
在音频系统处接收由一个或多个成像设备捕获的用户的一个或多个图像;
使用所捕获的所述一个或多个图像来确定所述用户的姿势,所述姿势包括所述用户的头部-躯干取向;
基于所确定的包括所述头部-躯干取向的所述姿势,更新针对所述用户的头部相关传递函数HRTF模型;
使用经更新的所述HRTF模型来生成一个或多个声音滤波器;
将所述一个或多个声音滤波器应用于音频内容以生成空间化的音频内容;以及
向所述用户提供所述空间化的音频内容。
2.根据权利要求1所述的方法,其中至少一个成像设备被集成到包括所述音频系统的设备中;并且优选地,其中所述设备是头戴式设备。
3.根据权利要求1所述的方法,其中至少一个成像设备被集成到与所述音频系统分离的设备中。
4.根据权利要求2或3所述的方法,其中所述一个或多个成像设备捕获所述用户的影像的至少一个图像,所述用户的影像的所述至少一个图像用于确定所述用户的所述姿势。
5.根据前述权利要求中任一项所述的方法,其中确定所述用户的所述姿势还基于使用由惯性测量单元(IMU)确定的一个或多个测量。
6.根据前述权利要求中任一项所述的方法,还包括:
将经更新的所述HRTF模型提供给服务器,所述服务器基于所提供的经更新的所述HRTF模型来更新模板HRTF模型。
7.根据前述权利要求中任一项所述的方法,其中所述HRTF模型包括动态分量,所述方法还包括:
检测在随后捕获的图像中的所述头部-躯干取向的变化;
至少部分地基于检测到的所述头部-躯干取向的变化,更新所述HRTF模型的所述动态分量;和/或优选地
将梳状滤波器应用于所述HRTF模型,其中描述所述梳状滤波器的一个或多个滤波器参数值基于所述用户的所述头部-躯干取向。
8.一种音频系统,包括:
换能器阵列,被配置为向用户呈现空间化的音频内容;
控制器,被配置为:
接收由一个或多个成像设备捕获的所述用户的一个或多个图像;
使用所捕获的所述一个或多个图像来确定所述用户的姿势,所述姿势包括所述用户的头部-躯干取向;
基于所确定的包括所述头部-躯干取向的所述姿势,更新针对所述用户的头部相关传递函数HRTF模型;
使用经更新的所述HRTF模型来生成一个或多个声音滤波器;
将所述一个或多个声音滤波器应用于音频内容以生成空间化的音频内容;以及
经由所述换能器阵列向所述用户提供所述空间化的音频内容。
9.根据权利要求8所述的音频系统,其中至少一个成像设备被集成到包括所述音频系统的设备中;并且优选地,其中所述设备是头戴式设备。
10.根据权利要求8所述的音频系统,其中至少一个成像设备被集成到与所述音频系统分离的设备中。
11.根据权利要求8至10中任一项所述的音频系统,其中所述一个或多个成像设备捕获所述用户的影像的至少一个图像,所述用户的影像的所述至少一个图像用于确定所述用户的所述姿势。
12.根据权利要求8至11中任一项所述的音频系统,其中确定所述用户的所述姿势还基于使用由惯性测量单元(IMU)确定的一个或多个测量。
13.根据权利要求8至12中任一项所述的音频系统,还包括:
将经更新的所述HRTF模型提供给服务器,所述服务器基于所提供的经更新的所述HRTF模型来更新模板HRTF模型。
14.根据权利要求8至13中任一项所述的音频系统,其中所述HRTF模型包括静态分量和动态分量,所述方法还包括:
至少部分地基于所述头部-躯干取向,更新所述动态组件;并且优选地还包括:
更新所述HRTF模型的所述静态分量,所述静态分量包括音频输出相对于音频源空间位置之间的函数,并且其中根据所述用户的耳朵形状、所述用户的头部形状和所述用户的躯干形状来更新所述函数;和/或优选地还包括:
将梳状滤波器应用于所述HRTF模型以更新所述动态分量,其中描述所述梳状滤波器的一个或多个滤波器参数值基于所述用户的所述头部-躯干取向。
15.一种非瞬态计算机可读介质,所述非瞬态计算机可读介质被配置为存储程序代码指令,当由处理器执行所述程序代码指令时,使所述处理器执行包括以下的步骤:
在音频系统处接收由一个或多个成像设备捕获的所述用户的一个或多个图像;
使用所捕获的所述一个或多个图像来确定所述用户的姿势,所述姿势包括所述用户的头部-躯干取向;
基于所确定的包括所述头部-躯干取向的所述姿势,更新针对所述用户的头部相关传递函数HRTF模型;
使用经更新的所述HRTF模型来生成一个或多个声音滤波器;
将所述一个或多个声音滤波器应用于音频内容以生成空间化的音频内容;以及
向所述用户提供所述空间化的音频内容。
CN202080057687.6A 2019-09-28 2020-09-22 用于呈现音频内容的头部相关传递函数的动态自定义 Pending CN114223215A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962907603P 2019-09-28 2019-09-28
US62/907,603 2019-09-28
US16/774,856 2020-01-28
US16/774,856 US11228857B2 (en) 2019-09-28 2020-01-28 Dynamic customization of head related transfer functions for presentation of audio content
PCT/US2020/052062 WO2021061678A1 (en) 2019-09-28 2020-09-22 Dynamic customization of head related transfer functions for presentation of audio content

Publications (1)

Publication Number Publication Date
CN114223215A true CN114223215A (zh) 2022-03-22

Family

ID=75162379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080057687.6A Pending CN114223215A (zh) 2019-09-28 2020-09-22 用于呈现音频内容的头部相关传递函数的动态自定义

Country Status (6)

Country Link
US (2) US11228857B2 (zh)
EP (1) EP4035427A1 (zh)
JP (1) JP2022549985A (zh)
KR (1) KR20220069044A (zh)
CN (1) CN114223215A (zh)
WO (1) WO2021061678A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11910183B2 (en) * 2020-02-14 2024-02-20 Magic Leap, Inc. Multi-application audio rendering
JP7472582B2 (ja) * 2020-03-25 2024-04-23 ヤマハ株式会社 音声再生システムおよび頭部伝達関数選択方法
WO2023080698A1 (ko) * 2021-11-05 2023-05-11 주식회사 디지소닉 향상된 brir에 기초한 입체 음향 생성 방법 및 이를 이용한 어플리케이션
GB2620138A (en) * 2022-06-28 2024-01-03 Sony Interactive Entertainment Europe Ltd Method for generating a head-related transfer function
WO2024040527A1 (en) * 2022-08-25 2024-02-29 Qualcomm Incorporated Spatial audio using a single audio device

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2542609A (en) * 2015-09-25 2017-03-29 Nokia Technologies Oy Differential headtracking apparatus
WO2017198156A1 (zh) * 2016-05-18 2017-11-23 中兴通讯股份有限公司 业务部署方法、装置和系统
US9848273B1 (en) * 2016-10-21 2017-12-19 Starkey Laboratories, Inc. Head related transfer function individualization for hearing device
CN109791441A (zh) * 2016-08-01 2019-05-21 奇跃公司 具有空间化音频的混合现实系统
CN109997376A (zh) * 2016-11-04 2019-07-09 迪拉克研究公司 使用头部跟踪数据构建音频滤波器数据库
GB201907389D0 (en) * 2019-05-24 2019-07-10 Sony Interactive Entertainment Inc Method and system for generating an HRTF for a user

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013086137A1 (en) * 2011-12-06 2013-06-13 1-800 Contacts, Inc. Systems and methods for obtaining a pupillary distance measurement using a mobile computing device
WO2016089133A1 (ko) * 2014-12-04 2016-06-09 가우디오디오랩 주식회사 개인 특징을 반영한 바이노럴 오디오 신호 처리 방법 및 장치
WO2017197156A1 (en) * 2016-05-11 2017-11-16 Ossic Corporation Systems and methods of calibrating earphones
US10929099B2 (en) * 2018-11-02 2021-02-23 Bose Corporation Spatialized virtual personal assistant
US11375333B1 (en) * 2019-09-20 2022-06-28 Apple Inc. Spatial audio reproduction based on head-to-torso orientation

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2542609A (en) * 2015-09-25 2017-03-29 Nokia Technologies Oy Differential headtracking apparatus
WO2017198156A1 (zh) * 2016-05-18 2017-11-23 中兴通讯股份有限公司 业务部署方法、装置和系统
CN109791441A (zh) * 2016-08-01 2019-05-21 奇跃公司 具有空间化音频的混合现实系统
US9848273B1 (en) * 2016-10-21 2017-12-19 Starkey Laboratories, Inc. Head related transfer function individualization for hearing device
CN109997376A (zh) * 2016-11-04 2019-07-09 迪拉克研究公司 使用头部跟踪数据构建音频滤波器数据库
CN110192396A (zh) * 2016-11-04 2019-08-30 迪拉克研究公司 用于基于头部跟踪数据确定和/或使用音频滤波器的方法和系统
GB201907389D0 (en) * 2019-05-24 2019-07-10 Sony Interactive Entertainment Inc Method and system for generating an HRTF for a user

Also Published As

Publication number Publication date
KR20220069044A (ko) 2022-05-26
US20210099826A1 (en) 2021-04-01
US20220086591A1 (en) 2022-03-17
WO2021061678A1 (en) 2021-04-01
JP2022549985A (ja) 2022-11-30
US11622223B2 (en) 2023-04-04
US11228857B2 (en) 2022-01-18
EP4035427A1 (en) 2022-08-03

Similar Documents

Publication Publication Date Title
US11622223B2 (en) Dynamic customization of head related transfer functions for presentation of audio content
US10880667B1 (en) Personalized equalization of audio output using 3D reconstruction of an ear of a user
CN113767648A (zh) 用于音频内容呈现的头部相关传递函数模板的个性化
US11638110B1 (en) Determination of composite acoustic parameter value for presentation of audio content
JP2022546161A (ja) 個別化された空間オーディオを作り出すためにビームフォーミングを介して耳殻情報を推論すること
US11012804B1 (en) Controlling spatial signal enhancement filter length based on direct-to-reverberant ratio estimation
US11445318B2 (en) Head-related transfer function determination using cartilage conduction
US20230093585A1 (en) Audio system for spatializing virtual sound sources
US11171621B2 (en) Personalized equalization of audio output based on ambient noise detection
US20220030369A1 (en) Virtual microphone calibration based on displacement of the outer ear
WO2022039909A1 (en) Audio source localization
US20220322028A1 (en) Head-related transfer function determination using reflected ultrasonic signal
US12003949B2 (en) Modifying audio data transmitted to a receiving device to account for acoustic parameters of a user of the receiving device
US11715479B1 (en) Signal enhancement and noise reduction with binaural cue preservation control based on interaural coherence
US11678103B2 (en) Audio system with tissue transducer driven by air conduction transducer
US11595775B2 (en) Discrete binaural spatialization of sound sources on two audio channels
US10823960B1 (en) Personalized equalization of audio output using machine learning
US10976543B1 (en) Personalized equalization of audio output using visual markers for scale and orientation disambiguation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: California, USA

Applicant after: Yuan Platform Technology Co.,Ltd.

Address before: California, USA

Applicant before: Facebook Technologies, LLC