CN116320907A - 近场音频渲染 - Google Patents
近场音频渲染 Download PDFInfo
- Publication number
- CN116320907A CN116320907A CN202310249063.XA CN202310249063A CN116320907A CN 116320907 A CN116320907 A CN 116320907A CN 202310249063 A CN202310249063 A CN 202310249063A CN 116320907 A CN116320907 A CN 116320907A
- Authority
- CN
- China
- Prior art keywords
- determining
- audio signal
- user
- virtual speaker
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000009877 rendering Methods 0.000 title abstract description 17
- 230000005236 sound signal Effects 0.000 claims abstract description 60
- 238000000034 method Methods 0.000 claims abstract description 40
- 230000005855 radiation Effects 0.000 claims abstract description 30
- 210000005069 ears Anatomy 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims abstract description 19
- 238000012546 transfer Methods 0.000 claims abstract description 8
- 230000009466 transformation Effects 0.000 claims description 9
- 210000003128 head Anatomy 0.000 description 127
- 238000004091 panning Methods 0.000 description 18
- 230000004044 response Effects 0.000 description 17
- 230000003190 augmentative effect Effects 0.000 description 13
- 230000008859 change Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 10
- 230000003287 optical effect Effects 0.000 description 8
- 230000000007 visual effect Effects 0.000 description 8
- 230000005669 field effect Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000013459 approach Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000005452 bending Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 210000001747 pupil Anatomy 0.000 description 2
- 230000000191 radiation effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000002730 additional effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000004424 eye movement Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
- H04S7/304—For headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/033—Headphones for stereophonic communication
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/15—Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
Abstract
一种近场音频渲染。根据示例方法,识别与音频信号对应的源位置。确定与音频信号对应的声轴。对于用户的相应左耳和右耳中的每一个,确定声轴与相应耳朵之间的角度、确定与源位置和相应耳朵的位置共线的虚拟扬声器位置,其中虚拟扬声器位置位于与用户的头部同心的球体的表面上,该球体具有第一半径。确定与虚拟扬声器位置对应并与相应耳朵对应的头相关传递函数(HRTF);基于所确定的角度来确定源辐射滤波器;处理音频信号以针对相应耳朵生成输出音频信号;以及经由与可穿戴头部装置相关联的一个或多个扬声器向用户的相应耳朵呈现输出音频信号。
Description
本申请是申请日为2019年10月4日、PCT国际申请号为PCT/US2019/054893、中国国家阶段申请号为201980080065.2、发明名称为“近场音频渲染”的申请的分案申请。
相关申请的引用
本申请要求于2018年10月5日提交的美国临时申请No.62/741,677和2019年3月1日提交的美国临时申请No.62/812,734的优先权益,其内容通过引用整体合并于此。
技术领域
本公开基本上涉及用于音频信号处理的系统和方法,具体地,涉及用于在混合现实环境中呈现音频信号的系统和方法。
背景技术
增强现实和混合现实系统将对双耳音频信号的呈现的独特需求置于用户。一方面,以逼真的方式呈现音频信号——例如,以与用户的期望一致的方式——对于创建沉浸式的和可信的增强或混合现实环境是至关重要的。另一方面,处理这种音频信号的计算费用可能是昂贵的,特别是对于可能具有有限的处理能力和电池容量的移动系统。
一个特定挑战是近场音频效应的模拟。近场效应对于重新创建非常接近用户的头部的声源的印象是重要的。近场效应可以使用头相关传递函数(HRTF)的数据库来计算。然而,典型的HRTF数据库包括在距用户的头部的远场(例如,距用户的头部多于1米)中的单个距离处测量的HRTF,并且可能缺少在适合于近场效应的距离处的HRTF。即使HRTF数据库包括针对距用户的头部的不同距离(例如,距用户的头部小于1米)的测量的或模拟的HRTF,但是直接使用大量HRTF用于实时音频渲染应用可能是计算上昂贵的。因此,期望以计算上高效的方式使用远场HRTF对近场音频效应建模的系统和方法。
发明内容
本公开的示例描述了用于向可穿戴头部装置的用户呈现音频信号的系统和方法。根据示例方法,识别与音频信号对应的源位置。确定与音频信号对应的声轴。对于用户的相应左耳和右耳中的每一个,确定声轴与相应耳朵之间的角度。对于用户的相应左耳和右耳中的每一个,确定虚拟扬声器阵列中的虚拟扬声器位置,该虚拟扬声器位置与源位置和相应耳朵的位置共线。虚拟扬声器阵列包括多个虚拟扬声器位置,多个中的每个虚拟扬声器位置位于与用户的头部同心的球体的表面上,该球体具有第一半径。对于用户的相应左耳和右耳中的每一个,确定与虚拟扬声器位置对应并与相应耳朵对应的头相关传递函数(HRTF);基于所确定的角度来确定源辐射滤波器;处理音频信号以针对相应耳朵生成输出音频信号;以及经由与可穿戴头部装置相关联的一个或多个扬声器向用户的相应耳朵呈现输出音频信号。处理音频信号包括将HRTF和源辐射滤波器应用于音频信号。
附图说明
图1示出了根据本公开的一些实施例的示例可穿戴系统。
图2示出了根据本公开的一些实施例的可以与示例可穿戴系统结合使用的示例手持式控制器。
图3示出了根据本公开的一些实施例的可以与示例可穿戴系统结合使用的示例辅助单元。
图4示出了根据本公开的一些实施例的用于示例可穿戴系统的示例功能框图。
图5示出了根据本公开的一些实施例的双耳渲染系统。
图6A-6C示出了根据本公开的一些实施例的对来自虚拟声源的音频效应建模的示例几何形状。
图7示出了根据本公开的一些实施例的计算由点声源发出的声音所行进的距离的示例。
图8A-8C示出了根据本公开的一些实施例的相对于收听者的耳朵的声源的示例。
图9A-9B示出了根据本公开的一些实施例的示例头相关传递函数(HRTF)幅度响应。
图10示出了根据本公开的一些实施例的用户相对于声源的声轴的源辐射角度。
图11示出了根据本公开的一些实施例的在用户的头部内部摇移(pan)的声源的示例。
图12示出了根据本公开的一些实施例的可以被实现以渲染远场中的声源的示例信号流。
图13示出了根据本公开的一些实施例的可以被实现以渲染近场中的声源的示例信号流。
图14示出了根据本公开的一些实施例的可以被实现以渲染近场中的声源的示例信号流。
图15A-15D示出了根据本公开的一些实施例的与用户对应的头部坐标系和与装置对应的装置坐标系的示例。
具体实施方式
在下面的示例描述中,参考形成其一部分的附图,并且在附图中通过图示的方式示出了可以实践的具体示例。应当理解,在不脱离所公开示例的范围的情况下,可以使用其他示例,并且可以进行结构上的改变。
示例可穿戴系统
图1示出了示例可穿戴式头部装置100,其被配置为佩戴在用户的头部上。可穿戴式头部装置100可以是更广泛的可穿戴系统的一部分,该系统包括一个或多个组件,例如头部装置(例如,可穿戴式头部装置100)、手持式控制器(例如,下面描述的手持式控制器200)和/或辅助单元(例如,下面描述的辅助单元300)。在一些示例中,可穿戴式头部装置100可以用于虚拟现实、增强现实或混合现实系统或应用。可穿戴式头部装置100可以包括一个或多个显示器,例如显示器110A和110B(其可以包括左和右透射显示器以及用于将光从显示器耦合到用户的眼睛的相关联的组件,例如正交光瞳扩展(OPE)光栅组112A/112B和出射光瞳扩展(EPE)光栅组114A/114B);左和右声学结构,例如扬声器120A和120B(其可以被安装在镜腿122A和122B上,并分别位于用户的左耳和右耳附近);一个或多个传感器,例如红外传感器、加速度计、GPS单元,惯性测量单元(IMU,例如,IMU 126)、声学传感器(例如,麦克风150);正交线圈电磁接收器(例如,被示出为安装到左镜腿122A的接收器127);背离用户定向的左和右相机(例如,深度(飞行时间)相机130A和130B);以及朝向用户定向的左眼和右眼相机(例如,用于检测用户的眼睛运动)(例如,眼睛相机128A和128B)。然而,在不脱离本公开的范围的情况下,可穿戴式头部装置100可以并入任何合适的显示技术以及传感器或其他组件的任何合适的数量、类型或组合。在一些示例中,可穿戴式头部装置100可以并入一个或多个麦克风150,该麦克风150被配置为检测由用户的语音产生的音频信号;这样的麦克风可以放置为与用户的嘴相邻。在一些示例中,可穿戴式头部装置100可以并入联网特征(例如,Wi-Fi功能)以与包括其他可穿戴系统的其他装置和系统通信。可穿戴式头部装置100还可以包括诸如电池、处理器、存储器、存储单元或各种输入装置(例如,按钮、触摸板)的组件;或者可以被耦接到包括一个或多个这样的组件的手持式控制器(例如,手持式控制器200)或辅助单元(例如,辅助单元300)。在一些示例中,传感器可以被配置为输出头戴式单元的相对于用户环境的一组坐标,并且可以向执行同步定位和映射(SLAM)过程和/或视觉里程计算法的处理器提供输入。在一些示例中,可穿戴式头部装置100可以耦接到手持式控制器200和/或辅助单元300,如下文进一步描述的。
图2示出了示例可穿戴系统的示例移动手持式控制器组件200。在一些示例中,手持式控制器200可以与可穿戴式头部装置100和/或以下描述的辅助单元300有线或无线通信。在一些示例中,手持式控制器200包括要由用户握持的手柄部分220以及沿顶表面210设置的一个或多个按钮240。在一些示例中,手持式控制器200可以被配置为用作光学跟踪目标;例如,可穿戴式头部装置100的传感器(例如,相机或其他光学传感器)可以被配置为检测手持式控制器200的位置和/或取向—通过扩展,这可以指示握住手持式控制器200的用户的手的位置和/或取向。在一些示例中,手持式控制器200可以包括处理器、存储器、存储单元、显示器或者一个或多个输入装置,例如上面描述的。在一些示例中,手持式控制器200包括一个或多个传感器(例如,上面关于可穿戴式头部装置100描述的任何传感器或跟踪组件)。在一些示例中,传感器可以检测手持式控制器200相对于可穿戴式头部装置100或相对于可穿戴系统的另一组件的位置或取向。在一些示例中,传感器可以定位在手持式控制器200的手柄部分220中和/或可以被机械地耦接到手持式控制器。手持式控制器200可以被配置为提供一个或多个输出信号,例如,与按钮240的按下状态对应的信号;或者手持式控制器200的位置、取向和/或运动(例如,通过IMU)。这样的输出信号可以用作可穿戴式头部装置100的处理器、辅助单元300或可穿戴系统的另一组件的输入。在一些示例中,手持式控制器200可以包括一个或多个麦克风,以检测声音(例如,用户的语音、环境声音)以及在一些情况下以将与检测到的声音对应的信号提供给处理器(例如,可穿戴式头部装置100的处理器)。
图3示出了示例可穿戴系统的示例辅助单元300。在一些示例中,辅助单元300可以与可穿戴式头部装置100和/或手持式控制器200有线或无线通信。辅助单元300可以包括电池,以提供能量来操作可穿戴系统的一个或多个组件,例如可穿戴式头部装置100和/或手持式控制器200(包括显示器、传感器、声学结构、处理器、麦克风和/或可穿戴式头部装置100或手持式控制器200的其他组件)。在一些示例中,辅助单元300可以包括处理器、存储器、存储单元、显示器、一个或多个输入装置和/或一个或多个传感器,诸如上面描述的。在一些示例中,辅助单元300包括用于将辅助单元附接至用户(例如,用户佩戴的皮带)的夹子310。使用辅助单元300来容纳可穿戴系统的一个或多个组件的优势是,这样做可以允许大或重的组件被携带在用户的腰部、胸部或背部上—它们相对非常适合于支撑大和重的对象—而不是安装到用户的头部(例如,如果被容纳在可穿戴式头部装置100中)或由用户的手部携带(例如,如果被容纳在手持式控制器200中)。对于相对重或体积大的组件,例如电池,这可能是特别有利的。
图4示出了可以与示例可穿戴系统400对应的示例功能框图,该示例可穿戴系统诸如可以包括上面描述的示例可穿戴式头部装置100、手持式控制器200和辅助单元300。在一些示例中,可穿戴系统400可以用于虚拟现实、增强现实或混合现实应用。如图4所示,可穿戴系统400可以包括示例手持式控制器400B,在此称为“图腾(totem)”(并且其可以对应于上述手持式控制器200);手持式控制器400B可包括图腾至头部设备(headgear)六自由度(6DOF)图腾子系统404A。可穿戴系统400还可以包括示例头部设备装置400A(其可以对应于上述可穿戴式头部装置100);头部设备装置400A包括图腾至头部设备6DOF头部设备子系统404B。在该示例中,6DOF图腾子系统404A和6DOF头部设备子系统404B协作以确定手持式控制器400B相对于头部设备装置400A的六个坐标(例如,三个平移方向的偏移和沿三个轴的旋转)。六自由度可以相对于头部设备装置400A的坐标系来表示。三个平移偏移可以被表示为这种坐标系中的X、Y和Z偏移、可以被表示为平移矩阵或可以被表示为某种其他表示。旋转自由度可以表示为偏航、俯仰和滚动旋转的顺序;表示为矢量;表示为旋转矩阵;表示为四元数;或表示为某种其他表示。在一些示例中,被包括在头部设备装置400A中的一个或多个深度相机444(和/或一个或多个非深度相机)和/或一个或多个光学目标(例如,如上所述的手持式控制器200的按钮240或被包括在手持式控制器中的专用光学目标)可用于6DOF跟踪。在一些示例中,如上所述,手持式控制器400B可以包括照相机;以及头部设备装置400A可包括与相机结合的用于光学跟踪的光学目标。在一些示例中,头部设备装置400A和手持式控制器400B每一者都包括一组三个正交定向的螺线管,其用于无线地发送和接收三个可区分信号。通过测量在用于接收的每个线圈中接收到的三个可区分信号的相对幅度,可以确定手持式控制器400B相对于头部设备装置400A的6DOF。在一些示例中,6DOF图腾子系统404A可以包括惯性测量单元(IMU),该惯性测量单元可用于提供有关手持式控制器400B的快速运动的改善的准确度和/或更及时的信息。
在一些涉及增强现实或混合现实应用的示例中,可能期望将坐标从局部坐标空间(例如,相对于头部设备装置400A固定的坐标空间)变换为惯性坐标空间或环境坐标系协调空间。例如,这样的变换对于头部设备装置400A的显示器可能是必要的,以在相对于真实环境的预期位置和取向处而不是在显示器上的固定位置和取向处(例如,在头部设备装置400A的显示器中的相同位置)呈现虚拟对象(例如,坐在真实椅子上、面向前方的虚拟人,不考虑头部设备装置400A的位置和取向)。这可以维持虚拟对象存在于真实环境中的假象(并且例如不会随着头部设备装置400A的移动和旋转而在真实环境中出现定位不自然)。在一些示例中,可以通过处理来自深度相机444的图像(例如,使用同时定位和映射(SLAM)和/或视觉里程计过程)来确定坐标空间之间的补偿变换,以便确定头部设备装置400A相对于惯性或环境坐标系的变换。在图4所示的示例中,深度相机444可以被耦接到SLAM/视觉里程计框406,并且可以向框406提供图像。SLAM/视觉里程计框406实现方式可以包括被配置为处理该图像并确定用户的头部的位置和取向的处理器,然后可以用该位置和取向来识别头部坐标空间与实际坐标空间之间的变换。类似地,在一些示例中,关于用户的头部姿势和位置的附加信息源是从头部设备装置400A的IMU 409获得的。来自IMU 409的信息可以与来自SLAM/视觉里程计框406的信息集成,以提供关于用户的头部姿势和位置的快速调整的改善的准确度和/或更及时的信息。
在一些示例中,深度相机444可以将3D图像提供给手部手势跟踪器411,其可以在可穿戴头部装置400A的处理器中实现。手部手势跟踪器411可以例如通过将从深度相机444接收的3D图像与代表手部手势的存储模式进行匹配来识别用户的手部手势。识别用户手部手势的其他合适的技术将显而易见。
在一些示例中,一个或多个处理器416可以被配置为从头部设备子系统404B、IMU409、SLAM/视觉里程计框406、深度相机444、麦克风450和/或手部手势跟踪器411接收数据。处理器416还可以发送和接收来自6DOF图腾系统404A的控制信号。处理器416可以被无线地耦接到6DOF图腾系统404A,例如在手持式控制器400B不被限制的示例中。处理器416可以进一步与诸如音频-视觉内容存储器418、图形处理单元(GPU)420和/或数字信号处理器(DSP)音频空间化器422的附加组件通信。DSP音频空间化器422可以被耦接到头相关传递函数(HRTF)存储器425。GPU420可以包括被耦接到成像式光调制器的左源424的左信道输出和被耦接到成像式光调制器的右源426的右信道输出。GPU 420可以将立体图像数据输出到成像式光调制器的源424、426。DSP音频空间化器422可以将音频输出到左扬声器412和/或右扬声器414。DSP音频空间化器422可以从处理器419接收输入,该输入指示从用户到虚拟声源的矢量(其可以由用户例如经由手持式控制器400B移动)的方向矢量。基于该方向矢量,DSP音频空间化器422可以确定对应的HRTF(例如,通过访问HRTF或者通过内插多个HRTF)。然后,DSP音频空间化器422可以将所确定的HRTF应用于音频信号,诸如与由虚拟对象生成的虚拟声音对应的音频信号。通过并入用户相对于混合现实环境中的虚拟声音的相对位置和取向—也就是,通过呈现与用户对虚拟声音听起来像是在真实环境中的真实声音的期望相匹配的虚拟声音,可以增强虚拟声音的可信度和真实性。
在一些示例中,诸如图4中所示,处理器416、GPU 420、DSP音频空间化器422、HRTF存储器425和音频/视觉内容存储器418中的一个或多个可以被包括在辅助单元400C(其可以对应于上述辅助单元300)中。辅助单元400C可以包括电池427,以给其组件供电和/或向头部设备装置400A和/或手持式控制器400B供电。将这样的组件包括在可以安装到用户腰部的辅助单元中,可以限制头部设备装置400A的尺寸和重量,进而可以减少用户的头部和颈部的疲劳。
虽然图4呈现了与示例可穿戴系统400的各种组件对应的元件,但是这些组件的各种其他合适的布置对于本领域技术人员而言将变得显而易见。例如,图4中呈现的与辅助单元400C相关联的元件可以替代地与头部设备装置400A或手持式控制器400B相关联。此外,一些可穿戴系统可以完全放弃手持式控制器400B或辅助单元400C。这样的改变和修改应被理解为被包括在所公开的示例的范围内。
音频渲染
以下描述的系统和方法可以在增强现实或混合现实系统中实现,诸如上文所描述的。例如,增强现实系统的一个或多个处理器(例如,CPU、DSP)可用于处理音频信号或实现以下描述的计算机实现的方法的步骤;增强现实系统的传感器(例如,相机、声学传感器、IMU、LIDAR、GPS)可用于确定系统的用户或用户环境中的元素的位置和/或取向;以及增强现实系统的扬声器可用于向用户呈现音频信号。在一些实施例中,可以使用外部音频回放装置(例如,耳机、耳塞)来代替系统的扬声器以将音频信号递送到用户耳朵。
在如上文所描述的增强现实或混合现实系统中,一个或多个处理器(例如,DSP音频空间化器422)可处理一个或多个音频信号以经由一个或多个扬声器(例如,上文所描述的左扬声器412和右扬声器414)呈现给可穿戴头部装置的用户。音频信号的处理需要在感知的音频信号的真实性——例如,在混合现实环境中向用户呈现的音频信号与用户对音频信号将如何在真实环境中发出声音的期望相匹配的程度——与处理音频信号所涉及的计算开销之间进行折衷。
对近场音频效应建模可以改善用户的音频体验的真实性,但是可能在计算上是昂贵的。在一些实施例中,集成解决方案可以将计算上高效的渲染方法与针对每个耳朵的一个或多个近场效应相结合。针对每个耳朵的一个或多个近场效应可以包括,例如,针对每个耳朵入射的声音的模拟中的视差角、基于对象位置和人体测量数据的耳间时间差(ITD)、由于距离而引起的近场电平改变、和/或由于与用户的头部的接近度导致的幅度响应改变和/或由于视差角导致的源辐射变化。在一些实施例中,集成解决方案可在计算上高效,以便不过度增加计算成本。
在远场中,当声源移动得更靠近或更远离用户时,用户耳朵处的改变对于每个耳朵可以是相同的并且可以是针对声源的信号的衰减。在近场中,当声源移动得更靠近或更远离用户时,在用户耳朵处的改变对于每个耳朵可以是不同的并且可以比针对声源的信号的仅衰减更多。在一些实施例中,近场和远场边界可以是条件改变的位置。
在一些实施例中,虚拟扬声器阵列(VSA)可以是在以用户的头部的中心为中心的球体上的分立的位置组。对于球体上的每个位置,提供一对(例如,左-右对)HRTF。在一些实施例中,近场可以是VSA内部的区域,并且远场可以是VSA外部的区域。在VSA处,可以使用近场方法或远场方法。
从用户的头部的中心到VSA的距离可以是在其处获得HRTF的距离。例如,可以根据模拟来测量或合成HRTF滤波器。从VSA到用户的头部的中心的测量/模拟距离可以被称为“测量距离”(MD)。从虚拟声源到用户的头部的中心的距离可以被称为“源距离”(SD))。
图5示出了根据一些实施例的双耳渲染系统500。在图5的示例系统中,单输入音频信号501(其可以表示虚拟声源)被编码器503的耳间时间延迟(ITD)模块502分割成左信号504和右信号506。在一些示例中,左信号504和右信号506可相差由ITD模块502确定的ITD(例如,以毫秒为单位)。在该示例中,左信号504被输入到左耳VSA模块510,右信号506被输入到右耳VSA模块520。
在该示例中,左耳VSA模块510可以在一组N个信道上摇移左信号504,这组N个信道分别馈送HRTF滤波器组540中的一组左耳HRTF滤波器550(L1,…LN)。左耳HRTF滤波器550可以基本上是无延迟的。左耳VSA模块的摇移增益512(gL1,…gLN)可以是左入射角(angL)的函数。左入射角可以指示声音相对于来自用户的头部的中心的正面方向的入射方向。尽管从相对于图中的用户的头部的自上而下的角度示出,但是左入射角可以包括三个维度的角度;即,左入射角可以包括方位角和/或仰角。
类似地,在该示例中,右耳VSA模块520可以在一组M个信道上摇移右信号506,这组M个信道分别馈送HRTF滤波器组540中的一组右耳HRTF滤波器560(R1,…RM)。右耳HRTF滤波器550可以基本上是无延迟的。(尽管图中仅示出了一个HRTF滤波器组,但是可以设想包括跨分布式系统存储的HRTF滤波器组的多个HRTF滤波器组。)右耳VSA模块的摇移增益522(gR1,…gRM)可以是右入射角(angR)的函数。右入射角可以指示声音相对于来自用户的头部的中心的正面方向的入射方向。如上所述,右入射角可以包括三个维度的角度;即,右入射角可以包括方位角和/或仰角。
在一些实施例中,如图所示,左耳VSA模块510可以在N个信道上摇移左信号504,右耳VSA模块可以在M个信道上摇移右信号。在一些实施例中,N和M可以相等。在一些实施例中,N和M可以是不同的。在这些实施例中,左耳VSA模块可以馈送到一组左耳HRTF滤波器(L1,…LN)中,右耳VSA模块可以馈送到一组右耳HRTF滤波器(R1,…RM)中,如上所述。此外,在这些实施例中,左耳VSA模块的摇移增益(gL1,…gLN)可以是左耳入射角(angL)的函数,以及右耳VSA模块的摇移增益(gR1,…gRM)可以是右耳入射角(angR)的函数,如上所述。
示例系统示出了单个编码器503和对应的输入信号501。输入信号可以对应于虚拟声源。在一些实施例中,系统可以包括附加的编码器和对应的输入信号。在这些实施例中,输入信号可以对应于虚拟声源。也就是,每个输入信号可以对应于虚拟声源。
在一些实施例中,当同时渲染若干虚拟声源时,系统可以每个虚拟声源包括一个编码器。在这些实施例中,混合模块(例如,图5中的530)从编码器中的每一个接收输出、混合所接收的信号、并且将混合信号输出到HRTF滤波器组的左HRTF滤波器和右HRTF滤波器。
图6A示出了根据一些实施例的用于对来自虚拟声源的音频效应建模的几何形状。虚拟声源610到用户的头部的中心620的距离630(例如,“源距离”(SD))等于从VSA 650到用户的头部的中心的距离640(例如,“测量距离”(MD))。如图6A所示,左入射角652(angL)和右入射角654(angR)相等。在一些实施例中,从用户的头部的中心620到虚拟声源610的角度可被直接用于计算摇移增益(例如,gL1,…,gLN,gR1,…,gRN)。在所示的示例中,虚拟声源位置610被用作计算左耳摇移和右耳摇移的位置(612/614)。
图6B示出了根据一些实施例的用于对来自虚拟声源的近场音频效应建模的几何形状。如图所示,从虚拟声源610到参考点的距离630(例如,“源距离”(SD))小于从VSA 650到用户的头部的中心620的距离640(例如,“测量距离”(MD))。在一些实施例中,参考点可以是用户的头部的中心(620)。在一些实施例中,参考点可以是用户的两个耳朵之间的中点。如图6B所示,左入射角652(angL)大于右入射角654(angR)。相对于每个耳朵的角度(例如,左入射角652(angL)和右入射角654(angR))与在MD 640处的不同。
在一些实施例中,用于计算左耳信号摇移的左入射角652(angL)可以通过计算从用户的左耳穿过虚拟声源610的位置的线与包含VSA 650的球体的相交来导出。
类似地,在一些实施例中,用于计算左耳信号摇移的右入射角654(angL)可通过计算从用户的右耳穿过虚拟声源610的位置的线与包含VSA 650的球体的相交来导出。摇移角度组合(方位角和仰角)可针对3D环境被计算作为从用户的头部的中心620到交叉点的球面坐标角度。
在一些实施例中,可以例如通过组合表示线的等式和表示球体的等式来计算线与球体之间的相交。
图6C示出了根据一些实施例的用于对来自虚拟声源的远场音频效应建模的几何形状。虚拟声源610到用户的头部的中心620的距离630(例如,“源距离”(SD))大于从VSA650到用户的头部的中心620的距离640(例如,“测量距离”(MD))。如图6C所示,左入射角612(angL)小于右入射角614(angR)。相对于每个耳朵的角度(例如,左入射角(angL)和右入射角(angR))与在MD处的不同。
在一些实施例中,用于计算左耳信号摇移的左入射角612(angL)可以通过计算从用户的左耳穿过虚拟声源610的位置的线与包含VSA 650的球体的相交来导出。
类似地,在一些实施例中,用于计算左耳信号摇移的右入射角614(angR)可以通过计算从用户的右耳穿过虚拟声源610的位置的线与包含VSA 650的球体的相交来导出。摇移角度组合(方位角和仰角)可针对3D环境被计算作为从用户的头部的中心620到交叉点的球面坐标角度。
在一些实施例中,可以例如通过组合表示线的等式和表示球体的等式来计算线与球体之间的相交。
在一些实施例中,渲染方案可以不区分左入射角612和右入射角614,而是假设左入射角612和右入射角614相等。然而,在重现如关于图6B所描述的近场效应和/或如关于图6C所描述的远场效应时,假设左侧入射角612和右侧入射角614相等可能不是适用的或可接受的。
图7示出了根据一些实施例的用于计算由(点)声源710发出的声音到用户耳朵712所行进的距离的几何模型。在图7所示的几何模型中,用户的头部被假定为球状的。将相同的模型应用于每个耳朵(例如,左耳和右耳)。可以通过将(点)声源710发出的声音到每个耳朵所行进的距离(例如,图7中的距离A+B)除以声音在用户环境(例如,空气)中的速度来计算到每个耳朵的延迟。耳间时间差(ITD)可以是用户的两个耳朵之间的延迟差。在一些实施例中,ITD可仅应用于相对于用户的头部和声源710的位置的对侧耳朵。在一些实施例中,图7中所示的几何模型可以用于任何SD(例如,近场或远场),并且可能不考虑耳朵在用户的头部上的位置和/或用户的头部的头部尺寸。
在一些实施例中,图7中所示的几何模型可用于计算由于从声源710到每个耳朵的距离而引起的衰减。在一些实施例中,可以使用距离的比率来计算衰减。关于近场源的电平差可通过评估期望源位置的源-耳距离与跟MD和为摇移计算的角度对应的源的源-耳距离(例如,如图6A-6C中所示)的比率来被计算出。在一些实施例中,可以使用距耳朵的最小距离,例如以避免除以非常小的数字,这可能在计算上是昂贵的和/或导致数值溢出。在这些实施例中,可以箝制(clamp)较小的距离。
在一些实施例中,可以箝制距离。例如,箝制可以包括例如将阈值以下的距离值限制到另一值。在一些实施例中,箝制可以包括使用有限距离值(被称为箝制距离值),而不是实际距离值,以用于计算。硬箝制可以包括将阈值以下的距离值限制到阈值。例如,如果阈值是5毫米,则小于阈值的距离值将被设置为阈值,并且阈值(而不是小于阈值的实际距离值)可以用于计算。软箝制可以包括限制距离值,以使得当距离值接近或低于阈值时,它们渐近地接近阈值。在一些实施例中,代替箝制或除了箝制之外,距离值可以增加预定量,以使得距离值从不小于预定量。
在一些实施例中,距收听者的耳朵的第一最小距离可用于计算增益,以及距收听者的耳朵的第二最小距离可用于计算其他声源位置参数,例如,用于计算HRTF滤波器的角度、耳间时间差等等。在一些实施例中,第一最小距离和第二最小距离可以是不同的。
在一些实施例中,用于计算增益的最小距离可以是声源的一个或多个属性的函数。在一些实施例中,用于计算增益的最小距离可以是声源的电平(例如,在多个帧上的信号的RMS值)、声源的大小或声源的辐射特性等的函数。
图8A-8C示出了根据一些实施例的相对于收听者的右耳的声源的示例。图8A示出了声源810处于与收听者的右耳820相距大于第一最小距离822和第二最小距离824的距离812的情况。在该实施例中,模拟声源与收听者的右耳820之间的距离812用于计算增益和其他声源位置参数,并且不被箝制。
图8B示出了模拟声源810处于与收听者的右耳820相距小于第一最小距离822并且大于第二最小距离824的距离812的情况。在此实施例中,距离812被箝制以用于增益计算,但不用于计算其他参数,例如方位角和仰角或耳间时间差。换句话说,第一最小距离822用于计算增益,并且模拟声源810与收听者的右耳820之间的距离812用于计算其他声源位置参数。
图8C示出了模拟声源810比第一最小距离822和第二最小距离824都更靠近耳朵的情况。在该实施例中,距离812被箝制以用于增益计算并且用于计算其他声源位置参数。换句话说,第一最小距离822用于计算增益,并且第二最小距离824用于计算其他声源位置参数。
在一些实施例中,可以直接限制根据距离计算出的增益来代替限制用于计算增益的最小距离。换句话说,增益可以基于距离而被计算出以作为第一步骤,以及在第二步骤中,增益可以被箝制以不超过预定阈值。
在一些实施例中,当声源更靠近收听者的头部时,声源的幅度响应可能改变。例如,当声源更靠近收听者的头部时,在同侧耳朵处的低频可以被放大和/或在对侧耳朵处的高频可以被衰减。幅度响应的改变可以导致耳间电平差(ILD)的改变。
图9A和9B分别示出了根据一些实施例的关于在水平平面中的(点)声源的在耳朵处的HRTF幅度响应900A和900B。HRTF幅度响应可以使用球状头部模型来被计算作为方位角的函数。图9A示出了关于远场(例如,距用户的头部的中心1米)中的(点)声源的幅度响应900A。图9B示出了关于近场(例如,距用户的头部的中心0.25米)中的(点)声源的幅度响应900B。如图9A和9B所示,ILD的改变在低频处可能是最显著的。在远场中,低频内容的幅度响应可以是恒定的(例如,与源方位角的角度无关)。在近场中,针对用户的头部/耳朵的同一侧上的声源,低频内容的幅度响应可以被放大,这可以导致在低频处的较高ILD。在近场中,针对用户的头部的相对侧上的声源,高频内容的幅度响应可以衰减。
在一些实施例中,可以通过例如考虑在双耳渲染中的HRTF滤波器来考虑幅度响应的改变。在VSA的情况下,HRTF滤波器可以近似为与用于计算右耳摇移的位置和用于计算左耳摇移的位置(例如,如图6B和图6C中所示)对应的HRTF。在一些实施例中,可以使用直接MDHRTF来计算HRTF滤波器。在一些实施例中,可以使用摇移的球状头部模型HRTF来计算HRTF滤波器。在一些实施例中,可以独立于视差HRTF角来计算补偿滤波器。
在一些实施例中,可以计算视差HRTF角,然后使用其角来计算更准确的补偿滤波器。例如,参考图6B,可以将用于计算左耳摇移的位置与用于计算针对左耳的合成滤波器的虚拟声源位置进行比较,并且可以将用于计算右耳摇移的位置与用于计算针对右耳的合成滤波器的虚拟声源位置进行比较。
在一些实施例中,一旦考虑到由于距离引起的衰减,就可以利用附加的信号处理来捕获幅度差异。在一些实施例中,附加信号处理可以由要被应用于每个耳信号的增益、低搁架式(shelving)滤波器和高搁架式滤波器组成。
在一些实施例中,可以例如根据等式1针对高达120度的角度来计算宽带增益:
gain_db=2.5*sin(angleMD_deg*3/2) (等式1)
其中angleMD_deg可以是在例如相对于用户耳朵的位置的MD处的对应HRTF的角度。在一些实施例中,可以使用除了120度之外的角度。在这些实施例中,可以根据所使用的每个角度来修改等式1。
在一些实施例中,可以例如根据等式2针对大于120度的角度来计算宽带增益:
gain_db=2.5*sin(180+3*(angleMD_deg-120)) (等式2)
在一些实施例中,可以使用除了120度之外的角度。在这些实施例中,可以根据所使用的每角度来修改等式2。
在一些实施例中,可以例如根据等式3来计算低搁架式滤波器增益:
lowshelfgain_db=2.5*(e-angleMD_deg/65-e-180/65) (等式3)
在一些实施例中,可以使用其他角度。在这些实施例中,可以根据所使用的每个角度来修改等式3。
在一些实施例中,可以例如根据等式4针对大于110度的角度来计算高搁架式滤波器增益:
highshelfgain_db=3.3*(cos((angle_deg*180/pi-110)*3)-1) (等式4)
其中,angle_deg可以是源相对于用户耳朵的位置的角度。在一些实施例中,可以使用除了110度之外的角度。在这些实施例中,可以根据所使用的每个角度来修改等式4。
上述效应(例如,增益、低搁架式滤波器和高搁架式滤波器)可作为距离的函数而衰减。在一些实施例中,可以例如根据等式5来计算距离衰减因子:
distanceAttenuation=(HR/(HR-MD))*(1-MD/sourceDistance_clamped) (等式5)
其中,HR是头部半径,MD是测量距离,以及sourceDistance_clamped是被箝制为至少与头部半径一样大的源距离。
图10示出了根据一些实施例的用户相对于声源1010的声轴1015的离轴角度(或源辐射角)。在一些实施例中,可以使用源辐射角来评估直接路径的幅度响应,例如,基于源辐射特性。在一些实施例中,当源移动得更靠近用户的头部时,离轴角度对于每个耳朵可以是不同的。在该图中,源辐射角1020对应于左耳;源辐射角1030对应于头部的中心;以及源辐射角1040对应于右耳。每个耳朵的不同离轴角度可导致针对每个耳朵的单独的直接路径处理。
图11示出了根据一些实施例的在用户的头部内部摇移的声源1110。为了产生头部内效应,声源1110可被处理为在双耳渲染与立体声渲染之间的交叉渐变(crossfade)。在一些实施例中,可以为位于用户的头部上或外部的源1112创建双耳渲染。在一些实施例中,声源1112的位置可以被限定为从用户的头部的中心1120穿过模拟声音位置1110的线与用户的头部的表面1130的相交。在一些实施例中,可以使用基于幅度和/或基于时间的摇移技术来创建立体渲染。在一些实施例中,基于时间的摇移技术可以用于在每个耳朵处对立体声信号和双耳信号进行时间对准,例如,通过将ITD应用于对侧耳朵。在一些实施例中,随着声源接近用户的头部的中心1120(即,当源距离1150接近零)时,ITD和ILD可按比例缩小到零。在一些实施例中,可以例如基于SD来计算双耳与立体声之间的交叉渐变,并且该交叉渐变可以通过用户的头部的近似半径1140来归一化。
在一些实施例中,滤波器(例如,EQ滤波器)可被应用于放置在用户的头部的中心处的声源。当声源移动通过用户的头部时,EQ滤波器可以用于减少突然的音色改变。在一些实施例中,当模拟声源从用户的头部的中心移动到用户的头部的表面时,EQ滤波器可以被缩放以与在用户的头部的表面处的幅度响应相匹配,并且因此当声源进出用户的头部时进一步降低突然的幅度响应改变的风险。在一些实施例中,可以基于声源在用户的头部的中心与用户的头部的表面之间的位置来使用在经均衡的信号与未处理的信号之间的交叉渐变。
在一些实施例中,EQ滤波器可以被自动计算作为用于在用户的头部的表面上渲染源的滤波器的平均。EQ滤波器可作为一组可调谐/可配置参数被暴露于用户。在一些实施例中,可调谐/可配置参数可以包括控制频率和相关联的增益。
图12示出了根据一些实施例的可以被实现以渲染远场中的声源的信号流1200。如图12中所示,远场距离衰减1220可应用于输入信号1210,例如上文所描述的。可以将公共EQ滤波器1230(例如,源辐射滤波器)应用于对声源辐射建模的结果;滤波器1230的输出可以被拆分并被发送到单独的左和右信道,其中延迟(1240A/1240B)和VSA(1250A/1250B)函数被应用于每个信道,诸如上面关于图5所描述的,以产生左耳和右耳信号1290A/1290B。
图13示出了根据一些实施例的可以被实现以渲染近场中的声源的信号流1300。如图13中所示,远场距离衰减1320可应用于输入信号1310,例如上文所描述的。输出可以被分成左/右信道,并且可以将单独的EQ滤波器应用于每个耳朵(例如,用于左耳的左耳近场和源辐射滤波器1330A、以及用于右耳的右耳近场和源辐射滤波器1330B),以对声源辐射以及近场ILD效应建模,诸如上文所描述的。在左耳信号和右耳信号已经被分离之后,滤波器可以被实现为每个耳朵一个。应注意,在这种情况下,可以将施加到两个耳朵的任何其他EQ折叠到那些滤波器(例如,左耳近场和源辐射滤波器以及右耳近场和源辐射滤波器)中,以避免额外的处理。然后,可以将延迟(1340A/1340B)和VSA(1350A/1350B)函数应用于每个信道,诸如上面关于图5所描述的,以产生左耳和右耳信号1390A/1390B。
在一些实施例中,为了优化计算资源,系统可以例如基于待渲染的声源是在远场还是近场中来自动地在信号流1200与1300之间切换。在一些实施例中,在转换期间可能需要在滤波器(例如,源辐射滤波器、左耳近场和源辐射滤波器以及右耳近场和源辐射滤波器)之间复制滤波器状态,以便避免处理伪像。
在一些实施例中,当EQ滤波器的设置在感知上等同于具有0dB增益的平坦幅度响应时,可以绕过上述EQ滤波器。如果响应是平坦的但具有不同于零的增益,则可以使用宽带增益来有效地实现期望的结果。
图14示出了根据一些实施例的可以被实现以渲染近场中的声源的信号流1400。如图14中所示,可将远场距离衰减1420应用于输入信号1410,例如上文所描述的。可以将左耳近场和源辐射滤波器1430应用于输出。1430的输出可以被分成左/右信道,并且第二滤波器1440(例如,右-左耳近场和源辐射差异滤波器)然后可以被用来处理右耳信号。第二滤波器对右耳近场和源辐射效应与左耳近场和源辐射效应之间的差进行建模。在一些实施例中,差分滤波器可被应用于左耳信号。在一些实施例中,差分滤波器可被应用于对侧耳,其可取决于声源的位置。可以将延迟(1450A/1450B)和VSA(1460A/1460B)函数应用于每个信道,诸如上面关于图5所描述的,以产生左耳和右耳信号1490A/1490B。
头部坐标系可以用于计算从音频对象到收听者的耳朵的声学传播。装置坐标系可以由跟踪装置(诸如在增强现实系统中的可穿戴头部装置的一个或多个传感器,诸如上述)使用以跟踪收听者的头部的位置和取向。在一些实施例中,头部坐标系和装置坐标系可以是不同的。收听者的头部的中心可用作头部坐标系的原点并且可用于参考音频对象相对于收听者的位置,其中头部坐标系的前向方向被限定为从收听者的头部的中心到收听者前方的水平线行进。在一些实施例中,空间中的任意点可以用作装置坐标系的原点。在一些实施例中,装置坐标系的原点可以是位于跟踪装置的视觉投影系统的光学透镜之间的点。在一些实施例中,装置坐标系的前向方向可以参考跟踪装置本身,并且取决于跟踪装置在收听者的头部上的位置。在一些实施例中,跟踪装置可以具有相对于头部坐标系的水平平面的非零间距(即,向上或向下倾斜),从而导致头部坐标系的前向方向与装置坐标系的前向方向之间的未对准。
在一些实施例中,可以通过将变换应用于音频对象相对于收听者的头部的位置来补偿头部坐标系与装置坐标系之间的差异。在一些实施例中,可以通过以下方式来补偿头部坐标系与装置坐标系的原点差异:将音频对象相对于收听者的头部的位置平移等于在三维(例如,x、y和z)中的头部坐标系的原点与装置坐标系参考点的原点之间的距离的量。在一些实施例中,可以通过将旋转应用于音频对象相对于收听者的头部的位置来补偿头部坐标系轴与装置坐标系轴之间的角度差。例如,如果跟踪装置向下倾斜N度,则在呈现用于收听者的音频输出之前,音频对象的位置可以被向下旋转N度。在一些实施例中,可以在音频对象平移补偿之前应用音频对象旋转补偿。在一些实施例中,补偿(例如,旋转、平移、缩放等)可以在包括所有补偿(例如,旋转、平移、缩放等)的单个变换中一起进行。
图15A-15D示出了根据实施例的与用户对应的头部坐标系1500和与装置1512对应的装置坐标系1510的示例,装置1512诸如如上所述的头戴式增强现实装置。图15A示出了在头部坐标系1500与装置坐标系1500之间存在正面平移偏移1520的示例的顶视图。图15B示出了在头部坐标系1500与装置坐标系1510之间存在正面平移偏移1520以及围绕垂直轴的旋转1530的示例的顶视图。图15C示出了在头部坐标系1500与装置坐标系1500之间存在正面平移偏移1520和垂直平移偏移1522两者的示例的侧视图。图15D示出了在头部坐标系1500与装置坐标系1510之间存在正面平移偏移1520和垂直平移偏移1522以及围绕左/右水平轴的旋转1530的示例的侧视图。
在一些实施例中,诸如在图15A-15D中所描绘的那些实施例中,系统可以计算头部坐标系1500与装置坐标系1510之间的偏移,并且相应地进行补偿。该系统可以使用传感器数据,例如,来自一个或多个光学传感器的眼睛跟踪数据、来自一个或多个惯性测量单元的长期重力数据、来自一个或多个弯曲/头部尺寸传感器的弯曲数据等。此类数据可由增强现实系统中的一个或多个传感器提供,例如上文所描述。
在此描述了本公开的各种示例性实施例。在非限制性意义上参考这些示例。提供这些示例以说明本公开的更广泛的应用方面。可以在不脱离本公开的精神和范围的情况下,可以对所描述的公开进行各种改变并可替换等同物。此外,可以进行许多修改以使特定情况、材料、物质的组成、过程、一个或多个过程动作或一个或多个步骤适应于本公开的一个或多个目的、精神或范围。此外,如本领域技术人员将理解的,在不脱离本公开的范围或精神的情况下,在此所描述和示出的各个变型中的每一个具有分离的组件和特征,其可以容易地与其他若干实施例中的任一特征分离或组合。所有这些修改旨在处于与本公开相关联的权利要求的范围内。
本公开包括可以使用主题装置执行的方法。该方法可以包括提供这种合适的装置的动作。这种提供可以由终端用户执行。换句话说,“提供”动作仅仅需要终端用户获得、访问、接近、定位、设置、激活、开启或以其他方式提供在该方法中的必要装置。在此所述的方法可以按逻辑上可能的所述事件的任何顺序以及按照所记载的事件顺序进行。
以上已经阐述了本公开的示例性方面以及关于材料选择和制造的细节。关于本公开的其他细节,可以结合上述参考的专利和出版物以及本领域技术人员通常所知或理解的来理解这些。关于根据本公开的基础方法的方面在通常或逻辑上利用的附加动作方面同样可以成立。
另外,虽然已经参考可选地并入各种特征的若干示例描述了本公开,但是本公开不限于针对本公开的每个变型所构想的描述或指示的公开。在不脱离本公开的实际精神和范围的情况下,可以对所描述的本公开进行各种改变,并且可以替代等同物(为了简洁起见,不论在此是否包括)。此外,在提供了值的范围的情况下,应当理解,在该范围的上限和下限之间的每个中间值以及在该所述范围内的任何其他所述或中间值都包含在本公开内。
另外,可构想的是所描述的变形的任何可选特征可独立地或与在此所描述的特征中的任何一个或多个相结合来陈述和要求权利。引用单数项包括可能存在相同项的复数。更具体地,如在此和关联权利要求书所使用的,单数形式“一”、“一个”、“所述”和“该”包括复数对象,除非另有明确说明。换句话说,在上述描述以及与本公开关联的权利要求中,允许使用冠词的“至少一个”目标项。进一步应注意,可以起草这种权利要求以排除任何可选要素。因此,结合权利要求要素或使用“负面”限制,本声明旨在作为使用“单独地”、“仅”等排他性术语的先行基础。
在不使用这种排他性术语的情况下,与本公开相关联的权利要求中的术语“包括”应允许包括任何附加元素,不考虑在这种权利要求中是否列举了给定数量的要素或添加特征可以被认为是改变在权利要求中所述的元素的性质。除了在此具体定义之外,应在保持权利要求有效性的同时给定在此使用的所有技术和科学术语尽可能广泛的通常理解含义。
本公开的广度不限于提供的实施例和/或主题说明书,而是仅由与本公开相关联的权利要求语言的范围限定。
Claims (20)
1.一种向可穿戴头部装置的用户呈现音频信号的方法,所述方法包括:
识别与所述音频信号对应的源位置;
确定与所述音频信号对应的声轴;
确定参考点;
对于所述用户的相应左耳和右耳中的每一个:
确定所述声轴与相应耳朵之间的角度;
确定虚拟扬声器阵列中与所述源位置和所述相应耳朵的位置基本上共线的虚拟扬声器位置,其中所述虚拟扬声器阵列包括多个虚拟扬声器位置,所述多个虚拟扬声器位置中的每个虚拟扬声器位置位于与所述参考点同心的球体的表面上,所述球体具有第一半径;
确定与所述虚拟扬声器位置对应并与所述相应耳朵对应的头相关传递函数(HRTF);
基于所确定的角度来确定源辐射滤波器;
处理所述音频信号以针对所述相应耳朵生成输出音频信号,其中处理所述音频信号包括将所述HRTF和所述源辐射滤波器应用于所述音频信号;
基于所述源位置与所述相应耳朵之间的距离来衰减所述音频信号,其中,所述距离被箝制到最小值;以及
经由与所述可穿戴头部装置相关联的一个或多个扬声器向所述用户的所述相应耳朵呈现所述输出音频信号,
其中,确定所述参考点包括:
基于所述可穿戴头部装置的传感器来确定所述可穿戴头部装置的位置,以及
基于所述可穿戴头部装置与所述用户的头部之间的空间关系,将变换应用于所述可穿戴头部装置的所确定的位置。
2.根据权利要求1所述的方法,其中,所述源位置与所述参考点分开小于所述第一半径的距离。
3.根据权利要求1所述的方法,其中,所述源位置与所述参考点分开大于所述第一半径的距离。
4.根据权利要求1所述的方法,其中,所述源位置与所述参考点分开等于所述第一半径的距离。
5.根据权利要求1所述的方法,还包括:将耳间时间差应用于所述音频信号。
6.根据权利要求1所述的方法,其中,确定与所述虚拟扬声器位置对应的所述HRTF包括从多个HRTF中选择所述HRTF,其中所述多个HRTF中的每个HRTF描述收听者与音频源之间的关系,所述音频源与所述收听者分开基本上等于所述第一半径的距离。
7.根据权利要求1所述的方法,其中,所述可穿戴头部装置包括所述一个或多个扬声器。
8.一种系统,包括:
可穿戴头部装置;
一个或多个扬声器;以及
一个或多个处理器,其被配置为执行一种方法,所述方法包括:
识别与音频信号对应的源位置;
确定与所述音频信号对应的声轴;
确定参考点;
对于所述可穿戴头部装置的用户的相应左耳和右耳中的每一个:
确定所述声轴与相应耳朵之间的角度;
确定虚拟扬声器阵列中与所述源位置和所述相应耳朵的位置基本上共线的虚拟扬声器位置,其中所述虚拟扬声器阵列包括多个虚拟扬声器位置,所述多个虚拟扬声器位置中的每个虚拟扬声器位置位于与所述参考点同心的球体的表面上,所述球体具有第一半径;
确定与所述虚拟扬声器位置对应并与所述相应耳朵对应的头相关传递函数(HRTF);
基于所确定的角度来确定源辐射滤波器;
处理所述音频信号以针对所述相应耳朵生成输出音频信号,其中处理所述音频信号包括将所述HRTF和所述源辐射滤波器应用于所述音频信号;
基于所述源位置与所述相应耳朵之间的距离来衰减所述音频信号,其中,所述距离被箝制到最小值;以及
经由所述一个或多个扬声器向所述用户的所述相应耳朵呈现所述输出音频信号,
其中,确定所述参考点包括:
基于所述可穿戴头部装置的传感器来确定所述可穿戴头部装置的位置,以及
基于所述可穿戴头部装置与所述用户的头部之间的空间关系,将变换应用于所述可穿戴头部装置的所确定的位置。
9.根据权利要求8所述的系统,其中,所述源位置与所述参考点分开小于所述第一半径的距离。
10.根据权利要求8所述的系统,其中,所述源位置与所述参考点分开大于所述第一半径的距离。
11.根据权利要求8所述的系统,其中,所述源位置与所述参考点分开等于所述第一半径的距离。
12.根据权利要求8所述的系统,其中,所述方法还包括:将耳间时间差应用于所述音频信号。
13.根据权利要求8所述的系统,其中,确定与所述虚拟扬声器位置对应的所述HRTF包括从多个HRTF中选择所述HRTF,其中所述多个HRTF中的每个HRTF描述收听者与音频源之间的关系,所述音频源与所述收听者分开基本上等于所述第一半径的距离。
14.根据权利要求8所述的系统,其中,所述可穿戴头部装置包括所述一个或多个扬声器。
15.一种存储指令的非暂时性计算机可读介质,所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行一种向可穿戴头部装置的用户呈现音频信号的方法,所述方法包括:
识别与所述音频信号对应的源位置;
确定与所述音频信号对应的声轴;
确定参考点;
对于所述用户的相应左耳和右耳中的每一个:
确定所述声轴与相应耳朵之间的角度;
确定虚拟扬声器阵列中与所述源位置和所述相应耳朵的位置基本上共线的虚拟扬声器位置,其中所述虚拟扬声器阵列包括多个虚拟扬声器位置,所述多个虚拟扬声器位置中的每个虚拟扬声器位置位于与所述参考点同心的球体的表面上,所述球体具有第一半径;
确定与所述虚拟扬声器位置对应并与所述相应耳朵对应的头相关传递函数(HRTF);
基于所确定的角度来确定源辐射滤波器;
处理所述音频信号以针对所述相应耳朵生成输出音频信号,其中处理所述音频信号包括将所述HRTF和所述源辐射滤波器应用于所述音频信号;
基于所述源位置与所述相应耳朵之间的距离来衰减所述音频信号,其中,所述距离被箝制到最小值;以及
经由与所述可穿戴头部装置相关联的一个或多个扬声器向所述用户的所述相应耳朵呈现所述输出音频信号,
其中,确定所述参考点包括:
基于所述可穿戴头部装置的传感器来确定所述可穿戴头部装置的位置,以及
基于所述可穿戴头部装置与所述用户的头部之间的空间关系,将变换应用于所述可穿戴头部装置的所确定的位置。
16.根据权利要求15所述的非暂时性计算机可读介质,其中,所述源位置与所述参考点分开小于所述第一半径的距离。
17.根据权利要求15所述的非暂时性计算机可读介质,其中,所述源位置与所述参考点分开大于所述第一半径的距离。
18.根据权利要求15所述的非暂时性计算机可读介质,其中,所述源位置与所述参考点分开等于所述第一半径的距离。
19.根据权利要求15所述的非暂时性计算机可读介质,其中,所述方法还包括:将耳间时间差应用于所述音频信号。
20.根据权利要求15所述的非暂时性计算机可读介质,其中,确定与所述虚拟扬声器位置对应的所述HRTF包括从多个HRTF中选择所述HRTF,其中所述多个HRTF中的每个HRTF描述收听者与音频源之间的关系,所述音频源与所述收听者分开基本上等于所述第一半径的距离。
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862741677P | 2018-10-05 | 2018-10-05 | |
US62/741,677 | 2018-10-05 | ||
US201962812734P | 2019-03-01 | 2019-03-01 | |
US62/812,734 | 2019-03-01 | ||
PCT/US2019/054893 WO2020073023A1 (en) | 2018-10-05 | 2019-10-04 | Near-field audio rendering |
CN201980080065.2A CN113170272B (zh) | 2018-10-05 | 2019-10-04 | 近场音频渲染 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980080065.2A Division CN113170272B (zh) | 2018-10-05 | 2019-10-04 | 近场音频渲染 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116320907A true CN116320907A (zh) | 2023-06-23 |
Family
ID=70051410
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310249063.XA Pending CN116320907A (zh) | 2018-10-05 | 2019-10-04 | 近场音频渲染 |
CN201980080065.2A Active CN113170272B (zh) | 2018-10-05 | 2019-10-04 | 近场音频渲染 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980080065.2A Active CN113170272B (zh) | 2018-10-05 | 2019-10-04 | 近场音频渲染 |
Country Status (5)
Country | Link |
---|---|
US (4) | US11122383B2 (zh) |
EP (1) | EP3861767A4 (zh) |
JP (3) | JP7194271B2 (zh) |
CN (2) | CN116320907A (zh) |
WO (1) | WO2020073023A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114679677B (zh) | 2018-02-15 | 2024-02-20 | 奇跃公司 | 用于混合现实的双听者位置 |
JP7306384B2 (ja) * | 2018-05-22 | 2023-07-11 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、プログラム |
US11122383B2 (en) | 2018-10-05 | 2021-09-14 | Magic Leap, Inc. | Near-field audio rendering |
AU2020405579B2 (en) * | 2019-12-19 | 2023-12-07 | Telefonaktiebolaget Lm Ericsson (Publ) | Audio rendering of audio sources |
CN113035164A (zh) * | 2021-02-24 | 2021-06-25 | 腾讯音乐娱乐科技(深圳)有限公司 | 歌声生成方法和装置、电子设备及存储介质 |
WO2023043963A1 (en) * | 2021-09-15 | 2023-03-23 | University Of Louisville Research Foundation, Inc. | Systems and methods for efficient and accurate virtual accoustic rendering |
CN113810817B (zh) * | 2021-09-23 | 2023-11-24 | 科大讯飞股份有限公司 | 无线耳机的音量控制方法、装置以及无线耳机 |
WO2023183053A1 (en) * | 2022-03-25 | 2023-09-28 | Magic Leap, Inc. | Optimized virtual speaker array |
Family Cites Families (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4852988A (en) | 1988-09-12 | 1989-08-01 | Applied Science Laboratories | Visor and camera providing a parallax-free field-of-view image for a head-mounted eye movement measurement system |
US5596644A (en) * | 1994-10-27 | 1997-01-21 | Aureal Semiconductor Inc. | Method and apparatus for efficient presentation of high-quality three-dimensional audio |
US6847336B1 (en) | 1996-10-02 | 2005-01-25 | Jerome H. Lemelson | Selectively controllable heads-up display system |
US6546105B1 (en) * | 1998-10-30 | 2003-04-08 | Matsushita Electric Industrial Co., Ltd. | Sound image localization device and sound image localization method |
US6433760B1 (en) | 1999-01-14 | 2002-08-13 | University Of Central Florida | Head mounted display with eyetracking capability |
US6491391B1 (en) | 1999-07-02 | 2002-12-10 | E-Vision Llc | System, apparatus, and method for reducing birefringence |
JP2001057699A (ja) * | 1999-06-11 | 2001-02-27 | Pioneer Electronic Corp | オーディオ装置 |
CA2316473A1 (en) | 1999-07-28 | 2001-01-28 | Steve Mann | Covert headworn information display or data display or viewfinder |
US6819762B2 (en) * | 2001-03-16 | 2004-11-16 | Aura Communications, Inc. | In-the-ear headset |
CA2362895A1 (en) | 2001-06-26 | 2002-12-26 | Steve Mann | Smart sunglasses or computer information display built into eyewear having ordinary appearance, possibly with sight license |
DE10132872B4 (de) | 2001-07-06 | 2018-10-11 | Volkswagen Ag | Kopfmontiertes optisches Durchsichtssystem |
US20030030597A1 (en) | 2001-08-13 | 2003-02-13 | Geist Richard Edwin | Virtual display apparatus for mobile activities |
JP3823847B2 (ja) | 2002-02-27 | 2006-09-20 | ヤマハ株式会社 | 音制御装置、音制御方法、プログラムおよび記録媒体 |
CA2388766A1 (en) | 2002-06-17 | 2003-12-17 | Steve Mann | Eyeglass frames based computer display or eyeglasses with operationally, actually, or computationally, transparent frames |
US6943754B2 (en) | 2002-09-27 | 2005-09-13 | The Boeing Company | Gaze tracking system, eye-tracking assembly and an associated method of calibration |
US7347551B2 (en) | 2003-02-13 | 2008-03-25 | Fergason Patent Properties, Llc | Optical system for monitoring eye movement |
US7500747B2 (en) | 2003-10-09 | 2009-03-10 | Ipventure, Inc. | Eyeglasses with electrical components |
ZA200608191B (en) | 2004-04-01 | 2008-07-30 | William C Torch | Biosensors, communicators, and controllers monitoring eye movement and methods for using them |
US20070081123A1 (en) | 2005-10-07 | 2007-04-12 | Lewis Scott W | Digital eyewear |
US8696113B2 (en) | 2005-10-07 | 2014-04-15 | Percept Technologies Inc. | Enhanced optical and perceptual digital eyewear |
EP2119306A4 (en) * | 2007-03-01 | 2012-04-25 | Jerry Mahabub | SOUND SPECIALIZATION AND ENVIRONMENT SIMULATION |
JP5114981B2 (ja) * | 2007-03-15 | 2013-01-09 | 沖電気工業株式会社 | 音像定位処理装置、方法及びプログラム |
US20110213664A1 (en) | 2010-02-28 | 2011-09-01 | Osterhout Group, Inc. | Local advertising content on an interactive head-mounted eyepiece |
US8890946B2 (en) | 2010-03-01 | 2014-11-18 | Eyefluence, Inc. | Systems and methods for spatially controlled scene illumination |
US8531355B2 (en) | 2010-07-23 | 2013-09-10 | Gregory A. Maltz | Unitized, vision-controlled, wireless eyeglass transceiver |
US9122053B2 (en) | 2010-10-15 | 2015-09-01 | Microsoft Technology Licensing, Llc | Realistic occlusion for a head mounted augmented reality display |
US9292973B2 (en) | 2010-11-08 | 2016-03-22 | Microsoft Technology Licensing, Llc | Automatic variable virtual focus for augmented reality displays |
US8929589B2 (en) | 2011-11-07 | 2015-01-06 | Eyefluence, Inc. | Systems and methods for high-resolution gaze tracking |
US8611015B2 (en) | 2011-11-22 | 2013-12-17 | Google Inc. | User interface |
US8235529B1 (en) | 2011-11-30 | 2012-08-07 | Google Inc. | Unlocking a screen using eye tracking information |
US8638498B2 (en) | 2012-01-04 | 2014-01-28 | David D. Bohn | Eyebox adjustment for interpupillary distance |
US10013053B2 (en) | 2012-01-04 | 2018-07-03 | Tobii Ab | System for gaze interaction |
US8831255B2 (en) | 2012-03-08 | 2014-09-09 | Disney Enterprises, Inc. | Augmented reality (AR) audio with position and action triggered virtual sound effects |
US9274338B2 (en) | 2012-03-21 | 2016-03-01 | Microsoft Technology Licensing, Llc | Increasing field of view of reflective waveguide |
US8989535B2 (en) | 2012-06-04 | 2015-03-24 | Microsoft Technology Licensing, Llc | Multiple waveguide imaging structure |
US10025379B2 (en) | 2012-12-06 | 2018-07-17 | Google Llc | Eye tracking wearable devices and methods for use |
EP2951811A4 (en) | 2013-01-03 | 2016-08-17 | Meta Co | DIGITAL EYES FOR EXTRAMISSIVE SPATIAL IMAGING, PROCESSES AND SYSTEMS FOR VIRTUAL OR ENLARGED VISIBILITY, MANIPULATION, PRODUCTION OR INTERACTION WITH OBJECTS, MATERIALS, OR OTHER UNITS |
US20140195918A1 (en) | 2013-01-07 | 2014-07-10 | Steven Friedlander | Eye tracking user interface |
US9443354B2 (en) | 2013-04-29 | 2016-09-13 | Microsoft Technology Licensing, Llc | Mixed reality interactions |
US9648436B2 (en) | 2014-04-08 | 2017-05-09 | Doppler Labs, Inc. | Augmented reality sound system |
CN106664499B (zh) * | 2014-08-13 | 2019-04-23 | 华为技术有限公司 | 音频信号处理装置 |
CN106537941B (zh) | 2014-11-11 | 2019-08-16 | 谷歌有限责任公司 | 虚拟声音系统和方法 |
WO2016077514A1 (en) * | 2014-11-14 | 2016-05-19 | Dolby Laboratories Licensing Corporation | Ear centered head related transfer function system and method |
US9881422B2 (en) | 2014-12-04 | 2018-01-30 | Htc Corporation | Virtual reality system and method for controlling operation modes of virtual reality system |
US9602947B2 (en) | 2015-01-30 | 2017-03-21 | Gaudi Audio Lab, Inc. | Apparatus and a method for processing audio signal to perform binaural rendering |
GB2536020A (en) | 2015-03-04 | 2016-09-07 | Sony Computer Entertainment Europe Ltd | System and method of virtual reality feedback |
JP6374908B2 (ja) | 2016-06-17 | 2018-08-15 | 株式会社カプコン | ゲームプログラムおよびゲームシステム |
US10896544B2 (en) | 2016-10-07 | 2021-01-19 | Htc Corporation | System and method for providing simulated environment |
US9992602B1 (en) | 2017-01-12 | 2018-06-05 | Google Llc | Decoupled binaural rendering |
US20180206038A1 (en) * | 2017-01-13 | 2018-07-19 | Bose Corporation | Real-time processing of audio data captured using a microphone array |
US9955281B1 (en) * | 2017-12-02 | 2018-04-24 | Philip Scott Lyren | Headphones with a digital signal processor (DSP) and error correction |
CN114679677B (zh) | 2018-02-15 | 2024-02-20 | 奇跃公司 | 用于混合现实的双听者位置 |
US20190313201A1 (en) * | 2018-04-04 | 2019-10-10 | Bose Corporation | Systems and methods for sound externalization over headphones |
US11122383B2 (en) | 2018-10-05 | 2021-09-14 | Magic Leap, Inc. | Near-field audio rendering |
-
2019
- 2019-10-04 US US16/593,943 patent/US11122383B2/en active Active
- 2019-10-04 EP EP19869249.3A patent/EP3861767A4/en active Pending
- 2019-10-04 JP JP2021518639A patent/JP7194271B2/ja active Active
- 2019-10-04 CN CN202310249063.XA patent/CN116320907A/zh active Pending
- 2019-10-04 CN CN201980080065.2A patent/CN113170272B/zh active Active
- 2019-10-04 WO PCT/US2019/054893 patent/WO2020073023A1/en unknown
-
2021
- 2021-08-12 US US17/401,090 patent/US11546716B2/en active Active
-
2022
- 2022-10-04 JP JP2022160027A patent/JP7455173B2/ja active Active
- 2022-12-02 US US18/061,367 patent/US11778411B2/en active Active
- 2022-12-09 JP JP2022196982A patent/JP7416901B2/ja active Active
-
2023
- 2023-08-17 US US18/451,794 patent/US20230396947A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
JP7455173B2 (ja) | 2024-03-25 |
CN113170272A (zh) | 2021-07-23 |
JP2022180616A (ja) | 2022-12-06 |
JP2023022312A (ja) | 2023-02-14 |
JP7416901B2 (ja) | 2024-01-17 |
US20230094733A1 (en) | 2023-03-30 |
WO2020073023A1 (en) | 2020-04-09 |
US11778411B2 (en) | 2023-10-03 |
US11546716B2 (en) | 2023-01-03 |
US20200112815A1 (en) | 2020-04-09 |
JP2022504283A (ja) | 2022-01-13 |
EP3861767A1 (en) | 2021-08-11 |
US20220038840A1 (en) | 2022-02-03 |
CN113170272B (zh) | 2023-04-04 |
EP3861767A4 (en) | 2021-12-15 |
JP7194271B2 (ja) | 2022-12-21 |
US20230396947A1 (en) | 2023-12-07 |
US11122383B2 (en) | 2021-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113170272B (zh) | 近场音频渲染 | |
CN112567768B (zh) | 用于交互式音频环境的空间音频 | |
JP2021508426A (ja) | 双方向性拡張または仮想現実装置 | |
US11696087B2 (en) | Emphasis for audio spatialization | |
US10841727B2 (en) | Low-frequency interchannel coherence control | |
WO2023183053A1 (en) | Optimized virtual speaker array | |
WO2022220182A1 (ja) | 情報処理方法、プログラム、及び情報処理システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |