CN114885274B

CN114885274B - 空间化音频系统以及渲染空间化音频的方法

Info

Publication number: CN114885274B
Application number: CN202210357688.3A
Authority: CN
Inventors: G·M·林克
Original assignee: Magic Leap Inc
Current assignee: Magic Leap Inc
Priority date: 2016-09-14
Filing date: 2017-09-13
Publication date: 2023-05-16
Anticipated expiration: 2037-09-13
Also published as: IL265214A; KR102230645B1; US10448189B2; KR102514464B1; EP4254403A3; AU2017327387A1; EP3513405A1; US20200008005A1; KR20210031796A; JP7165215B2; CN114885274A; AU2022201898A1; CN109691141B; JP6821795B2; CA3034916A1; US20180077513A1; KR20190052086A; AU2017327387B2; US11310618B2; JP2021073763A

Abstract

本发明涉及空间化音频系统以及渲染空间化音频的方法。一种空间化音频系统，包括传感器，其用于检测收听者的头部姿势。该系统还包括处理器，其用于在第一阶段和第二阶段渲染音频数据。第一阶段包括将与第一多个源对应的第一音频数据渲染为与第二多个源对应的第二音频数据。第二阶段包括基于所检测的收听者的头部姿势，将与第二多个源对应的第二音频数据渲染为与第三多个源对应的第三音频数据。第二多个源由比第一多个源少的源组成。

Description

空间化音频系统以及渲染空间化音频的方法

本申请是申请日为2017年9月13日、PCT国际申请号为PCT/US2017/051421、中国国家阶段申请号为201780056074.9、发明名称为“空间化音频系统以及渲染空间化音频的方法”的申请的分案申请。

技术领域

本公开涉及具有空间化音频系统的虚拟现实、增强现实和/或混合现实系统，以及用于使用该系统生成包括空间化音频的虚拟现实、增强现实和/或混合现实体验的方法。

背景技术

现代计算和显示技术促进了用于所谓“混合现实(MR)”、“虚拟现实(VR)”和/或“增强现实(AR)”体验的混合现实系统的发展。这可以通过头戴式显示器向用户呈现计算机生成的图像来完成。这种图像产生了使用户沉浸在模拟环境中的感官体验。VR场景通常涉及数字或虚拟图像信息的呈现而对实际的现实世界视觉输入不透明。

AR系统通常用模拟元素补充现实世界环境。例如，AR系统可以通过头戴式显示器向用户提供周围现实世界环境的视图。然而，计算机生成的图像也可以呈现在该显示器上，以增强现实世界环境。这种计算机生成的图像可以包括与现实世界环境情境相关的元素。这些元素可以包括模拟的文本、图像、对象等。MR系统还将模拟的对象引入到现实世界环境中，但这些对象通常具有比AR系统更大程度的交互性。模拟的元素经常可以实时交互。可以使用空间化音频来呈现VR/AR/MR场景以改善用户体验。

各种光学系统在各种深度处生成图像，用于显示VR/AR/MR场景。2014年11月27日提交的美国实用新型专利申请序号14/738,877(代理人案卷号ML.20019.00)和美国实用新型专利申请序号14/555,585(代理人案卷号ML.20011.00)中描述了一些这样的光学系统，其内容先前已通过引用并入本文。

当前空间化音频系统可以与3D光学系统(诸如3D电影、3D视频游戏、虚拟现实、增强现实和/或混合现实系统中的3D光学系统)协作，在光学上和声学上渲染虚拟对象。对象是“虚拟的”是因为它们不是位于三维空间中的相应位置处的现实物理对象。相反，当被分别指向观众成员的眼睛和/或耳朵的光束和/或声波刺激时，虚拟对象仅存在于观众和/或收听者的大脑(例如，光学和/或听觉中心)中。不幸的是，当前空间化音频系统的收听者位置和方向要求限制了其以现实方式为不在位置上的收听者创建虚拟对象的音频部分的能力。

当前空间化音频系统(例如，用于家庭影院和视频游戏的空间化音频系统)使用“5.1”和“7.1”格式。5.1空间化音频系统包括左前和右前声道、左后和右后声道、中央声道和次低音。7.1空间化音频系统包括5.1音频系统的声道以及与预期收听者对齐的左和右声道。每个上述声道对应于单独的扬声器。电影音频系统和电影级家庭影院系统包括杜比全景声(DOLBY ATMOS)，其增加了被配置为从预期收听者上方传送的声道，从而使收听者沉浸在声场中并且用声音环绕收听者。

尽管空间化音频系统有所改进，但是当前空间化音频系统不能考虑收听者的位置和方向，更不用说多个收听者的相应位置和方向。因此，当前空间化音频系统在全部收听者都位于声场的中心附近并且面向系统的中央声道取向的假设下产生声场，并且具有用于最佳性能的收听者位置和方向要求。因此，在经典的一对多系统中，如果收听者恰好面向期望方向的相反侧，则可以将空间化音频传送给收听者，使得声音听起来是向后的。这种未对准的声音可导致感觉和认知的不协调，并且削弱空间化音频体验以及随之呈现的任何VR/AR/MR体验。在严重情况下，感觉和认知的不协调可以引起生理副作用，例如头痛、恶心、不适等，从而可导致用户避免空间化音频体验或随之呈现的VR/AR/MR体验。

在类似的技术空间中，诸如在主题公园游乐设施中发现的混合媒体系统(即，迪斯尼之星旅行)可以向3D电影和空间化音频添加诸如灯光和动作的真实生活特效。通常要求3D混合媒体系统的用户佩戴便于系统生成3D图像的眼镜。这种眼镜可以包含具有不同偏振或滤色器的左透镜和右透镜，如在传统的立体3D系统中那样。3D混合媒体系统投影具有不同偏振或颜色的重叠图像，使得佩戴立体眼镜的用户将在其左眼和右眼中看到略微不同的图像。利用这些图像中的差异来生成3D光学图像。然而，这种系统非常昂贵。而且，这种混合媒体系统不能解决当前空间化音频系统的固有用户位置和方向要求。

为了解决这些问题，一些VR/AR/MR系统包括可操作地耦合到空间化音频系统的头戴式扬声器，使得可以使用扬声器和用户/收听者的耳朵之间的“已知”位置和方向关系来渲染空间化音频。在美国临时专利申请序号62/369,561中描述了这种VR/AR/MR系统的各种示例，其内容先前已通过引用并入本文。虽然这些VR/AR/MR系统解决了上述收听者位置问题，但这些系统仍具有与处理时间、滞后和延迟相关的限制，这可能导致与快速的用户头部运动的认知失调。

例如，一些VR/AR/MR系统通过头戴式扬声器向用户/收听者传送空间化音频。因此，如果虚拟声源(例如，鸟)实际上以第一姿势(其可以通过VR/AR/MR系统检测)位于用户/收听者的右侧，则VR/AR/MR系统可以传送与听起来源自用户/收听者的右侧的虚拟声源相对应的所生成的声音(例如，鸟叫声)。VR/AR/MR系统可以主要通过安装在用户/收听者右耳附近的一个或多个扬声器传送声音。如果用户/收听者转过头以面对虚拟声源，则VR/AR/MR系统可以检测到该第二姿势并且传送与听起来源自用户/收听者前方的虚拟声源相对应的所生成的声音。

然而，如果用户/收听者快速转过头以面对虚拟声源，则VR/AR/MR系统将经历与基于用户/收听者的姿势生成虚拟声音的系统和方法的各种限制相关的滞后或延迟。示例性的虚拟声音生成方法尤其包括：(1)检测姿势变化，(2)将检测到的姿势变化传递到处理器，(3)基于变化的姿势生成新的音频数据，(4)将新的音频数据传递到扬声器，以及(5)基于新的音频数据生成虚拟声音。检测姿势变化和生成虚拟声音之间的这些步骤可能引起滞后或延迟，当用户/收听者快速变化其姿势时，该滞后或延迟可导致具有相关联的空间化音频的VR/AR/MR体验的认知失调。

与VR/AR/MR体验相关联的空间化音频示出了认知失调，因为虚拟声音(例如，鸟叫声)可能听起来从与虚拟对象(例如，鸟)的图像不同位置处发出。然而，所有空间化音频系统(具有或不具有VR/AR/MR系统)可导致对快速的姿势变化的认知失调，因为所有的空间化音频系统包括具有相对于用户/收听者的虚拟位置和方向的虚拟声源。例如，如果虚拟鸟位于收听者的右侧，则无论用户头部的方向如何，或者该方向的变化如何快速，鸟叫声应该听起来从空间中的相同点发出。

发明内容

在一个实施例中，一种空间化音频系统包括传感器，其用于检测收听者的头部姿势。该系统还包括处理器，其用于在第一阶段和第二阶段渲染音频数据。第一阶段包括将与第一多个源对应的第一音频数据渲染为与第二多个源对应的第二音频数据。第二阶段包括基于所检测的收听者的头部姿势，将与第二多个源对应的第二音频数据渲染为与第三多个源对应的第三音频数据。第二多个源由比第一多个源少的源组成。

在另一实施例中，一种空间化音频系统包括传感器，其用于在第一时间检测第一头部姿势，在第二时间检测收听者的第二头部姿势，第二时间在第一时间之后。该系统还包括处理器，其用于在第一阶段和第二阶段渲染音频数据。第一阶段包括基于所检测的收听者的第一头部姿势，将与第一多个源对应的第一音频数据渲染为与第二多个源对应的第二音频数据。第二阶段包括基于所检测的收听者的第二头部姿势，将与第二多个源对应的第二音频数据渲染为与第三多个源对应的第三音频数据。第二多个源由比第一多个源少的源组成。

在又一实施例中，一种渲染空间化音频的方法包括将与第一多个源对应的第一音频数据渲染为与第二多个源对应的第二音频数据。该方法还包括检测收听者的头部姿势。该方法还包括基于所检测的收听者的头部姿势，将与第二多个源对应的第二音频数据渲染为与第三多个源对应的第三音频数据。第二多个源由比第一多个源少的源组成。

在又一实施例中，一种渲染空间化音频的方法包括检测收听者的第一头部姿势。该方法还包括基于所检测的收听者的第一头部姿势，将与第一多个源对应的第一音频数据渲染为与第二多个源对应的第二音频数据。该方法还包括检测收听者的第二头部姿势。此外，该方法还包括基于所检测的收听者的第二头部姿势，将与第二多个源对应的第二音频数据渲染为与第三多个源对应的第三音频数据。第二多个源由比第一多个源少的源组成。

在又一实施例中，一种计算机程序产品包含在非暂时性计算机可读介质中，计算机可读介质上存储有一系列指令，当由处理器执行时，该指令使处理器执行用于渲染空间化音频的方法。该方法包括将与第一多个源对应的第一音频数据渲染为与第二多个源对应的第二音频数据。该方法还包括检测收听者的头部姿势。该方法还包括基于所检测的收听者的头部姿势，将与第二多个源对应的第二音频数据渲染为与第三多个源对应的第三音频数据。第二多个源由比第一多个源少的源组成。

在又一实施例中，一种计算机程序产品包含在非暂时性计算机可读介质中，计算机可读介质上存储有一系列指令，当由处理器执行时，该指令使处理器执行用于渲染空间化音频的方法。该方法包括检测收听者的第一头部姿势。该方法还包括基于所检测的收听者的第一头部姿势，将与第一多个源对应的第一音频数据渲染为与第二多个源对应的第二音频数据。该方法还包括检测收听者的第二头部姿势。此外，该方法包括基于所检测的收听者的第二头部姿势，将与第二多个源对应的第二音频数据渲染为与第三多个源对应的第三音频数据。第二多个源由比第一多个源少的源组成。

在一个或多个实施例中，传感器是惯性测量单元。第一和/或第二多个源可以是虚拟声源。传感器可以在第一阶段之后和第二阶段之前检测收听者的头部姿势。传感器可以在第二阶段之前立即检测收听者的头部姿势。

在一个或多个实施例中，第三多个源由比第二多个源更少的源或者与第二多个源相同数量的源组成。第一音频数据可以是完整的音频流数据集。第二多个源可以由8个或更少的源组成。

在一个或多个实施例中，第一多个源、第二多个源和/或第三多个源中的每一个对应于不同的位置/方向。第一多个源可以对应于第一多个位置。第二多个源可以对应于第二多个位置，并且第二多个位置中的每一个可以比第一多个位置中的每一个更接近收听者。第二多个位置可以不位于单个平面中。

在一个或多个实施例中，该系统还包括与第三多个源对应的多个扬声器，以基于第三音频数据产生声音。第三多个源中的每一个可以对应于不同的位置，并且多个扬声器中的每一个可以在相应的不同位置处与第三多个源中的相应源对应。

在一个或多个实施例中，第二阶段可以包括基于所检测的收听者的头部姿势和第二多个源的相应位置/方向，将与第二多个源对应的第二音频数据渲染为与第三多个源对应的第三音频数据。第二阶段对收听者的旋转可以比对收听者的平移更敏感。第二阶段可以是仅旋转的音频变换。第二多个源中的每一个位于距收听者的头部大约6英寸至大约12英寸处。

在一个或多个实施例中，传感器在第一阶段之前检测收听者的第一头部姿势。传感器可以在第一阶段之后和第二阶段之前检测收听者的第二头部姿势。传感器可以在第二阶段之前立即检测收听者的第二头部姿势。

在一个或多个实施例中，第二阶段包括基于所检测的收听者的第二头部姿势和第二多个源的相应位置/方向，将与第二多个源对应的第二音频数据渲染为与第三多个源对应的第三音频数据。

在一个或多个实施例中，该方法还包括在渲染第一音频数据之后和渲染第二音频数据之前，检测收听者的头部姿势。该方法还可以包括在渲染第二音频数据之前立即检测收听者的头部姿势。该方法还可以包括通过与第三多个源对应的多个扬声器基于第三音频数据产生声音。该方法还可以包括基于所检测的收听者的头部姿势和第二多个源的相应位置/方向，将与第二多个源对应的第二音频数据渲染为与第三多个源对应的第三音频数据。

在一个或多个实施例中，将与第二多个源对应的第二音频数据渲染为与第三多个源对应的第三音频数据对收听者的旋转比对收听者的平移更敏感。将与第二多个源对应的第二音频数据渲染为与第三多个源对应的第三音频数据可以是仅旋转的音频变换。

在一个或多个实施例中，该方法还包括在渲染第一音频数据之前检测收听者的第一头部姿势。该方法还可以包括在渲染第一音频数据之后和渲染第二音频数据之前检测收听者的第二头部姿势。该方法还可以包括在渲染第二音频数据之前立即检测收听者的第二头部姿势。

在一个或多个实施例中，该方法还包括基于所检测的收听者的第二头部姿势和第二多个源的相应位置/方向，将与第二多个源对应的第二音频数据渲染为与第三多个源对应的第三音频数据。

附图说明

附图示出了本发明的各个实施例的设计和实用。应当注意，附图未按比例绘制，并且在所有附图中相似结构或功能的元件以相同的附图标记表示。为了更好地理解如何获得本发明的各个实施例的上述和其它优点及目的，对于上面简要描述的本发明的更具体的描述，将通过参照附图中示出的其特定实施例来提供。应当理解，这些附图仅描绘了本发明的典型实施例，因此不应被认为是对其范围的限制。将通过使用附图，采用附加特征和细节来描述和解释本发明，在附图中：

图1描绘了根据一个实施例的通过可穿戴AR/MR用户设备的增强现实/混合现实的用户视图；

图2是根据一个实施例的佩戴在用户/收听者头部上的空间化音频系统的俯视图；

图3是如图2所描绘的佩戴在用户/收听者头部上的空间化音频系统的后视图；

图4是如图2所描绘的佩戴在用户/收听者头部上的空间化音频系统的更详细的俯视图；

图5至图8是根据各个实施例的佩戴在用户/收听者头部上的空间化音频系统的局部透视图和局部示意图；

图9是根据一个实施例的姿势敏感的空间化音频系统的详细示意图；

图10是由真实物理音频源生成的空间化声场的示意图；

图11是根据一个实施例的包括各种虚拟声源和虚拟对象的空间化音频体验的后视图；

图12是图11所描绘的空间化音频体验的侧视图；

图13和图14是根据一个实施例的接收姿势敏感的空间化音频体验的用户/收听者的俯视图；在图13中，用户/收听者面向前方，而在图14中，用户/收听者面向左侧；

图15和图17是根据两个实施例的描述利用空间化音频系统的后帧时间扭曲、姿势敏感的音频处理的方法的流程图；

图16示意性描绘了根据一个实施例的后帧时间扭曲音频处理。

具体实施方式

本发明的各个实施例涉及用于单个实施例或多个实施例中的空间化音频系统的系统、方法和制品。在详细说明书、附图和权利要求中描述了本发明的其它目的、特征和优点。

现在将参照附图详细描述各个实施例，其被提供为本发明的说明性示例，以使得本领域技术人员能够实践本发明。值得注意的是，以下附图和示例并不意味着限制本发明的范围。在使用已知部件(或方法或过程)可以部分或完全实现本发明的某些元件的情况下，将仅描述对理解本发明所必需的这些已知部件(或方法或过程)的那些部分，并且将省略对这些已知部件(或方法或过程)的其它部分的详细描述，以免模糊本发明。此外，各个实施例包含通过说明的方式在此提及的部件的当前和未来已知的等同物。

空间化音频系统可以独立于AR/MR系统来实现，但出于说明目的，下面的许多实施例仅关于AR/MR系统进行描述。此外，在此描述的空间化音频系统也可以以与VR系统相同的方式使用。

问题和解决方案

空间化音频系统(诸如与2D/3D影院系统、2D/3D视频游戏以及VR/AR/MR系统一起使用或形成其部分的空间化音频系统)渲染、呈现和发出与在现实世界的物理3D空间中具有虚拟位置的虚拟对象相对应的空间化音频。如在本申请中所使用的那样，“发出”、“生成”或“呈现”音频或声音包括但不限于使得形成可被人类听觉系统感知为声音的声波(包括亚音速低频声波)。这些虚拟位置通常使用坐标系统(例如，具有在原点处的空间化音频系统和相对于空间化音频系统的已知方向的坐标系统)对(即，记录在空间化音频系统中)空间化音频系统“已知”。与虚拟对象相关联的虚拟音频源具有内容、位置和方向。虚拟音频源的另一个特征是音量，其随着距收听者的距离的平方而下降。然而，当前空间化音频系统(例如，5.1空间化音频系统、7.1空间化音频系统、电影音频系统以及甚至一些头戴式音频系统)都具有收听者位置和方向限制，这限制了空间化音频系统可以为其生成逼真的空间化音频的收听者的数量和特征。

根据本文描述的一些实施例的头戴式空间化音频系统跟踪用户/收听者的姿势(例如，位置和方向)以更准确地渲染空间化音频，使得与各虚拟对象相关联的音频听起来源自与各虚拟对象相对应的虚拟位置。根据本文描述的一些实施例的系统还跟踪用户/收听者的头部姿势以更准确地渲染空间化音频，使得与各虚拟对象相关联的定向音频听起来在适合于各虚拟对象的虚拟方向上传播(例如，出自虚拟角色的嘴而不是虚拟角色的头部的后面)。此外，根据本文描述的一些实施例的系统在其对空间化音频的渲染中包括其它现实物理对象和虚拟对象，使得与各虚拟对象相关联的音频听起来恰当地被现实物理对象和虚拟对象反射。

然而，即使包括基于姿势跟踪的音频渲染的头戴式空间化音频系统也容易受到姿势变化的检测和与其相关联的虚拟声音的呈现之间的系统滞后和延迟的影响。这种系统滞后和延迟可导致虚拟声源的虚拟位置和与虚拟声源对应的虚拟声音的真实位置之间的认知失调。系统滞后和延迟对于快速的姿势变化(例如，快速的头部运动)尤其成问题，其可以增大认知失调的幅度/程度。

本文描述的空间化音频系统执行两阶段的音频数据渲染处理。在第一阶段，系统将对应于第一多个源的第一音频数据渲染为对应于第二多个源的第二音频数据。第一阶段可以考虑头部姿势估计。与第一多个源相比，第二多个源具有更少的源，从而简化了音频数据。在第二阶段，系统将第二音频数据渲染为对应于第三多个源(例如，系统扬声器)的第三音频数据。第二阶段考虑用户/收听者的最新可用头部姿势估计，以更准确地渲染第三音频数据。第一阶段中的先前处理减少了渲染第三音频数据所需的处理周期和时间。因此，通过将音频处理分成两个阶段并在第二个更晚且更简单的阶段考虑更新的头部姿势，减少了在头部姿势的估计和基于其的虚拟声音的呈现之间的系统滞后和延迟。

空间化音频系统

AR/MR场景通常包括与真实世界对象相关的对应于虚拟对象的图像和声音的呈现。例如，参照图1，描绘了增强现实场景100，其中AR/MR技术的用户看到背景中具有人、树、建筑物的现实世界的物理公园式设置102，以及现实世界的物理混凝土平台104。除了这些项目之外，AR/MR技术的用户还感知到他“看到”了站在现实世界的物理平台104上的虚拟机器人雕像106，以及看起来像是大黄蜂化身的飞行的虚拟卡通式阿凡达角色108，即使这些虚拟对象106、108在现实世界中并不存在。

为了呈现可信的或可通行的AR/MR场景100，虚拟对象(例如，机器人雕像106和大黄蜂108)可以具有分别与其相关联的同步的空间化音频。例如，可以生成与机器人雕像106相关联的机械声音，使得其听起来从与机器人雕像106对应的虚拟位置发出。类似地，可以生成与大黄蜂108相关联的嗡嗡声音，使得其听起来从与大黄蜂108对应的虚拟位置发出。

除了位置之外，空间化音频可以具有方向。例如，与大黄蜂108相关联的“卡通式”声音可听起来从大黄蜂108的嘴110发出。虽然大黄蜂108在图1描绘的场景中面向观看者/收听者，但在另一场景中大黄蜂108可以背向观看者/收听者，例如，观看者/收听者已经移动到虚拟大黄蜂108后面。在此情况下，大黄蜂108的声音将被渲染为被场景中其它对象(例如，机器人雕像106)反射的声音。

在一些实施例中，可以生成虚拟声音，使得其听起来从现实物理对象发出。例如，可以生成虚拟鸟声以使其听起来源自AR/MR场景100中的真实树木。类似地，可以生成虚拟语音，使得其听起来源自AR/MR场景100中的真人。在AR/MR会议中，可以生成虚拟语音，使得其听起来是从真人口中发出。虚拟语音可能听起来像真人的声音或完全不同的声音。在一个实施例中，虚拟语音可以听起来从收听者周围的多个声源同时发出。在另一个实施例中，虚拟语音可以听起来从收听者的身体内发出。

通过类似方式，VR场景还可以受益于更精确并且更少侵入(intrusive)的空间化音频的生成和传送，同时最小化心理声学效应。与AR/MR场景一样，VR场景也必须考虑对空间化音频进行渲染的一个或多个移动观看者/收听者单元。根据位置、方向和音量准确地渲染空间化音频可以提高VR场景的沉浸感，或者至少不会影响VR场景。

图2在从收听者头部200上方的俯视图中示意性地描绘了佩戴在收听者头部200上的空间化音频系统202。如图2所示，空间化音频系统202包括框架204以及附接到框架204的四个扬声器206-1、206-2、206-3、206-4。扬声器206-1附接到框架204，使得当空间化音频系统202佩戴在收听者头部200上时，扬声器206-1位于收听者头部200前方F且左侧L。扬声器206-2附接到框架204，使得当空间化音频系统202佩戴在收听者头部200上时，扬声器206-2位于收听者头部200前方F且右侧R。扬声器206-3附接到框架204，使得当空间化音频系统202佩戴在收听者头部200上时，扬声器206-3位于收听者头部200后方B且左侧L。扬声器206-4附接到框架204，使得当空间化音频系统202佩戴在收听者头部200上时，扬声器206-4位于收听者头部200后方B且右侧R。所有的扬声器206-1、206-2、206-3、206-4指向收听者头部200。图2所描绘的扬声器布置有助于生成空间化音频。

如在本申请中所使用的，“扬声器”包括但不限于产生声音的任何装置，该声音包括典型人类听觉范围之外的声音。因为声音基本上是空气分子的运动，所以可以使用许多不同类型的扬声器来产生声音。图2所描绘的扬声器206-1、206-2、206-3、206-4中的一个或多个可以是传统的电动扬声器或振动表面以产生声音的振动换能器。在包括振动换能器的实施例中，换能器可以振动任何表面以产生声音，包括但不限于框架204和收听者的颅骨。扬声器206-1、206-2、206-3、206-4可以可拆卸地(例如，磁性地)附接到框架204，使得扬声器206-1、206-2、206-3、206-4可以更换和/或升级。

图3在从收听者头部200后面的后视图中示意性地描绘了图2所描绘的空间化音频系统202。如图3所示，空间化音频系统202的框架204可以被配置为使得当空间化音频系统202佩戴在收听者头部200上时，框架204的前部位于收听者头部200上方A并且框架204的后部位于收听者头部200下方U。因为空间化音频系统202的四个扬声器206-1、206-2、206-3、206-4附接到框架204，所以当空间化音频系统202佩戴在收听者头部200上时，扬声器206-1、206-2设置在收听者头部200上方A，扬声器206-3、206-4设置在收听者头部200下方U。图3所描绘的扬声器布置有助于产生空间化音频，尤其是包括位于收听者头部200上方A和下方U的平面中的虚拟音频源的空间化音频。

虽然已经说明扬声器206-1、206-2、206-3、206-4指向收听者头部200，但是如图4所示，更准确地描述扬声器206-1、206-2、206-3、206-4指向收听者耳朵208-L、208-R。图4是类似于图2描述的俯视图。扬声器206-1、206-3指向收听者左耳208-L。扬声器206-2、206-4指向收听者右耳208-R。将扬声器206-1、206-2、206-3、206-4指向收听者耳朵208-L、208-R使得为收听者渲染的空间化音频所需的音量最小化。这反过来减少了从空间化音频系统202泄漏的声音量(即，指向非预期收听者)。每个扬声器206-1、206-2、206-3、206-4可以产生主要为圆锥形开花似(bloom)的声波，以将空间化音频聚焦向收听者耳朵208-L、208-R中的一个。框架204还可以被配置为将空间化音频聚焦向收听者耳朵208-L、208-R。例如，框架204可以包括或形成声波导以引导空间化音频。

虽然图2至图4中的系统202包括四个扬声器206-1、206-2、206-3、206-4，但是其它空间化音频系统可以包括更少或更多的扬声器。在一个实施例中，空间化音频系统包括沿着Z轴(相对于用户/收听者)的至少两个平面中彼此移位的六个扬声器(和相应的声道)，以更精准且精确地成像相对于用户/收听者头部倾斜的声源。

现在参照图5至图8，示出了一些示例性空间化音频系统的组件选项。如图5所示，头部安装的空间化音频系统202由收听者佩戴在收听者头部200上，该空间化音频系统202包括耦合到多个扬声器206的框架204。以下描述示例性空间化音频系统202的可能组件。所描述的组件并不都是实现空间化音频系统202所必需的。

尽管未在图5至图8中示出，但另一对扬声器206位于收听者头部206的另一侧上的收听者头部200附近，以提供空间化声音。这样，该空间化音频系统202一共包括四个扬声器206，类似于图2至图4所描绘的系统。尽管图5、图7和图8所描绘的空间化音频系统202中的扬声器206附接到相应的框架204，但空间化音频系统202的一些或所有扬声器206可以附接到或嵌入头盔或帽子212中，如图6描绘的实施例中所示。

空间化音频系统202的扬声器206可操作地耦合到本地处理和数据模块216，例如通过有线导线和/或无线连接214，本地处理和数据模块216可以通过各种配置被安装，例如固定地附接到框架204，如图6描绘的实施例所示固定地附接到/嵌入头盔或帽子212，如图7的实施例所示以背包式配置可拆卸地附接到收听者的躯干218，或者如图8的实施例所示以皮带耦合式配置可拆卸地附接到收听者的臀部220。

本地处理和数据模块216可以包括一个或多个节能处理器或控制器、以及数字存储器(例如，闪存)，两者都可以用于辅助数据的处理、缓存和存储。可以从可操作地耦合到框架204的传感器捕获数据，该传感器诸如为图像捕获设备(诸如，可见光相机和红外光相机)、惯性测量单元(“IMU”，其可以包括加速度计和/或陀螺仪)、指南针、麦克风，GPS单元和/或无线电设备。可替代地或另外地，可以使用远程处理模块222和/或远程数据储存库224来获取和/或处理数据，在这样的处理或检索之后可能会促进/引导通过扬声器206产生声音。本地处理和数据模块216可以例如经由有线或无线通信链路226、228可操作地耦合到远程处理模块222和远程数据储存库224，使得这些远程模块222、224可操作地彼此耦合并且可以用作本地处理和数据模块216的资源。

在一个实施例中，远程处理模块222可以包括一个或多个相对强大的处理器或控制器，其被配置为分析和处理音频数据和/或信息。在一个实施例中，远程数据储存库224可以包括相对大规模的数字数据存储设施，其可以通过因特网或“云”资源配置中的其它联网配置获得。然而，为了最小化系统滞后和延迟，虚拟声音渲染(尤其是基于检测到的姿势信息)可以限于本地处理和数据模块216。在一个实施例中，在本地处理和数据模块216中存储所有数据并且执行所有计算，允许来自任何远程模块的完全自主的使用。

在一个或多个实施例中，空间化音频系统通常适于特定的收听者头部，并且扬声器与收听者耳朵对齐。可以使用这些配置步骤以确保为收听者提供最佳的空间化音频体验，而不会引起任何生理副作用，例如头痛、恶心、不适等。因此，在一个或多个实施例中，为每个单独的收听者(在物理上和数字上)配置收听者佩戴的空间化音频系统，并可专门为收听者校准一组程序。例如，在一些实施例中，收听者佩戴的空间化音频系统可以检测或提供有头戴式空间化音频系统的扬声器与收听者耳朵之间的相应距离，以及收听者头部的3D映射。所有这些测量可以用于提供定制的头戴式空间化音频系统以适合给定的收听者。在其它实施例中，为了执行空间化音频功能，可以不需要这样的测量。例如，尽管虚拟音频源的空间化可能不太精确，但各种收听者可以舒适地使用宽松适合的空间化音频系统。

虽然不需要实现空间化音频系统，但是显示器230可以耦合到框架204(例如，除了空间音频体验之外，还用于光学AR/MR体验)，如图5到图8所示。在美国实用新型专利申请序号14/738,877(代理人案卷号ML.20019.00)和美国实用新型专利申请序号14/555,585(代理人案卷号ML.20011.00)中描述了示例性AR/MR显示器，其内容先前已通过引用并入本文。在包括显示器230的实施例中，除了空间音频数据之外，本地处理和数据模块216、远程处理模块222和远程数据储存库224还可以处理3D视频数据。

图9描绘了根据一个实施例的姿势敏感的空间化音频系统802，其包括经由有线导线和/或无线连接814可操作地耦合到本地处理和数据模块816的多个扬声器806-1、806-2。姿势敏感的空间化音频系统802还包括经由有线导线和/或无线连接814可操作地耦合到本地处理和数据模块816的头部姿势传感器832。头部姿势传感器832被配置为采集收听者/用户的头部姿势数据。头部姿势传感器832可以包括一个或多个图像捕获设备(诸如可见光相机和红外光相机)、惯性测量单元(IMU，包括加速度计和陀螺仪)、罗盘、麦克风、GPS单元或无线电设备。虽然图9中描绘的姿势敏感的空间化音频系统802仅包括两个扬声器806-1、806-2，但是根据其它实施例的空间化音频系统可以包括多个扬声器。

姿势敏感的空间化音频系统802还包括头部姿势处理器834，以至少基于由头部姿势传感器832采集的头部姿势数据来确定佩戴姿势敏感的空间化音频系统802的收听者/用户的头部姿势(例如，位置和方向)。如在本申请中所使用的那样，“头部姿势处理器”包括但不限于计算机的一个或多个单独且独立的软件和/或硬件组件(其必须在通用计算机能够确定头部姿势之前添加到该计算机)，以及添加有这些组件的计算机。

姿势敏感的空间化音频系统802还包括空间化音频处理器836，以至少基于由头部姿势处理器834确定的头部姿势，生成用于将要传送给佩戴姿势敏感的空间化音频系统802的收听者/用户的空间化音频的空间化音频数据。生成的空间化音频数据可以包括对于空间化声场中的每个虚拟音频源的内容、位置、方向和音量数据。如在本申请中所使用的那样，“音频处理器”包括但不限于计算机的一个或多个单独且独立的软件和/或硬件组件(其必须在通用计算机能够生成空间化音频数据之前添加到该计算机)，以及添加有这些组件的计算机。空间化音频处理器836还可以基于空间化音频数据生成用于多个扬声器806-1、806-2的音频信号，以将空间化音频传送给收听者/用户。可以以与图5-图8中所描绘的空间化音频系统202类似的方式，将图9中示意性描绘的姿势敏感的空间化音频系统802分成组件。

图10描绘了由真实物理音频源302生成的空间化声场300。真实物理声源302具有位置和方向。真实物理声源302产生具有许多部分的声波。由于真实物理声源302相对于收听者头部200的位置和方向，声波的第一部分306被引导到收听者的左耳208-L。声波的第二部分306'被引导远离收听者头部200并引导朝向空间化声场300中的对象304。声波的第二部分306’被对象304反射，产生反射的第三部分306”，其被引导到收听者的右耳208-R。由于声波的第一部分306、第二部分306'和第三部分306”的行进距离不同，这些部分将在稍微不同的时间到达收听者的左耳208-L和右耳208-R。此外，对象304可以在声波的反射的第三部分306”的声音到达收听者的右耳208-R之前调制其声音。

即使不存在对象304，收听者的双耳208-L、208-R将听到来自真实物理声源302的声波。如果声源302设置在收听者的左侧(如图10所示)，则收听者可以听到从其发出的声波，使得声音可以在左耳208-L中听起来更早并且在右耳208-R中听起来更晚(例如，800微秒)。实际上人类大脑的听觉中心分析这种延时以定位空间化声音的源。与右耳208-R相比，左耳208-L中的声音也可听起来更响亮。

图10所描绘的空间化声场300是相当简单的空间化声场，其仅包括一个真实物理声源302和一个对象304。即使再现这种简单的空间化声场300的空间化音频系统202也必须考虑声波的各种反射和调制。具有多余一个的声源和/或与其中的声波相互作用的多余一个的对象的空间化声场的成指数地更为复杂。空间化音频系统202必须越来越强以再现这些越来越复杂的空间化声场。虽然图9中所描绘的空间化音频处理器236是本地处理和数据模块216的一部分，但是在其它实施例中更强大的空间化音频处理器236可以是远程处理模块222的一部分，以节省本地处理和数据模块216的空间和功率。

空间化音频体验

图11在从用户/收听者头部200后方的前向透视图中描绘了根据一个实施例的空间化音频体验400。为了实现空间化音频体验400，向空间化音频系统提供用户/收听者和多个扬声器的相对位置和方向。例如，用户/收听者可以佩戴具有已知“适合”的头戴式空间化音频系统(未示出)。

空间化音频体验400包括第一虚拟音频源402-1和第二虚拟音频源402-2。这些虚拟音频源402-1、402-2可以对应于呈现给用户的视觉信息。例如，第一虚拟音频源402-1可以对应于AR/MR体验中的虚拟角色，第二虚拟音频源402-2可以对应于AR/MR体验中的虚拟喇叭。可以在耦合到空间化音频/AR/MR系统的框架的显示器(图11中未示出，参见图5至图8)上向用户显示虚拟角色和虚拟喇叭。在其它实施例中，虚拟音频源402-1、402-2可以不与任何视觉信息对应。

图11还描绘了与第一虚拟音频源402-1(即，虚拟角色)对应的声波的部分406，其引导到收听者的左耳208-L。图11还描绘了与第二虚拟音频源402-2(即，虚拟喇叭)对应的声波的第一部分406'，其引导到虚拟对象404。第一部分406'被虚拟对象404反射，形成第二部分406”，其引导到收听者的右耳208-R。

图12在侧视图中描绘了图11中所描绘的空间化音频体验400实施例。图12示出了第一虚拟音频源402-1(即，虚拟角色)虚拟地位于收听者的左耳208-L的略微下方。图12还示出了第二虚拟音频源402-2(即，虚拟喇叭)虚拟地位于收听者的右耳208-R的略微上方，并且虚拟对象404具有收听者的右耳208-R与第二虚拟音频源402-2之间的虚拟高度。

在一些实施例中，使用AR/MR显示器204显示第一虚拟音频源402-1(即，虚拟角色)和第二虚拟音频源402-2(即，虚拟喇叭)。AR/MR显示器可以被配置为在“以世界为中心”的视图中显示第二虚拟音频源402-2(以及任何其它虚拟对象)，使得第二虚拟音频源402-2的虚拟位置被设置在虚拟世界中，与观看者的位置或姿势无关。因此，如果观看者将其头部转离第二虚拟音频源402-2，则他们将不再看到虚拟对象。

虽然第一虚拟音频源402-1和第二虚拟音频源402-2不具有实际物理位置，但是它们的虚拟位置对于渲染与第一虚拟音频源402-1和第二虚拟音频源402-2对应的各空间化音频很重要。虽然图11和图12所描绘的空间化音频体验400仅包括两个虚拟音频源402-1、402-2，但是其它空间化音频体验可包括更多或更少的虚拟音频源。例如，典型的电影场景可以包括许多虚拟音频源，诸如背景音乐、背景噪声、与物理动作相关的声音以及对话。再现这些许多虚拟音频源准确地增加收听者对空间化音频体验的乐趣。

已经参照本文中用于生成和传送体验400的AR/MR和空间化音频系统的实施例来描述空间化音频体验400。其它视频和音频系统可以被配置为传送空间化音频体验400，尽管具有不同的准确度和精度。

虽然上面一般性地描述了空间化音频体验，但是一些空间化音频体验考虑了用户/收听者的姿势。例如，如下所述，可以基于检测到的用户/收听者的姿势来修改音频渲染。

姿势敏感的空间化音频系统

图13从俯视图描绘了姿势敏感的空间化音频系统802，其被配置为向用户呈现姿势敏感的空间化音频体验700。例如，姿势敏感的空间化音频体验700包括第一虚拟音频源702-1和第二虚拟音频源702-2。第一虚拟音频源702-1可以对应于AR/MR体验中的虚拟角色，第二虚拟音频源702-2可以对应于AR/MR体验中的虚拟喇叭。空间化音频体验700是“以世界为中心”的体验，其中虚拟音频源702-1、702-2在世界中具有独立于用户姿势的相应虚拟位置。

用户佩戴的空间化音频系统802包括框架804和附接到框架804的四个扬声器806-1、806-2、806-3、806-4。扬声器806-1附接到框架804，使得当空间化音频系统802佩戴在收听者头部200上时，扬声器806-1位于收听者头部200前方F且左侧L。扬声器806-2附接到框架804，使得当空间化音频系统802佩戴在收听者头部200上时，扬声器806-2位于收听者头部200前方F且右侧R。扬声器806-3附接到框架804，使得当空间化音频系统802佩戴在收听者头部200上时，扬声器806-3位于收听者头部200后方B且左侧L。扬声器806-4附接到框架804，使得当空间化音频系统802佩戴在收听者头部200上时，扬声器806-4位于收听者头部200后方B且右侧R。所有的扬声器806-1、806-2、806-3、806-4指向收听者头部200。

用户头部200处于图13所示的姿势，来自第一虚拟音频源702-1和第二虚拟音频源702-2的虚拟声音应当听起来分别从用户头部200的前方F和右侧R发出。因此，与第一虚拟音频源702-1对应的虚拟声音可以从位于用户头部200的前方F的扬声器806-1、806-2发出。类似地，与第二虚拟音频源702-2对应的虚拟声音可以从位于用户头部200的右侧R的扬声器806-2、806-4发出。渲染音频数据，使得从扬声器发出的虚拟声音产生与第一虚拟音频源702-1和第二虚拟音频源702-2的虚拟位置一致的空间化音频体验。

图14从类似于图13的俯视图描绘了姿势敏感的空间化音频系统802，其向用户呈现与图13所描绘的相同的姿势敏感的空间化音频体验700。然而，在图14中，用户/收听者头部200以及佩戴在其上的空间化音频系统802一起已经向左转90°。在这种配置中，空间化音频系统802的参考框架已经向左转90°。因此，用户/收听者头部200的右侧R面向第一虚拟音频源702-1，而用户/收听者头部200的后方B面向第二虚拟音频源702-2。

用户头部200处于图14所示的姿势，来自第一虚拟音频源702-1和第二虚拟音频源702-2的虚拟声音应当听起来分别从用户头部200的右侧R和后方B发出。因此，与第一虚拟音频源702-1对应的虚拟声音可以从位于用户头部200的右侧R的扬声器806-2、806-4发出。类似地，与第二虚拟音频源702-2对应的虚拟声音可以从位于用户头部200的后方B的扬声器806-3、806-4发出。渲染音频数据使得虚拟声音从适当的扬声器发出，同时考虑用户/收听者的姿势，产生与第一虚拟音频源702-1和第二虚拟音频源702-2的虚拟位置一致的空间化音频体验。这种姿势敏感的空间化音频体验通过以世界为中心的方式设置的虚拟对象来促进可信或可通行的虚拟世界。

如上面针对图9所描绘的姿势敏感的空间化音频系统802所解释的，空间化音频系统802可以访问用户/收听者的头部姿势并利用该头部姿势来渲染音频数据，并且呈现与音频数据对应的音频。呈现的音频与虚拟对象和用户/收听者头部200的位置一致。例如，姿势敏感的空间化音频体验700中的声音，诸如与第二虚拟音频源702-2(虚拟喇叭)对应的声音，应当被呈现，使得用户/收听者感知音频源位于收听者头部200的右侧且略微上方(参见图11和图12)。以这种方式，空间化音频系统802可以更准确且精确地针对每个用户/收听者产生空间化音频。

虽然图13和图14所描绘的空间化音频系统802包括四个扬声器806-1、806-2、806-3、806-4，但是其它空间化音频系统可以包括更少或更多的扬声器806。可以协调扬声器806的数量、类型、位置和方向以优化对用户/收听者的空间化音频的呈现。例如，较大的扬声器(例如，次低音)可用于呈现低频声音，而较小的扬声器可用于呈现高频和中频声音。

已经描述了根据各个实施例的空间化音频系统的各个方面，现在将描述使用空间化音频系统(例如，202、802)用于呈现空间化音频(例如，在空间化音频体验中)的方法。所描述的方法是姿势敏感的，以产生更准确和精确的空间化音频体验。此外，所描述的方法包括后帧时间扭曲(late-frame time warp)音频处理，以减少与系统滞后/延迟相关的伪声(artifact)的数量。

感觉延迟(sensory latency)和音频处理

如上所述，当关于以下的空间化音频系统的信息向用户/收听者呈现时，关于用户/收听者的头部姿势在姿势传感器捕获运动(例如，引起头部姿势变化的头部和/或身体的运动)的时间与基于该运动和相应声音而渲染音频数据的时间之间变化，感觉延迟在空间化音频系统中造成问题(例如，伪声)，其中虚拟声源以世界为中心的方式“卡”到虚拟世界。示例性的感觉延迟伪声是与虚拟对象对应且听起来从与虚拟对象的虚拟位置不同的虚拟位置发出的虚拟声音。由于头部快速改变平移方向的能力与快速改变旋转方向的能力相比有限，因此用户/收听者头部的旋转和倾斜比用户/收听者头部的平移更具感觉延迟问题。由于姿势或运动捕获与虚拟声音呈现之间的典型时间是毫秒级(“ms”)，因此方向改变的速度决定了导致感觉延迟问题的改变的类型。

人类大脑善于区分声音(例如，节拍)，并且在旋转平面中定位声源(例如，图3中的前、右、后、左)。因此，必须大约每4-10ms生成/更新音频“帧”，以向用户/收听者呈现真实的空间化音频体验。相比之下，可以大约每8-17ms生成/更新被显示以呈现真实的视觉体验(例如，电影)的视觉“帧”。

音频处理与视频处理不同，因为虽然视频处理通常将形状合并到一个或多个平的投影平面中，但音频处理将具有不同位置和方向的多个声源(例如，“扬声器”)合并到声音检测器(例如，“麦克风”)的多个声道中。虽然音频处理被描述为合并声源，但与“合并”的那些声源对应的是音频数据。

后帧时间扭曲音频处理

图15描绘了根据一个实施例的姿势敏感音频处理方法500，其最小化感觉延迟伪声。姿势敏感音频处理方法500利用后帧时间扭曲技术最小化检测姿势变化与基于检测到的姿势变化产生声音之间的滞后/延迟。例如，可以利用上述空间化音频系统802来实现方法500。简而言之，方法500将音频处理分为两个阶段：将音频数据部分地处理成中间格式的第一阶段；以及利用姿势数据快速完成处理的计算强度较低/计算较不费力的第二阶段。

在步骤502中，空间化音频系统802(例如，其音频处理器236)接收用于(即对应于)第一多个(例如，N个)音频源的第一音频数据。源音频数据对应于旨在经由空间化音频系统802的扬声器806传送给用户/收听者的声音。在基本上产生/传送声音的同时，可以经由有线或无线连接从数据库接收源音频数据。或者，可以在产生/传送声音之前接收源音频数据并将其存储在空间化音频系统802上。

图16示意性地描绘了根据一个实施例的后帧时间扭曲音频处理方法600。与第一音频数据对应的第一多个音频源602中的每一个均被描绘为星形。如图16所示，第一多个音频源602包括六个音频源602。当然，本实施例中音频源602的数量是任意的而不是限制性的。第一多个音频源602中的每一个可以对应于虚拟声源。

在步骤504中，空间化音频系统802(例如，其音频处理器236)将第一音频数据渲染/处理/变换为用于(即，对应于)第二多个(例如，M个)音频源的第二音频数据。步骤504对应于上述的两阶段音频处理的第一阶段。第一阶段也称为该处理的“合并阶段”。第二多个(例如，M个)音频源的数量可以小于或等于第一多个(例如，N个)音频源的数量。减少第二多个音频源的数量可简化第二阶段中的音频处理(如下所述)。从理论上说，第二多个(例如，M个)音频源的数量可以大于第一多个(例如，N个)音频源的数量，但该模型可能不会得到计算强度较低的第二阶段。步骤504中的两阶段音频处理的第一阶段还可以考虑当前佩戴空间化音频系统802(参见图17)的用户/收听者的姿势(例如，头部姿势)估计。

在图16中，与第一音频数据对应的第二多个音频源604中的每一个被描绘为圆形。第二多个音频源604中的每一个是虚拟麦克风/扬声器，其用作两阶段音频处理中的中间节点。这些音频源604是虚拟麦克风，因为步骤504中的第一阶段音频处理通过在第二多个音频源604中的每一个的位置处“记录”由第一多个音频源602中的每一个产生的虚拟声音来渲染第二多个音频源604中的每一个。因此，第二多个音频源604中的每一个可以包括来自第一多个音频源602中的每一个的音频数据。这在图16中由虚线描绘，虚线将第一多个音频源602中的每一个连接到第二多个音频源604中的每一个。这些音频源604是虚拟扬声器，因为在第二阶段音频处理中(如下所述)，第二多个音频源604用作音频处理的声源。

这些音频源/中间节点604浮动在用户/收听者头部周围的3D空间中，但不一定与其绑定(tie to)。特别地，在第一音频渲染阶段开始时，音频源/中间节点604可以基于用户头部姿势的当时最佳估计而定位在空间中，并且可以在该音频块的持续时间内保持在那里。在第二音频渲染阶段，可以基于用户的新的最佳估计姿势来渲染来自那些位置的声音。在一些实施例中，第二多个音频源/中间节点604设置在多余一个的平面中(即，在多余一个的垂直高度处)，以更准确地渲染与3D空间中设置的虚拟声源对应的音频数据。在一些实施例中，第二多个音频源/中间节点604的数量小于8，以降低第二阶段的计算复杂度(如下所述)。在一些实施例中，第二多个音频源/中间节点604设置在距离收听者头部大约6英寸(15.24cm)至大约12英寸(30.48cm)的位置。在一些实施例中，中间节点604固定在局部坐标系中，其原点锁定到用户的头部位置，但方向锁定到与用户环境的惯性参考系对应的公共世界坐标系。

在步骤506中，空间化音频系统802(例如，其头部姿势处理器234)确定当前佩戴空间化音频系统802的用户/收听者的最新姿势估计(例如，头部姿势)。作为确定最新姿势估计的一部分，空间化音频系统802可以采集最近可用的姿势数据(例如，通过头部姿势传感器232的头部姿势数据)。头部姿势传感器232可包括一个或多个图像捕获设备(诸如，可见光相机和红外光相机)、惯性测量单元(包括加速度计和陀螺仪)、罗盘、麦克风、GPS单元和无线电设备。头部姿势传感器232可以以图像、加速度和陀螺仪信息、罗盘信息、声音、GPS信息和无线电传输中的一个或多个的形式来采集头部姿势数据。所有这些数据可用于确定用户/收听者的头部姿势。由头部姿势处理器234执行的计算根据所采集(例如，通过头部姿势传感器232)的姿势数据的类型而变化。

在步骤508中，空间化音频系统802(例如，其音频处理器236)将第二音频数据渲染/处理/变换为用于(即对应于)第三多个(例如，K个)音频源的第三音频数据。步骤508对应于上述的两阶段音频处理的第二阶段。第三多个(例如，K个)音频源的数量可以小于或等于第二多个(例如，M个)音频源的数量。从理论上说，第三多个(例如，K个)音频源的数量可以大于第二多个(例如，M个)音频源的数量，但该模型不太常见。

在图16中，与第三音频数据对应的第三多个音频源606中的每一个被描绘为三角形。第三多个音频源606包括四个音频源606。当然，本实施例中音频源602的数量是任意的而不是限制性的。第三多个音频源606中的每一个可以对应于物理扬声器806。在步骤508中的第二阶段期间，音频处理器236可以访问第二多个音频源/中间节点604中的每一个的精确虚拟空间位置。该信息降低了第二阶段音频处理的计算复杂度和系统延迟。

为了渲染音频数据，第三多个音频源606中的每一个用作如上所述的虚拟麦克风。这些音频源606用作虚拟麦克风是因为步骤508中的第二阶段音频处理通过在第三多个音频源606中的每一个的位置处“记录”由第二多个音频源604中的每一个产生的虚拟声音来渲染第三多个音频源606中的每一个。因此，第三多个音频源606中的每一个可以包括来自第二多个音频源604中的每一个的音频数据。这在图16中由虚线描绘，虚线将第二多个音频源604中的每一个连接到第三多个音频源606中的每一个。如上所述，这些音频源606对应于用于向用户/收听者呈现虚拟声音的现实世界物理扬声器806。

在步骤508中的第二阶段音频处理期间，空间化音频系统802(例如，其音频处理器236)至少部分地基于在步骤506中确定的最新姿势估计来将第二音频数据渲染/处理/变换为第三音频数据。例如，如果用户/收听者头部向左转动，如图14和图16所示，则空间化音频系统802将渲染第三音频数据，使得第三多个音频源606略微向右旋转。因此，与用户/收听者左侧的虚拟对象对应的虚拟声音听起来源自用户/收听者头部的前面。还可渲染空间化音频数据以考虑用户/收听者头部除了偏航之外的俯仰和转动。此外，可以渲染空间化音频数据以考虑虚拟声源距用户/收听者头部的虚拟距离。

因为在步骤504中的第一阶段音频处理中已经发生了一些音频处理，所以步骤508中的第二阶段音频处理比第一阶段音频处理的计算强度小。通过减少第一多个音频源602(原始接收的音频数据)和第二多个音频源604(中间节点)之间音频源的数量，尤其降低了计算复杂度。计算复杂度的降低减小了感觉延迟和系统滞后。

在一些实施例中，当存在最小的姿势改变时，步骤508中的第二阶段音频处理仅最小地改变第二多个音频源604。在其它实施例中，当存在最小的姿势改变时，步骤508中的第二阶段音频处理可以仅改变第二多个音频源604的数量。

在步骤510中，空间化音频系统802(例如，扬声器806-1、806-2、806-3、806-4)基于第三音频数据呈现空间化声音。扬声器806的配置(例如，图2至图8、图13和图14所示的配置)有助于呈现沿三个轴(例如，X、Y和Z轴)可变的声音(例如，空间化音频)。

图17描绘了根据另一个实施例的姿势敏感的音频处理的方法500'，其最小化感觉延迟伪声。图17描绘的方法500'中的步骤502和步骤510与图15描绘的方法500中的对应步骤类似。步骤504'、步骤506'和步骤508'类似于图15描绘的方法500中的对应步骤。如在图15描绘的方法500中那样，在步骤502中，空间化音频系统802(例如，其音频处理器236)接收用于(即，对应于)第一多个(例如，N个)音频源的第一音频数据。

图17描绘的方法500'包括步骤502和步骤504'之间的步骤503。在步骤503中，空间化音频系统802(例如，其头部姿势处理器234)确定当前佩戴空间化音频系统802的用户/收听者的第一姿势估计(例如，头部姿势)。作为确定第一姿势估计的一部分，空间化音频系统802可以在步骤503中采集对系统802可用的姿势数据(例如，通过头部姿势传感器232的头部姿势数据)。头部姿势传感器232可包括图像捕获设备(例如，可见光相机和红外光相机)、惯性测量单元(包括加速度计和陀螺仪)、指南针、麦克风、GPS单元和无线电设备中的一个或多个。头部姿势传感器232可以以图像、加速度和陀螺仪信息、罗盘信息、声音、GPS信息和无线电传输中的一个或多个的形式采集头部姿势数据。所有这些数据可用于确定用户/收听者的第一头部姿势。由头部姿势处理器234执行的计算根据所采集(例如，通过头部姿势传感器232)的姿势数据的类型而变化。

在步骤504'中，空间化音频系统802(例如，其音频处理器236)将第一音频数据渲染/处理/变换为用于(即，对应于)第二多个(例如，M个)音频源的第二音频数据，类似于图15描绘的方法500中的步骤504。不同之处在于，在图17所描绘的方法500'中，步骤504'中的两阶段音频处理的第一阶段明确地考虑了来自步骤503的当前佩戴空间化音频系统802的用户/收听者的第一姿势(例如，头部姿势)估计。考虑在步骤503中可用的姿势估计提高了第一阶段音频处理/渲染的准确性。

在步骤506'中，空间化音频系统802(例如，其头部姿势处理器234)确定当前佩戴空间化音频系统802的用户/收听者的第二姿势估计(例如，头部姿势)。第二姿势估计是步骤506'中的最新姿势估计。作为确定最新姿势估计的一部分，空间化音频系统802可以采集最近可用的姿势数据(例如，通过头部姿势传感器232的头部姿势数据)。步骤506'非常类似于图15所描绘的方法500中的步骤506。

在步骤508'中，空间化音频系统802(例如，其音频处理器236)将第二音频数据渲染/处理/变换为用于(即，对应于)第三多个(例如，K个)音频源的第三音频数据。步骤508'中的第二阶段音频处理考虑了在步骤506'中确定的当前佩戴空间化音频系统802的用户/收听者的第二姿势(例如，头部姿势)估计。考虑步骤506'中可用的第二姿势估计，提高了第二阶段音频处理/渲染的准确性。图17所描绘的方法500'中的第二姿势估计类似于图15所描绘的方法500中的最新头部姿势估计。

在步骤510中，空间化音频系统802(例如，扬声器806-1、806-2、806-3、806-4)基于第三音频数据呈现空间化声音。步骤510与图15所描绘的方法500中的对应步骤相同。

图15至图17所描绘的并且如上所述的两阶段音频处理可以引入一些次要(minor)伪声。由于来自第一多个的音频源602与来自第二多个的音频源604之间略微未对准，示例性的次要伪声为音频源的表观位置的略微未对准。从概念上说，使声音传递通过来自第二多个的中间节点604可能导致略微未对准。此外，由于与行进至中间节点然后返回到用户/收听者的距离相比，原始距离较短，因此来自虚拟地位于中间节点604的“网络”内部的声源的虚拟声音具有略微延迟的到达时间。然而，与来自上述感觉延迟的主要伪声相比，这些次要伪声对空间化音频体验的影响小得多。

无论用户/收听者的姿势如何改变，上述后帧时间扭曲、姿势敏感的音频处理实现了虚拟空间化音频的更感知准确的渲染。由于要求对被各表面反射的音频进行建模以及由于距离和干扰引起的相位和角度变化，虚拟空间化音频的渲染的计算量可能很大。两阶段音频处理实现了更准确的渲染，其中第一阶段将音频源合并为较少的中间节点/音频源，第二阶段对来自中间节点/音频源的音频数据进行最终渲染以考虑最新获取的姿势信息。上述处理减少了获取姿势信息之后的系统延迟。

虽然上述后帧时间扭曲、姿势敏感的音频处理方法500、600包括具有特定位置的特定数量的音频源，但这些数量和位置是示例性的而不是限制性的。此外，处理阶段的数量也是示例性的而不是限制性的。

在此描述了本发明的各种示例实施例。以非限制性意义参考这些示例。提供示例是以说明本发明的更广泛适用的方面。在不脱离本发明的真实精神和范围的情况下，可以对所描述的发明进行各种改变并且可以替换等同物。此外，可以进行很多修改以适应针对本发明的目的、精神或范围的特定情况、材料、物质的组合物、过程、的过程动作或步骤。进一步地，如本领域的技术人员所知道的，在不脱离本发明的范围和精神的情况下，在此描述和示出的每个单独的变形具有独立的组件和特征，其可容易地与其他若干实施例的任意一个的特征分离或组合。所有这些修改意在处于与本公开相关的权利要求的范围之内。

本发明包括可使用主体装置执行的方法。该方法可包括提供这种合适的装置的动作。这种提供可由终端用户执行。换言之，“提供”动作仅需要终端用户的获得、访问、处理、定位、设置、激活、通电或其它动作，以在该方法中提供必要的装置。在此所述的方法可按逻辑上可能的所述事件的任何顺序以及以所述的事件顺序来执行。

以上已经描述了本发明的示例方面以及关于材料选择和制造的细节。对于本发明的其它细节，可结合以上参考的专利和出版物以及本领域的技术人员通常知道或理解的来理解。这在关于如通常或逻辑上采用的附加动作的方面，关于本发明的基于方法的方面同样成立。

此外，虽然已经参考可选地包括各种特征的若干示例描述了本发明，但是本发明并不限于被描述或表示为针对本发明的每个变形所预期的。在不脱离本发明的实际精神和范围的情况下，可以对所描述的本发明进行各种变化，并且可用等同(无论是本文所陈述的还是为了简洁的目的而未被包括的)来代替。此外，如果提供值的范围，则应当理解，在该范围的上限和下限之间的每个中间值和或者在该说明的范围中的任何其它中间值被包括在本发明之内。

此外，可预期的是，所描述的发明变形的任何可选特征可独立或结合在此描述的任何一个或多个特征来陈述和要求权利。引用单数项包括可能存在相同项的复数。更具体地，如在此和在相关的权利要求中所使用的，只要不具体说明，单数形式“一”、“所述”和“该”包括复数对象。换言之，在以上描述以及与本公开相关的权利要求中，冠词的使用允许“至少一个”目标项。还需要注意的是，可起草这种权利要求以排除任何可选元件。因此，该声明意在结合权利要求要素的表述而用作使用如“单独”、“仅”等这种排他性术语的先行基础，或者使用“否定”限制。

在不使用这种排他性术语的情况下，在与本公开相关的权利要求中的术语“包括”应允许包括任何其它要素，而不考虑给定数量的要素是否列举在这种权利要求中，或者添加特征可被视为变换在权利要求中所述的要素的性质。除了在此特别定义之外，在此所使用的全部科技术语应在维持权利要求有效的同时被提供尽可能款的通常理解的含义。

本发明并不限于所提供的示例和/或本说明书，而仅由与本公开相关的权利要求语言的范围限定。

在前面的说明书中，已经参照其具体实施例描述了本发明。然而，显而易见的是，在不脱离本发明的更广泛的精神和范围的情况下，可以对其进行各种修改和改变。例如，参照过程动作的特定顺序来描述上述过程。然而，在不影响本发明的范围或操作的情况下可以改变许多所描述的过程动作的顺序。因此，说明书和附图应被视为说明性的而非限制性的。

Claims

1.一种空间化音频系统，包括：

传感器，用于检测收听者的头部姿势，以及

处理器，用于：

基于所检测的所述收听者的头部姿势，将与第一多个源对应的第一音频数据渲染为与第二多个源对应的第二音频数据，所述第一多个源中的每个源具有第一多个位置中的相应位置，所述第二多个源中的每个源具有第二多个位置中的相应位置；以及

基于所述第二音频数据，为所述收听者再现与所述第一音频数据对应的空间化声场，

其中，所述第一多个源是虚拟声源，

其中，所述第二多个源是虚拟声源，并且由比所述第一多个源少的源组成，以及

其中，将所述第一音频数据渲染为所述第二音频数据包括：所述第二多个源中的每个源在所述第二多个位置中的相应位置处记录由所述第一多个源产生的虚拟声音。

2.根据权利要求1所述的系统，其中，所述传感器在所述处理器将所述第一音频数据渲染为所述第二音频数据之前立即检测所述收听者的所述头部姿势。

3.根据权利要求1所述的系统，其中，所述第一音频数据是完整的音频流数据集。

4.根据权利要求1所述的系统，其中，所述第二多个源由8个或更少的源组成。

5.根据权利要求1所述的系统，其中，所述第二多个位置中的每个位置是不同的位置。

6.根据权利要求1所述的系统，其中，所述第二多个位置中的每个位置比所述第一多个位置中的每个位置更接近所述收听者。

7.根据权利要求1所述的系统，其中，所述第二多个位置不位于单个平面中。

8.根据权利要求1所述的系统，还包括与所述第二多个源对应的多个扬声器，以基于所述第二音频数据产生声音。

9.根据权利要求8所述的系统，其中，所述多个扬声器中的每个扬声器在所述第二多个位置中的相应位置处对应于所述第二多个源中的相应源。

10.根据权利要求1所述的系统，其中，将所述第一音频数据渲染为所述第二音频数据进一步基于所述第一多个源的相应位置。

11.根据权利要求1所述的系统，其中，将所述第一音频数据渲染为所述第二音频数据是仅旋转的音频变换。

12.根据权利要求1所述的系统，其中，所述传感器检测所述收听者的第二头部姿势，以及

其中，所述处理器被配置为基于所检测的所述收听者的第二头部姿势，将所述第二音频数据渲染为与第三多个源对应的第三音频数据，所述第三多个源中的每个源具有第三多个位置中的一个位置，以及

其中，将所述第二音频数据渲染为所述第三音频数据包括：所述第三多个源中的每个源在所述第三多个位置中的相应位置处记录由所述第二多个源产生的虚拟声音。

13.根据权利要求12所述的系统，其中，所述传感器在所述处理器将所述第二音频数据渲染为所述第三音频数据之前立即检测所检测的所述收听者的第二头部姿势。

14.根据权利要求12所述的系统，其中，所述第三多个源由比所述第二多个源少的源组成。

15.根据权利要求12所述的系统，还包括与所述第三多个源对应的多个扬声器，以基于所述第三音频数据产生声音。