CN114026527B

CN114026527B - 可穿戴装置的空间音频

Info

Publication number: CN114026527B
Application number: CN202080047687.8A
Authority: CN
Inventors: 穆格尔·马库勒斯库; 约翰·D·缪尔; 皮尔瑞克·吉米格
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-10-22
Filing date: 2020-10-21
Publication date: 2024-09-03
Anticipated expiration: 2040-10-21
Also published as: US20220279303A1; CN114026527A; EP3967061A1; WO2021081035A1

Abstract

在连接至可穿戴装置的伴随装置或服务器处渲染空间音频，其中基于所述可穿戴装置的在所述伴随装置或服务器处估计的第一姿势估计来渲染所述空间音频。然后将所渲染的空间音频传输至所述可穿戴装置。基于所述可穿戴装置的在所述可穿戴装置处估计的第二姿势估计来在所述可穿戴装置处细化所渲染的空间音频。然后经由所述可穿戴装置的扬声器提供细化空间音频以供回放。

Description

可穿戴装置的空间音频

背景技术

为了提供更准确的、沉浸式的或令人愉快的用户体验，一些头戴式显示装置包括空间音频特征，这些空间音频特征利用为用户生成声音的扬声器。空间音频是指由装置再现的声音，使得收听者将声音感知为来自特定或接近方向。空间音频渲染技术诸如在虚拟现实(VR)或增强现实(AR)系统、导航系统或其它旅行辅助工具以及实时航空系统中具有各种应用。

在不具有任何缓解的情况下，包括运动传感器和扬声器的支持无线音频的眼镜或其它头戴式附件装置在利用远程装置时可以具有运动检测与空间音频回放之间的在400毫秒(ms)的范围内的延时，以进行与渲染空间音频相关联的运算操作。这可以对用户体验产生负面影响，特别是对于使用声音来引导用户或对用户移动做出响应的实现方式。

发明内容

根据一个方面，一种方法，该方法包括：

利用可穿戴装置接收与可穿戴装置对应的空间音频数据和第一姿势估计；

利用可穿戴装置生成与可穿戴装置对应的第二姿势估计；

利用可穿戴装置基于第二姿势估计来细化空间音频数据；以及

利用可穿戴装置基于细化空间音频数据来产生声音。

根据一些方面，该方法可以包括以下特征中的一者或多者(例如全部)(或其任何组合)。

该方法可以包括：利用可穿戴装置的运动传感器在第一时间段期间生成第一姿势元数据，其中基于第一姿势元数据来生成第一姿势估计。该方法可以进一步包括：利用运动传感器在第二时间段期间生成第二姿势元数据，其中可穿戴装置基于第二姿势元数据来生成第二姿势估计。该方法可以进一步包括：利用可穿戴装置的运动传感器在第一时间段期间生成第一姿势元数据；以及利用移动装置的相机在第一时间段期间生成第二姿势元数据，其中移动装置基于第一姿势元数据和第二姿势元数据来生成第一姿势估计。该方法可以进一步包括：利用运动传感器在第二时间段期间生成第三姿势元数据，其中可穿戴装置基于第三姿势元数据来生成第二姿势估计。另外，细化空间音频数据可以包括：基于具有全局坐标参考框架的全局空间音频变换和第二姿势估计来计算具有局部坐标参考框架的局部空间音频变换，其中全局空间音频变换可以指示在世界空间中再现空间音频数据时将要模拟音频源的位置和定向。

根据一个方面，一种系统，该系统包括：

可穿戴装置，该可穿戴装置包括：

处理器，该处理器被配置为执行计算机可读指令，该计算机可读指令在被执行时使处理器进行以下操作：

接收与可穿戴装置的第一姿势估计对应的空间音频数据；

通过基于可穿戴装置的第二姿势估计来修改空间音频数据而生成细化空间音频数据；以及

基于细化空间音频数据来产生声音。

根据另一方面，一种系统，该系统包括：

可穿戴装置，该可穿戴装置包括：

接收与可穿戴装置对应的空间音频数据和第一姿势估计；

生成与可穿戴装置对应的第二姿势估计；

基于第二姿势估计来细化空间音频数据；以及

基于细化空间音频数据来产生声音。

根据一些方面，两个前述系统中的一者或两者可以包括以下特征中的一者或多者(例如全部)(或其任何组合)。可穿戴装置可以包括运动传感器，该运动传感器被配置为在第一时间段期间生成第一姿势元数据，其中基于第一姿势元数据来生成第一姿势估计。运动传感器可以进一步被配置为在第二时间段期间生成第二姿势元数据，其中处理器基于第二姿势元数据来生成第二姿势估计。该系统可以进一步包括：伴随装置，该伴随装置包括相机，其中伴随装置被配置为：在第一时间段期间生成第二姿势元数据，该第二姿势元数据包括由相机在第一时间段期间捕获的图像数据；以及基于第一姿势元数据和第二姿势元数据来生成第一姿势估计。运动传感器可以进一步被配置为在第二时间段期间生成第三姿势元数据，其中处理器基于第三姿势元数据来生成第二姿势估计。此外，第二时间段可以紧接在第一时间段之后开始。

根据一个方面，一种系统，该系统包括：

第一装置，该第一装置包括：

第一处理器，该第一处理器被配置为执行计算机可读指令，该计算机可读指令在被执行时使第一处理器进行以下操作：

生成第一姿势估计；以及

基于第一姿势估计来渲染空间音频数据；

第二装置，该第二装置包括：

第二处理器，该第二处理器被配置为执行计算机可读指令，该计算机可读指令在被执行时使第二处理器进行以下操作：

基于第二姿势估计来生成第一细化空间音频数据，其中第一姿势估计和第二姿势估计分别与第二装置的至少一个姿势对应；以及

基于第一细化空间音频数据来产生声音。

根据一些方面，该系统可以包括以下特征中的一者或多者(例如全部)(或其任何组合)。该系统可以进一步包括：运动传感器，该运动传感器被配置为在第一时间段期间生成第一姿势元数据，其中第一处理器被配置为基于第一姿势元数据来生成第一姿势估计。运动传感器可以进一步被配置为在第二时间段期间生成第二姿势元数据，其中第二处理器被配置为基于第二姿势元数据来生成第二姿势估计。该系统可以进一步包括：第三装置，该第三装置包括：第三处理器，该第三处理器被配置为生成计算机可读指令，该计算机可读指令在被执行时使第三处理器进行以下操作：通过基于与第二装置对应的第三姿势估计来细化由第一处理器生成的空间音频数据而生成第二细化空间音频数据，其中由第二处理器通过细化第二细化空间音频数据来生成第一细化空间音频数据。运动传感器可以进一步被配置为在第三时间段期间生成第三姿势元数据，其中第三处理器被配置为基于第三姿势元数据来生成第三姿势估计。第三时间段可以发生在第一时间段与第二时间段之间。另外，第一装置可以是可穿戴装置，第二装置可以是服务器，第三装置可以是移动装置，并且可穿戴装置可以通信地耦合至服务器和移动装置。

根据一个方面，一种可穿戴装置，该可穿戴装置包括：

扬声器；以及

接收与可穿戴装置对应的声音标识符、空间位置以及第一姿势估计；

更新第一姿势估计以生成第二姿势估计；

基于声音标识符、空间位置以及第二姿势估计来渲染空间音频数据；以及

使扬声器产生与空间音频数据对应的声音。

根据另一方面，一种可穿戴装置，该可穿戴装置包括：

扬声器；以及

接收与可穿戴装置对应的空间音频数据和第一姿势估计；

生成与可穿戴装置对应的第二姿势估计；

基于第二姿势估计来细化空间音频数据；以及

使扬声器基于细化空间音频数据来产生声音。

根据一些方面，两个前述系统中的一者或两者可以包括以下特征中的一者或多者(例如全部)(或其任何组合)。

该可穿戴装置可以进一步包括：运动传感器，该运动传感器被配置为：在第一时间段期间生成第一姿势元数据，其中第一姿势元数据指示可穿戴装置在第一时间段期间的移动，并且其中基于第一姿势元数据来生成第一姿势估计；以及在第一时间段之后的第二时间段期间生成第二姿势元数据，其中第二姿势元数据指示可穿戴装置在第二时间段期间的移动，并且其中基于第二姿势元数据来生成第二姿势估计。声音标识符可以标识存储在可穿戴装置处的音频数据，并且其中渲染空间音频数据可以包括：基于空间位置和第二姿势估计来使标识出的音频数据空间化。空间音频数据可以使扬声器在产生与空间音频数据对应的声音时模拟声音在空间位置处的投射，其中关于可穿戴装置的由第二姿势估计指示的姿势限定空间位置。

附图说明

通过参考附图，可以更好地理解本公开，并且可以使其若干特征和优点对于本领域的技术人员而言显而易见。在不同附图中使用相同的附图标记表示类似或相同项。

图1是根据一些实施例的包括可穿戴装置、伴随装置以及远程服务器的分布式处理环境的框图。

图2是根据一些实施例的图1的可穿戴装置的框图。

图3是描绘了根据一些实施例的在生成真实头部姿势变化和对应姿势元数据时姿势估计随着时间的变化的图表。

图4是描绘了根据一些实施例的在具有和不具有对应空间音频数据和姿势估计的局部细化的情况下用于声音再现的模拟空间位置之间的差异的图。

图5是根据一些实施例的在伴随装置处进行初始姿势估计和空间音频渲染之后在可穿戴装置处进行姿势估计和空间音频细化的方法的流程图。

图6是根据一些实施例的在伴随装置处进行初始姿势估计和空间音频渲染之后在可穿戴装置处进行姿势估计和空间音频细化的方法的流程图，其中初始姿势估计部分地基于利用伴随装置的相机和/或其它传感器捕获的姿势元数据。

图7是根据一些实施例的使用预先存储在可穿戴装置上的音频数据在伴随装置处进行初始姿势估计和空间位置确定之后在可穿戴装置处进行姿势估计和空间音频细化的方法的流程图。

图8是根据一些实施例的在远程服务器处进行初始姿势估计和空间音频渲染之后在可穿戴装置和伴随装置处多阶段姿势估计和空间音频细化的方法的流程图。

具体实施方式

本文中结合图1至图8所描述的技术涉及减少采用空间音频的可穿戴用户装置的运动至音频输出延时的机制，特别是在通过无线或其它方式的空间音频的渲染和传输引入了显著延时(例如大约数百毫秒或更多的延时)的情况下，这是由于空间音频再现的准确性将在渲染空间音频数据的时间与再现空间音频数据的时间之间由于在延迟时段期间用户或装置姿势的潜在变化而迅速降低。本文中所描述的空间音频渲染技术可以包括双声道渲染技术，诸如立体声平移或三维(3D)声音合成技术，其可以是基于头部相关传递函数(HRTF)模型。

通常，为了渲染空间音频以模拟关于可穿戴装置在特定位置处的声音源，渲染空间音频的装置需要估计用户或可穿戴装置的姿势(即，3D空间中的定向)，并且可以基于姿势元数据来估计姿势，姿势元数据可以包括指示用户或可穿戴装置在给定时间段期间的姿势的变化的图像数据、运动数据或加速度数据，或其一个或多个推导。在一些实施例中，姿势元数据还可以包括可穿戴装置与针对可穿戴装置进行空间音频渲染或细化过程的一个或多个其它装置(例如移动装置和/或远程服务器)之间的时间戳和时间同步信息。例如，图像数据、运动数据、音频数据或加速度数据的每个条目可以包括时间戳，该时间戳指示相关联的数据条目被生成了姿势元数据的装置的对应传感器采样的时间。姿势元数据的捕获、空间音频数据的渲染以及空间音频数据的再现之间的较少延迟提高了空间音频数据的再现的准确性。这是因为空间音频的准确再现取决于用于渲染空间音频数据的姿势关于空间音频再现时的实际姿势的准确性。例如，在一些实施例中，与旨在关于可穿戴装置或用户的姿势和/或关于世界空间姿势(例如基本方向或真实世界地标)再现对应声音的期望位置相比，空间音频数据的再现的准确性取决于在再现时关于可穿戴装置或用户的姿势再现对应声音的感知位置。

为了减少延时并且提高空间音频再现准确性，姿势估计和空间音频数据分别由可穿戴装置在经由可穿戴装置的扬声器进行的空间音频再现之前被更新和细化。例如，可以在伴随装置处基于由可穿戴装置在第一时间段期间生成的指示可穿戴装置的姿势的姿势元数据来进行初始姿势估计和空间音频数据渲染，该伴随装置可以是智能电话或其它移动电子装置。可穿戴装置可以从伴随装置接收初始姿势估计和空间音频数据，然后可以基于在第一时间段之后的第二时间段期间生成的附加姿势元数据来更新初始姿势估计。可穿戴装置然后可以基于附加局部传感器数据来细化空间音频数据并且经由可穿戴装置的扬声器再现细化空间音频。

例如，“航位推算”算法可以由可穿戴装置(或在一些实施例中为伴随装置)用于基于附加姿势元数据来更新初始姿势估计。在一些实施例中，使用一个或多个卡尔曼滤波器来实施航位推算算法。

可以由可穿戴装置基于更新的姿势估计通过如下操作来细化空间音频数据：基于相对于更新的姿势估计的全局空间音频变换来计算新局部空间音频变换。等式1说明了全局空间音频变换T_{audio-source-global}、可穿戴装置姿势变换T_{wearable-pose-global}以及局部空间音频变换T_{audio-source-local}之间的关系，该全局空间音频变换与如由在可穿戴装置和/或伴随装置处执行的应用限定的模拟音频源的地点和定向对应，该可穿戴装置姿势变换与可穿戴装置的更新的姿势估计对应，该局部空间音频变换是在可穿戴装置处再现时应用于空间音频数据中所包括的音频以便将音频模拟为由特定空间位置处的音频源输出的变换。

T_{audio-source-local}＝T_{wearable-pose-global}^-1*T_{audio-source-global}(等式1)

如所示出，在等式1中，在通过将可穿戴装置姿势变换T_{wearable-pose-global}的倒数乘以全局空间音频变换T_{audio-source-global}来细化空间音频数据时生成局部空间音频变换T_{audio-source-local}，该局部空间音频变换要被应用于音频数据以模拟来自声音的音频数据在所限定的地点和定向处的投射。可以将全局空间音频变换T_{audio-source-global}包括在空间音频数据中所包括的音频姿势元数据中，或可以从音频姿势元数据中导出全局空间音频变换T_{audio-source-global}。例如，当渲染空间音频数据时，伴随装置可以确定在空间音频数据的再现期间将要模拟音频源的世界空间中的位置和定向，并且可以将该位置和定向存储为空间音频数据中所包括的音频姿势元数据。在一些实施例中，音频姿势元数据可以包括与渲染空间音频数据的时间对应的时间戳。全局空间音频变换T_{audio-source-global}和可穿戴装置姿势变换T_{wearable-pose-global}可以分别在全局坐标参考框架中加以表达(即，关于世界空间被限定)。通过关于可穿戴装置姿势变换T_{wearable-pose-global}修改全局空间音频变换T_{audio-source-global}，将坐标参考框架从关于世界空间限定的全局坐标参考框架改变为关于可穿戴装置的姿势限定的局部坐标参考框架。

通过利用来自第二时间段的姿势元数据来更新姿势估计并且基于更新的姿势估计来细化空间音频数据，当与在不进行后续修改的情况下仅仅在伴随装置处进行姿势估计和空间音频数据渲染的技术相比时，由可穿戴装置在空间音频再现时的实际姿势与用于渲染空间音频数据的可穿戴装置的估计姿势之间的差异导致的再现的空间音频(例如关于空间音频的位置和旋转)中的感知延时合乎需要地被减少。

图1示出了用于分布式数据处理的系统100，具体地，用于要经由可穿戴装置的扬声器输出的空间音频数据的分布式处理的系统100。系统100包括经由有线连接或无线连接耦合至头戴式装置104(也被称为“可穿戴装置104”)的音频渲染装置102(也被称为“伴随装置102”)。音频渲染装置102和可穿戴装置104中的一者或两者经由有线和/或无线连接并且经由网关或路由器106和/或网络108通信地耦合至服务器110。网络108可以是局域网(LAN)或广域网(WAN)，诸如互联网。在一些实施例中，音频渲染装置102经由个域网(PAN)、无线局域网(WLAN)等通信地连接至可穿戴装置104。作为下文所使用的示例，音频渲染装置102是移动装置，诸如智能电话，并且可穿戴装置104是一副智能眼镜。在一些实施例中，可穿戴装置104和/或音频渲染装置102可以设置在房间112内，从而具有可以由可穿戴装置104或音频渲染装置102检测并且用于创建声学房间模型的固有声学特性。当与空间音频数据混合时，声学房间模型修改空间音频数据以包括非理想因素(例如回声、混响、衰减等)，该非理想因素将在由设置在房间112内的给定位置处而非可穿戴装置104处的音频源产生的情况下被引入到对应声音。

在一些实施例中，音频渲染装置102基于指示可穿戴装置104的姿势的第一姿势元数据来生成姿势估计并且渲染对应空间音频数据，然后将姿势估计和空间音频数据发送给可穿戴装置104。例如，空间音频数据可以包括将由可穿戴装置104再现的音频数据并且可以包括音频姿势元数据，该音频姿势元数据限定在由可穿戴装置再现空间音频数据期间将要模拟音频数据的音频源的位置和定向(例如在世界空间中)。音频渲染装置102可以根据从在音频渲染装置102和/或可穿戴装置104处执行的应用接收的指令来生成音频姿势元数据。可穿戴装置104然后基于在第一姿势元数据之后采样的第二姿势元数据来更新姿势估计，然后基于更新的姿势估计来细化空间音频数据。例如，可穿戴装置104可以通过计算新局部空间音频变换来细化空间音频数据，如先前结合等式1所描述的。通过在可穿戴装置104处更新姿势估计并且细化空间音频数据，减少了可穿戴装置104处的姿势估计与空间音频数据再现之间的延时。

图2示出了根据一些实施例的可穿戴装置104的说明性框图。在图2的示例中，可穿戴装置104包括收发器202、处理器204、运动传感器206、存储器208、扬声器210、相机212以及显示器214，它们中的一些或全部可以经由通信总线通信地连接。在一些实施例中，运动传感器206是惯性测量单元(IMU)，因此有时在本文中被称为“IMU 206”。运动传感器206生成姿势元数据，其可以包括与可穿戴装置104的检测的移动对应的运动数据或加速度数据以及可穿戴装置104与伴随装置102或服务器110之间的对应时间戳和/或时间同步数据(取决于实施例)。在一些实施例中，运动传感器206可以在三个或六个自由度上检测可穿戴装置104的移动。在一些实施例中，处理器204基于由运动传感器206生成的运动数据或加速度数据来生成姿势元数据。在一些实施例中，相机212生成与可穿戴装置104的穿戴者的面部或在穿戴者周围的一个或多个方向上的环境对应的图像数据。可以将由相机212生成的图像数据包括在姿势元数据中，或该图像数据由处理器204用于导出姿势元数据的至少一部分。

收发器202可以包括一个或多个收发器电路，这些收发器电路分别被配置为根据相应协议(诸如无线LAN协议(例如Wi-Fi)、PAN协议(例如蓝牙、Zigbee)或蜂窝通信协议(例如4G、4G LTE、5G))进行通信。收发器202直接地或经由一个或多个中间网络装置将姿势元数据传输至伴随装置102或服务器110，以用于姿势估计生成和空间音频渲染。收发器202随后从伴随装置102或服务器110接收姿势估计和空间音频数据。在一些实施例中，运动传感器206和/或处理器104在跨越收发器202输出初始(“第一”)姿势元数据的时间至收发器202接收姿势估计和空间音频数据并且将第二姿势元数据存储在存储器208中的时间的时间段期间生成附加(“第二”)姿势元数据，使得第二姿势元数据指示可穿戴装置104在该时间段期间的运动。处理器204基于第二姿势元数据来更新姿势估计并且细化空间音频数据。当细化空间音频数据时，处理器204可以基于可穿戴装置104在第二姿势元数据所对应的时间段期间的姿势的变化来改变空间音频数据的左右扬声器强度(例如由可穿戴装置104的扬声器210的左扬声器和右扬声器产生声音的相应音量，处理器204可以经由控制提供到左扬声器和右扬声器的音频信号的幅度或控制应用于其的增益修改该相应音量)，但对于双声道音频，可能需要更复杂的算法来正确地修改考虑了用户的移动的所有6个自由度的声音。例如，可穿戴装置104可以通过计算新局部空间音频变换来细化空间音频数据，如先前结合等式1所描述的。通过基于依据第二姿势元数据生成的更新的姿势估计来细化空间音频数据，细化要经由扬声器210再现的空间音频数据以说明在由伴随装置102和/或服务器110生成姿势估计和空间音频数据时发生的可穿戴装置104的运动，从而减少了空间音频数据中的延时并且提高空间音频再现的准确性。

在一些实施例中，处理器204将空间音频数据与处理器可以根据声学房间模型生成的周围环境或环境音频特性混合。声学房间模型模拟房间(诸如房间112)的声学特性，可穿戴装置104和/或伴随装置102设置在该房间中。例如，处理器204可以基于由相机212捕获的图像数据来生成声学房间模型。在一些实施例中，代替地，由伴随装置102或服务器110基于由相机212捕获的图像数据来生成声学房间模型，然后将该声学房间模型提供到可穿戴装置104以与空间音频数据混合。在一些实施例中，可以从伴随装置102或服务器110中所包括的或通信地耦合至伴随装置102或服务器110的预先生成的房间或环境模型的本地或远程数据库中检索声学房间模型。

一旦处理器204更新姿势估计并且细化空间音频数据，处理器204就使被配置成用于空间声音再现的扬声器210输出对应声音。扬声器210模拟空间音频数据的声音以被感知为源自于关于可穿戴装置104的估计姿势的特定空间位置，如空间音频数据中所限定的。

返回参看图1，在一些实施例中，可穿戴装置104响应于由在可穿戴装置104或应该渲染和再现空间音频数据的音频渲染装置102处执行的应用做出的确定而将所生成的姿势元数据发送给音频渲染装置102。在一些实施例中，可穿戴装置104将指示应该渲染哪些音频数据的指令发送给音频渲染装置102。在一些实施例中，音频渲染装置102结合AR/VR视觉内容渲染空间音频以供传输至可穿戴装置104并且在可穿戴装置104处显示。

在从可穿戴装置104接收姿势元数据时，音频渲染装置102估计可穿戴装置104的姿势(即，地点和/或定向)，并且基于估计姿势来渲染空间音频数据，并且将所渲染的空间音频数据传输至可穿戴装置。例如，音频渲染装置102可以以从简单平移(左右声道强度)到双声道音频的若干种方式渲染地点声音。

在一些实施例中，将由音频渲染装置102渲染为空间音频数据的音频数据存储在音频渲染装置102的本地存储器装置上，而在其它实施例中，音频渲染装置102接收(例如流传输)来自服务器110的音频数据。在一些实施例中，音频渲染装置102将姿势元数据从可穿戴装置104传递到服务器110，并且服务器110渲染空间音频数据并且生成初始姿势估计，然后经由音频渲染装置102将初始姿势估计和空间音频数据发送给可穿戴装置104。在一些实施例中，可穿戴装置104在不具有中间音频渲染装置102的情况下经由网关或路由器106和/或经由网络108直接将姿势元数据发送给服务器110，并且服务器110渲染空间音频数据，生成初始姿势估计，并且经由网关或路由器106和/或网络108将两者发送给可穿戴装置104。

在上述实施例中的任一者中，用于将空间音频数据渲染到由可穿戴装置104的扬声器进行的空间音频再现的姿势检测和对应姿势元数据生成的延时可以导致在不准确的空间位置处再现不准确的音频数据，但可以通过使用在可穿戴装置104将初始姿势元数据发送给音频渲染装置102或服务器110之后生成的附加姿势元数据在可穿戴装置104处细化空间音频数据和姿势估计来减少这种不准确性。由于空间音频再现准确性的这种提高，因此有利地减少了由用户在空间音频再现时感知到的延时。例如，由于在可穿戴装置104将初始姿势元数据发送给音频渲染装置102或服务器110之后并且在空间音频由可穿戴装置104输出之前，用户可以转动其头部或以其它方式改变可穿戴装置104的姿势，因此如在空间音频中所表示的可穿戴装置104的估计姿势可以在空间音频再现时与可穿戴装置104的实际姿势错误地对准。因此，在各种实施例中，系统100通过由可穿戴装置104使用姿势估计逻辑来细化由伴随装置102或服务器110生成的姿势估计和空间音频数据来在头戴式装置中提供改进的空间音频再现。例如，虽然通常基于由可穿戴装置104的相机212捕获的图像数据对伴随装置102进行特征提取，但可穿戴装置104可以使用由IMU 206生成的运动或加速度数据来局部地进行“航位推算”以便生成更准确的姿势估计，如上文所描述的。

为了说明，图3示出了描绘在一些实施例中可穿戴装置104如何通过基于在将第一姿势元数据发送给伴随装置102之后获取的第二姿势元数据来更新姿势估计而避免姿势估计不准确性的图表300，该姿势估计不准确性由可穿戴装置104将第一姿势元数据传输至伴随装置102的时间与将姿势估计从伴随装置102被提供到可穿戴装置104的时间之间的延时引入。应理解，图3的示例还适用于初始姿势估计由服务器110而非伴随装置102生成的实施例。

如所示出，图表300包括多个行302、304、306以及308。行308示出了可穿戴装置104的运动传感器206随着时间生成的姿势元数据。行306示出了可穿戴装置104在离散时间T1和T2的真实姿势。行304示出了由伴随装置102在时间T1基于第一姿势元数据310生成的姿势估计。行302示出了由可穿戴装置104基于由伴随装置102生成的姿势估计并且进一步基于第二姿势元数据312生成的更新的姿势估计。

在本示例中，可穿戴装置104的运动传感器206在从时间T0至时间T1的时间段(“第一时间段”)期间生成第一姿势元数据310。应理解，第一姿势元数据包括在第一时间段期间获得的运动、加速度或图像数据的至少两个样本，而不仅仅反映初始条件集合。在时间T1，可穿戴装置104将第一姿势元数据310传输至伴随装置102，并且伴随装置102随后基于第一姿势元数据310来生成姿势估计。如行304和306中所示出，时间T1的真实姿势与由伴随装置102生成的姿势估计匹配。应注意，在将第一姿势元数据310传输至伴随装置102与由伴随装置102生成姿势估计之间可以存在某种边际延迟以考虑处理时间。

在将第一姿势元数据310传输至伴随装置102后，可穿戴装置104从时间T1至时间T2继续利用运动传感器206生成姿势元数据，具体地第二姿势元数据312。时间T1与时间T2之间的时段(“第二时间段”)与已从可穿戴装置104将第一姿势元数据310发送给伴随装置102和伴随装置102将姿势估计和对应空间音频数据发送给可穿戴装置104过去的时间。在该示例中，从时间T1至时间T2，可穿戴装置104的姿势改变(例如由于穿戴者转动或移动其头部)了约45度。在第一姿势元数据310或由伴随装置102生成的对应姿势估计中未指示姿势的这种改变。在时间T2从伴随装置102接收到姿势估计之后，可穿戴装置104基于第二姿势元数据312来生成更新的姿势估计，这考虑了从时间T1至时间T2发生的可穿戴装置104的真实姿势的变化。可穿戴装置104然后基于更新的姿势估计来细化空间音频数据，如行302中所示出，以与在时间T2或时间T2周围的行306中所示出的真实姿势匹配。在一些实施例中，可穿戴装置104通过整合第二时间段内的第二姿势元数据以确定姿势在第二时间段期间的净变化，然后将姿势的净变化添加到由伴随装置102产生的初始姿势估计来更新姿势估计。以这种方式，与仅使用初始姿势估计和第一元数据310来渲染空间音频数据的场景相比，提高了再现空间音频(具体地关于将模拟音频的空间位置)的准确性。

图4图示了延时对感知声音地点的影响。两个自上而下的视图400和410图示了如下情况：穿戴了可穿戴装置104的用户在时间T1生成了第一姿势元数据的时间与可穿戴装置104在时间T2从伴随装置102或服务器110接收第一姿势估计和空间音频数据的时间之间将其头部转动到右侧。

视图400示出了可穿戴装置104在从时间T0至时间T1的第一时间段结束时的真实姿势406，在该第一时间段中，可穿戴装置104的运动传感器206生成第一姿势元数据(例如图3的第一姿势元数据310)。标记404示出了沿着周界402的位置，在该位置处，由伴随装置102或服务器110渲染的初始空间音频数据将关于可穿戴装置104的姿势在再现时经由可穿戴装置104的扬声器210加以模拟。

视图400示出了可穿戴装置在从时间T1至时间T2的第二时间段结束时的真实姿势416，在该第二时间段中，可穿戴装置104的运动传感器206生成第二姿势元数据(例如图3的第二姿势元数据312)。第二时间段通常跨越用于使伴随装置102或服务器110生成第一姿势估计并且渲染空间音频数据所花费的时间。真实姿势416关于真实姿势406被旋转，从而指示用户在第二时间段期间转动其头部或身体。如果空间音频数据保持不变，那么由可穿戴装置104基于空间音频数据再现的音频将在标记418的位置处被模拟到用户的右侧，这是因为用于模拟空间音频数据的空间位置是关于可穿戴装置104的姿势限定的并且将会随着姿势转移而转移。这将在不具有固定空间地点的情况下不合需要地为用户提供音频源“浮动”或“漂浮”的感知。在一些情况下，这种效果由用户感知为如同音频源随着用户移动或以某一延迟跟随用户的移动，而不是处于固定空间投射下。相反，通过基于第二姿势元数据来更新由伴随装置102或服务器110提供的姿势估计，然后基于更新的姿势估计来细化空间音频数据，可穿戴装置104在由标记414指示的正确空间位置处再现空间音频数据，该正确空间位置与视图400中的标记404的位置对应。通过以这种方式细化空间音频数据，再现的音频为用户提供音频源位于固定空间位置处的感知，该固定空间位置不会随着用户的头部或身体移动而改变。

图5示出了渲染和再现空间音频数据的方法500的说明性过程流程。在方法500中，由可穿戴装置基于第二姿势元数据来更新可穿戴装置的姿势估计和在伴随装置处基于第一姿势元数据生成的空间音频数据，该第二姿势元数据是在伴随装置正在生成姿势估计和空间音频数据时生成的。在本示例中，方法500由图1的可穿戴装置104和伴随装置102进行。然而，在一些实施例中，其它适用装置(诸如服务器110)可以进行在本示例中归因于伴随装置102的功能中的一些或全部。在本示例中，有时关于图2的图描述了可穿戴装置104的功能。

在框502中，可穿戴装置104生成第一姿势元数据。在一些实施例中，第一姿势元数据包括由可穿戴装置104的运动传感器206(其可以是IMU)生成的运动数据或加速度数据。在一些实施例中，除了由运动传感器206生成的运动数据或加速度数据之外或代替由运动传感器206生成的运动数据或加速度数据，可穿戴装置104可以基于由可穿戴装置104的相机212捕获的图像数据来生成第一姿势元数据。可穿戴装置104在紧接在可穿戴装置104将第一姿势元数据发送给伴随装置102之前结束的第一时间段期间对第一姿势元数据进行采样。

在框504中，可穿戴装置104将第一姿势元数据发送给伴随装置102。例如，可穿戴装置104可以使用收发器202将第一姿势元数据无线传输至伴随装置102。

在框514中，伴随装置102基于从可穿戴装置104接收的第一姿势元数据来生成姿势估计。例如，伴随装置102可以分析第一姿势元数据中所包括的运动数据、加速度数据和/或图像数据来以三个或六个自由度确定可穿戴装置104的姿势在对第一姿势元数据进行采样的第一时间段期间如何关于初始姿势改变。

在框516中，伴随装置102基于姿势估计来渲染空间音频数据。在一些实施例中，伴随装置102基于从可穿戴装置104接收的指令来检索音频数据，该指令可以由可穿戴装置104所执行的软件应用生成。例如，软件应用可以是导航应用、VR应用、AR应用等。例如，软件应用可以是AR或VR安全系统，其通过播放来自检测的危险(即，潜在碰撞)的方向和地点的声音来警告用户与墙壁、物体或人的潜在碰撞。作为另一示例，软件应用可以是实时音频翻译应用程序，其根据与正穿戴可穿戴器件的用户交谈的真人的姿势来回放合成的翻译语音。作为另一示例，软件应用可以被配置为在实际上不使声音从物理装置(诸如TV、监测器、平板计算机、电话等)的扬声器发出，而是在可穿戴装置的扬声器处虚拟地播放该声音的情况下使声音看起来像是从该物理装置发出。作为另一示例，软件应用可以被配置为响应于IoT装置的状态变化或响应于用户在IoT装置的限定接近度内移动，而发射从IoT装置(诸如器具、智能灯泡等)的位置模拟的虚拟声音。

伴随装置102可以从伴随装置102的本地存储器或从远程存储器(诸如服务器110的远程存储器)中检索音频数据。在获得音频数据之后，伴随装置102基于姿势估计来使音频数据空间化以渲染到空间音频数据。例如，伴随装置102可以基于从可穿戴装置104接收的指令并且基于姿势估计来确定将模拟音频数据的空间位置。在一些实施例中，伴随装置102可以使用头部相关传递函数(HRFT)模型来渲染空间音频数据以用于基于姿势估计在特定空间位置处的模拟再现。

在框518中，伴随装置102将空间音频数据和姿势估计发送给可穿戴装置104。

在框506中，与框514、516以及518并行地，可穿戴装置104生成第二姿势元数据，该第二姿势元数据包括由运动传感器206生成的运动数据或加速度数据和/或由相机212生成的图像数据。在紧接在第一时间段之后的第二时间段内对第二姿势元数据进行采样。在一些实施例中，第二时间段在可穿戴装置104将第一姿势元数据发送给伴随装置102的时间开始并且在可穿戴装置104从伴随装置102接收空间音频数据和姿势估计的时间结束。

在框508中，在框506和框518之后，可穿戴装置104基于第二姿势元数据来生成更新的姿势估计。例如，可穿戴装置104可以分析第二姿势元数据中所包括的运动数据、加速度数据和/或图像数据来以三个或六个自由度确定可穿戴装置104的姿势在对第二姿势元数据进行采样的第二时间段期间如何改变。可穿戴装置104然后可以基于姿势在第二时间段期间如何改变来更新姿势估计以产生更新的姿势估计。

在框510中，可穿戴装置104基于从伴随装置102接收的空间音频数据并且基于从伴随装置102接收的姿势估计和更新的姿势估计中的一者或两者来生成细化空间音频数据。在一些实施例中，可穿戴装置104通过基于更新的姿势估计来调整将模拟音频投射的空间位置(例如关于可穿戴装置的姿势、用户的姿势和/或世界空间中的姿势)而细化空间音频数据。在一些实施例中，可穿戴装置104通过基于姿势估计与更新的姿势估计之间的差异来调整空间位置而细化空间音频数据。在一些实施例中，可穿戴装置104基于更新的姿势估计和关于世界空间姿势(例如基本方向或真实世界地标)的音频姿势元数据来细化空间音频数据，如先前结合等式1所描述的。

在框512中，可穿戴装置104基于细化空间音频数据经由扬声器210输出音频。在一些实施例中，可穿戴装置104可以延迟音频的输出，直至用户处于特定的预定义定向为止。在一些实施例中，可穿戴装置104可以延迟音频的输出，直至姿势保持基本不变的时间长于预定义时间量为止。在一些实施例中，可穿戴装置104可以响应于确定用户的姿势在音频回放期间已经改变了超过预定阈值量而使由扬声器210输出的音频(例如通过在预定义时间段内将音频的音量减至零)衰减，以将由可穿戴装置104输出的空间音频可能不再适用于用户的当前姿势的反馈提供到用户。

图6示出了渲染和再现空间音频数据的方法600的说明性过程流程。在方法600中，可穿戴装置的姿势估计和在伴随装置处基于由可穿戴装置的运动传感器生成的第一姿势元数据并且基于由伴随装置的相机生成的第二姿势元数据生成的空间音频数据由可穿戴装置基于第三姿势元数据来更新，该第三姿势元数据是在伴随装置正在生成姿势估计和空间音频数据时生成的。在本示例中，方法600由图1的可穿戴装置104和伴随装置102进行。然而，在一些实施例中，其它适用装置(诸如服务器110)可以进行在本示例中归因于伴随装置102的功能中的至少一些。在本示例中，有时关于图2的图描述了可穿戴装置104的功能。

在框602中，可穿戴装置104生成第一姿势元数据。在一些实施例中，第一姿势元数据包括由可穿戴装置104的运动传感器206(其可以是IMU)生成的运动数据或加速度数据。在一些实施例中，除了由运动传感器206生成的运动数据或加速度数据之外或代替由运动传感器206生成的运动数据或加速度数据，可穿戴装置104可以基于由可穿戴装置104的相机212捕获的图像数据来生成第一姿势元数据。可穿戴装置104在紧接在可穿戴装置104将第一姿势元数据发送给伴随装置102之前结束的第一时间段期间对第一姿势元数据进行采样。

在框614中，与框602并行地，伴随装置102使用伴随装置102的相机来生成第二姿势元数据。例如，第二姿势元数据可以包括由相机捕获的图像数据，其中图像数据包括来自可穿戴装置104的图像。伴随装置102在第一时间段内对与第二姿势元数据对应的图像数据进行采样。在一些实施例中，代替伴随装置102的相机或除了伴随装置102的相机之外，可以使用一个或多个其它传感器来生成第二姿势元数据。例如，这种传感器可以包括超宽带芯片传感器、红外LED传感器、追踪标记传感器和/或三维空间激光追踪系统。

在框604中，可穿戴装置104将第一姿势元数据发送给伴随装置102。例如，可穿戴装置104可以使用收发器202将第一姿势元数据无线传输至伴随装置102。

在框616中，在框604和614之后，伴随装置102基于从可穿戴装置104接收的第一姿势元数据和第二姿势元数据来生成姿势估计。例如，伴随装置102可以分析第一姿势元数据中所包括的运动数据、加速度数据和/或图像数据和第二姿势元数据中所包括的图像数据来以三个或六个自由度确定可穿戴装置104的姿势在对第一姿势元数据和第二姿势元数据进行采样的第一时间段期间如何关于初始姿势改变。

在框618中，伴随装置102基于姿势估计来渲染空间音频数据。在一些实施例中，伴随装置102基于从可穿戴装置104接收的指令来检索音频数据，该指令可以由可穿戴装置104所执行的软件应用生成。伴随装置102可以从伴随装置102的本地存储器或从远程存储器(诸如服务器110的远程存储器)检索音频数据。在获得音频数据之后，伴随装置102基于姿势估计来使音频数据空间化以渲染到空间音频数据。例如，伴随装置102可以基于从可穿戴装置104接收的指令并且基于姿势估计来确定将模拟音频数据的空间位置。在一些实施例中，伴随装置102可以使用HRFT模型来渲染空间音频数据以用于基于姿势估计在特定空间位置处的模拟再现。

在框620中，伴随装置102将空间音频数据和姿势估计发送给可穿戴装置104。

在框606中，与框616、618以及620并行地，可穿戴装置104生成第三姿势元数据，该第三姿势元数据包括由运动传感器206生成的运动数据或加速度数据和/或由相机212生成的图像数据。在紧接在第一时间段之后的第二时间段内对第三姿势元数据进行采样。在一些实施例中，第二时间段在可穿戴装置104将第一姿势元数据发送给伴随装置102的时间开始并且在可穿戴装置104从伴随装置102接收空间音频数据和姿势估计的时间结束。

在框608中，在框606和620之后，可穿戴装置104基于第三姿势元数据来生成更新的姿势估计。例如，可穿戴装置104可以分析第三姿势元数据中所包括的运动数据、加速度数据和/或图像数据来以三个或六个自由度确定可穿戴装置104的姿势在对第三姿势元数据进行采样的第二时间段期间如何改变。可穿戴装置104然后可以基于姿势在第二时间段期间如何改变来更新姿势估计以产生更新的姿势估计。

在框610中，可穿戴装置104基于从伴随装置102接收的空间音频数据以及从伴随装置102接收的姿势估计和更新的姿势估计中的一者或两者来生成细化空间音频数据。在一些实施例中，可穿戴装置104通过基于更新的姿势估计来调整将模拟音频投射的空间位置而细化空间音频数据。在一些实施例中，可穿戴装置104通过基于姿势估计与更新的姿势估计之间的差异来调整空间位置而细化空间音频数据。在一些实施例中，可穿戴装置104基于更新的姿势估计和关于世界空间姿势(例如基本方向或真实世界地标)的音频姿势元数据来细化空间音频数据，如先前结合等式1所描述的。

在框612中，可穿戴装置104基于细化空间音频数据经由扬声器210输出音频。在一些实施例中，可穿戴装置104可以延迟音频的输出，直至用户处于特定的预定义定向为止。在一些实施例中，可穿戴装置104可以延迟音频的输出，直至姿势保持基本不变的时间长于预定义时间量为止。在一些实施例中，可穿戴装置104可以响应于确定用户的姿势在音频回放期间已经改变了超过预定阈值量而使由扬声器210输出的音频(例如通过在预定义时间段内将音频的音量减至零)衰减，以将由可穿戴装置104输出的空间音频可能不再适用于用户的当前姿势的反馈提供到用户。

图7示出了渲染和再现空间音频数据的方法700的说明性过程流程。在方法700中，在伴随装置处基于由可穿戴装置的运动传感器生成的第一姿势元数据生成的可穿戴装置的姿势估计由可穿戴装置基于第二姿势元数据来更新，该第二姿势元数据是在伴随装置正在生成姿势估计时生成的。并非利用伴随装置渲染空间音频数据，而是可穿戴装置存储由伴随装置标识的预加载声音以供再现。在一些实施例中，由伴随装置在执行方法700之前将预加载声音提供到可穿戴装置。通过在本地可穿戴装置处使用预加载音频，并非在远程装置处渲染音频数据，从而有利地减少了延时。

在本示例中，方法700由图1的可穿戴装置104和伴随装置102进行。然而，在一些实施例中，其它适用装置(诸如服务器110)可以进行在本示例中归因于伴随装置102的功能中的至少一些。在本示例中，有时关于图2的图描述了可穿戴装置104的功能。

在框702中，可穿戴装置104生成第一姿势元数据。在一些实施例中，第一姿势元数据包括由可穿戴装置104的运动传感器206(其可以是IMU)生成的运动数据或加速度数据。在一些实施例中，除了由运动传感器206生成的运动数据或加速度数据之外或代替由运动传感器206生成的运动数据或加速度数据，可穿戴装置104可以基于由可穿戴装置104的相机212捕获的图像数据来生成第一姿势元数据。可穿戴装置104在紧接在可穿戴装置104将第一姿势元数据发送给伴随装置102之前结束的第一时间段期间对第一姿势元数据进行采样。

在框704中，可穿戴装置104将第一姿势元数据发送给伴随装置102。例如，可穿戴装置104可以使用收发器202将第一姿势元数据无线传输至伴随装置102。

在框714中，伴随装置102基于从可穿戴装置104接收的第一姿势元数据来生成姿势估计，确定标识要在可穿戴装置104处再现的声音的声音标识符，并且确定将模拟再现的声音的空间位置。例如，伴随装置102可以分析第一姿势元数据中所包括的运动数据、加速度数据和/或图像数据来以三个或六个自由度确定可穿戴装置104的姿势在对第一姿势元数据进行采样的第一时间段期间如何关于初始姿势改变。

可以将各种预加载声音存储在可穿戴装置104的存储器208处。基于从可穿戴装置104接收的或源自伴随装置102的指令(其可以分别由可穿戴装置104或伴随装置102执行的软件应用生成)，伴随装置102确定哪些预加载声音应该由可穿戴装置104输出并且选择对应声音标识符。

由软件应用生成的指令还可以指示预加载声音应该由可穿戴装置104再现的姿势相关位置。在生成姿势估计时，伴随装置102基于指令中所指示的姿势相关位置并且基于姿势估计来确定空间位置。

在框716中，伴随装置102将姿势估计、声音标识符以及空间位置发送给可穿戴装置104。

在框706中，与框714和716并行地，可穿戴装置104生成第二姿势元数据，该第二姿势元数据包括由运动传感器206生成的运动数据或加速度数据和/或由相机212生成的图像数据。在紧接在第一时间段之后的第二时间段内对第二姿势元数据进行采样。在一些实施例中，第二时间段在可穿戴装置104将第一姿势元数据发送给伴随装置102的时间开始并且在可穿戴装置104从伴随装置102接收空间音频数据和姿势估计的时间结束。

在框708中，在框706和716之后，可穿戴装置104基于第二姿势元数据来生成更新的姿势估计。例如，可穿戴装置104可以分析第二姿势元数据中所包括的运动数据、加速度数据和/或图像数据来以三个或六个自由度确定可穿戴装置104的姿势在对第二姿势元数据进行采样的第二时间段期间如何改变。可穿戴装置104然后可以基于姿势在第二时间段期间如何改变来更新姿势估计以产生更新的姿势估计。

在框710中，可穿戴装置104基于从伴随装置102接收的声音标识符和空间位置并且基于更新的姿势估计来生成空间音频数据。例如，可穿戴装置104可以基于声音标识符来从存储器208中检索音频数据。可穿戴装置104然后可以基于空间位置和更新的姿势估计(例如使用双声道渲染技术)来使检索到的音频数据空间化以生成空间音频数据。

在框712中，可穿戴装置104基于空间音频数据经由扬声器210输出音频。在一些实施例中，可穿戴装置104可以延迟音频的输出，直至用户处于特定的预定义定向为止或直至满足另一预定义条件为止。在一些实施例中，可穿戴装置104可以延迟音频的输出，直至姿势保持基本不变的时间长于预定义时间量为止。在一些实施例中，可穿戴装置104可以响应于确定用户的姿势在音频回放期间已经改变了超过预定阈值量而使由扬声器210输出的音频(例如通过在预定义时间段内将音频的音量减至零)衰减，以将由可穿戴装置104输出的空间音频可能不再适用于用户的当前姿势的反馈提供到用户。

图8示出了利用多阶段姿势估计和空间音频细化渲染和再现空间音频数据的方法800的说明性过程流程。在本示例中，方法800由图1的可穿戴装置104、伴随装置102以及服务器110进行。在本示例中，有时关于图2的图描述了可穿戴装置104的功能。

在框802中，可穿戴装置104生成第一姿势元数据。在一些实施例中，第一姿势元数据包括由可穿戴装置104的运动传感器206(其可以是IMU)生成的运动数据或加速度数据。在一些实施例中，除了由运动传感器206生成的运动数据或加速度数据之外或代替由运动传感器206生成的运动数据或加速度数据，可穿戴装置104可以基于由可穿戴装置104的相机212捕获的图像数据来生成第一姿势元数据。可穿戴装置104在紧接在可穿戴装置104将第一姿势元数据发送给服务器110之前结束的第一时间段期间对第一姿势元数据进行采样。

在框804中，可穿戴装置104将第一姿势元数据发送给服务器110。例如，可穿戴装置104可以使用收发器202将第一姿势元数据无线传输至伴随装置102，伴随装置102然后可以经由网关或路由器106、网络108、蜂窝网络或这些的某种组合将第一姿势元数据发送给服务器110。可替换地，可穿戴装置104可以在不将伴随装置102包括在通信路径中的情况下使用收发器202经由网关或路由器106、网络108、蜂窝网络或这些的某种组合将第一姿势元数据发送给服务器110。

在框822中，服务器110基于从可穿戴装置104接收的第一姿势元数据来生成第一姿势估计。例如，服务器110可以分析第一姿势元数据中所包括的运动数据、加速度数据和/或图像数据来以三个或六个自由度确定可穿戴装置104的姿势在对第一姿势元数据进行采样的时段期间如何关于初始姿势改变。

在框824中，服务器110基于第一姿势估计来渲染空间音频数据。在一些实施例中，服务器110基于从可穿戴装置104接收的指令来检索音频数据，该指令可以由可穿戴装置104所执行的软件应用生成。例如，服务器110可以从本地存储器中检索音频数据。在获得音频数据之后，服务器110基于第一姿势估计来使音频数据空间化以渲染到空间音频数据。例如，服务器110可以基于从可穿戴装置104接收的指令并且基于第一姿势估计来确定将模拟音频数据的空间位置。在一些实施例中，服务器110可以使用HRFT模型来渲染空间音频数据以用于基于第一姿势估计在特定空间位置处的模拟再现。

在框826中，服务器110将空间音频数据和第一姿势估计发送给伴随装置102。根据各种实施例，服务器110可以发送空间。

在框806中，与框822、824以及826并行地，可穿戴装置104生成第二姿势元数据，该第二姿势元数据包括由运动传感器206生成的运动数据或加速度数据和/或由相机212生成的图像数据，其中在紧接在第一时间段之后的第二时间段期间对第二姿势元数据进行采样。在一些实施例中，第二时间段在可穿戴装置104将第一姿势元数据发送给服务器110的时间开始并且在伴随装置102从服务器110接收空间音频数据和第一姿势估计的时间结束。

在框816中，在框806和826之后，伴随装置102基于从可穿戴装置104接收的第二姿势元数据来生成第二姿势估计。例如，伴随装置102可以分析第二姿势元数据中所包括的运动数据、加速度数据和/或图像数据来以三个或六个自由度确定可穿戴装置104的姿势在对第二姿势元数据进行采样的第二时间段期间如何改变。可穿戴装置104然后可以基于姿势在第二时间段期间如何改变来更新第一姿势估计以产生第二姿势估计。

在框818中，伴随装置102基于从服务器110接收的空间音频数据以及从服务器110接收的第一姿势估计和第二姿势估计中的一者或两者来生成第一细化空间音频数据。在一些实施例中，伴随装置102通过基于第二姿势估计来调整将模拟音频投射的空间位置而细化空间音频数据。在一些实施例中，伴随装置102通过基于第一姿势估计与第二姿势估计之间的差异来调整空间位置而细化空间音频数据。在一些实施例中，伴随装置102基于第二姿势估计和关于世界空间姿势(例如基本方向或真实世界地标)的音频姿势元数据来细化空间音频数据，如先前结合等式1所描述的。

在框820中，伴随装置102将第一细化空间音频数据和第二姿势估计发送给可穿戴装置104。

在框808中，与框816、818以及820并行地，可穿戴装置104生成第三姿势元数据，该第三姿势元数据包括由运动传感器206生成的运动数据或加速度数据和/或由相机212生成的图像数据，其中在紧接在第二时间段之后的第三时间段期间对第三姿势元数据进行采样。在一些实施例中，第三时间段在可穿戴装置104将第二姿势元数据发送给伴随装置102的时间开始并且在可穿戴装置104从伴随装置102接收第一细化空间音频数据和第二姿势估计的时间结束。

在框810中，在框808和820之后，可穿戴装置104基于第三姿势元数据来生成第三姿势估计。例如，可穿戴装置104可以分析第三姿势元数据中所包括的运动数据、加速度数据和/或图像数据来以三个或六个自由度确定可穿戴装置104的姿势在对第三姿势元数据进行采样的第三时间段期间如何改变。可穿戴装置104然后可以基于姿势在第三时间段期间如何改变来更新第二姿势估计以产生第三姿势估计。

在框812中，可穿戴装置104基于从伴随装置102接收的第一细化空间音频数据以及从伴随装置102接收的第二姿势估计和第三姿势估计中的一者或两者来生成第二细化空间音频数据。在一些实施例中，可穿戴装置104通过基于第三姿势估计来调整将模拟音频投射的空间位置而细化第一细化空间音频数据。在一些实施例中，可穿戴装置104通过基于第二姿势估计与第三姿势估计之间的差异来调整空间位置而细化第一细化空间音频数据。在一些实施例中，可穿戴装置104进一步基于第三姿势估计和关于世界空间姿势(例如基本方向或真实世界地标)的音频姿势元数据来细化第一细化空间音频数据，如先前结合等式1所描述的。

在框814中，可穿戴装置104基于第二细化空间音频数据经由扬声器210输出音频。在一些实施例中，可穿戴装置104可以延迟音频的输出，直至用户处于特定的预定义定向为止。在一些实施例中，可穿戴装置104可以延迟音频的输出，直至姿势保持基本不变的时间长于预定义时间量为止。在一些实施例中，可穿戴装置104可以响应于确定用户的姿势在音频回放期间已经改变了超过预定阈值量而使由扬声器210输出的音频(例如通过在预定义时间段内将音频的音量减至零)衰减，以将由可穿戴装置104输出的空间音频可能不再适用于用户的当前姿势的反馈提供到用户。

在一些实施例中，方法800可以由可穿戴装置104、伴随装置102以及服务器110基于伴随装置102或装置104的所确定的处理工作负载来选择性地进行。例如，方法800可以响应于可穿戴装置104或伴随装置102确定伴随装置102的处理工作负载超过预定阈值(例如最大处理器利用的80％)而进行。在一些这种实施例中，如果未超过处理工作负载，那么代替地可以进行另一种空间音频渲染方法，诸如图5至图7的方法中的一种。作为另一示例，方法800可以响应于可穿戴装置104或伴随装置102确定可穿戴装置104与服务器110之间的网络延时小于可穿戴装置104与伴随装置102之间的网络延时而进行。然而，如果可穿戴装置104与服务器110之间的网络延时较高，那么代替地可以进行另一种空间音频渲染方法，诸如图5至图7的方法中的一种。

在图1至图8的示例中的任一者中，可以将声学建模应用于细化空间音频数据以提高混合现实环境中的声音的现实性并且考虑用户的房间或环境的正确物理声学特性(混响等)。例如，伴随装置102和可穿戴装置104可以创建设置有可穿戴装置的物理房间的声学模型，该物理房间包括墙壁和物体的位置以及有可能影响音质的材料。在一些实施例中，可以至少部分地基于从伴随装置102和/或可穿戴装置104上的成像相机获得的环境的3D建模来生成该声学模型。然后将该声学房间模型存储在伴随装置102和可穿戴装置104中的一者或两者处，以用于与细化空间音频数据的后续混合。在一些实施例中，声学模型具有针对真实世界校准的地点和定向，并且可穿戴装置104紧接在音频回放之前关于最终姿势估计调整声学模型。

在一些实施例中，上文所描述的技术的特定方面可以由执行软件的处理系统中的一个或多个处理器实施。软件包括存储或以其它方式有形地体现在非暂时性计算机可读存储介质上的一组或多组可执行指令。软件可以包括指令和特定数据，该指令和特定数据在被一个或多个处理器执行时操纵一个或多个处理器进行上文所描述的技术中的一个或多个方面。非暂时性计算机可读存储介质可以包括例如磁盘存储装置或光盘存储装置、固态存储装置(诸如闪速存储器)、缓存、随机存取存储器(RAM)或一个或多个其它非易失性存储器装置等。存储在非暂时性计算机可读存储介质上的可执行指令可以是源代码、汇编语言代码、目标代码或可由一个或多个处理器解释或以其它方式执行的其它指令格式。

计算机可读存储介质可以包括在使用期间可由计算机系统访问以将指令和/或数据提供到计算机系统的任何存储介质或存储介质的组合。这些存储介质可以包括但不限于光学介质(例如光盘(CD)、数字通用光盘(DVD)、蓝光光盘)、磁性介质(例如软盘、磁带或磁性硬盘驱动器)、易失性存储器(例如随机存取存储器(RAM)或缓存)、非易失性存储器(例如只读存储器(ROM)或闪速存储器)或基于微机电系统(MEMS)的存储介质。计算机可读存储介质可以被嵌入计算系统(例如系统RAM或ROM)中，固定地被附接至计算系统(例如磁性硬盘驱动器)，可移动地被附接至计算系统(例如光盘或基于通用串行总线(USB)的闪速存储器)，或经由有线网络或无线网络(例如网络可访问存储装置(NAS))被耦合至计算机系统。

应注意，并不需要上文在一般描述中描述的所有活动或元素，可能不需要特定活动或装置的一部分，并且可以进行一个或多个其它活动，或包括除所描述的那些元素之外的元素。更进一步地，列出活动的顺序并不一定是执行这些活动的顺序。此外，已经参考特定实施例描述了概念。然而，本领域的普通技术人员将认识到，在不脱离如下文的随附权利要求书所阐述的本公开的范围的情况下可以做出各种修改和变化。因此，说明书和附图应被视为说明性的，而非限制性意义，并且所有这些修改旨在被包括在本公开的范围内。

上文已经针对特定实施例描述了益处、其它优点以及问题的解决方案。然而，益处、优点、问题的解决方案以及可以使任何益处、优点或解决方案出现或变得更加明显的任何特征不应被解释为任何或所有权利要求的关键特征、所需特征或基本特征。而且，上文所公开的特定实施例仅仅是说明性的，这是由于对于受益于本文的教导的本领域的技术人员而言显而易见的是，可以按照不同但等效的方式修改和实践所公开的主题。除了下面的权利要求书中描述的之外，本文中所示出的构造或设计的细节不旨在限制。因此，显而易见的是，可以变更或修改上文所公开的特定实施例，并且所有这些变化被视为在所公开的主题的范围内。因此，本文中寻求的保护如所附权利要求书中所阐述。

Claims

1.一种姿势估计和空间音频细化的方法，包括：

利用可穿戴装置从伴随装置接收与所述可穿戴装置对应的空间音频数据和第一姿势估计，其中所述第一姿势估计是基于在第一时间段期间生成的第一姿势元数据生成的；

利用所述可穿戴装置通过基于在所述第一时间段之后的第二时间段期间生成的第二姿势元数据更新所述第一姿势估计来生成与所述可穿戴装置对应的第二姿势估计；

利用所述可穿戴装置基于所述第二姿势估计来细化所述空间音频数据；以及

利用所述可穿戴装置基于细化的空间音频数据来产生声音。

2.根据权利要求1所述的方法，进一步包括：

利用所述可穿戴装置的运动传感器在所述第一时间段期间生成所述第一姿势元数据；

利用所述可穿戴装置向所述伴随装置发送所述第一姿势估计。

3.根据权利要求2所述的方法，进一步包括：

利用所述运动传感器在所述第二时间段期间生成所述第二姿势元数据。

4.根据权利要求1所述的方法，进一步包括：

利用所述可穿戴装置的运动传感器在所述第一时间段期间生成所述第一姿势元数据；以及

利用所述伴随装置的相机在所述第一时间段期间生成第三姿势元数据，其中所述伴随装置基于所述第一姿势元数据和所述第三姿势元数据来生成所述第一姿势估计。

5.根据权利要求4所述的方法，进一步包括：

利用所述运动传感器在所述第二时间段期间生成所述第二姿势元数据，其中所述可穿戴装置基于所述第二姿势元数据来生成所述第二姿势估计。

6.根据权利要求1至5中的任一项所述的方法，其中，细化所述空间音频数据包括：基于具有全局坐标参考框架的全局空间音频变换和所述第二姿势估计来计算具有局部坐标参考框架的局部空间音频变换，其中所述全局空间音频变换指示在世界空间中再现所述空间音频数据时将要模拟音频源的位置和定向。

7.一种姿势估计和空间音频细化的系统，包括：

可穿戴装置，所述可穿戴装置包括：

处理器，所述处理器被配置为执行计算机可读指令，所述计算机可读指令在被执行时使所述处理器：

从伴随装置接收与所述可穿戴装置的第一姿势估计对应的空间音频数据，其中所述第一姿势估计是基于在第一时间段期间生成的第一姿势元数据生成的；

通过基于在所述第一时间段之后的第二时间段期间生成的第二姿势元数据更新所述第一姿势估计来生成与所述可穿戴装置对应的第二姿势估计；

通过基于所述可穿戴装置的所述第二姿势估计来修改所述空间音频数据而生成细化的空间音频数据；以及

基于所述细化的空间音频数据来产生声音。

8.根据权利要求7所述的系统，其中，所述可穿戴装置进一步包括：

运动传感器，所述运动传感器被配置为在所述第一时间段期间生成所述第一姿势元数据；

所述处理器进一步被配置为向所述伴随装置发送所述第一姿势估计。

9.根据权利要求8所述的系统，其中，所述运动传感器进一步被配置为在所述第二时间段期间生成所述第二姿势元数据。

10.根据权利要求8所述的系统，进一步包括：

包括相机的所述伴随装置，其中所述伴随装置被配置为：

基于所述第一姿势元数据来生成所述第一姿势估计。

11.根据权利要求9和10中的任一项所述的系统，其中，所述第二时间段紧接在所述第一时间段之后开始。

12.一种姿势估计和空间音频细化的系统，包括：

第一装置，所述第一装置包括：

第一处理器，所述第一处理器被配置为执行计算机可读指令，所述计算机可读指令在被执行时使所述第一处理器：

生成第一姿势估计；以及

基于所述第一姿势估计来渲染空间音频数据；

第二装置，所述第二装置包括：

第二处理器，所述第二处理器被配置为执行计算机可读指令，所述计算机可读指令在被执行时使所述第二处理器：

基于第二姿势估计来生成第一细化的空间音频数据，其中所述第一姿势估计和所述第二姿势估计分别与第三装置的至少一个姿势对应；以及

其中，所述第三装置进一步包括：

运动传感器，所述运动传感器被配置为在第一时间段期间生成第一姿势元数据，其中所述第一处理器被配置为基于所述第一姿势元数据来生成所述第一姿势估计，并且其中，所述运动传感器进一步被配置为在第二时间段期间生成第二姿势元数据，其中所述第二处理器被配置为基于所述第二姿势元数据来生成所述第二姿势估计。

13.根据权利要求12所述的系统，进一步包括：

所述第三装置，所述第三装置包括：

第三处理器，所述第三处理器被配置为生成计算机可读指令，所述计算机可读指令在被执行时使所述第三处理器：

通过基于与所述第三装置对应的第三姿势估计来细化由所述第二处理器生成的所述第一细化的空间音频数据而生成第二细化的空间音频数据，其中由所述第二处理器通过细化所述空间音频数据来生成所述第一细化的空间音频数据。

14.根据权利要求13所述的系统，其中，所述运动传感器进一步被配置为在第三时间段期间生成第三姿势元数据，其中所述第三处理器被配置为基于所述第三姿势元数据来生成所述第三姿势估计。

15.根据权利要求14所述的系统，其中，所述第三时间段发生在所述第一时间段与所述第二时间段之后。

16.根据权利要求14和15中的任一项所述的系统，其中，所述第一装置是服务器，所述第二装置是移动装置，所述第三装置是可穿戴装置，并且所述可穿戴装置通信地耦合至所述服务器和所述移动装置。