CN111630879B

CN111630879B - 用于空间音频播放的装置和方法

Info

Publication number: CN111630879B
Application number: CN201980009322.3A
Authority: CN
Inventors: S·S·马特; A·瓦西拉凯; L·拉克索南; K·耶尔维宁; A·埃罗南; J·莱帕南
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2018-01-19
Filing date: 2019-01-14
Publication date: 2022-04-01
Anticipated expiration: 2039-01-14
Also published as: US11570569B2; GB201800920D0; EP3741139A4; EP3741139A1; US20200344563A1; WO2019141900A1; CN111630879A

Abstract

一种装置，包括至少一个处理器和包括用于一个或多个程序的计算机代码的至少一个存储器，该至少一个存储器和该计算机代码被配置为与该至少一个处理器一起使得该装置至少：生成用于内容锁定的内容锁定信息，其中，该内容锁定信息使得能够基于位置和/或定向输入来控制与与一个或多个音频源有关的音频信号相关联的音频信号处理。

Description

用于空间音频播放的装置和方法

技术领域

本申请涉及用于空间音频播放的装置和方法。

背景技术

在3D空间中，存在定义用户可在所述空间内移动的方式的六个自由度。该移动被划分成两类：旋转移动和平移移动(各自具有三个自由度)。旋转移动足以用于简单的虚拟现实(VR)体验，其中用户可转动他们的头部(俯仰、偏航和横滚)以从静态点体验该空间。平移移动意味着用户还可改变渲染的位置。换句话说，根据他们的意愿来沿着x、y和z轴移动。自由视点增强现实(AR)和VR体验允许旋转移动和平移移动这两者。

使用术语3DoF(三个自由度)、3DoF+和6DoF(六个自由度)来谈论自由度(和相关体验)是常见的。3DoF+介于3DoF与6DoF之间，因为它允许一些有限的用户移动，例如，在受限的平移自由度的同时允许全运动范围的旋转移动。因此，有时3DoF+可被视为实现受限的6DoF，其中用户是坐着的，但可将他们的头部朝各个方向倾斜。

目前，ISO/IEC运动图像专家组(MPEG)正以MPEG-I的名义标准化沉浸式媒体技术。这包括用于各种虚拟现实(VR)、增强现实(AR)或混合现实(MR)使用实例的方法。MPEG-I被划分成三个阶段：阶段1a、1b和2。阶段1a和1b考虑3DoF和3DoF+使用实例，然后阶段2将至少在某种意义上允许非受限的6DoF。对于音频标准化，已经将重点放在6DoF音频上，因为已有的方法被认为至少涵盖了3DoF/3DoF+使用实例的重要部分。然而，在某些方面将需要进一步开发至少3DoF+(阶段1b)标准。

沉浸式或空间音频(用于3DoF/3DoF+/6DoF)可包括各种音频信号和信息。例如，可使用基于通道的床和音频对象、一阶或更高阶的全景环绕声(ambisonics)(FOA/HOA)和音频对象、这些(诸如仅音频对象)的任何组合、或任何等效的空间音频表示。这些音频信号可作为MPEG-H 3D音频(如ISO/IEC 23008-3(MPEG-H部分3)音频编码标准所规定的)连同附加元数据和将构成MPEG-I音频标准的新的渲染技术一起被携带。

发明内容

根据第一方面，提供了一种装置，包括：至少一个处理器和包括用于一个或多个程序的计算机代码的至少一个存储器，至少一个存储器和计算机代码被配置为与至少一个处理器一起使得该装置至少：生成用于内容锁定的内容锁定信息，其中，该内容锁定信息使得能够基于位置和/或定向输入来控制与与一个或多个音频源有关的音频信号相关联的音频信号处理。

内容锁定信息还可使得能够基于位置和/或定向输入来控制图像的图像处理。

被使得生成内容锁定信息的该装置可被使得生成以下中的至少一个：被使得激活内容锁定的触发参数；被配置为标识至少一个音频源的标识符；以及要被应用于至少一个音频源的至少一个内容锁定类型。

至少一个内容锁定类型是以下中的至少一个：平移锁定，用于平移地锁定至少一个音频源；旋转锁定，用于旋转地锁定至少一个音频源；头部锁定，用于平移和旋转地锁定至少一个音频源；身体锁定，用于旋转地锁定至少一个音频源并且不平移地锁定该至少一个音频源；硬锁定，用于锁定至少一个音频源而该至少一个音频源没有运动；以及软锁定，用于在值的范围内锁定至少一个音频源。

触发参数可包括以下中的至少一个：采用以下中的至少一个来定义的视口范围：方位角和仰角；时间范围；以及对象标识符。

被使得生成内容锁定信息的该装置可进一步被使得生成以下中的至少一个：在实施内容锁定时要被应用于图像的图像效果；在实施内容锁定时将要由音频信号处理应用的音频效果。

内容锁定信息可包括交互信息，其中，该交互信息包括以下中的至少一个：触发标识符，被使得将信息关联到至少一个内容锁定触发器；被链接到触发标识符的影响效果，该影响效果定义将要由与与一个或多个音频源有关的音频信号相关联的音频信号处理基于位置和/或定向输入而应用的效果。

至少一个音频信令处理效果可包括以下中的至少一个：增益的加重；增益的去加重；空间范围的增加；以及空间范围的减小。

该装置可进一步被使得：获得与一个或多个音频源有关的音频信号；分析音频信号以生成与一个或多个音频源有关的信息；向至少一个其它装置发送音频信号、与一个或多个音频源有关的信息、以及内容锁定信息。

被使得获得与一个或多个音频源有关的音频信号的该装置可被使得执行以下中的至少一个：捕获音频信号；以及从至少一个音频捕获装置接收音频信号。

该装置可进一步被使得：捕获至少一个图像，该图像与一个或多个音频源相关联；以及向至少一个其它装置发送带有音频信号的至少一个图像、与一个或多个音频源有关的信息、以及内容锁定信息。

被使得向至少一个其它装置发送音频信号、与一个或多个音频源有关的信息、以及音效信息的该装置可被使得将内容锁定信息作为以下中的一个来发送：具有音频信号的带内信息；以及具有音频信号的带外信息。

根据第二方面，提供了一种装置，包括：至少一个处理器和包括用于一个或多个程序的计算机代码的至少一个存储器，至少一个存储器和计算机代码被配置为与至少一个处理器一起使得该装置至少：接收至少一个音频信号；接收与至少一个音频源相关联的信息；接收内容锁定信息，该内容锁定信息与至少一个音频源相关联；接收至少一个位置和/或定向输入；以及基于与至少一个音频源相关联的信息以及内容锁定信息并还基于位置和/或定向输入，对至少一个音频信号进行处理。

该装置可进一步被使得：接收至少一个图像；以及基于内容锁定信息以及位置和/或定向输入，对至少一个图像进行图像处理。

被使得接收内容锁定信息的该装置可被使得接收以下中的至少一个：被使得激活内容锁定的触发参数；被配置为标识至少一个音频源的标识符；以及要被应用于至少一个音频源的至少一个内容锁定类型。

至少一个内容锁定类型可以是以下中的至少一个：平移锁定，用于平移地锁定至少一个音频源；旋转锁定，用于旋转地锁定至少一个音频源；头部锁定，用于平移和旋转地锁定至少一个音频源；身体锁定，用于旋转地锁定至少一个音频源并且不平移地锁定该至少一个音频源，用于锁定至少一个音频源而该至少一个音频源没有运动；以及软锁定，用于在值的范围内锁定至少一个音频源。

被使得基于与至少一个音频源相关联的信息以及内容锁定信息并还基于位置和/或定向输入来对至少一个音频信号进行处理的该装置可被使得：基于位置和/或定向输入，确定由触发参数定义的触发事件的发生；基于从内容锁定类型确定的触发事件，选择锁定类型处理；以及对至少一个音频信号应用所选择的锁定类型处理。

至少一个所选择的锁定类型可包括锁定以下中的至少一个：与音频源相关联的增益；以及与音频源相关联的空间范围。

该装置可进一步被使得：输出处理后的至少一个音频信号作为所渲染的音频信号；以及输出处理后的至少一个图像。

根据第三方面，提供了一种方法，包括：生成用于内容锁定的内容锁定信息，其中，该内容锁定信息使得能够基于位置和/或定向输入来控制与与一个或多个音频源有关的音频信号相关联的音频信号处理。

生成内容锁定信息可包括生成以下中的至少一个：被使得激活内容锁定的触发参数；被配置为标识至少一个音频源的标识符；以及要被应用于至少一个音频源的至少一个内容锁定类型。

生成内容锁定信息可包括生成以下中的至少一个：在实施内容锁定时要被应用于图像的图像效果；在实施内容锁定时将要由音频信号处理应用的音频效果。

该方法还可包括：获得与一个或多个音频源有关的音频信号；分析音频信号以生成与一个或多个音频源有关的信息；向至少一个其它装置发送音频信号、与一个或多个音频源有关的信息、以及内容锁定信息。

获得与一个或多个音频源有关的音频信号可包括执行以下中的至少一个：捕获音频信号；以及从至少一个音频捕获装置接收音频信号。

该方法还可包括：捕获至少一个图像，该图像与一个或多个音频源相关联；以及向至少一个其它装置发送带有音频信号的至少一个图像、与一个或多个音频源有关的信息、以及内容锁定信息。

向至少一个其它装置发送音频信号、与一个或多个音频源有关的信息、以及音效信息还可包括将内容锁定信息作为以下中的一个来发送：具有音频信号的带内信息；以及具有音频信号的带外信息。

根据第四方面，提供了一种方法，包括：接收至少一个音频信号；接收与至少一个音频源相关联的信息；接收内容锁定信息，该内容锁定信息与至少一个音频源相关联；接收至少一个位置和/或定向输入；以及基于与至少一个音频源相关联的信息以及内容锁定信息并还基于位置和/或定向输入，对至少一个音频信号进行处理。

该方法还可包括：接收至少一个图像；以及基于内容锁定信息以及位置和/或定向输入，对至少一个图像进行图像处理。

接收内容锁定信息可包括接收以下中的至少一个：被使得激活内容锁定的触发参数；被配置为标识至少一个音频源的标识符；以及要被应用于至少一个音频源的至少一个内容锁定类型。

至少一个内容锁定类型可以是以下中的至少一个：平移锁定，用于平移地锁定至少一个音频源；旋转锁定，用于旋转地锁定至少一个音频源；头部锁定，用于平移和旋转地锁定至少一个音频源；身体锁定，用于旋转地锁定至少一个音频源并且不平移地锁定该至少一个音频源；硬锁定，用于锁定至少一个音频源而该至少一个音频源没有运动；以及软锁定，用于在值的范围内锁定至少一个音频源。

基于与至少一个音频源相关联的信息以及内容锁定信息并还基于位置和/或定向输入来对至少一个音频信号进行处理可包括：基于位置和/或定向输入，确定由触发参数定义的触发事件的发生；基于从内容锁定类型确定的触发事件，选择锁定类型处理；以及对至少一个音频信号应用所选择的锁定类型处理。

该方法还可包括：输出处理后的至少一个音频信号作为所渲染的音频信号；以及输出处理后的至少一个图像。

一种装置，包括用于执行如上所述的方法的动作的部件。

一种装置，被配置为执行如上所述的方法的动作。

一种计算机程序，包括用于使计算机执行如上所述的方法的程序指令。

一种在介质上存储的计算机程序产品，可使得装置执行如本文所述的方法。

一种电子设备，可包括如本文所述的装置。

一种芯片组，可包括如本文所述的装置。

本申请的实施例旨在解决与现有技术相关联的问题。

附图说明

为了更好地理解本发明，现在将通过示例的方式参考附图，其中：

图1示意性地示出适合于实现根据一些实施例的装置的系统的示例；

图2a示意性地示出根据一些实施例的第一元数据格式；

图2b示意性地示出根据一些实施例的第二元数据格式；

图3示意性地示出适合于实现根据一些实施例的第二元数据格式的示例性内容服务器和内容客户端；

图4示意性地示出适合于实现根据一些实施例的第一元数据格式的示例性内容服务器和内容客户端；

图5示出根据一些实施例的“头部锁定”的使用实例；

图6a至图6c示出如可在一些实施例中实现的基于“头部锁定”操作的示例性使用音频修改；

图7a至图7c示出如可在一些实施例中实现的基于“头部锁定”操作的进一步的示例性使用音频修改；

图8a至图8c示出如可在一些实施例中实现的基于“头部锁定”操作的进一步的示例性使用音频修改；

图9示意性地示出适合于实现如图1中所示的内容客户端和/或内容客户端的示例性设备。

具体实施方式

下文进一步详细地描述了用于提供有效的空间信号播放的合适的装置和可能的机制。具体地，下文描述了用于提供用于具有(至少旋转的)DoF的VR360(其中观看分辨率/质量旨在保持恒定)的音频源头部锁定的装置和机制。在一些实施例中，该装置和机制可被应用于3DoF、3DoF+和6DoF增强和虚拟现实应用。

具体地，下文更详细描述的实施例提供了用于头部锁定特定内容(或其一部分)的装置和机制。因此，在消费其它“全向”内容(例如，全向媒体应用格式或OMAF内容)的同时，诸如法律声明的内容能够被渲染。因此，在这种实施例中，法律声明或安全信息被渲染给用户并且能够被用户看到，而无需中断沉浸式内容消费体验。否则例如系统可能不得不将用户从环境中移出，然后再将用户放回去，这会中断用户体验(两次)。除了法律或安全声明之外，这些实施例可被应用于插入内容创建者将其标记为对于非中断观看或收听是强制性的广告或其它内容。

存在内容创建者、发布者、广告商、软件/硬件提供商或者甚至立法者可能希望用户看到的视频和音频媒体内容。

如此，下文描述的实施例示出了用于将这种内容锁定在用户的视场(FOV)和/或用户的音频兴趣场(AFI)内，同时仍允许用户具有一些体验自由度和选择何时观看或收听该强制性内容，而不是例如强制地将用户的视图切换到该强制性内容的装置和机制。此外，如下文所描述的这种装置和机制被配置为增强或提高内容体验，而不是用强制性内容覆盖。

内容锁定可被定义为多种类型的内容锁定中的任何一种。例如，“硬”锁定是其中不准许内容对象(例如，音频源或视频图像)的任何运动的锁定，而“软”锁定是其中准许内容对象的一定程度的运动的锁定。因此，软锁定可以用可能的运动范围来定义。

此外，内容锁定可关于所允许或锁定的运动类型来定义。例如，一种类型的内容锁定可以是“头部”锁定，其中不允许所标识的内容对象的旋转和平移运动。另一种类型的内容锁定可以是“旋转”锁定，其中不允许所标识的内容对象的旋转运动(但可允许平移运动)。又一种类型的锁定可以是“平移”锁定，其中不允许所标识的内容对象的平移运动(但可允许旋转运动)。这些类型的锁定可被组合以定义混合锁定，例如其中具有硬旋转锁定和软平移锁定等。

在一些实施例中，锁定可关于场景中的一个对象(或源)、多于一个的对象或所有对象(其可被定义为世界锁定)来定义。

类似地，下文在以下实施例中描述的装置和机制使得能够基于用户手势进行音频交互并且不能对所选择的音频对象的任何渲染进行修改，而不是要求用户“移动靠近”场景中的感兴趣对象以与其进行交互(例如，使音频从外部化渲染切换到用户的头部内部的单声道/立体声)。

本文所讨论的概念在实施例中通过确定与与音频内容相链接的音频源或音频对象相关联的观看信息(例如，观看信息可包括“触发”信息元数据)来实现，其中观看信息指示渲染类型。在一些实施例中，基于观看信息，至少一个参数从内容服务器被信号发送到内容(播放)客户端，以使得启用/禁用内容锁定的音频/视频内容。头部锁定内容的启用或禁用可被配置为相应地覆盖与用户的头部运动/旋转相关联的任何音频或视频处理。

在这种实施例中，参数由服务器从内容文件中读取，并且在内容比特流中被发送到客户端。例如，该参数可由内容创建者或内容格式器来定义并插入文件中。

在一些实施例中，可采用相同的方式来信号发送另一参数。该另一参数包括关于哪些/何时音频对象变得交互以及这种交互的效果的信息。在一些实施例中，关于哪些/何时音频对象变得交互以及随后的交互的渲染效果的信息可取决于应用偏好。

关于图1，示出了示例性概述系统。在图1中所示的系统示出了端到端工作流以及内容消费。

该系统包括捕获设备200、内容处理器201、内容分发格式器203、内容服务器205、内容客户端207、客户端输入设备215、以及客户端输出设备217。

捕获设备200在图1中被示为诺基亚OZO设备200，其包括被配置为捕获音频信号的麦克风阵列和被配置为捕获图像/视频数据的多个摄像头。在一些实施例中，捕获设备可以是被配置为捕获合适的媒体的一个或多个装置。例如，关于音频捕获能力，捕获设备可包括麦克风阵列、ambisonics捕获麦克风、或多麦克风中的一个或多个。捕获设备可包括一个或多个图像/视频捕获设备，诸如摄像头、景深摄像头、光场摄像头等。捕获设备可包括一个或多个定位设备，其能够实现跟踪或以其它方式获得用麦克风捕获的一个或多个音频对象或音频源的位置。除了捕获设备200之外，可以有用于提供将构成场景的至少一部分的音频和/或图像/视频数据202的其它输入方法。例如，可使用各种后期制作工具来添加或修改音频对象。

捕获设备可以包括一个或多个定位设备，其使得能够跟踪或以其它方式获得用麦克风捕获的一个或多个音频对象的位置。

音频和/或图像/视频数据202可被传递到内容处理器201。内容处理器201可被配置为接收由捕获设备或其它输入设备、服务或软件所捕获的媒体。在一些实施例中，内容处理器被配置为至少分析音频信号以确定与音频场景相关联的参数或元数据。在一些实施例中，图像/视频数据还可被用于辅助分析以确定元数据。在一些其它实施例中，图像/视频数据由内容处理器201进行处理以确定元数据。在一些实施例中，与音频场景相关联的参数或元数据的确定中的至少一些可由用户通过用户接口来执行。

内容处理器201例如可以是计算机(运行存储在存储器和至少一个处理器上的合适的软件)，或者可替代地可以是例如利用FPGA或ASIC的特定设备。如本文中进一步详细示出的，对于每个时频分析间隔，音频源或音频对象元数据可包括以下中的至少一个：位置(诸如方位角、仰角和距离，或者与参考点或‘最佳点(sweet spot)’方向和半径)参数、能量(诸如能量比率或增益)参数、大小/扩展参数。在一些实施例中，方向参数和能量比率参数可被认为是空间音频参数。换句话说，空间音频参数包括旨在表征声场的参数。

在一些实施例中，所生成的参数可在频带与频带之间不同。因此，例如，在频带X中，所有的参数被生成和发送，而在频带Y中，仅其中一个参数被生成和发送，此外，在频带Z中，没有参数被生成或发送。这种情况的实际示例可能是对于诸如最高频带的一些频带，由于感知方面原因而不需要一些参数。

这些参数和媒体信号还可被传递到内容分发格式器203。在一些实施例中，内容分发格式器包括下混合器，其被配置为接收多通道音频信号、将这些信号下混合到确定数量的通道、以及输出下混合信号。例如，下混合器可被配置为生成多通道信号的2个音频通道下混合。所确定的通道数量可以是任何合适的通道数量。在一些实施例中，下混合器是可选的，并且多通道音频信号以与下混合信号在该示例中相同的方式未经处理地被传递到编码器。在一些实施例中，音频可被表示为基于通道的床和音频对象、一阶或更高阶的ambisonics(FOA/HOA)和音频对象、这些(诸如仅音频对象)的任何组合、或任何等效的空间音频表示。

类似地，内容分发格式器203可被配置为对音频信号和/或空间音频参数进行编码以便降低比特率，以及将其复用到一个流。可以使用任何合适的方案来实现编码和复用。例如，这些音频信号可作为MPEG-H 3D音频(如ISO/IEC 23008-3(MPEG-H部分3)的音频编码标准所规定的)连同元数据一起被携带。音频(如MPEG-H 3D音频)以及实现收听者翻译和/或交互性的附加元数据的编码将在MPEG-I音频标准中规定。

在一些实施例中，内容创建者(例如，操作或编辑所捕获的媒体的用户)提供信息或规范元数据作为分发文件格式的一部分并且其包括至少一个参数，该至少一个参数能够从服务器被信号发送到客户端以使得启用/禁用关于至少一些音频/视频内容的锁定功能。分发文件可以是MPEG-I部分2中所规定的全向媒体应用格式(OMAF)版本2或其它合适的格式。

这种信息例如可被规定为元数据，这种元数据与音频数据一起在带内传送，或者与音频和视觉媒体流一起在带外传送。

已生成的诸如媒体(音频和视频信号)、空间音频参数(或元数据)和行为控制元数据的合适的媒体格式可被传递到合适的内容服务器205。

换句话说，内容服务器205可被配置为接收合适的内容(图像/视频和音频信号)和元数据，诸如先前所定义的。

内容服务器205可被配置为存储格式化信号，以及将这些格式化信号发送到内容客户端207。图1中所示的信号是媒体数据(例如，音频信号、空间音频元数据和视频信号)208以及元数据206。

关于一些实施例，关于图2a示出了元数据的示例性格式。因此，图2a示出了以锁定点元数据的形式从内容服务器205被传送到内容客户端207的元数据的示例。

例如，在一些实施例中，锁定点元数据包括诸如由以下元素所示的格式：

锁定类型：头部锁定

触发器1：

视口范围(方位角:180-270)

时间持续＝5秒

影响：

锁定内容：

URI

音频：对象ID1、对象ID2

视频：视口：(azi1,ele1)

持续时间：[T1,T2]

这些元素包括定义了所实现的锁定类型的参数，在该此示例中是头部锁定(换句话说，旋转和平移运动锁定)。可关于“硬锁定”或“软锁定”来进一步定义身体锁定，这允许内容渲染相对于用户的一些“自然的”移动。在一些实施例中，硬锁定可以是默认选项。这种“软锁定”效果对于视觉内容尤其有用，并且在一些实施例中，根据“软锁定”效果的允许自由度可能是听不见的，换句话说，所允许的移动量太小而无法被一般收听者所确定。

该示例还定义了实现锁定功能的触发器，锁定功能在该示例中用于3DOF内容，或者它可具有提供3D空间中的相对位置的附加信息并且由180度至270度的方位角的视口范围和5秒锁定来定义。此外，这些参数定义了采用显示URI、锁定由id1和id2定义的音频对象、以及在T1与T2之间的时间范围将视口锁定到方位角azi1和仰角ele1的形式的锁定的影响。

此外，在图2a中示出了另一元数据元素：

锁定类型：身体锁定

触发器2：

内容ID or URI

时间：T1

影响：

持续时间：[T1,T2]

音频：对象ID1、扬声器通道

该元素定义了另一种锁定类型，即，身体锁定。身体锁定可以是仅平移锁定。

同样地，如先前所讨论的，可定义另一种锁定类型“头部锁定而没有身体锁定”，这种锁定实现旋转锁定但没有平移锁定。因此，在这种示例中，视口将是固定的，但平移可使得播放装置对内容进行缩放(对音频对象应用距离/增益衰减，并根据用户平移来缩放视觉内容)。

实施例的信令实现要求需要识别将要被应用头部锁定的内容项、描述将要被执行的头部锁定的条件、以及需要规定将要被应用的锁定的持续时间。内容项标识通常可以是内容元数据内的音频或视觉对象的索引或其它的唯一标识符。在MPEG-I音频的情况下，内容项可以是被单独编码的音频对象或被嵌入空间音频对象编码SAOC双流中的音频对象。此外，MPEG-I阶段2考虑实现用于更高阶的ambisonics(HOA)的6DoF。在一些情况下，可实施用于HOA内容的一部分的头部锁定，这意味着头部锁定的内容可包含空间信息。对于视觉内容，内容项可以是叠加的视觉项(例如，静止图像或视频等的2D裁剪帧)。

条件描述了何时将要执行头部锁定。例如，条件可以是：用户观看内容项或在内容项附近的时间长于预定时间；用户距离内容项的距离小于预定阈值距离；用户对内容项执行交互或在内容项上执行交互；诸如此类。

效果的持续时间例如可被定义为从启动头部锁定开始的时长，或者用户保持在距离在启动头部锁定时的位置的阈值距离内的时长等。默认值可以是分量流的持续时间(包括任何淡入或淡出效果)。

此外，内容描述可指示当系统进入头部锁定模式时和/或当其退出头部锁定模式时要被应用的效果。效果描述了在过渡期间要如何渲染内容项、以及过渡的持续时间。示例性过渡效果是指示将要被头部锁定的音频内容将要首先在其原始位置处进行渲染，然后逐渐在空间上被扩展以覆盖围绕用户的更大空间区域(包括横跨区域的定义)。相应地，可指定视觉内容部分所占据的空间跨度。

描述还可指示当显示头部锁定的内容时，对剩余内容(周围的6DoF内容，如果有)应用什么。替代方法是保持剩余内容不变(渲染而没有变化)、衰减渲染(降低音量或使视觉内容变暗或不那么突出)、或完全静音(使音频无声并使视觉内容变暗)。

关于图2b，示出了在服务器与客户端之间传送的另一元数据格式。在以下示例中，定向由方位角值来定义。在一些实施例中，定向可由两个值(例如，方位角和仰角)来定义，但可被认为是元数据中的单个参数。

因此，例如，交互性元数据可包括诸如以下的格式：

触发器1：

缩放级别：

视图定向：

视图位置

影响：

音频：对象ID1

效果：头部内立体声

持续时间：X秒

或者

触发器2：

姿势：前倾

视图定向：方位角(A1,A2)

影响：

持续时间：[T1,T2]

音频：对象ID1

效果：干湿比率2X

在其它实施例中，锁定点信息可在带外传送。换句话说，作为单独的信息由服务器传送到客户端。因此，锁定点信息可被实现为观看会话相关的信令。例如，服务器可具有用于发送锁定点元数据的准则(首次到达客户端或者例如具有到服务器的先前未见过的MAC地址)。

内容客户端207可被配置为从内容服务器205接收诸如媒体数据(例如，音频信号、空间音频元数据和视频信号)208以及音效规范元数据206的信号，以及将这些信号渲染到合适的输出，诸如操作为图像/视频输出的头戴式显示器215和操作为音频输出的耳机217。此外，在一些实施例中，内容客户端可被配置为从合适的客户端输入接收诸如来自头戴式显示器的头部定向和平移信号，位置/地点估计等的输入。这些输入可被用作参数，该参数使得媒体信号在被输出之前被处理或修改。在如本文所讨论的一些实施例中，媒体信号基于空间音频元数据并且还基于锁定元数据来修改。

内容客户端可被配置为进行操作以使得当用户遇到如由元数据所定义的与视频和/或音频内容有关的“锁定点”时，客户端引起与“锁定点”有关的视频和/或音频内容的“头部锁定”(或任何其它合适的内容锁定)的激活。

“锁定”内容被呈现给用户，以使得用户的头部旋转或移动根本不会影响“锁定”内容的渲染(或以减少的程度)。

“锁定”内容被呈现给用户，直到预定义的片段完成为止。

“锁定”视频内容可占据整个视口或仅其一部分，并且它可以是半透明的。

如果“锁定”视频仅占据视口的一部分，则这可允许用户改变他们相对于剩余视图的定向。然而，该剩余部分也可被“锁定”。这由元数据来控制。“锁定”音频内容可覆盖任何其它音频表示，或者它可允许同时的非锁定或锁定(即，剧情声和非剧情声)音频内容的音频表示。与视频情况类似，特定内容的“锁定”可导致(在默认情况下)剧情音频内容的锁定。这由元数据来控制。在完成“锁定”内容的呈现之后，默认内容呈现从开始“锁定”内容的空间点和/或时间点，或者从用户移动在“锁定”呈现期间已被考虑的修改的空间和/或时间点重新开始。

“锁定”内容例如可以是广告、教程或学习经验、指导用户的增强功能、解说或其它语音导航、允许用户完成某一任务的临时用户接口、法律文本、建议或规则或任何其它视觉或音频内容。

锁定内容描述包含内容项的标识、要开始头部锁定时的条件的描述、以及要停止头部锁定时的条件的描述。

可选地，锁定内容描述包含当过渡到用于视听内容的头部锁定模式中和从用于视听内容的头部锁定模式过渡出时的过渡效果的描述。

除了将内容从世界锁定(所有内容对象在旋转和平移上被锁定)修改为头部锁定(其中一些对象在旋转和平移上被锁定)之外，该方法还可考虑其中跟踪用户的躯干的身体锁定内容(其中一些对象仅在旋转上被锁定)。

例如，该方法可考虑被头部锁定但没有被身体锁定的内容，在旋转锁定被应用的情况下，任何头部(或对象)平移都会导致内容渲染的改变(例如，针对音频级别和/或视觉尺寸来适当地缩放内容)。

关于图3，更详细地示出了图1中所示的装置的示例性实现。

内容服务器205因此包括内容301，内容301已被生成并且在文件格式器的辅助下被格式化具有媒体数据和元数据。

内容客户端207包括用户位置确定器/跟踪器311，用户位置确定器/跟踪器311被配置为例如经由头戴式显示器和任何其它合适的输入来接收用户的位置的输入，以及按照平移(位置)和旋转来确定用户位置。

该信息可经由内容请求和被发送到内容客户端的内容数据而被传递到内容服务器205。

在一些实施例中，内容客户端包括媒体/内容流元数据解析器313。媒体/内容流元数据解析器313被配置为从所提供的内容数据中提取锁定点(在一些实施例中还包括交互性)元数据，以及关于任何新的元数据元素来更新触发监视器。

在一些实施例中，内容客户端还包括触发监视器315。触发监视器315被配置为接收所提取的锁定点元数据，并且还被配置为接收用户位置和定向值，以及监视用户位置和定向是否对应于锁定点元数据内的一个或多个元素。

当触发器监控器315确定用户位置和定向值对应于一个或多个锁定点元数据元素时，换句话说，“锁定”触发器已被激活，则这可被信号发送到音频渲染引擎317和视频渲染引擎318。

在一些实施例中，内容客户端207包括音频渲染引擎317。在一些实施例中，音频渲染引擎317被配置为接收内容的音频成分(例如，下混合或采用其它方式的音频信号以及与该音频信号相关联的空间元数据)，以及基于触发监视器315的输出向内容客户端的用户渲染将要被输出的音频信号。

用于锁定内容的渲染实现例如可如下地执行。

考虑例如位于笛卡尔世界坐标(x_o,y_o,z_o)(该坐标在一些实施例中可以是时变的)处的音频对象(或内容元素)。用户位置用笛卡尔坐标(x_u,y_u,z_u)来表示，头部定向用偏航、俯仰、横滚来表示。当向用户渲染6DoF音频信号时，用户位置确定器/跟踪器311例如可首先获得变换后的对象位置如(x_o-x_u,y_o-y_u,z_o-z_u)。然后，用户位置确定器/跟踪器311可将变换后的对象位置转换为如方位角、仰角、距离的球坐标，并将这些坐标传递到音频渲染引擎317。音频渲染引擎317还可考虑头部旋转以关于用户头部来更新用户位置。利用更新后的对象位置来渲染对象可使用任何合适的方式来执行，例如，用于双耳再现的头部相关传递函数(HRTF)滤波或用于扬声器再现的矢量基幅度平移(VBAP)。

当对象被头部锁定时，对象位置没有平移并且头部旋转不被补偿。这使得对象在相对于用户头部的固定位置处被渲染。

在一些实施例中，内容客户端207包括视频渲染引擎318。在一些实施例中，视频渲染引擎318被配置为接收视频图像，以及相对于所确定的视口并基于触发监视器315的输出来渲染图像。

进一步关于图4示出了该系统，其示出了包括内容文件的服务器205，该内容文件包括采用锁定点元数据(如由元素421和431所示)和交互元数据(如由元素441和451所示)形式的触发信息411。

关于图5示出了第一示例，其示出用户激活至少一个视频和/或音频内容的“头部锁定”。在该示例中，用户具有第一位置/定向501并且被位于用户周围的内容围绕，诸如第一内容元素513、第二内容元素511、第三内容元素515和第四内容元素517。关于该场景，第四内容元素(例如，所显示的安全通知和音频消息)在该附图的左侧处于未锁定状态。例如，此时所述音频消息可以或可以不被呈现给用户。

然而，当用户通过旋转到第二位置/定向503来移动并观看与所显示的安全通知和音频消息对应的第四内容元素时，则用户触发“锁定点”并且第四内容元素被设置为“锁定”状态。例如，如果音频消息尚未被呈现，则可在此时开始播放该音频消息，并且从此时开始所述音频消息将保持在非剧情模式中，直到所信号发送的持续时间结束为止。此后，如果该音频消息仍然继续，则它可转变回到其默认渲染(包括其渲染位置)和默认模式(其可以是剧情或非剧情的)。关于区域和任何(可选的)附加条件或渲染效果的信息经由元数据信令被提供给渲染器。

图6a和图6b更详细地呈现了在3DoF+环境600中本发明的使用和所得的渲染修改的图示。图6a首先示出了默认渲染(例如，没有锁定点的实现)，其中处于第一位置/旋转601的用户正在体验3DoF+内容。该内容由第一内容元素613、第二内容元素611、第三内容元素615和第四内容元素617表示。在这种情形中，用户能够从向前的位置观看和听见第三内容元素615，例如，所显示的安全通知和音频消息。

用户旋转到3DoF+空间600内的第二位置/旋转603。在未锁定体验中，在由于用户第二位置/旋转603在3DoF+空间600内而内容方向保持“世界锁定”的意义上，这对应于用户在现实世界环境中旋转。换句话说，由于当用户以逆时针运动来旋转时未锁定对象“顺时针移动”，因此，用户可能不能观看(并且声音可能会降级到外围体验)第三内容元素615。

图6b渲染了根据一些实施例的相同的情况，其中单个内容元素被“头部锁定”。该附图的左侧与图6a的左侧相同，但其中第三内容元素是锁定的第三内容元素625，而第一内容元素613、第二内容元素611和第四内容元素617是未锁定的。该附图的右侧示出了相同的用户到第二位置/旋转603的运动，但其中未锁定的内容元素611、613和617由于用户的运动而相对于用户视图‘移动’，而锁定的第三元素内容元素625仍然位于使得用户能够从相同的向前的位置观看和听见锁定的第三内容元素625的位置。

图6c示出了所有的内容元素被“头部锁定”的示例。该附图的左侧与图6a的左侧相同，但其中第一内容元素是锁定的第一内容元素641，第二内容元素是锁定的第二内容元素643，第三内容元素是锁定的第三内容元素645，第四内容元素是锁定的第四内容元素647。附图的右侧示出了相同的用户到第二位置/旋转603的运动，但其中未锁定的内容元素由于用户的运动而相对于用户视图‘移动’，而锁定的内容元素625仍位于相对于用户的相同位置。换句话说，内容如同用户位于第一位置/定向并且独立于用户的当前位置/定向而被体验，并且以这种方式，用户能够从相同的向前的位置观看和听见锁定的第三内容元素645。

图7a至7c和8a至8c示出了当实现如本文所描述的实施例时进一步的用户消费VR内容的示例。

因此，图7a示出了用户701体验位于距离d₁处的第一音频对象(对象₁)703、位于距离d₂处的第二音频对象(对象₂)705、位于距离d₃处的第三音频对象(对象₃)707、以及位于位置d₄处的第四音频对象(对象₄)709。具有空间音频的音频对象被渲染为外部化声音。

图7b示出了相同的场景，但其中用户前倾702，现在位于第二位置/定向711。

图7c示出了图7b中所示的场景的效果，但其中第二音频对象已被锁定，例如由于触发元数据定义(诸如使音频对象仅在特定定向和缩放级别(例如，在缩放级别2X)进行交互)。在该示例中，音频源继续被“外部化”。

图8a示出了用户执行合适的缩放(例如，2X)，这不触发或禁用由触发元数据定义所定义的锁定(诸如，使音频对象仅在特定定向和缩放级别(例如，在缩放级别2X)进行交互)以及前倾运动。

图8b示出了当对象₂从被外部化移动到被渲染为头部内立体声的前倾运动的效果。

然后，图8c示出了对象₂位于头部内而与横向或旋转移动无关的效果。

关于图9，示出了可用作内容客户端设备的示例性电子设备。该设备可以是任何合适的电子设备或装置。例如，在一些实施例中，设备1400是移动设备、用户设备、平板计算机、计算机、音频播放装置等。

在一些实施例中，设备1400包括至少一个处理器或中央处理单元1407。处理器1407可被配置为执行诸如本文所描述的方法的各种程序代码。

在一些实施例中，设备1400包括存储器1411。在一些实施例中，至少一个处理器1407被耦合到存储器1411。存储器1411可以是任何合适的存储部件。在一些实施例中，存储器1411包括，用于存储可在处理器1407上实现的程序代码的程序代码部分。此外，在一些实施例中，存储器1411还可包括用于存储数据(例如，根据本文所描述的实施例的已被处理或将要处理的数据)的存储数据部分。无论何时只要需要，处理器1407就可经由存储器-处理器耦合来获取存储在程序代码部分中的实现程序代码和存储在存储数据部分中的数据。

在一些实施例中，设备1400包括用户接口1405。在一些实施例中，用户接口1405可被耦合到处理器1407。在一些实施例中，处理器1407可控制用户接口1405的操作并从用户接口1405接收输入。在一些实施例中，用户接口1405可使得用户能够例如经由键盘将命令输入到设备1400。在一些实施例中，用户接口1405可使得用户能够从设备1400获得信息。例如，用户接口1405可包括被配置为将信息从设备1400显示给用户的显示器。在一些实施例中，用户接口1405可包括触摸屏或触摸界面，其能够使得信息被输入到设备1400并且还向设备1400的用户显示信息。在一些实施例中，用户接口1405可以是用于与如本文所描述的位置确定器通信的用户接口。

在一些实施例中，设备1400包括输入/输出端口1409。在一些实施例中，输入/输出端口1409包括收发机。在这种实施例中，收发机可被耦合到处理器1407并且被配置为使得能够例如经由无线通信网络与其它装置或电子设备进行通信。在一些实施例中，收发机或任何合适的收发机或发射机和/或接收机装置可被配置为经由有线或有线耦合与其它电子设备或装置通信。

收发机可通过任何合适的已知通信协议与其它装置通信。例如，在一些实施例中，收发机或收发机部件可使用合适的通用移动电信系统(UMTS)协议、诸如例如IEEE 802.X的无线局域网(WLAN)协议、诸如蓝牙的合适的短距离射频通信协议、或者红外数据通信路径(IRDA)。

收发机输入/输出端口1409可被配置为接收扬声器信号，并且在一些实施例中通过使用执行合适的代码的处理器1407来确定如本文所描述的参数。此外，设备可生成合适的下混合信号和参数输出以发送到合成设备。

在一些实施例中，装置1400可被作为合成设备的至少一部分。如此，输入/输出端口1409可被配置为接收下混合信号，并且在一些实施例中接收如本文所描述的在捕获设备或处理设备处确定的参数，以及通过使用执行合适的代码的处理器1407来生成合适的音频信号格式输出。输入/输出端口1409可被耦合到任何合适的音频输出，例如被耦合到多通道扬声器系统和/或耳机或类似物。

通常，本发明的各种实施例可以采用硬件或专用电路、软件、逻辑或其任何组合来实现。例如，一些方面可以采用硬件实现，而其它方面可以采用可由控制器、微处理器或其它计算设备执行的固件或软件实现，但是本发明不限于此。虽然本发明的各个方面可被示出并描述为框图、流程图或使用一些其它图示表示来示出或描述，但是应当充分理解，本文所描述的这些框、装置、系统、技术或方法可以作为非限制性的示例采用硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备、或其一些组合来实现。

本发明的实施例可由计算机软件、或由硬件、或由软件和硬件的组合来实现，计算机软件是移动设备的数据处理器可执行的，诸如在处理器实体中。此外，在此方面，应当注意附图中的逻辑流程的任何框都可表示程序步骤、或互连的逻辑电路、块和功能、或程序步骤和逻辑电路、块和功能的组合。软件可存储在物理介质上，诸如存储器芯片、或在处理器内实现的存储器块、诸如硬盘或软盘的磁介质、以及诸如DVD及其数据变体、CD的光学介质。

存储器可以是适合于本地技术环境的任何类型，并且可使用任何合适的数据存储技术来实现，诸如基于半导体的存储器设备、磁存储器设备和系统、光存储器设备和系统、固定存储器、以及可移动存储器。数据处理器可以是适合于本地技术环境的任何类型，并且作为非限制性示例可包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、门级电路、以及基于多核处理器架构的处理器中的一个或多个。

本发明的实施例可在诸如集成电路模块的各种组件中实践。集成电路的设计基本上是高度自动化的过程。复杂且功能强大的软件工具可用于将逻辑级设计转换成准备在半导体衬底上蚀刻和形成的半导体电路设计。

程序，诸如加利福尼亚州山景城的Synopsys公司和加利福尼亚州圣何塞的Cadence Design公司提供的程序，使用完善的设计规则以及预先存储的设计模块库在半导体芯片上自动布线导体和定位元件。一旦完成了对半导体电路的设计，就可以将采用标准化电子格式(例如，Opus、GDSII等)的设计结果传送到半导体制造设备或“fab”以进行制造。

前面的描述已经通过示例性和非限制性示例提供了对本发明的示例性实施例的完整且信息丰富的描述。然而，当结合附图和所附权利要求进行阅读时，鉴于前面的描述，各种修改和调整对于相关领域技术人员而言将变得显而易见。然而，对本发明的教导的所有这些和类似的修改仍将落入所附权利要求中限定的本发明的范围内。

Claims

1.一种用于空间音频播放的装置，包括：至少一个处理器和包括用于一个或多个程序的计算机代码的至少一个存储器，所述至少一个存储器和所述计算机代码被配置为与所述至少一个处理器一起使得所述装置至少：

获得与一个或多个音频源或音频对象有关的音频信号；

生成用于内容锁定的内容锁定信息，其中，所述内容锁定信息使得能够基于位置和/或定向输入来控制与所获得的与所述一个或多个音频源或音频对象有关的音频信号相关联的音频信号处理；以及

向至少一个其它装置发送所获得的音频信号和所生成的内容锁定信息，

其中，生成所述内容锁定信息包括生成：

用于激活内容锁定的触发参数；

被配置为标识所述一个或多个音频源或音频对象的标识符；以及

要被应用于所述一个或多个音频源或音频对象的至少一个内容锁定类型。

2.根据权利要求1所述的装置，其中，所述内容锁定信息还使得能够基于所述位置和/或定向输入来控制图像的图像处理。

3.根据权利要求1所述的装置，其中，所述至少一个内容锁定类型是以下中的至少一个：

平移锁定，用于平移地锁定所述一个或多个音频源或音频对象；

旋转锁定，用于旋转地锁定所述一个或多个音频源或音频对象；

头部锁定，用于平移和旋转地锁定所述一个或多个音频源或音频对象；

身体锁定，用于旋转地锁定所述一个或多个音频源或音频对象并且不平移地锁定所述一个或多个音频源或音频对象；

硬锁定，用于锁定所述一个或多个音频源或音频对象而所述一个或多个音频源或音频对象没有运动；以及

软锁定，用于在值的范围内锁定所述一个或多个音频源或音频对象。

4.根据权利要求1所述的装置，其中，所述触发参数包括以下中的至少一个：

采用以下中的至少一个来定义的视口范围：方位角和仰角；

时间范围；以及

对象标识符。

5.根据权利要求1所述的装置，其中，所生成的内容锁定信息使得所述装置生成以下中的至少一个：

在实施所述内容锁定时要被应用于图像的图像效果；

在实施所述内容锁定时将要由所述音频信号处理应用的音频效果。

6.根据权利要求1所述的装置，其中，所生成的内容锁定信息包括交互信息，其中，所述交互信息包括以下中的至少一个：

触发标识符，用于将所述内容锁定信息关联到至少一个内容锁定触发器；以及

被链接到所述触发标识符的影响效果，所述影响效果定义将要由与所获得的与所述一个或多个音频源或音频对象有关的音频信号相关联的所述音频信号处理基于所述位置和/或定向输入而应用的效果。

7.根据权利要求6所述的装置，其中，所述影响效果包括以下中的至少一个：

增益的加重；

增益的去加重；

空间范围的增加；以及

空间范围的减小。

8.根据权利要求1所述的装置，其中，所述装置进一步被使得：

分析所获得的音频信号以生成与所述一个或多个音频源或音频对象有关的信息；

向所述至少一个其它装置发送所生成的与所述一个或多个音频源或音频对象有关的信息。

9.根据权利要求1所述的装置，其中，获得与所述一个或多个音频源或音频对象有关的音频信号包括执行以下中的至少一个：

捕获所述音频信号；以及

从至少一个音频捕获装置接收所述音频信号。

10.根据权利要求9所述的装置，其中，所述装置进一步被使得：

捕获至少一个图像，所述图像与所述一个或多个音频源或音频对象相关联；以及

向所述至少一个其它装置发送带有所获得的音频信号的所述至少一个图像、所生成的与所述一个或多个音频源或音频对象有关的信息、以及所生成的内容锁定信息。

11.一种用于空间音频播放的装置，包括：至少一个处理器和包括用于一个或多个程序的计算机代码的至少一个存储器，所述至少一个存储器和所述计算机代码被配置为与所述至少一个处理器一起使得所述装置至少：

接收至少一个音频信号；

接收内容锁定信息，所述内容锁定信息与至少一个音频源或音频对象相关联；

接收至少一个位置和/或定向输入；以及

基于所接收的内容锁定信息和所接收的至少一个位置和/或定向输入，对所述至少一个音频信号进行处理，

其中，接收所述内容锁定信息包括接收：

用于激活内容锁定的触发参数；

被配置为标识所述至少一个音频源或音频对象的标识符；以及

要被应用于所述至少一个音频源或音频对象的至少一个内容锁定类型。

12.根据权利要求11所述的装置，其中，所述装置进一步被使得：

接收至少一个图像；以及

基于所接收的内容锁定信息和所接收的至少一个位置和/或定向输入，对所述至少一个图像进行图像处理。

13.根据权利要求11所述的装置，其中，所述装置进一步被使得：接收与所述至少一个音频源或音频对象相关联的信息，

并且其中，对所述至少一个音频信号进行处理进一步基于所接收的与所述至少一个音频源或音频对象相关联的信息。

14.根据权利要求11所述的装置，其中，所述至少一个内容锁定类型是以下中的至少一个：

平移锁定，用于平移地锁定所述至少一个音频源或音频对象；

旋转锁定，用于旋转地锁定所述至少一个音频源或音频对象；

头部锁定，用于平移和旋转地锁定所述至少一个音频源或音频对象；

身体锁定，用于旋转地锁定所述至少一个音频源或音频对象并且不平移地锁定所述至少一个音频源或音频对象；

硬锁定，用于锁定所述至少一个音频源或音频对象而所述至少一个音频源或音频对象没有运动；以及

软锁定，用于在值的范围内锁定所述至少一个音频源或音频对象。

15.根据权利要求11所述的装置，其中，所述触发参数包括以下中的至少一个：

采用以下中的至少一个来定义的视口范围：方位角和仰角；

时间范围；以及

对象标识符。

16.根据权利要求13所述的装置，其中，基于所接收的与所述至少一个音频源或音频对象相关联的信息、所接收的内容锁定信息和所接收的至少一个位置和/或定向输入来对所述至少一个音频信号进行处理包括：

基于所接收的至少一个位置和/或定向输入，确定由所述触发参数定义的触发事件的发生；

基于从所述至少一个内容锁定类型确定的触发事件，选择锁定类型处理；以及

对所述至少一个音频信号应用所选择的锁定类型处理。

17.根据权利要求16所述的装置，其中，所选择的锁定类型处理包括锁定以下中的至少一个：

与所述音频源相关联的增益；以及

与所述音频源相关联的空间范围。

18.一种用于空间音频播放的方法，包括：

获得与一个或多个音频源或音频对象有关的音频信号；

其中，生成所述内容锁定信息包括生成：

用于激活内容锁定的触发参数；

19.根据权利要求18所述的方法，还包括：

20.一种用于空间音频播放的方法，包括：

接收至少一个音频信号；

接收至少一个位置和/或定向输入；以及

其中，接收所述内容锁定信息包括接收：

用于激活内容锁定的触发参数；

21.根据权利要求20所述的方法，还包括：接收与所述至少一个音频源或音频对象相关联的信息，

其中，对所述至少一个音频信号进行处理进一步基于所接收的与所述至少一个音频源或音频对象相关联的信息。