CN112602053A

CN112602053A - 音频装置和音频处理的方法

Info

Publication number: CN112602053A
Application number: CN201980055860.6A
Authority: CN
Inventors: W·P·J·德布鲁津; N·苏维拉-拉巴斯蒂
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2018-08-28
Filing date: 2019-08-20
Publication date: 2021-04-02
Anticipated expiration: 2039-08-20
Also published as: US20230179919A1; EP4242828A2; US20230254644A1; US11877135B2; JP2022502886A; US20210258690A1; EP3617871A1; EP3844606A1; JP7479352B2; EP4242829A3; EP4242829A2; EP4242828A3; US12081955B2; CN116471521A; ES2980463T3; US11582556B2; MX2021002104A; CN116567485A; MX2023005648A; WO2020043539A1

Abstract

一种音频装置包括接收器(201)，所述接收器(201)接收描述音频场景的数据。所述数据包括针对与所述场景中的音频源相对应的一组音频元素的音频数据，并且还包括元数据，所述元数据至少包含针对所述一组音频元素中的第一音频元素的音频渲染性质指示符。第一渲染器(205)通过生成针对一组扬声器的第一组音频信号来渲染音频元素，并且第二渲染器(207)通过生成针对耳机的第二组音频信号来渲染音频元素。此外，选择器(209)被布置为响应于所述第一音频渲染性质指示符而在所述第一渲染器与所述第二渲染器之间进行选择以用于渲染所述第一音频元素的至少第一部分。该方法可以例如使用扬声器和耳机混合渲染提供改进的虚拟现实体验。

Description

音频装置和音频处理的方法

技术领域

本发明涉及音频装置和音频处理的方法，并且具体涉及但非排他地涉及使用这些来支持增强/虚拟现实应用。

背景技术

近年来，随着利用和消费视听内容的新的服务和方式的不断开发和推出，基于视听内容的体验的种类和范围已经大幅增加。具体地，许多空间和交互服务、应用和体验正被开发以给予用户更投入且沉浸的体验。

此类应用的范例是迅速成为主流的虚拟现实(VR)、增强现实(AR)和混合现实(MR)应用，其中，许多技术方案瞄准消费者市场。许多标准也正在由许多标准化主体开发中。此类标准化活动正在主动开发用于VR/AR/MR系统的各种方面(包括例如流送、传播、渲染等)的标准。

VR应用趋向于提供对应于用户在不同世界/环境/场景的用户体验，而AR(包括混合现实MR)应用趋向于提供对应于用户在当前环境中但是具有额外信息或被添加的虚拟对象或信息的用户体验。因此，VR应用趋向于提供完全沉浸的合成生成的世界/场景，而AR应用趋向于提供被叠加在用户物理地存在于的真实场景上的部分合成的世界/场景。然而，术语经常被可互换地使用，并且具有高度的交叠。在下文中，术语虚拟现实/VR将会用来表示虚拟现实和增强现实两者。

作为范例，日益流行的服务是以用户能够与系统主动且动态地交互以改变渲染的参数使得这适合于用户的位置和取向的移动和改变的方式提供图像和音频。在许多应用中极具吸引力的特征是改变观看者的有效观看位置和观看方向的能力，例如，允许观看者在正被呈现的场景中移动和“环视”。

这种特征能够特别允许给用户提供虚拟现实体验。这可以允许用户在虚拟环境中(相对)自由地四处移动且动态地改变其位置和其正在观看的地方。通常，这种虚拟现实应用基于场景的三维模型，其中，该模型被动态地评价以提供特定请求的视图。对于计算机和控制台而言，该方法在例如游戏应用中(例如在第一人称射击者类别中)是熟知的。

特别是对于虚拟现实应用而言，也期望所呈现的图像是三维图像。实际上，为了优化观看者的沉浸感，通常优选使用户体验的呈现场景为三维场景。实际上，虚拟现实体验应当优选允许用户选择他/她自身的位置、摄像机视点和相对于虚拟世界的时刻。

通常，虚拟现实应用被固有地限制于基于预定的场景模型并且通常基于人造的虚拟世界模型。在一些应用中，虚拟现实体验可以基于真实世界捕获来提供。在许多情况下，这种方法趋向于基于根据真实世界捕获而构建的真实世界的虚拟模型。然后通过评价该模型来生成虚拟现实体验。

许多当前方法趋向于是次优的，并且通常趋向于具有高计算要求或高通信资源要求和/或提供具有例如降低质量或有限自由度的次优的用户体验。

作为应用的范例，允许观看者体验所捕获的360°(全景)或180°视频的虚拟现实眼镜已经正在进入市场。这些360°视频通常是使用摄像机装备预先捕获的，其中，个体图像被拼接在一起而成为单个球形映射。180°或360°视频的常见立体格式是上/下和左/右。类似于非全景立体视频，左眼图片和右眼图片例如被压缩为单个H.264视频流的部分。

除了虚拟渲染之外，大多数VR/AR应用还提供对应的音频体验。在许多应用中，音频优选地提供空间音频体验，其中，音频源被感知为从与虚拟场景中的对应对象的位置相对应的位置到达。因此，音频和视频场景优选地被感知为是一致的，并且其中，两者提供完全空间体验。

对于音频，直到现在主要集中于使用双耳音频渲染技术的耳机再现。在许多情况下，耳机再现为用户实现了高度沉浸的个性化体验。使用头部跟踪，渲染能够对用户的头部运动做出响应，这高度增加了沉浸感。

最近，在市场上和在标准讨论中，都开始提出涉及VR(和AR)的“社交”或“共享”方面的使用实例，即与其他人一起分享体验的可能性。这些能够是不同位置处的人，而且也可以是同一位置中的人(或两者的组合)。例如，同一房间中的若干人可以利用存在于VR内容/场景中的每个参与者的投影(音频和视频)共享相同的VR体验。例如，在多个人参与的游戏中，每个游戏者在游戏场景中可能具有不同的位置并且因此音频和视频场景的不同投影。

作为特定范例，MPEG试图针对具有六个自由度的逼真的沉浸式AR/VR体验标准化比特流和解码器。社交VR是重要的特征，并且允许用户在共享环境(游戏、电话会议、在线购物等)中进行交互。对于物理上处于相同位置但是在例如头戴式显示器或其他VR头盔提供与物理环境的感知隔离的情况下的用户，社交VR的概念也有助于使VR体验更像社交活动。

耳机再现在这种“社交”或“共享”AR(或VR)使用实例中的缺点是，在每个用户佩戴个体耳机的情况下，处于相同位置(例如：房间)的用户与彼此至少部分地声学上隔离，这减少了体验的“社交”部分(例如，对于站在彼此附近的人来说具有自然交谈变得困难或不便)。

这可以通过使用扬声器而非耳机用于音频再现来解决。然而，这具有音频再现不能根据个体用户被自由调整和定制的缺点。例如，难以使音频再现动态地适应于头部运动，并且特别地适应于每个个体用户头部取向的改变。这种效果对于沉浸式体验是非常重要的，并且因此扬声器趋向于对于生成优化的用户体验来说是次优的。

因此，用于音频处理、具体地用于虚拟/增强/混合现实体验/应用、应用的改进的方法将会是有利的。具体地，允许改进的操作、增加的灵活性、降低的复杂性、方便的实施、改进的音频体验、音频视觉场景的更一致的感知、改进的定制、改进的个性化；改进的虚拟现实体验和/或改进的性能和/或操作的方法将会是有利的。

发明内容

因此，本发明试图优选地单独地或以任何组合减轻、缓解或者消除上文所提到的缺点中的一个或多个。

根据本发明的一方面，提供了一种音频装置，包括：接收器，其用于接收描述音频场景的数据，所述数据包括针对与所述场景中的音频源相对应的一组音频元素的音频数据和至少包含针对所述一组音频元素的第一音频元素的第一音频渲染性质指示符的元数据；第一渲染器，其用于通过生成针对一组扬声器的第一组音频信号来渲染音频元素；第二渲染器，其用于通过生成针对耳机的第二组音频信号来渲染音频元素；以及选择器，其被布置为响应于所述第一音频渲染性质指示符而在所述第一渲染器与所述第二渲染器之间进行选择以用于渲染所述第一音频元素的至少第一部分；其中，所述音频渲染性质指示符指示所述第一音频元素的所述第一部分是与听者姿态相关位置相关联还是与听者姿态无关位置相关联。

在许多实施例中，该方法可以提供改进的用户体验，并且可以具体地为许多虚拟现实(包括增强和混合现实)应用提供改进的用户体验，具体地包括社交或共享体验。该方法可以使用混合渲染提供改进的性能。例如，在许多实施例中，它可以允许相同房间中的用户更容易地直接谈话，同时仍然提供音频场景的靶向且个性化渲染。

音频渲染性质指示符可以指示第一音频元素表示具有固定到头部取向还是非固定到头部取向(分别对应于听者姿态相关位置和听者姿态无关位置)的空间性质的音频源。该方法可以降低复杂性和资源要求。

在一些实施例中，所述装置可以包括用于根据第一组音频信号驱动所述一组扬声器的第一驱动器和用于根据第二组音频信号驱动所述耳机的第二驱动器。第一组音频信号可以具体地是一组环绕信号，并且第二组音频信号可以具体地是双耳立体信号。

第一音频渲染性质指示符可以指示要被应用于第一音频元素的渲染的性质或第一音频元素的性质。

根据本发明的可选特征，所述装置还包括听者姿态接收器，所述听者姿态接收器用于接收指示听者的姿态的听者姿态，并且所述第一渲染器被布置为独立于所述听者姿态生成所述第一组音频信号，并且所述第二渲染器被布置为响应于所述听者姿态而生成所述第二组音频信号。

该音频装置可以提供高度有利的且灵活的用户体验，允许例如听者移动与感知的音频场景之间的密切一致性。姿态可以指的是位置和/或取向数据，并且也可以被称为方位。听者姿态可以是听者的位置指示、听者的取向指示或听者的组合的位置和取向指示。姿态/方位可以通过提供位置和/或方向的指示的一个或多个值来表示。

根据本发明的可选特征，所述装置被布置为为多个听者生成音频信号，其中，所述第一渲染器被布置为生成所述第一组音频信号作为针对所述多个听者的共同的一组音频信号；并且所述第二渲染器被布置为为所述多个听者中的第一听者生成针对耳机的所述第二组音频信号，并且为所述多个听者中的第二听者生成针对耳机的第三组音频信号。

该音频装置可以为多个用户提供有利的支持。在许多应用中，改进的支持可以针对低复杂性和资源使用被实现，但是提供通常具有音频级的一致且自然的感知的吸引人的用户体验。

第二组音频信号可以响应于第一听者的第一听者姿态而被生成，并且第三组音频信号可以响应于第二听者的第二听者姿态而被生成。第一组音频信号可以独立于听者姿态而被生成。

根据本发明的可选特征，所述第一部分是所述第一音频元素的频率子范围。

在许多实施例中，这可以提供改进的性能。

根据本发明的可选特征，所述选择器被布置为针对所述第一音频元素的所述第一部分和针对所述第一音频元素的第二部分选择所述第一渲染器和所述第二渲染器中的不同渲染器。

在许多实施例中，这可以提供改进的用户体验。选择器可以具体地被布置为针对第一音频元素的不同频率范围选择不同的渲染器。

在许多应用中，这可以提供高效的方法。音频渲染性质指示符可以指示第一音频元素是否是剧情声。

根据本发明的可选特征，所述音频渲染性质指示符指示所述第一音频元素的音频格式。

在许多实施例中，这可以提供改进的用户体验。音频渲染性质指示符可以指示来自一组音频格式的音频格式，包括来自以下组中的至少一个音频格式：音频对象格式；高阶立体混响音频格式；以及音频信道信号音频格式。

根据本发明的可选特征，所述音频渲染性质指示符指示所述第一音频元素的音频源类型。

在许多实施例中，这可以提供改进的用户体验。音频渲染性质指示符可以指示来自一组音频源类型的音频源类型，包括来自以下组中的至少一个音频源类型：语音音频；音乐音频；前景音频；背景音频；旁白音频；以及叙述者音频。

根据本发明的可选特征，其中，所述音频渲染性质指示符指示用于渲染所述第一音频元素的渲染的引导渲染性质。

在许多实施例中，这可以提供改进的用户体验和/或性能。

根据本发明的可选特征，所述音频渲染性质指示符指示所述第一音频项的所述第一部分是旨在用于在扬声器上进行渲染还是旨在用于在耳机上进行渲染。

在许多实施例中，这可以提供改进的用户体验和/或性能。

根据本发明的可选特征，所述接收器还被布置为接收指示对应于所述音频场景的虚拟场景的视觉数据，并且所述音频渲染性质指示符指示所述第一音频元素是否表示对应于虚拟场景对象的音频源。

在许多实施例中，这可以提供改进的用户体验和/或性能。

在一些实施例中，音频渲染性质指示符可以指示第一音频元素是否表示对应于在针对当前听者姿态确定的视口内的场景对象的音频源。

根据本发明的可选特征，所述装置还包括用于接收用户输入的用户输入端，并且其中，所述选择器被布置为响应于所述用户输入而在所述第一渲染器与所述第二渲染器之间进行选择以用于渲染所述第一音频元素的至少所述第一部分。

在许多实施例中，这可以提供改进的用户体验。

根据本发明的可选特征，所述选择器被布置为确定所述第一音频元素的音频性质，并且响应于音频性质而在所述第一渲染器与所述第二渲染器之间进行选择以用于渲染所述第一音频元素的至少所述第一部分。

在许多实施例中，这可以提供改进的用户体验和/或性能。

根据本发明的一方面，提供了一种音频处理的方法，包括：接收描述音频场景的数据，所述数据包括针对与所述场景中的音频源相对应的一组音频元素的音频数据和至少包含针对所述一组音频元素中的第一音频元素的第一音频渲染性质指示符的元数据；通过生成针对一组扬声器的第一组音频信号来渲染音频元素；通过生成针对耳机的第二组音频信号来渲染音频元素；并且响应于所述第一音频渲染性质指示符而在针对所述一组扬声器渲染所述第一音频元素的至少第一部分与针对所述耳机渲染所述第一音频元素的至少第一部分之间进行选择；其中，所述音频渲染性质指示符指示所述第一音频元素的所述第一部分是与听者姿态相关位置相关联还是与听者姿态无关位置相关联。

本发明的这些和其他方面、特征和优点将参考下文描述的(一个或多个)实施例变得显而易见并将参考下文描述的(一个或多个)实施例得以阐述。

附图说明

将仅通过范例的方式参考附图来描述本发明的实施例，在附图中

图1图示了基于客户端服务器的虚拟现实系统的范例；并且

图2图示了根据本发明的一些实施例的音频装置的元件的范例。

具体实施方式

允许用户在虚拟或增强世界中四处移动的虚拟现实(包括增强和混合现实)体验变得日益流行，并且满足此类需求的服务正在被开发。在许多此类方式中，虚拟和音频数据可以被动态地生成以反映用户的(或观看者的)当前姿态。

在该领域中，术语方位和姿态用作针对位置和/或方向/取向的共用术语。例如对象、摄像机、头部或视图的位置与方向/取向的组合可以被称为姿态或方位。因此，方位或姿态指示可以包括多达六个值/分量/自由度，其中，每个值/分量通常描述对应的对象的位置/定位或取向/方向的个体属性。当然，在许多情况下，例如，如果一个或多个分量被视为是固定的或不相关的，则方位或姿态可以通过较少分量来表示(例如，如果所有对象都被视为处于相同高度且具有水平取向，则四个分量可以提供对对象的姿态的完整表示)。在下文中，术语姿态用于指代可以由(与可能的最大自由度相对应的)一个至六个值表示的位置和/或取向。

许多VR应用基于具有最大自由度的姿态，即位置和取向中的每个具有三个自由度得到总共六个自由度。因此，姿态可以由表示这六个自由度的六个值的集合或向量来表示，并且因此，姿态向量可以提供三维位置和/或三维方向指示。然而，应当理解，在其他实施例中，姿态也可以由较少的值来表示。

基于为观看者提供最大自由度的系统或实体通常被称为具有6自由度(6DoF)。许多系统和实体仅提供取向或位置，并且这些通常被称为具有3自由度(3DoF)。

通常，虚拟现实应用生成针对左眼和右眼的单独视图图像形式的三维输出。这些然后可以通过合适的器件(诸如通常VR头盔的个体左眼和右眼显示器)被呈现给用户。在其他实施例中，一个或多个视图图像可以例如被呈现在自动立体显示器上，或实际上在一些实施例中，仅单个二维图像可以被生成(例如使用常规二维显示器)。

类似地，对于给定的观看者/用户/听者姿态，可以提供场景的音频表示。音频场景通常被渲染以提供音频源被感知为源于期望位置的空间体验。由于音频源在场景中可以是静态的，因此用户姿态的改变将会导致音频源相对于用户的姿态的相对位置的改变。因此，音频源的空间感知应当改变以反映相对于用户的新位置。音频渲染可以依据用户姿态而被相应地调适。

观看者或用户姿态输入可以在不同的应用中以不同的方式被确定。在许多实施例中，用户的物理移动可以被直接跟踪。例如，监视用户区域的摄像机可以检测并跟踪用户的头部(或甚至眼睛(眼睛跟踪))。在许多实施例中，用户可以佩戴能够通过外部和/或内部器件被跟踪的VR头盔。例如，头盔可以包括提供关于头盔并且因此头部的移动和旋转的信息的加速度计和陀螺仪。在一些范例中，VR头盔可以发射信号或包括使得外部传感器能够确定VR头盔的位置的(例如视觉)识别符。

在一些系统中，观看者姿态可以通过手动手段(例如通过用户手动地控制操纵杆或类似的手动输入)来提供。例如，用户可以通过用一只手控制第一模拟操纵杆而手动地使虚拟观看者在虚拟场景中四处移动，并且通过用另一只手手动地移动第二模拟操纵杆而手动地控制虚拟观看者正在看向的方向。

在一些应用中，手动和自动化方法的组合可以用来生成输入的观看者姿态。例如，头盔可以跟踪头部的取向，并且观看者在场景中的移动/位置可以由用户使用操纵杆来控制。

在一些系统中，VR应用可以通过例如不使用任何远程VR数据或处理或甚至没有到任何远程VR数据或处理的任何访问的单机设备被本地提供给观看者。例如，诸如游戏控制台的设备可以包括用于存储场景数据的存储设备、用于接收/生成观看者姿态的输入端和用于根据场景数据生成对应图像的处理器。

在其他系统中，VR应用可以远程于观看者被实施并且执行。例如，对用户来说本地的设备可以检测/接收被传输到远程设备的移动/姿态数据，所述远程设备处理所述数据以生成观看者姿态。远程设备然后可以基于描述场景的场景数据生成对于观看者姿态来说合适的视图图像。视图图像然后被传输到它们在其中被呈现的对观看者来说本地的设备。例如，远程设备可以直接生成通过本地设备被直接呈现的视频流(通常立体/3D视频流)。

类似地，远程设备可以生成反映虚拟音频环境的音频场景。在许多实施例中，这可以通过生成对应于虚拟音频环境中的不同音频源的相对位置的音频元素来完成，其中，这些音频元素被渲染为在对应位置处被感知到。

例如，远程设备可以生成表示音频场景的音频数据，并且可以传输对应于音频场景中的不同音频源的音频分量/对象/信号或其他音频元素以及指示这些的位置(对于移动的对象，其可以例如动态地改变)的位置信息。音频元素可以包括与特定位置相关联的元素，但是也可以包括针对更分布或扩散的音频源的元素。例如，可以提供表示一般(非局部化)背景声音、环境声音、扩散混响等的音频元素。

本地VR设备然后可以例如通过针对音频分量反映音频源的相对位置的适当的双耳处理来适当地渲染音频元素。

对于VR服务的音频侧，在一些实施例中，中央服务器可以相应地生成表示音频场景的音频数据，并且可以具体地通过能够由本地客户端/设备渲染的多个音频元素来表示该音频场景。

图1图示了VR系统的范例，其中，中央服务器101例如经由网络105(例如互联网)与多个远程客户端103联系。中央服务器101可以被布置为同时支持潜在大量的远程客户端103。

在许多情况下，这种方法可以提供例如复杂性与不同设备的资源需求(通信要求等)之间的改进的权衡。例如，观看者姿态和对应的场景数据可以利用本地设备以更大间隔被传输，所述本地设备本地处理观看者姿态和接收的场景数据以提供实时的低滞后体验。这可以例如实质上降低所需的通信带宽，同时提供低延迟体验，并且同时允许场景数据被集中地存储、生成并维持。它可以例如适合于VR体验被提供给多个远程设备的应用。

图2图示了可以在许多应用和情景中提供改进的音频渲染的音频装置的元件。具体地，音频装置可以为许多VR应用提供改进的渲染，并且音频装置可以具体地被布置为针对图1的VR客户端103执行音频处理和渲染。

图2的音频装置被布置为通过利用输出信号的第一(子)集合和输出信号的第二(子)集合生成输出信号的混合集合而渲染音频场景，所述输出信号的第一(子)集合被生成为通过一组扬声器被渲染，所述输出信号的第二(子)集合被生成为通过耳机被渲染。第一组音频信号可以具体地是用于在环绕声音扬声器套件上进行渲染的一组环绕声音信号。第二组音频信号可以具体地是用于在一对耳机上进行渲染的双耳立体信号。

图2的音频装置可以是使用耳机和扬声器再现的组合来提供音频场景的呈现的用于VR/AR的混合音频再现系统的一部分。

在许多实施例中，这种方法可以提供有利的操作。例如，在许多情况下，使用扬声器和耳机再现的组合而非两者中的任一者可以提供对于每个个体用户来说都是高度沉浸的同时不妨碍体验的“社交”或“共享”方面的AR(或VR/MR)体验。例如，它可以允许所渲染的音频被定制到个体用户和针对用户的当前背景。例如，它可以允许音频源的位置被准确地调适以匹配用户的头部移动/旋转。同时，它可以降低例如双耳处理所需的复杂性，因为音频场景的实质部分可以通过更低复杂性的音频信道/环绕声音处理被渲染。它还可以例如基于使用具有外部声音的低衰减的耳机，由此例如促进相同环境/房间中的用户之间的交互。

以下描述将会聚焦于系统使用对所有本地用户来说共同的环绕扬声器设置(例如5.1或7.1系统)和用于个体用户的个体(开放或半开放)耳机(其中“个体耳机”意味着：渲染已经针对佩戴那些耳机的用户生成或调适的信号的耳机)的组合来渲染音频场景的实施例。

装置将会具体地参考多人共享体验的VR/AR/MR应用的“社交”或“共享”方面的使用实例来进行描述。这些可以是在不同的位置处，但是对于范例，更感兴趣地也可在相同的位置(例如相同的房间)处。特定使用实例范例是相同房间中的若干人共享在其共享的真实环境内被“投影”的相同AR体验。例如，一起坐在沙发上的情侣观看被虚拟地投影在其起居室的墙壁上的沉浸式电影。他们可以佩戴使得他们能够看见彼此和其环境的透视眼镜以及允许专门的个性化渲染以及允许环境中的音频(包括通过环绕声音设置被生成以被听见的音频)的开放耳机。

图2的装置具体地包括被布置为接收描述虚拟场景的数据的接收器201。所述数据可以包括提供场景的视觉描述的数据，并且可以包括提供场景的音频描述的数据。因此，音频场景描述和虚拟场景描述可以由接收的数据来提供。

接收器201被耦合到视觉渲染器203，视觉渲染器203进行渲染对应于观看者的当前观看姿态的图像。例如，数据可以包括空间3D图像数据(例如场景的图像和深度或模型描述)，并且据此，视觉渲染器203可以生成立体图像(针对用户的左眼和右眼的图像)，如对本领域技术人员来说将会是已知的。图像可以例如经由VR头盔的个体左眼和右眼显示器被呈现给用户。

接收的数据包括描述场景的音频数据。音频数据具体地包括针对与场景中的音频源相对应的一组音频元素的音频数据。一些音频元素可以表示与场景中的特定位置(对于移动的对象，位置当然可以动态地改变)相关联的场景中的局部化音频源。通常，音频元素可以表示由虚拟场景中的特定场景对象生成的音频，并且因此可以表示与场景对象(例如说话的人)的位置相对应的位置处的音频源。

其他元素可以表示更分布或扩散的音频源，例如可以是扩散的环境或背景噪声。作为另一范例，一些音频元素可以完全或部分地表示来自局部化音频源的音频的非空间局部化分量，例如来自空间上明确限定的音频源的扩散混响。

音频元素可以是编码的音频数据，诸如编码的音频信号。音频元素可以是不同类型的音频元素，包括不同类型的信号和分量，并且实际上，在许多实施例中，第一接收器201可以接收定义不同类型/格式的音频的音频数据。例如，音频数据可以包括通过音频信道信号、个体音频对象、高阶立体混响(HOA)等表示的音频。

对于要被渲染的给定音频分量，音频可以例如被表示为编码的音频。音频数据还可以包括指示音频分量的源的位置的位置数据。位置数据可以例如包括定义音频源在场景中的位置的绝对位置数据。

装置还包括两个渲染器205、207。

第一渲染器205被布置为在一组扬声器上渲染音频元素。具体地，第一渲染器205可以针对一组扬声器生成第一组音频信号，其中，第一组音频信号例如是针对环绕声音扬声器设置的一组环绕声音信号。

第一渲染器205因此可以生成旨在通过特定空间扬声器配置渲染的一组音频信号。第一渲染器205可以生成针对环绕声音配置的每个扬声器，并且因此用于从对应于配置中的扬声器位置的特定位置进行渲染的信号。

第一渲染器205可以被布置为生成音频信号，使得给定的音频元素被渲染，使得组合的效果导致音频元素从期望位置进行渲染的印象。通常，对于至少一些音频元素，接收的数据可以包括特定位置指示，并且第一渲染器205可以渲染音频元素，使得它们被感知为源于指示的位置。其他音频元素可以例如是分布的且扩散的，并且可以如此被渲染。

应意识到，用于使用扬声器渲染空间音频并且具体地在环绕声音系统中的许多算法和方法对本领域技术人员来说将会是已知的，并且任何合适的方法可以在不偏离本发明的情况下被使用。

例如，第一渲染器205可以针对具有中央扬声器、左前扬声器、右前扬声器、左环绕扬声器和右环绕扬声器的环绕声音配置中的五个扬声器生成音频信号。第一渲染器205可以生成一组音频信号，包括针对每个扬声器的音频信号。信号然后可以被放大以生成针对个体扬声器的驱动信号。

在一些实施例中，正在使用扬声器渲染的音频元素可以以例如立体下混的方式被接收，并且第一渲染器205可以执行上混以生成在一些情况下可以被直接渲染的环绕信号。这种方法可以例如对于表示不与用户姿态直接相关的扩散声音的音频元素是有用的。例如，表示一般扩散环境音频的音频元素可以以立体下混的方式被提供，其能够被直接上混以提供适当的环绕声音音频信道。得到的上混信号中的每一个可以与从其他音频元素生成的针对对应扬声器的信号进行组合以生成一组输出信号。

经由扬声器设置渲染的一些音频元素可以例如以音频对象的形式被提供。这种音频对象可以通过描述特定音频的音频数据和描述音频源的位置的相关联的位置数据来表示。基于位置数据和扬声器的位置(不论是环绕声音扬声器设置的实际位置还是标称位置)，第一渲染器205可以确定用于将音频信号映射到不同环绕声音信道的矩阵或向量的系数。

在一些实施例中，第一渲染器205还可以被布置为基于声学环境数据调适生成的音频信号。例如，如果提供指示当前环境是高度反射环境(例如具有高反射的浴室或类似声学环境)的数据，那么第一渲染器205可以生成并应用具有对应于针对环境(第一反射等)的房间传递函数的脉冲响应的滤波器。在一些实施例中，滤波器可以被应用于针对个体环绕信道的生成的音频信号中的每一个，或在一些实施例中，可以在上混到不同音频信道之前被应用于音频元素。

在一些实施例中，第一渲染器205可以备选地或另外地被布置为添加混响，其具体地可以基于利用音频元素接收的环境数据。例如，第一渲染器205可以应用合成混响器，诸如Jot混响器，其中，参数依据声学环境数据被设置(例如其中，混响如通过数据指示的那样持续)。混响器通常可以在到环绕信道的任何上混或映射之前被应用于音频元素。第二渲染器207被布置为生成针对耳机的第二组音频信号。第二组音频信号可以具体地是双耳立体信号。

在许多实施例中，通过第二渲染器207的音频渲染是使用合适的双耳传递函数来为佩戴耳机的用户提供期望空间效果的双耳渲染过程。例如，第二渲染器207可以被布置为使用双耳处理生成被感知为从特定位置到达的音频分量。

已知双耳处理用来通过使用针对听者的耳朵的个体信号虚拟定位声音源来提供空间体验。利用适当的双耳渲染处理，能够计算为了使听者感知到声音来自任何期望方向而在耳鼓处所要求的信号，并且能够渲染信号使得其提供期望的效果。然后使用要么头戴式耳机要么串扰相消方法(适合于在紧密间隔的扬声器之上进行渲染)在耳鼓处重新产生这些信号。双耳渲染能够被认为是用于生成针对听者的耳朵的信号以致诱骗人类听觉系统从而认为声音来自期望位置的方法。

双耳渲染基于双耳传递函数，其由于头部、耳朵和诸如肩膀之类的反射表面的声学性质而因人而异地变化。例如，双耳滤波器能够用于产生模拟各种位置处的多个源的双耳记录。这能够通过每个声音源与例如对应于声音源的位置的头部相关脉冲响应(HRIR)对的卷积来实现。

确定双耳传递函数的众所周知的方法是双耳记录。它是使用专门的麦克风布置并且旨在用于使用耳机重放的记录声音的方法。记录通过将麦克风放置在对象的耳道中或使用具有嵌入式麦克风的人体模型头部、包括耳廓(外耳)的半身像来进行。包括耳廓的这种人体模型头部的使用提供了如同倾听记录的人在记录期间存在那样非常类似的空间印象。

通过测量例如来自2D或3D空间中的特定位置处的声音源对被放置在人耳中或其附近的麦克风的响应，能够确定适当的双耳滤波器。基于此类测量，反映到用户的耳朵的声学传递函数的双耳滤波器能够被生成。双耳滤波器能够用于产生模拟各种位置处的多个源的双耳记录。这能够例如通过每个声音源与针对声音源的期望位置的所测量的脉冲响应对的卷积来实现。为了产生声音源在听者周围移动的错觉，通常要求大量双耳滤波器具有足够的空间分辨率，例如10度。

头部相关双耳传递函数可以例如表示为头部相关脉冲响应(HRIR)、或等价地头部相关传递函数(HRTF)、或双耳房间脉冲响应(BRIR)、或双耳房间传递函数(BRTF)。从给定位置到听者耳朵(或耳鼓)的(例如所估计或假定的)传递函数可以例如在频率域中给定，在该情况中，其通常被称为HRTF或BRTF；或者在时间域中给定，在该情况中，其通常被称为HRIR或BRIR。在一些场景中，头部相关双耳传递函数被确定为包括声学环境并且特别地在其中做出测量的房间的方面或性质，而在其他范例中，仅考虑用户特性。第一类型的函数的范例是BRIR和BRTF。

第二渲染器207可以相应地包括具有针对通常高数量的不同位置的双耳传递函数的存储设备，其中，每个双耳传递函数提供音频信号应当如何被处理/滤波以便被感知为源于该位置的信息。将双耳处理个体地应用于多个音频信号/源并且对结果进行组合可以用来利用被定位在声场中的适当位置处的多个音频源生成音频场景。

第二渲染器207可以针对要被感知为源于相对于用户的头部的给定位置的给定音频元素选择并检索最密切地匹配期望位置的存储的双耳传递函数(或在一些情况下，可以通过在多个邻近的双耳传递函数之间进行插值来生成)。其然后可以将选定的双耳传递函数应用于音频元素的音频信号，由此针对左耳的音频信号和针对右耳的音频信号。

生成的左耳和右耳信号形式的输出立体信号适合于耳机渲染，并且可以被放大以生成被馈送到用户的头盔的驱动信号。用户然后将会感知到音频元素源于期望位置。

应意识到，在一些实施例中，音频元素也可以被处理以例如添加声学环境效果。例如，如针对第一渲染器205描述的，音频元素可以被处理以添加混响或例如去相关/扩散性。在许多实施例中，这种处理可以对生成的双耳信号而非直接对音频元素信号执行。

因此，第二渲染器207可以被布置为生成音频信号，使得给定音频元素被渲染，使得佩戴耳机的用户感知到音频元素从期望位置接收。通常，第二渲染器207可以渲染音频元素，使得它们被感知为源于在与音频数据一起包括的位置数据中指示的位置。其他音频元素可以例如可能地是分布的且扩散的，并且可以被如此渲染。

装置可以相应地是客户端103的一部分，其从中央服务器101接收包括描述音频场景的音频数据的数据。在许多应用中，中央服务器101可以以音频对象、音频信道、音频分量、HOA、音频信号等的形式提供多个音频元素。在许多情况下，一些音频元素可以对应于具有特定位置的单个音频源。其他音频元素可以对应于更扩散的且更不明确限定的且更分布的音频源。

应意识到，用于使用耳机渲染空间音频并且具体地用于双耳渲染的许多算法和方法对本领域技术人员来说将会是已知的，并且任何合适的方法可以在不偏离本发明的情况下被使用。

图2的装置然后可以在客户端103中用来处理接收的音频数据，以渲染期望的音频场景。具体地，它可以基于期望的位置数据(适当时)处理每个音频元素，并且然后对结果进行组合。

图2的装置相应地使用两种不同的渲染技术用于生成表示场景的音频。不同的渲染技术可以具有不同的性质，并且图2的装置包括选择器209，选择器209被布置为选择哪些音频元素被第一渲染器205渲染并且哪些音频元素被第二渲染器207渲染。具体地，对于给定的第一音频元素，选择器211可以选择哪些渲染器205、207应当用于渲染。选择器209可以相应地接收第一音频元素，并且依据选择而将它馈送到第一渲染器205或第二渲染器207。

在系统中，除了音频数据(并且可能地视觉数据)之外，接收器201被布置为接收包括针对音频元素中的至少一个并且经常针对大部分或实际上所有音频元素的音频渲染性质指示符的元数据。具体地，针对第一音频元素，至少包括第一音频渲染性质指示符。

选择器209被布置为依据接收的元数据和音频渲染性质指示符选择哪个渲染器要使用。具体地，选择器209被布置为考虑第一音频渲染性质指示符，并且决定第一音频元素是应当被第一渲染器205渲染还是被第二渲染器207渲染，即它是使用扬声器还是耳机来渲染。

作为低复杂性范例，对于每个音频元素，数据可以包括编码的音频数据以及包括位置指示(通常对应于音频元素的音频源的位置)和针对音频元素的音频渲染性质指示符的元数据，其中，在特定范例中，音频渲染性质指示符可以简单地是音频元素应当是被第一渲染器205渲染还是被第二渲染器207渲染的二值指示。选择器209然后可以评估该二值指示，并且选择指示的渲染器205、207。渲染器205、207然后可以分别针对扬声器和耳机生成适当的输出信号，使得(一个或多个)音频元素被感知为从如通过位置指示符指示的位置到达。来自指示是它们应当使用第一渲染器205渲染的每个音频元素的贡献然后可以被组合以生成针对扬声器的第一组音频信号，并且来自指示是它们应当使用第二渲染器207渲染的每个音频元素的贡献然后可以被组合以生成针对耳机的第二组音频信号。

以这种方式，图2的音频装置可以在包括扬声器和耳机的混合音频渲染系统上渲染音频场景。此外，在耳机和扬声器上的音频元素的分布能够被远程地控制/引导。例如，VR体验的提供者也可以控制并决定音频元素应当如何被渲染。由于提供者通常可以具有针对每个音频元素的音频源的特定性质的额外信息，这可以允许基于可能在客户端处不可获得的额外信息和知识选择如何渲染要被控制的每个音频元素。在许多情况下，该方法可以提供改进的渲染，并且在许多情况下，可以提供改进的用户体验。该方法可以例如提供音频场景的精确的且自然的渲染，同时例如允许相同房间中的人更自然地彼此对话。

因此，在许多实施例中，音频渲染性质指示符可以为客户端和音频装置提供关于接收的音频数据应当如何被渲染的引导。音频渲染性质指示符可以指示用于第一音频元素的渲染的引导渲染性质。在许多实施例中，引导渲染性质可以是推荐被本地渲染器使用的优选的、建议的或标称的渲染性质。因此，引导渲染性质可以是能够被客户端用来设置渲染的渲染参数的控制数据。

在一些实施例中，引导渲染性质可以旨在作为当渲染音频元素时必须被使用的强制性渲染性质，但是在其他实施例中，引导渲染性质可以是可以被客户端或可以不被客户端使用的建议的性质。因此，在许多实施例中，音频装置可以选择是否调适其渲染以匹配引导渲染性质，或可以选择采用不同的值。然而，该方法提供允许音频装置在远程服务器/提供者的引导下调适其操作的方法。在许多实施例中，这可以实现改进的性能，因为远程服务器/提供者可以具有额外的信息。它也可以例如允许集中的手动优化或分析，以潜在地改进渲染同时仍然允许客户端在渲染时保持自由和灵活性。

在上面提到的特定范例中，音频渲染性质指示符指示第一音频项是否旨在用于在扬声器上进行渲染，或它是否旨在用于在耳机上进行渲染。对于第一音频元素，选择器209可以被布置为如果针对第一音频元素的第一渲染指示符指示第一音频元素旨在用于由扬声器渲染则选择第一渲染器205用于渲染，并且如果第一渲染指示符指示第一音频元素旨在用于由耳机渲染则选择第二渲染器207用于第一音频元素的渲染。选择器209然后可以将它提供给选定的渲染器205、207以便进行渲染。

因此，在许多实施例中，音频渲染性质指示符指示要被应用于第一音频元素的渲染的性质，并且具体地针对音频元素的渲染指示符可以指示音频元素旨在用于是由扬声器渲染还是由耳机渲染。

在一些实施例中，在使用混合再现系统的情况下可以相应地由内容流中的元数据明确地发出音频元素应当是在扬声器上渲染还是在耳机上渲染的信号。这可以是由内容制作人进行的明确艺术选择，并且因此可以为渲染提供改进的控制/引导。

在图2的装置中，音频渲染可以(以及视觉渲染)依据观看者姿态。具体地，装置包括听者姿态接收器211，听者姿态接收器211被布置为接收指示听者的姿态的听者姿态。听者姿态可以具体地通过例如通过跟踪由用户/听者佩戴的VR头盔的跟踪确定的头盔姿态来表示。应意识到，用于生成、估计、接收并提供听者姿态的任何合适方法可以在不脱离本发明的情况下使用。

听者姿态接收器211被连接到视觉渲染器203，并且用来生成对应于特定姿态的视觉输出。另外，听者姿态接收器211被耦合到第二渲染器207，并且在针对耳机的音频元素的渲染中使用。因此，第二渲染器207被布置为响应于听者姿态而生成第二组音频信号。

第二渲染器207可以具体地执行双耳渲染，使得音频元素被渲染以被感知为源于相对于听者当前取向和位置的适当位置处。例如，对于第一音频元素，第二渲染器207可以首先确定通过数据流中的针对第一音频元素接收的位置指示而指示场景空间中的位置。第一音频元素相对于用户的相对位置然后可以通过分析当前听者姿态和场景空间中的对应姿态来确定。第二渲染器207然后可以检索对应于该相对位置的HRTF，并且使用检索的HRTF对第一音频信号进行滤波以生成针对第一音频元素的双耳立体信号分量。该分量然后可以被添加到从其他音频元素生成的对应分量以生成输出双耳立体信号。

应意识到，用于生成对应于空间位置处的音频源的耳机信号(并且具体地双耳信号)的许多不同方法是已知的，并且任何这样的合适方法或算法可以被第二渲染器207使用。

相比于第二渲染器207，通过第一渲染器205的渲染(即针对扬声器的渲染)不依赖于听者姿态，并且因此在图2的范例中，第一渲染器205被布置为独立于听者姿态生成第一组音频信号。

第一渲染器205可以具体地考虑针对要被第一渲染器205渲染的音频元素的位置指示，并且将此映射到扬声器的渲染空间中的位置。第一渲染器205然后可以生成针对扬声器的信号，以提供对应于所确定的位置的音频元素的空间感知。

应意识到，用于生成对应于空间位置处的音频源的扬声器信号(并且具体地环绕声音信号)的许多不同方法是已知的，并且任何这样的合适方法或算法可以被第一渲染器205使用。

因此，在范例中，耳机信号被连续地生成以反映听者的头部的移动和旋转，由此提供连续的且一致的用户体验。同时，使用扬声器的渲染相对于听者头部的移动和旋转是不变的，这也进一步提供一致的方法。该方法可以提供不同渲染方法提供相对于非静止听者的音频场景的一致表示的方法。

之前的范例已经聚焦于装置为单个用户生成音频场景的表示的情况。然而，在许多实施例中，装置可以为多个用户(诸如具体地为位于相同房间中的两个或更多个用户)生成音频场景的表示。

在这种情况下，第一渲染器205可以被布置为生成针对多个用户的共同的一组音频信号，而第二渲染器207被布置为为每个用户生成个体耳机信号。

因此，对于被选择为由第一渲染器205渲染的音频元素，仅为所有用户生成输出信号的单个集合，例如仅为配置中的每个扬声器生成单个扬声器信号，并且这些通常可以不依赖于任何用户特异性性质。具体地，针对由扬声器渲染生成的第一组音频信号在不考虑任何听者姿态的情况下被生成。为所有用户生成音频场景的相同渲染。

然而，对于被第二渲染器207渲染的音频元素，可以为每个用户生成不同组的音频信号。具体地，可以为每个用户生成双耳立体信号。这些个体信号可以被生成为反映个体听者的性质或特定特性，并且可以具体地被生成为反映个体听者的听者姿态。因此，可以生成反映用户的当前位置和取向的双耳信号。

装置因此可以具体地为多用户情景提供非常高效的支持。可以实质上减少支持多个听者所需的音频处理。例如，双耳处理通常是相对复杂的且耗资源的，并且在许多实施例中，可以实质上减少需要使用双耳处理生成的音频信号的数量，由此实质上降低复杂性和计算负担。

因此，在装置支持相同房间中的两个用户的范例中，第一渲染器205可以被布置为生成用于使用扬声器渲染的第一组共同的音频信号，并且第二渲染器207可以被布置为为第一听者生成针对耳机的第二组音频信号，并且为第二听者生成针对耳机的第三组音频信号。第一组音频信号可以独立于第一和第二听者的听者姿态被生成，并且第二组音频信号可以响应于第一听者的听者姿态而被生成，并且第三组音频信号可以响应于第二听者的听者姿态而被生成。

在不同的实施例中，接收的数据流中提供的音频渲染性质指示符可以表示不同的数据。

音频渲染性质指示符指示第一音频元素的第一部分是与听者姿态相关位置相关联还是与听者姿态无关位置相关联。音频渲染性质指示符可以具体地指示第一音频元素是否是剧情声。

作为特定范例，在一些实施例中，选择器209可以被布置为基于根据MPEG术语针对音频元素的音频渲染性质指示符指示它是“固定到头部取向”还是“非固定到头部取向”而在第一渲染器205和第二渲染器207上分布音频元素。

由作为“固定到头部”的音频渲染性质指示符指示的音频元素是旨在相对于用户的头部具有固定位置的音频元素。此类音频元素可以使用第二渲染器207来渲染，并且可以独立于听者姿态被渲染。因此，此类音频元素的渲染不考虑用户的头部取向(的改变)，换言之此类音频元素是当用户转动其头部时相对位置不改变的音频元素(例如，诸如环境噪声的非空间音频或例如旨在跟随用户而不改变相对位置的音乐)。

由作为“非固定到头部”的音频渲染性质指示符指示的音频元素是旨在在(虚拟或真实)环境中具有固定位置的音频元素，并且因此其渲染动态地适应于用户的头部取向(的改变)。在许多实施例中，当这样的音频元素被渲染为基于当前听者姿态被调适的双耳耳机信号时，这可以是更逼真的。例如，通过环绕声音扬声器设置渲染的音频源的位置的感知可以依赖于用户位置和取向，并且因此由这样的扬声器设置渲染指示为“非固定到头部”的音频元素可以导致当用户移动其头部时被感知为移动的音频源。

因此，在一些实施例中，“非固定到头部取向”元素可以在用户的耳机上来渲染，其中，其位置针对每个个体用户根据该用户的跟踪的头部取向被调适。另一方面，“固定到头部取向”元素可以在扬声器上来渲染，并不适应于用户的头部移动。

这样的实施例的优点是，现在主要经由扬声器(而非经由耳机)呈现的“固定到头部取向”元素主要负责当所有元素都经由耳机来渲染时被体验的声学隔离。此处，推论是“固定到头部取向”声音(主要地音乐和像例如人群、风、雨、雷等的环境声音)经常在性质上是连续的且空间上无所不在的，导致将用户与其物理环境隔离开的声音“毯子”。另一方面，“非固定到头部取向”元素经常在空间和时间上是更局部化且稀疏的，并且因此更不“遮蔽”用户的物理声学环境。

在一些实际的实施中，相比于它们通常在耳机上再现时被感知，在扬声器上渲染的“固定到头部取向”声音的用户感知可以是稍微不同的。然而，这通常不是问题，因为由扬声器渲染的“固定到头部取向”声音通常不是方向性的或在空间局部化方面不是关键的。

哪些音频元素是“非固定到头部取向”和哪些是“固定到头部取向”，可以借助于音频内容流中的元数据明确地发出信号。

在AR(和VR)音频再现的背景下，术语“剧情声”通常也用来描述音频元素是否应当是“固定到头部取向”。“剧情声”描述当用户移动其头部时应当保持在相同虚拟位置处的元素(意味着相对于用户的头部的渲染位置必须被修改)。“非剧情声”描述对此不重要的元素，或甚至可以优选的是其位置不考虑用户的头部移动(意味着它们将会随着用户的头部移动或被“附接”到用户的头部)。

在一些实施例中，针对音频元素的音频渲染性质指示符可以指示音频元素的音频格式。选择器209可以被布置为基于音频元素的音频格式选择第一渲染器205还是第二渲染器207被用于渲染音频元素。音频渲染性质指示符可以例如指示音频元素是来自以下组的音频格式：音频对象格式；高阶立体混响音频格式；以及音频信道信号音频格式。

在一些实施例中，选择器209可以被布置为基于音频元素的格式在要由耳机渲染元素或由扬声器渲染元素之间进行区别。

例如：经常被用于传输像音乐和环境声音的背景声音的基于信道的或高阶立体混响(HOA)元素可以在扬声器上渲染，而通常用来传输场景的主要音频元素(经常表示具有明确限定的位置的音频源)的对象元素可以针对每个用户在耳机上被个体地渲染。这也使得用户不仅能够改变其头部取向，而且与个体音频对象交互(如果内容制作人想要对象是交互式的)。

该实施例可以被视为提供直接定义哪个渲染器应当被使用的音频渲染性质指示符的备选或添加。例如，在不包括明确发出音频元素是“非固定到头部取向”/“固定到头部取向”元素的信号的情况下，选择器209可以评估音频格式以确定哪个渲染器205、207应当被使用。

方法和不同音频渲染性质指示符可以被组合，例如信道、HOA和被明确发送信号为“固定到头部取向”的元素在扬声器上来渲染，而对象和“非固定到头部取向”元素在耳机上来渲染。

在一些实施例中，音频渲染性质指示符可以指示针对第一音频元素的音频源类型。例如，音频渲染性质指示符可以指示音频元素是否是来自包括例如以下中的一个或多个的组中的音频源类型：语音音频；音乐音频；前景音频；背景音频；旁白音频；以及叙述者音频。

在一些实施例中，在扬声器和耳机上的音频元素的分布可以是基于针对音频元素的源类型的内容流中的指示，例如像“语音”或“音乐”或“前景”或“背景声音”的元数据。在该范例中，“语音”源应当在耳机上来渲染，而“音乐”和“背景”源应当在扬声器上来渲染。特殊实例可以是被标记为是“旁白”或“叙述者”的语音，其最好在扬声器上来渲染(因为它不旨在在空间中具有特定位置而是“无所不在的”)。

在一些实施例中，如之前描述的，接收器201也可以接收指示对应于音频场景的虚拟场景的视觉数据。该数据可以被馈送到视觉渲染器203以使用例如生成对应于当前用户姿态的立体图像的合适渲染技术来渲染。

在一些实施例中，针对音频元素的音频渲染性质指示符可以指示第一音频元素是否表示对应于虚拟场景对象的音频源。虚拟场景对象可以是视觉数据包括视觉表示的对象。

在视觉数据提供针对视口的视觉数据的范例中，音频渲染性质指示符可以指示音频元素是否被链接到视口内的对象。

如果音频渲染性质指示符指示对应于音频元素的对象在场景中是可见的，选择器209可以决定使用耳机来渲染它，并且否则它可以使用扬声器来渲染音频元素。在一些实施例中，音频渲染性质指示符可以直接指示对象是否是可见的。然而，在其他实施例中，音频渲染性质指示符可以提供音频元素是否对应于可见场景对象的间接指示。

例如，音频渲染性质指示符可以包括通过接收的视觉数据表示的场景对象的指示。选择器209然后可以前进到评估被链接到音频元素的对象对于当前听者姿态是否是可见的。如果可见，其可以前进到使用耳机来渲染它，并且否则对象可以通过扬声器来渲染。

在一些实施例中，在扬声器和耳机上的音频元素的分布可以基于接收的内容流中的音频元素是否被链接到内容流中的视觉元素/对象的指示。如果指示符指示是这种情况，音频元素在耳机上来渲染。如果指示符指示不是这种情况，音频元素在扬声器上来渲染。

在之前的范例中，选择器209已经被布置为仅基于接收的数据选择适当的渲染器205、207。然而，应意识到，在许多实施例中，另外的考虑并且具体地其他数据可以被考虑。

在许多实施例中，装置可以包括能够接收用户输入的用户输入功能。在此类实施例中，选择器209可以进一步被布置为基于用户输入在第一渲染器205与第二渲染器207之间进行选择。用户输入可以例如是优选的渲染的直接指示，例如特定音频元素应当经由耳机而非扬声器来渲染的明确指示。在其他实施例中，用户输入可以是更间接的，并且可以例如修改选择准则或朝向渲染器205、207中的一个偏向选择。例如，用户输入可以指示希望更多音频元素被耳机渲染，并且选择器209可以改变决定准则以实现这点。

因此，在一些实施例中，用户可以能够直接影响在扬声器和耳机上的元素的分布。一个范例是给予用户手动地指定用于在耳机或扬声器上回放的个体元素的可能性。

由用户的分布控制的另一范例是为用户提供他能够从其选择的两种或几种模式；例如“个体体验”和“共享体验”模式。在用户选择“共享体验”模式的情况下，上面描述的用于确定哪些音频元素应当分别在扬声器上和在耳机上来渲染的实施例中的任一个可以在任何组合中使用。

在一些实施例中，选择器209本身可以被布置为分析(一个或多个)音频元素，并且基于该分析来确定哪个渲染器205、207要使用。例如，如果对于给定音频元素未接收到音频渲染性质指示符，选择器209可以前进到分析(一个或多个)音频元素以确定音频性质，例如场景中的音频元素的数量、每个音频元素的信道的数量、音频元素的位置、音频元素的到(一个或多个)听者(或到每个扬声器)的距离或音频元素的移动。选择器209然后可以前进到基于该音频性质或基于这些中的多个决定哪个渲染器205、207要使用。

在特定的范例配置(此后被称为配置X)中，选择器209可以为每个音频元素选择渲染器以便产生音频场景的最准确的空间表示。例如，如果音频元素在相对靠近物理扬声器中的一个的位置的虚拟位置，那么它可以在该特定扬声器上被渲染。相反，如果音频元素落在未被任何扬声器覆盖的区域中，那么它可以通过耳机来渲染。对于单个听者、并且也对于多个听者(但是具有他们都与扬声器对准的情况)，音频元素具有与扬声器相同的方向(从听者的角度)的事实也能够以相同的方式被使用。然而，这通常是不切实际的，因为用户会随着时间改变位置。在该特定配置X中，(双耳)耳机渲染器207的角度精确性可以被选择器209考虑以便采取该决定。

因此，在一些实施例中，适当的渲染器205、207的选择可以额外地基于音频信号的分析。例如，音频信号的声学性质的估计器能够用来确定诸如音频对象/源(尤其是在多信道信号的情况下)的距离(或速度)或混响时间的性质。音频信号分类器也能够被使用，诸如语音/音乐分类器、音乐种类分类器或音频事件分类器。具体类型的分类器也可以用来确定哪种类型的麦克风(HOA、领夹式麦克风、全向、XY…)已经用来记录给定信号。音频信号的频率分布的分析也可以用来决定哪个音频系统(耳机或扬声器)更适合于渲染整个音频元素。

在之前的范例中，选择器209已经被布置为在逐个音频元素的基础上选择第一渲染器205或第二渲染器207。然而，应意识到，这不是必要的或必需的。例如，在一些实施例中，选择器209可以被布置为选择哪个渲染器205、207要用于音频元素的组。

而且，在一些实施例中，选择器209可以被布置为针对单个音频元素的不同部分在渲染器205、207之间单独选择。例如，对于一些音频元素，一个部分可以通过第一渲染器205来渲染，并且另一部分可以通过第二渲染器207来渲染。

应意识到，音频元素可以依据个体实施例的要求和偏好以不同的方式被分成不同的部分。例如，在一些实施例中，音频元素可以被接收为不同部分的组合或集合，并且选择器209可以为每个部分单独选择渲染器207。例如，音频元素可以通过表示具有明确限定的位置的音频源的第一分量(例如对应于直接音频)和表示更扩散且分布的声音的第二分量(例如对应于混响声音)来表示特定音频源。在这样的情景中，选择器209可以被布置为使用耳机渲染第一分量并且使用扬声器渲染第二分量。

在其他实施例中，选择器209可以被布置为将音频元素分成不同的部分用于渲染。例如，接收的音频元素可以对应于可以被分析以便被分成然后可以被单独渲染的不同部分的音频信号。

具体地，在许多实施例中，音频元素的不同部分可以对应于不同的频率范围。例如，对于对应于特定频率范围的给定的第一部分，选择器209可被布置为选择哪个渲染器205、207要使用。其可以前进到针对不同的频率范围执行操作，并且因此可以导致不同的渲染器205、207被用于第一频率范围和第二频率范围。

在一些实施例中，可以为音频元素的不同部分提供不同的音频渲染性质指示符，并且对于给定部分，当决定如何渲染此时，选择器209可以考虑特定音频渲染性质指示符。在其他实施例中，可以为整个音频元素提供音频渲染性质指示符，但是其中，不同的决定准则被用于不同的部分。例如，对于中到高的频率范围，依据接收的针对音频元素的音频渲染性质指示符进行耳机与扬声器之间的选择，而对于非常低的频率范围，第一渲染器205用来独立于音频渲染性质指示符指示什么在扬声器上渲染信号(反映低频趋向于提供少不显著得多的空间线索)。

例如，信号可以使用低通滤波和高通滤波被分成低频部分和高频部分，其中，取决于音频渲染性质指示符，低频部分被发送到扬声器并且高频部分被发送到耳机。在一些此类实施例中，先进的音频源分离可以被使用(例如在渲染器之间分开每个时频点)。

保留每个时频点处的能量的滤波的使用可以使得物理混合渲染系统能够衰减由滤波生成的可能误差。

所描述的方法可以提供许多有利效果，包括如之前描述的，允许音频场景的感知到的准确空间渲染，同时允许/促进相同位置中的用户直接交互。

在许多情况下，由于所需的潜在降低的双耳处理量，该方法可以降低复杂性和资源使用。能够经常被实现的另一优点是例如在放大器功率和/或用于嵌入式渲染器的处理负荷方面被耳机再现系统使用的能量的降低，这在无绳耳机(例如电池驱动的耳机)的情况下会是至关重要的。

用于VR应用的混合音频再现系统的另一感兴趣性质是它趋向于提供改进的安全性。实际上，与佩戴闭合耳机相反，出席者不与他们周围的真实环境的潜在危险完全切断。在许多实际的情况下，这会是重要的因素。

混合系统(诸如所描述的那些)的又一优点是音频内容在趋向于增强用户的共享体验的感觉的共同扬声器设置上来渲染的事实。该方法趋向于提供改进的用户体验。

将意识到，为了清楚起见，以上描述已经参考不同的功能电路、单元和处理器描述了本发明的实施例。然而，将显而易见的是，可以在不背离本发明的情况下使用不同的功能电路、单元或处理器之间的任何合适的功能分布。例如，被图示为由单独的处理器或控制器执行的功能可以由相同的处理器执行。因此，对特定功能单元或电路的引用仅被视为对用于提供所描述的功能的合适器件的引用，而并不指示严格的逻辑或物理结构或组织。

本发明能够以任何合适的形式来实施，包括硬件、软件、固件或者这些的任何组合。本发明可以任选地被至少部分地实施为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。本发明的实施例的各元件和部件可以以任何合适的方式来物理地、功能地和逻辑地实施。实际上，功能可以在单个单元中、在多个单元中或者作为其他功能单元的一部分来实施。这样，本发明可以在单个单元中实现，或者可以在不同的单元、电路和处理器之间物理地和功能地分布。

尽管已经结合一些实施例描述了本发明，但是并不旨在将本发明限于这里所阐述的特定形式。相反，本发明的范围仅受权利要求的限制。另外，尽管可能看起来结合特定实施例描述了特征，但是本领域技术人员将认识到，可以根据本发明组合所描述的实施例的各种特征。在权利要求中，术语“包括”不排除存在其他元件或步骤。

此外，尽管单独列出，但是多个器件、元件、电路或方法步骤可以通过例如单个电路、单元或处理器来实施。另外，尽管各个特征可以包括在不同的权利要求中，但是这些特征可以有利地组合，并且包含在不同的权利要求中并不意味着特征的组合是不可行和/或不利的。在一类权利要求中包含特征并不意味着对该类别的限制，而是指示该特征在合适时同样适用于其他权利要求类别。此外，权利要求中的特征的顺序并不意味着特征必须工作的任何特定顺序，并且特别地，方法权利要求中的各个步骤的顺序并不意味着必须以该顺序执行这些步骤。而是，可以以任何合适的顺序来执行这些步骤。另外，单数引用不排除多个。因此，对“一”、“一个”、“第一”、“第二”等的引用不排除多个。权利要求中的附图标记仅仅被提供用于地使范例清楚，而不应当被解释为以任何方式限制权利要求的范围。

Claims

1.一种音频装置，包括：

接收器(201)，其用于接收描述音频场景的数据，所述数据包括针对与所述场景中的音频源相对应的一组音频元素的音频数据和至少包含针对所述一组音频元素中的第一音频元素的第一音频渲染性质指示符的元数据；

第一渲染器(205)，其用于通过生成针对一组扬声器的第一组音频信号来渲染音频元素；

第二渲染器(207)，其用于通过生成针对耳机的第二组音频信号来渲染音频元素；以及

选择器(209)，其被布置为响应于所述第一音频渲染性质指示符而在所述第一渲染器(205)与所述第二渲染器(207)之间进行选择以用于渲染所述第一音频元素的至少第一部分；

其中，所述音频渲染性质指示符指示所述第一音频元素的所述第一部分是与听者姿态相关位置相关联还是与听者姿态无关位置相关联。

2.根据权利要求1所述的装置，还包括听者姿态接收器(211)，所述听者姿态接收器用于接收指示听者的姿态的听者姿态，并且所述第一渲染器(205)被布置为独立于所述听者姿态而生成所述第一组音频信号，并且所述第二渲染器(207)被布置为响应于所述听者姿态而生成所述第二组音频信号。

3.根据权利要求1所述的装置，其被布置为为多个听者生成音频信号，其中，所述第一渲染器(205)被布置为生成所述第一组音频信号作为针对所述多个听者的共同的一组音频信号；并且所述第二渲染器(207)被布置为为所述多个听者中的第一听者生成针对耳机的所述第二组音频信号，并且为所述多个听者中的第二听者生成针对耳机的第三组音频信号。

4.根据任一之前权利要求所述的装置，其中，所述第一部分是所述第一音频元素的频率子范围。

5.根据任一之前权利要求所述的装置，其中，所述选择器(209)被布置为针对所述第一音频元素的所述第一部分和针对所述第一音频元素的第二部分选择所述第一渲染器(205)和所述第二渲染器(207)中的不同渲染器(205、207)。

6.根据权利要求1所述的装置，其中，所述音频渲染性质指示符指示所述第一音频元素的音频格式。

7.根据权利要求1所述的装置，其中，所述音频渲染性质指示符指示所述第一音频元素的音频源类型。

8.根据任一之前权利要求所述的装置，其中，所述音频渲染性质指示符指示用于渲染所述第一音频元素的渲染的引导渲染性质。

9.根据权利要求8所述的装置，其中，所述音频渲染性质指示符指示所述第一音频项的所述第一部分是旨在用于在扬声器上进行渲染还是旨在用于在耳机上进行渲染。

10.根据任一之前权利要求所述的装置，其中，所述接收器(201)还被布置为接收指示对应于所述音频场景的虚拟场景的视觉数据，并且所述音频渲染性质指示符指示所述第一音频元素是否表示对应于虚拟场景对象的音频源。

11.根据任一之前权利要求所述的装置，还包括用于接收用户输入的用户输入端，并且其中，所述选择器(211)被布置为响应于所述用户输入而在所述第一渲染器(205)与所述第二渲染器(207)之间进行选择以用于渲染所述第一音频元素的至少所述第一部分。

12.根据任一之前权利要求所述的装置，其中，所述选择器(209)被布置为确定所述第一音频元素的音频性质，并且响应于音频性质而在所述第一渲染器(205)与所述第二渲染器(207)之间进行选择以用于渲染所述第一音频元素的至少所述第一部分。

13.一种音频处理的方法，包括：

接收描述音频场景的数据，所述数据包括针对与所述场景中的音频源相对应的一组音频元素的音频数据和至少包含针对所述一组音频元素中的第一音频元素的第一音频渲染性质指示符的元数据；

通过生成针对一组扬声器的第一组音频信号来渲染音频元素；

通过生成针对耳机的第二组音频信号来渲染音频元素；并且

响应于所述第一音频渲染性质指示符而在针对所述一组扬声器渲染所述第一音频元素的至少第一部分与针对所述耳机渲染所述第一音频元素的至少第一部分之间进行选择；

14.一种计算机程序产品，包括计算机程序代码模块，当所述程序在计算机上被运行时，所述计算机程序代码模块适应于执行权利要求13的所有步骤。