CN105191354B

CN105191354B - 音频处理装置及其方法

Info

Publication number: CN105191354B
Application number: CN201480028327.8A
Authority: CN
Inventors: W.P.J.德布鲁伊恩; A.S.赫马; A.W.J.奧门
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2013-05-16
Filing date: 2014-05-16
Publication date: 2018-07-24
Anticipated expiration: 2034-05-16
Also published as: US20210144507A1; RU2667630C2; US11197120B2; JP2016521532A; RU2015153540A; JP6515087B2; US20210136512A1; US10582330B2; EP2997742B1; BR112015028337A2; US11743673B2; EP2997742A1; US11503424B2; ES2931952T3; BR112015028337B1; US20160080886A1; CN105191354A; US20200186956A1; WO2014184353A1

Abstract

音频处理装置包括：接收包括音频成分的音频数据和包括一组音频换能器（703）的音频换能器位置数据的渲染配置数据的接收器（705）。渲染器（707）从音频数据产生这组音频换能器的音频换能器信号。渲染器（7010）能够根据多个渲染模式渲染音频成分。渲染控制器（709）基于音频换能器位置数据而从多个渲染模式选择用于渲染器（707）的渲染模式。渲染器（707）可针对这组音频换能器的不同子集采用不同的渲染模式，渲染控制器（709）可针对这组音频换能器（703）的每个不同子集独立地选择渲染模式。渲染控制器（709）可响应于这组音频换能器（703）的第一音频换能器相对于音频换能器的预定位置的位置而选择第一音频换能器的渲染模式。该方法可提供例如对下面的情形的提高的适应：大部分扬声器在期望位置处而子集从（多个）期望位置偏离。

Description

音频处理装置及其方法

技术领域

本发明涉及音频处理装置及其方法，且更特别地但不排他地涉及包括不同类型的音频成分的空间音频的渲染。

背景技术

在最近几十年中，音频应用的多样性和灵活性随着例如显著变化的音频渲染应用的多样性而极大地增加。除了那之外，音频渲染设置用在种种声环境中且用于很多不同的应用。

在传统上，总是针对一个或多个规定的扬声器配置来开发空间声再现系统。作为结果，空间体验取决于所使用的实际扬声器配置多么接近地匹配所定义的标称配置，并且一般只针对实质上正确地，即根据规定的扬声器配置被建立的系统，来实现高质量空间体验。

然而使用具有一般相对高数量的扬声器的特定扬声器配置的要求是麻烦的和不利的。实际上，由消费者在部署例如家庭影院环绕声系统时感觉到的明显的不方便是对将要位于特定位置处的相对大数量的扬声器的需要。一般，实际环绕声扬声器设置将由于用户发现将扬声器定位在最佳位置处是不实际的而从理想设置偏离。相应地，由这样的设置提供的体验且特别是空间体验是次优的。

在近年来，因此有朝着消费者要求对他们的扬声器的位置的较不严格的需要的强烈趋势。甚至更加如此的是，他们的主要要求是扬声器设置适合他们的家庭环境，而同时他们当然预期系统仍然提供高质量声体验。当扬声器的数量增加时，这些冲突要求变得更突出。此外，由于朝着提供具有从多个方向到达收听者的声音的全三维声再现的当前趋势，问题变得更相关。

开发了音频编码格式以提供越来越有能力的、多变的和灵活的音频服务，且特别是，开发了支持空间音频服务的音频编码格式。

熟知的音频编码技术例如DTS和杜比数码产生将空间图像表示为围绕在固定位置处的收听者放置的多个通道的编码多通道音频信号。对于与对应于多通道信号的设置不同的扬声器设置，空间图像将是次优的。此外，基于通道的音频编码系统一般不能够对付不同数量的扬声器。

(ISO/IEC) MPEG-2提供多通道音频编码工具，其中比特流格式包括音频信号的2通道和5多通道混合。当使用(ISO/IEC) MPEG-1解码器对比特流解码时，2通道后向兼容的混合被再现。当使用MPEG-2解码器对比特流解码时，三个辅助数据通道被解码，这三个辅助数据通道在与立体声通道组合（解矩阵）时导致音频信号的5通道混合。

(ISO/IEC MPEG-D) MPEG环绕声提供允许现有的基于单声道或立体声的编码器扩展到多通道音频应用的多通道音频编码工具。图1图示MPEG环绕声系统的元件的例子。使用通过原始多通道输入的分析得到的空间参数，MPEG环绕声解码器可通过单声道或立体声信号的受控上混而重新创建空间图像，以得到多通道输出信号。

因为多通道输入信号的空间图像被参数化，MPEG环绕声允许通过不使用多通道扬声器设置的渲染设备对同一多通道比特流的解码。例子是在头戴式耳机上虚拟环绕声再现，这被称为MPEG环绕声双耳声解码过程。在这个模式中，当使用常规头戴式耳机时可提供逼真环绕声体验。另一例子是更高阶多通道输出（例如7.1通道）到更低阶设置（例如5.1通道）的削减。

如所提到的，随着越来越多的再现格式变得对主流消费者可用，在用于渲染空间声音的渲染配置中的变化和灵活性在近年来明显增大了。这要求音频的灵活表现。与引入MPEG环绕声编码解码器一起采取重要的步骤。尽管如此，仍然对特定的扬声器设置例如ITU5.1扬声器设置产生并传输音频。没有规定在不同设置上和在非标准（即灵活的或用户定义的）扬声器设置上的再现。实际上，期望使音频编码和变现越来越地独立于特定的预定和标称扬声器设置。越来越优选地，对各种各样不同的扬声器设置的灵活适应可在解码器/渲染侧处被执行。

为了提供音频的更灵活的表现，MPEG标准化了称为“空间音频对象编码”（ISO/IECMPEG-D SAOC）的格式。与多通道音频编码系统（例如DTS、杜比数码和MPEG环绕声）相反，SAOC提供对个体音频对象而不是音频通道的有效编码。虽然在MPEG环绕声中，每个扬声器通道可被考虑为起源于声对象的不同混合，SAOC允许在如图2所示的多通道混合中的个体声对象的位置的交互式操纵。

类似于MPEG环绕声，SAOC也创建单声道或立体声下混。此外，对象参数被计算并包括。在解码器侧，用户可操纵这些参数以控制个体对象的各种特征（例如位置、级别、均衡），或甚至应用效果例如混响。图3图示使用户能够控制包含在SAOC比特流中的个体对象的交互式接口。借助于渲染矩阵，个体的声对象被映射到扬声器通道。

SAOC允许更灵活的方法，且特别是通过除了仅仅再现通道之外传输音频对象而允许更多基于渲染的可适应性。这允许解码器侧将音频对象放置在空间中的任意位置处，假定空间被扬声器充分覆盖。这样，在所传输的音频和再现或渲染设置之间没有关系，因此可使用任意扬声器设置。这对于例如在典型起居室中的家庭影院设置（其中扬声器几乎从不在意图位置处）是有利的。在SAOC中，在解码器处决定对象被放置在声场景中的哪里（例如借助于如图3所示的接口），这常常不是从艺术观点所期望的。SAOC标准提供了在比特流中传输默认渲染矩阵的方式，消除了解码器责任。然而，所提供的方法依赖于固定再现设置或未规定的语法。因此，SAOC不提供标准手段来独立于扬声器设置完全传输音频场景。而且，SAOC未很好地被配备到扩散信号成分的忠实渲染。虽然存在包括所谓的多通道背景对象（MBO）以捕获扩散声音的可能性，这个目的被约束到一个特定的扬声器配置。

3D音频的音频格式的另一规范由DTS有限公司（数字影院系统）开发。DTS有限公司开发了多维音频（MDA^TM）——一种基于开放对象的音频创建和创作平台，以加速下一代内容创建。MDA平台支持通道和音频对象两者，并适应于任何扬声器数量和配置。MDA格式允许遗留多通道下混连同个体声对象一起的传输。此外，对象定位数据被包括。生成MDA音频流的原理在图4中图示。

在MDA方法中，声对象单独地在扩展流中被接收到，且这些可从多通道下混被提取。因而产生的多通道下混连同单独可得到的对象一起被渲染。

对象可由所谓的符尾组成。这些符尾基本上是被分组（下混的）的轨或对象。因此，对象可由被封装进符尾内的多个子对象组成。在MDA中，多通道基准混合可与一系列音频对象一起被传输。MDA传输每个对象的3D位置数据。可然后使用3D位置数据提取对象。替代地，可传输描述在对象和基准混合之间的关系的逆混合矩阵。

从MDA描述中，可能通过将角度和距离分配到每个对象来传输声场景信息，指示对象应相对于例如默认的正向方向放置在哪里。因此，为每个对象传输位置信息。这对点源是有用的，但不能描述宽源（像例如合唱队或喝彩）或扩散声场（例如背景）。当所有点源从基准混合被提取时，背景多通道混合保留。类似于SAOC，在MDA中的残余物固定到特定的扬声器设置。

因此，SAOC和MDA方法都合并可个体地在解码器侧被操纵的个体音频对象的传输。在这两种方法之间的差异是，SAOC通过提供相对于下混表征对象的参数（即，使得在解码器侧处从下混产生音频对象）来提供关于音频对象的信息，而MDA提供音频对象作为完全和单独的音频对象（即可在解码器侧处与下混独立地产生）。对于这两种方法，可为音频对象传递位置数据。

目前，在ISO/IEC MPEG内，准备标准MPEG 3D音频以便于3D音频的传输和渲染。MPEG-3D音频旨在连同HEVC视频编码和MMT（MPEG媒体传输）系统层一起成为MPEG-H套件的部分。图5图示意图的MPEG 3D音频系统的当前高级别方框图。

除了传统的基于通道的格式以外，该方法旨在也支持基于对象和基于场景的格式。系统的重要方面是，它的质量应针对增加的比特率的透明度而按比例调整，即随着数据速率增加，由编码和解码引起的降级应继续减小，直到它是微不足道的为止。然而，这样的要求对在过去相当大量地使用的参数编码技术（即HE-AAC v2、MPEG环绕声、SAOC、USAC）往往是成问题的。特别是，个体信号的信息损失的补偿往往不被参数数据安全补偿，甚至在非常高的比特率下也是如此。实际上，质量将被参数模型的内在质量限制。

MPEG-3D音频此外试图提供因而产生的独立于再现设置的比特流。所设想的再现可能性包括多达22.2个通道的灵活的扬声器设置以及在头戴式耳机和紧密地间隔开的扬声器之上的虚拟环绕声。

US2013/101122 A1公开了基于对象的音频内容产生/播放装置，其使基于对象的音频内容能够使用WFS方案和多通道环绕声方案中的至少一个来播放，而不考虑听众的再现环境。

WO2013/006338 A2公开了包括新的扬声器布局（通道配置）和相关空间描述格式的系统。WO2013/006338 A2目的在于提供支持多种渲染技术的自适应音频系统和格式。音频流连同描述“混合器的意图”（包括（多个）音频对象的期望位置）的元数据一起被传输。

US2010/223552 A1公开了配置成捕获和/或产生由多个声源产生的声事件的系统。特别是，该系统可配置成使得可在个体的基础上控制与声源的单独声源相关的声对象的声产生的捕获、处理和/或输出。

总之，大部分现有的声再现系统在扬声器设置方面只允许适度量的灵活性。因为几乎每个现有的系统都根据关于扬声器（例如或多或少等距地围绕收听者定位的扬声器，或布置在收听者的前方的一条线上的扬声器，或头戴式耳机）的一般配置，或关于内容的性质（例如由少量单独可定位源组成或由高度扩散声场景组成）的某个基本假设来开发，每个系统只能够传送用针对可出现在渲染环境中（例如在用户的家里）的有限范围的扬声器配置的最佳体验。允许灵活的扬声器设置的新的一类声音渲染系统因此是期望的。这个灵活性可包括各种元素，其包括不仅扬声器的位置，而且扬声器的数量及它们的个体特性（例如带宽、最大输出功率、方向性等）。

因此，改进的音频渲染方法将是有利的，且特别是允许增加的灵活性、方便的实施方式和/或操作、允许扬声器的更灵活定位、对不同的扬声器配置的提高的适应和/或提高的性能的方法将是有利的。

发明内容

相应地，本发明试图优选地减轻、缓和或消除单独地或以任何组合的一个或多个上面提到的缺点。

根据本发明的方面，提供了音频处理装置，其包括：用于接收音频数据和渲染配置数据的接收器，音频数据包括多个音频成分的音频数据且渲染配置数据包括一组音频换能器的音频换能器位置数据；用于从音频数据产生用于这组音频换能器的音频换能器信号的渲染器，渲染器能够根据多个渲染模式渲染音频成分；布置成响应于音频换能器位置数据而从多个渲染模式选择用于渲染器的渲染模式的渲染控制器；以及其中渲染器布置成针对这组音频换能器的不同子集使用不同的渲染模式，并针对这组音频换能器的每个不同子集独立地选择渲染模式。

本发明还在很多情形中提供改进的渲染。在很多实际应用中，可实现实质上提高的用户体验。该方法允许在用于渲染音频的音频换能器（特别是扬声器）的定位中的增加的灵活性和自由度。例如，该方法可允许未被最佳地定位（例如根据预定或默认的配置设置）的音频换能器的提高的适应和优化，而同时允许被定位的音频换能器实质上最佳地被充分利用。

不同的音频成分可以特别地都是同一摄影棚或音频场景的部分。音频成分可以是空间音频成分，例如通过具有例如由相关元数据提供的相关隐式位置信息或显式位置信息。渲染模式可以是空间渲染模式。

音频换能器信号可以是音频换能器的驱动信号。音频换能器信号可在被馈送到音频换能器之前例如通过滤波或放大被进一步处理。等同地，音频换能器可以是包括用于放大和/或滤波所提供的驱动信号的功能的有源换能器。可为多个音频换能器的每个音频换能器产生音频换能器信号。

渲染控制器可布置为就针对子集选择不同渲染模式的意义上针对不同子集独立地选择渲染模式。一个子集的渲染模式的选择可考虑与属于另一子集的音频换能器相关的特性。

音频换能器位置数据可提供用于这组音频换能器的每个音频换能器的位置指示或可提供用于仅仅其子集的位置指示。

渲染器可布置成针对每个音频成分产生用于音频换能器的音频换能器信号成分，并通过组合用于多个音频成分的音频换能器信号成分来产生用于每个音频换能器的音频换能器信号。

根据本发明的可选特征，渲染器可操作来针对这组换能器的第一音频换能器的音频对象使用不同的渲染模式，且渲染控制器布置成针对第一音频换能器的每个音频对象独立地选择渲染模式。

这可在很多实施例中提供提高的性能和/或可允许提高的用户体验和/或增加的自由度和灵活性。特别是，该方法可允许对特定的渲染情形的提高的适应，其中考虑对特定渲染配置和被渲染的音频的优化。特别是，特定的渲染算法被使用于的音频换能器的子集对于不同的音频成分可以是不同的，以反映音频成分的不同特性。

在一些实施例中，渲染控制器可布置成响应于渲染配置数据，针对第一音频成分选择来自多个渲染模式的选定渲染模式；并响应于音频描述数据确定选定渲染模式的一组渲染参数。

根据本发明的可选特征，多个音频成分中的至少两个是不同的音频类型。

这可在很多实施例中提供提高的性能和/或可允许提高的用户体验和/或增加的自由度和灵活性。特别是，该方法可允许对特定的渲染情形的提高的适应，其中执行对特定渲染配置和被渲染的音频的优化。

用于给定的音频换能器的渲染模式对于不同的音频成分可以是不同的。可根据音频成分的音频类型来选择不同的渲染模式。音频描述数据可指示多个音频成分中的一个或多个的音频类型。

根据本发明的可选特征，多个音频成分包括来自由下列项组成的组的不同音频类型的至少两个音频成分：音频通道成分、音频对象成分和音频场景成分；并且渲染器布置成针对该至少两个音频成分使用不同渲染模式。

这可提供特别有利的性能，且可特别是允许系统例如MPEG 3D Audio的提高的性能。渲染控制器可根据音频成分是音频通道、音频对象还是音频场景对象来选择用于音频换能器的给定子集和第一音频成分的渲染模式。

根据MPEG标准ISO/IEC 23008-3 MPEG 3D Audio，音频成分可以特别地是音频通道成分、音频对象成分和/或音频场景成分。

根据本发明的可选特征，接收器布置成接收指示至少第一音频成分的音频类型的音频类型指示数据，且渲染控制器布置成响应于音频类型指示数据而选择用于第一音频成分的渲染模式。

这可提供提高的性能，并可允许提高的用户体验、提高的适应和/或在音频换能器定位中的提高的灵活性和自由度。

根据本发明的可选特征，渲染控制器布置成响应于第一音频换能器相对于音频换能器的预定位置的位置来选择用于第一音频换能器的渲染模式。

第一音频换能器的位置和/或该预定位置可作为绝对位置或作为例如相对于收听者位置的相对位置而被提供。

预定位置可以是在渲染配置中的音频换能器的标称或默认位置。渲染配置可以是与标准设置例如标称5.1环绕声扬声器设置相关的渲染配置。渲染配置在一些情况下可对应于与一个或多个音频成分相关的默认渲染配置，例如与音频通道相关的渲染配置。特别地，预定位置可以是针对音频通道假设或定义的默认音频换能器位置。

根据本发明的可选特征，渲染控制器布置成选择用于第一音频换能器的默认渲染模式，除非在第一音频换能器的位置与预定位置之间的差异超过阈值。

这可便于操作并可在很多实施例和情形中允许提高的可靠性和/或鲁棒性。默认渲染模式可例如与默认渲染配置（例如与标准环绕声音频换能器配置相关的环绕声渲染算法）相关。默认渲染模式（例如环绕声渲染模式）可用于被定位为靠近标准环绕声音频换能器配置的默认位置的音频换能器，而当音频换能器位置足够偏离默认位置时可选择替代的渲染模式/算法。

根据本发明的可选特征，渲染控制器布置成：将这组音频换能器分成音频换能器的第一子集和音频换能器的第二子集，音频换能器的第一子集包括在音频换能器的位置和预定位置之间的差异超过阈值的音频换能器，而音频换能器的第二子集包括在音频换能器的位置和预定位置之间的差异不超过阈值的至少一个音频换能器；以及从第一渲染模式子集选择用于第一子集的每个音频换能器的渲染模式并从第二渲染模式子集选择用于第二子集的每个音频换能器的渲染模式。

该方法可提供方便的操作和/或提高的性能和/或增加的灵活性。

第一子集可包括被定位为远离给定标称渲染/音频换能器配置的默认位置的音频换能器。第二子集可包括被定位为接近给定标称渲染/音频换能器配置的默认位置的一个或多个音频换能器。第二子集的（多个）驱动信号可使用与给定标称渲染/音频换能器配置相关的标称渲染模式，而第一子集的驱动信号可使用补偿不在默认位置处的音频换能器的不同的渲染模式。第一子集可能包括在音频换能器的位置和预定位置之间的差异不超过阈值的一个或多个音频换能器；例如，如果这样的（多个）音频换能器用于支持来自其中该差异超过阈值的音频换能器的渲染的话。

根据本发明的可选特征，多个渲染模式包括从由下列项组成的组选择的至少一个渲染模式：立体声渲染；基于矢量的幅值平移渲染；波束成型渲染；串音消除渲染；高保真度立体声响复制（ambisonics）渲染；波场合成渲染；以及最小二乘法优化渲染。

在这些渲染模式之间的音频换能器子集的单独选择提供特别有利的性能。实际上，组的渲染模式具有特别适合于具有不同特性的不同渲染/音频换能器配置的特性。

根据本发明的可选特征，接收器还布置成接收音频成分的渲染位置数据，且渲染控制器布置成响应于渲染位置数据而选择渲染模式。

这可提供提高的性能和适应，且将在很多实施例和情形中允许提高的用户体验。

根据本发明的可选特征，渲染器布置成针对音频成分中的音频成分的不同频带使用不同的渲染模式；且渲染控制器布置成针对音频成分的不同频带独立地选择渲染模式。

根据本发明的可选特征，渲染控制器布置成使用于至少一个音频成分的渲染的变化与在该至少一个音频成分中的音频内容变化同步。

这可提供提高的性能和适应，且将在很多实施例和情形中允许提高的用户体验。它可特别是减小渲染中的变化对用户来说的显著性。

根据本发明的可选特征，渲染控制器还布置成响应于来自由下列项组成的组的渲染配置数据而选择渲染模式：不在这组音频换能器中的音频换能器的音频换能器位置数据；收听位置数据；这组音频换能器的音频换能器的音频换能器音频渲染特性数据；以及用户渲染偏好。

根据本发明的可选特征，渲染控制器布置成响应于由感知模型产生的质量度量而选择渲染模式。

这可提供特别有利的操作并可提供提高的性能和/或适应。特别是，在很多实施例中，它可允许有效和优化的适应。

根据本发明的方面，提供了音频处理的方法，该方法包括：接收音频数据和渲染配置数据，音频数据包括多个音频成分的音频数据并且渲染配置数据包括一组音频换能器的音频换能器位置数据；从音频数据产生这组音频换能器的音频换能器信号，该产生包括根据多个可能的渲染模式中的渲染模式来渲染音频成分；响应于音频换能器位置数据从多个可能的渲染模式选择用于渲染器的渲染模式；并且其中音频换能器信号的产生包括针对这组音频换能器的不同子集采用不同的渲染模式，以及针对这组音频换能器的不同子集中的每个子集独立地选择渲染模式。

本发明的这些和其它方面、特征和优点将根据在下文中描述的实施例中而变得清楚并将参考在下文中描述的实施例被阐明。

附图说明

仅通过例子参考附图来描述本发明的实施例，其中：

图1图示根据现有技术的MPEG环绕声系统的原理的例子；

图2图示根据现有技术的SAOC系统的元件的例子；

图3图示使用户能够控制包含在SAOC比特流中的个体对象的交互式接口；

图4图示根据现有技术的DTS MDA^TM的音频编码的原理的例子；

图5图示根据现有技术的MPEG 3D音频系统的元件的例子；

图6图示根据本发明的一些实施例的渲染方法的原理的例子；

图7图示根据本发明的一些实施例的音频处理装置的例子；以及

图8图示图7的音频处理装置的渲染器的元件的例子。

具体实施方式

下面的描述聚焦于可应用于渲染系统的本发明的实施例，渲染系统布置成渲染不同类型的多个渲染音频成分，且特别是MPEG音频流的音频通道、音频对象和音频场景对象的渲染。然而将认识到，本发明不限于这个申请，但可应用于很多其它音频渲染系统以及其它音频流。

所述渲染系统是能够使它的操作适应于所使用的特定音频换能器渲染配置且特别地适应于在渲染中使用的音频换能器的特定位置的自适应渲染系统。

大部分现有声再现系统只允许在扬声器设置中的非常适度量的灵活性。由于通常以关于扬声器的一般配置（例如扬声器或多或少等距地位于收听者周围或布置在收听者的前方的线上的扬声器）或关于音频内容的性质（例如它由少量单独局部化源组成或它由高度扩散声场景组成）的基本假设来开发常规系统，现有系统一般只能够针对有限范围的扬声器配置来传送最佳体验。这导致在用户体验中且特别是在很多真实生活使用情况中的空间体验中的明显降低和/或严重减小用户定位扬声器的自由度和灵活性。

在下文中所述的渲染系统提供能够传送在不同扬声器设置的大范围内的高质量和一般优化的空间体验的自适应渲染系统。它因此提供在很多应用中例如对家庭渲染应用寻求的自由度和灵活性。

渲染系统基于决策算法的使用，决策算法从一组不同的（空间）声音渲染方法模式选择一个或多个（空间）渲染方法，使得（多个）用户的提高和常常最优的体验被实现。选择决策基于用于渲染的实际扬声器配置。用于选择渲染模式的配置数据包括扬声器的至少（可能三维）位置，并可在一些实施例中也考虑扬声器的其它特性（例如尺寸、频率特性和方向性型式）。在很多实施例中，选择决策可进一步基于音频内容的特性，例如，如在伴随实际音频数据的元数据中规定的。

在一些实施例中，选择算法还可使用其它可得到的信息以调节或确定（多个）选定渲染方法的设置。

图6图示根据本发明的一些实施例的渲染方法的原理的例子。在该例子中，当选择音频输入流的音频成分的适当渲染模式时，考虑各种数据。

图7图示根据本发明的一些实施例的音频处理装置701的例子.音频处理装置701特别地是产生用于一组音频换能器的信号的音频渲染器，这组音频换能器在特定的例子中是扬声器703。因此，音频处理装置701产生音频换能器信号，其在特定的例子中是用于一组扬声器703的驱动信号。图7特别地图示六个扬声器（例如对于5.1扬声器设置）的例子，但将认识到，这仅仅图示特定的例子，以及可使用任何数量的扬声器。

音频处理装置701包括接收包括从扬声器703将被渲染的多个音频成分的音频数据的接收器705。音频成分一般被渲染以向用户提供空间体验，并可例如包括音频通道、音频对象和/或音频场景对象。

音频处理装置701还包括布置成从音频数据产生音频换能器信号（即扬声器703的驱动信号）的渲染器707。特别地，渲染器可从每个音频成分产生扬声器703的驱动信号成分，并接着将不同音频成分的驱动信号成分组合成单个音频换能器信号，即被馈送到扬声器703的最终驱动信号。为了简洁和清楚，图7和下面的描述将不讨论可应用于驱动信号或当产生驱动信号时的标准信号处理操作。然而将认识到，系统可包括例如滤波和放大功能。

接收器705在一些实施例中可接收包括多个音频成分的编码音频数据的编码音频数据，并可布置成将音频数据解码并向渲染器707提供解码的音频流。特别地，可为每个音频成分提供一个音频流。替代地，一个音频流可以是多个声对象（如例如针对SAOC比特流）的下混。在一些实施例中，接收器705还可布置成向音频成分的渲染器707提供位置数据，且渲染器707可相应地定位音频成分。在一些实施例中，可以替代地或此外假设或预定所有或一些音频成分的位置，例如标称环绕声设置的音频通道的默认音频源位置。在一些实施例中，位置数据可以替代地或此外从例如用户输入由单独的算法提供或由渲染器本身产生。

与常规系统相反，图7的音频处理装置701不仅仅基于扬声器703的预定或假设的位置产生驱动信号。更确切地，系统使渲染适应于扬声器的特定配置。特别地，系统布置成根据扬声器的位置在多个不同的算法之间选择并此外能够为不同的扬声器选择不同的渲染算法。

将认识到，不同的渲染算法包括可在很多音频设备中可得到的各种音频渲染增强算法。这样的算法常常设计成为收听者提供例如更好的空间包围、提高的语音清晰性或更宽的收听区域。这样的增强特征可被考虑为渲染算法和/或可被考虑为特定渲染算法的成分。

特别是，渲染器707可操作来根据具有不同特性的多个渲染模式来渲染音频成分。例如，一些渲染模式将采用提供给出非常特定和高度局部化音频感知的渲染的算法，而其它渲染模式采用提供扩散和展开位置感知的渲染算法。因此，渲染和所感知的空间体验可根据哪个渲染算法被使用而实质上非常不同。

渲染器707由耦合到接收器705和渲染器707的渲染控制器709控制。接收器705接收包括指示渲染设置和特别地指示音频换能器/扬声器设置/配置的数据的渲染配置数据。渲染配置数据特别地包括指示至少一些扬声器703的位置的音频换能器位置数据。

将认识到，音频换能器位置数据可以是提供一个或多个扬声器703的位置——包括绝对或相对位置（包括例如相对于扬声器703的其它位置、相对于扬声器703的标称（预定）位置、相对于收听位置或单独局部化设备或环境中的其它设备的位置的位置）——的指示的任何数据。也将认识到，可以用任何适当的方式提供或产生音频换能器位置数据。例如在一些实施例中，音频换能器位置数据可由用户手动输入，例如作为相对于参考位置（例如收听位置）的实际位置或作为在扬声器之间的距离和角度。在其它例子中，音频处理装置701可本身包括用于基于测量来估计扬声器703的位置的功能。例如，扬声器703可设置有麦克风，且这可用于估计位置。例如每个扬声器703转而可渲染测试信号，且在麦克风信号中的测试信号成分之间的时间差可被确定并用于估计到渲染测试信号的扬声器703的距离。从多个（且一般所有）扬声器703的测试得到的距离的完整集合可接着用于估计扬声器703的相对位置。

渲染控制器709布置成控制由渲染器707使用的渲染模式。因此，渲染控制器709控制哪些特定的渲染算法由渲染器707使用。渲染控制器709基于音频换能器位置数据来选择渲染模式，且因此由音频处理装置701采用的渲染算法将取决于扬声器703的位置。

然而，不是只调节渲染特性或在用于作为整体的系统的渲染模式之间切换，图7的音频处理装置701布置成根据个体扬声器703的位置选择用于个体扬声器子集的渲染模式和算法。因此，一个渲染模式可用于一些扬声器703，而另一渲染模式可同时用于其它扬声器703。由图7的系统渲染的音频因此是针对扬声器703的不同子集的不同空间渲染模式的应用的组合，其中空间渲染模式是根据扬声器703的位置而选择的。

渲染控制器709可特别地将扬声器703分成多个子集并根据在子集中的扬声器703的位置为这些子集中的每个独立地选择渲染模式。

针对不同扬声器703的不同渲染算法的使用可在很多情形中提供提高的性能，并可允许对特定渲染设置的提高的适应，同时在很多情形中提供提高的空间体验。

特别地，发明人认识到，在很多情况下，消费者将试图尽可能最佳地放置扬声器，但这一般仅对一些扬声器是可能的或方便的。因此，在很多实际情形中，针对扬声器的子集妥协扬声器的定位。例如，当建立环绕声系统时，用户将常常试图将扬声器定位在主要收听区域周围的适当（例如等距）位置处。然而，常常这可能对一些扬声器是可能的，但将不是对所有扬声器都是可能的。例如对于很多家用家庭影院系统，前扬声器可被定位于在显示器周围的高度适合的位置处，且一般紧密地对应于这些扬声器的标称位置。然而，在很多情况中，将环绕或后扬声器适当地定位不是可能或方便的，且这些扬声器的位置可能被高度妥协。例如，后扬声器可被非对称地定位，且例如左和右后扬声器都可被定位于收听位置的一侧上。在大部分常规系统中，因而产生的降级的空间体验简单地被接受，且实际上对于后环绕扬声器，由于后声源的减小的显著性，这可常常被考虑为可接受的。

然而，在图7的系统中，从最佳渲染配置的偏离可被检测到，且渲染控制器709可切换用于后扬声器的渲染模式。特别地，来自前扬声器的音频的渲染可以不变并遵循标准环绕声渲染算法。然而，当渲染控制器709检测到一个或多个后扬声器被定位于远离默认或最佳位置处时，它可切换以使用具有不同特性的不同渲染算法。特别地，渲染控制器709可控制渲染器707，使得它对于后扬声器从执行默认环绕声渲染切换到执行向用户提供更适当的感知输入的不同渲染算法。

例如，渲染控制器709可切换渲染器707以应用引入扩散性并移除声源的空间明确性的渲染。渲染算法可例如将解相关添加到后通道音频成分，使得局部化声源将不再是界限分明的和高度局部化的，但更确切地表现为扩散或展开。因此，如果渲染控制器709检测到所有扬声器703在适当的默认位置处，则它应用标准环绕声渲染算法来产生驱动信号。然而，如果它检测到一个或多个后扬声器被定位于远离默认位置处，则它将用于产生这些扬声器的驱动信号的渲染算法切换到引入扩散性的渲染算法。因此，不是在错误位置处感知到界限分明和局部化的声源，收听者将相反将声源感知为不是局部化的，但例如从后面扩散地到达。这在很多情况下将提供更优选的用户体验。此外，系统能够自动适合于提供这样的提高的体验而不妥协下面的情形的性能：后扬声器实际上被定位于期望位置处。此外，因为适应被限制到直接由次优位置影响的扬声器的子集，改进被实现而不妥协其它扬声器的性能。特别是，前音频级实质上并不被影响，且特别是高度局部化的前音频源将高度局部化的前音频源保持在相同的位置处。

然而，作为体地啊的实施例，我们可考虑下面的情况：用户明确地偏爱可局部化的声音而不是扩散渲染，即使位置不是确切地正确的。在这种情况下，可基于用户偏好来选择具有较少扩散再现方法的渲染方法。

作为另一例子，渲染器707可被控制来使用反映扬声器703的感知是多么可分离的渲染模式。例如，如果检测到一些扬声器被如此接近地定位在一起使得它们本质上被感知为单个声源（或至少为两个相关的声源），则渲染控制器709可为这些扬声器703选择与足够远离以作为单独声源起作用的扬声器不同的渲染算法。例如，使用波束成型的元素的渲染模式可用于足够接近的扬声器，而没有波束成型用于远离的扬声器。

将认识到，在不同的实施例中可使用很多不同的渲染模式和算法。在下文中，将描述可包括在可由渲染控制器709选择的这组渲染模式中的渲染算法的例子。然而将认识到，这些仅仅是示例性的，以及概念不限于这些算法。

标准化立体声渲染：

这指在标准化扬声器设置中的经典的基于幅值平移的渲染，其中每个音频通道被假设直接对应于扬声器之一。它可以指二通道立体声（具有在相对于收听位置的对称方位角处的两个扬声器）以及同一概念的多通道扩展，例如ITU 5.1-通道和7通道环绕声以及3D扩展例如22.2。

这种方法在下面的情况下执行地很好：扬声器根据假设的标准化配置被定位，且收听者位于中心（“甜点”）处。如果这些条件不被满足，则众所周知立体声渲染次优地执行。

基于矢量的幅值平移渲染：

这是如下的方法，该方法基本上是通过使在扬声器对之间的幅值平移定律适应于放置在空间中的已知的两维或三维位置上的多于两个扬声器来支持非标准化扬声器配置的立体声渲染方法的一般化。该方法的详细描述可在例如V. Pulkki的“Virtual SoundSource Positioning Using Vector Base Amplitude Panning”（J.AudioEng.Soc.,Vol.45,No.6, 1997）中找到。

该方法在下面的使用情况中特别适合：扬声器或多或少随机地分布在收听者周围，而在其间没有任何极大或极小的“间隙”。典型例子是下面的情况：环绕声系统的扬声器“或多或少”根据规范来放置，但对个体的扬声器有一些偏差。

该方法的限制是，局部化性能在下面的情况下降级：在扬声器对之间的大“间隙”存在，特别是在侧面处，以及源不能位于由扬声器对“覆盖”的区域之外。

波束成型渲染：

波束成型是与扬声器阵列、即被紧密地放置在一起（例如在其间小于几分米）的多个扬声器的群集相关的渲染方法。控制在个体扬声器之间的幅值和相位关系允许声音向规定的位置“射出”和/或源被“聚焦”在扬声器阵列前方或后面的特定位置处。这个方法的详细描述可在例如Van Veen、B.D的“ Beamforming: a versatile approach to spatialfiltering”（ASSP Magazine, IEEE(卷:5 ,期: 2 ), 公布日期: 1988年4月）中找到。

其中这种类型的渲染是有益的一般使用情况是当扬声器的小阵列位于收听者的前方时，而没有扬声器存在于后方处或甚至在左和右前方处。在这样的情况下，可能通过将一些音频通道或对象“射出”到收听室的侧壁来为用户创建完全环绕声体验。声音从壁的发射从侧面和/或后面到达收听者，因而创建完全沉浸式“虚拟环绕声”体验。这是在“soundbar”型的各种消费者产品中使用的渲染方法。

波束成型渲染可被有利地采用的另一例子是当待渲染的声通道或对象包含语音时。使用波束成型将这些语音音频成分渲染为以用户为目的的波束可导致用户的更好的语音可理解性，因为更少的混响在房间中产生。

波束成型一般不用于其中在扬声器之间的间隔超过几分米的扬声器配置（的子部分）。

串音消除渲染：

这是能够从两个扬声器创建完全沉浸式3D环绕声体验的渲染方法。它与使用头相关传递函数（或HRTF）的在头戴式耳机上的双耳声渲染紧密相关。因为扬声器代替头戴式耳机来使用，反馈回路必须用于消除从左扬声器到右耳的串音，反之亦然。这种方法的详细描述可在例如Kirkeby, Ole；Rubak, Per；Nelson, Philip A.；Farina, Angelo的“Designof Cross-Talk Cancellation Networks by Using Fast Deconvolution”（AESConvention:106 (1999年5月) 页号:4916）中找到。

这在有两个扬声器放置在相对于收听者的对称方位角的情况下是特别有用的。特别是，这个渲染方法可用于从标准两扬声器立体声设置形成完全环绕声体验。

如果有多个收听者或收听位置，则这种方法较不适合，因为该方法对收听者位置非常敏感。

立体声偶极子渲染：

这种渲染方法使用两个或多个紧密间隔的扬声器来通过处理空间音频信号使得公共（和）信号被单声道地再现而差别信号以偶极子辐射型式被再现，从而为用户渲染宽声音图像。这种方法的详细描述可在例如Kirkeby, Ole；Nelson, Philip A.；Hamada, Hareo的“The 'Stereo Dipole': A Virtual Source Imaging System Using Two CloselySpaced Loudspeakers”（JAES 卷46 期5 页387-395; 1998年5月）中找到。

这在前扬声器设置由两个紧密间隔的扬声器组成的情况下例如当平板计算机用于观看电影时是有用的。

高保真度立体声响复制（ambisonics）渲染：

高保真度立体声响复制渲染是基于分解（在记录侧处）和重建（在渲染侧处）在单个位置上的空间声场的空间音频编码和渲染方法。在记录中，特殊麦克风配置常常用于捕获声场的个体“球谐成分”。在再现中，通过从特殊扬声器设置渲染所记录的成分来重建原始声场。这种方法的详细描述可在例如在2003年3月22-25的第114届会议提出的JérômeDaniel、Rozenn Nicol和Sébastien Moreau的“Further Investigations of High OrderAmbisonics and Wavefield Synthesis for Holophonic Sound Imaging”中找到。

这种渲染方法在下面的情况下特别有用：扬声器配置本质上等距地分布在收听者周围。在这样的情况下，高保真度立体声响复制渲染可提供比上面所述的任何方法更沉浸式的体验，且得到良好的体验的收听区域可以更大。

特别是，渲染扩散（环境）音频成分可能是有用的。该方法较不适合于无规律地放置的扬声器配置。

波场合成渲染：

这是使用扬声器的阵列来精确地重新创建在大收听空间内的原始声场的渲染方法。这种方法的详细描述可在例如Boone, Marinus M.；Verheijen, Edwin N. G.的“SoundReproduction Applications with Wave-Field Synthesis”（AES Convention:104 (1998年5月) 页号:4689）中找到。

它特别适合于基于对象的声场景，但也与其它音频类型（例如基于通道或场景的）兼容。限制是其只适合于具有间隔开不大于大约25 cm的大量扬声器的扬声器配置。在典型情况下，这基于扬声器或设备的阵列，其中多个个体的驱动器被围在同一壳体中。

最小二乘法优化渲染：

这是试图通过数字优化过程来实现规定的目标声场的通用渲染方法，在该数字优化过程中，扬声器位置被规定为参数且扬声器信号被优化例如以最小化在某个收听区域内的目标声场和再现的声场之间的差异。这种方法的详细描述可在例如Shin, Mincheol；Fazi, Filippo M.；Seo, Jeongil；Nelson, Philip A.的“Efficient 3-D Sound FieldReproduction”（AES Convention:130 (2011年5月) 页号:8404）中找到。

在一些情况下，这些方法需要将麦克风放置到期望收听位置，以便捕获再现的声场。

将认识到，在一些实施例中，可针对每个渲染模式实施完全分离的渲染引擎。在其它实施例中，一些渲染算法/模式可共享至少一些功能。在很多实施例中，每个渲染模式可被实施为渲染固件算法，而所有算法在同一信号处理平台上执行。例如，渲染控制器709可针对每个音频换能器信号和音频成分，控制哪些渲染子例程由渲染器707调用。

在图8中图示可如何针对单个音频成分和单个音频换能器信号实施渲染器707的例子。

在该例子中，音频成分被馈送到多个渲染引擎801（在特定的例子中，示出四个渲染引擎，但将认识到，在其它实施例中可使用更多或更少的渲染引擎）。每个渲染引擎801耦合到由渲染控制器709控制的开关。在该例子中，每个渲染引擎801可执行渲染算法以产生扬声器703的对应驱动信号。因此，开关803接收根据所有可能的渲染模式产生的驱动信号。它然后选择对应于已由渲染控制器709选择的渲染模式的驱动信号并输出此。开关803的输出耦合到组合器805，其在特定的例子中是求和单元。组合器805可接收为其它音频成分产生的对应驱动信号成分，并可接着组合驱动信号成分以产生被馈送到扬声器703的驱动信号。

将认识到，在其它例子中，可在渲染之前执行切换，即开关可以在到渲染引擎801的输入处。因此，只有对应于由渲染控制器709选择的渲染模式的渲染引擎被激活以产生音频成分的驱动信号，且这个渲染引擎的因而产生的输出耦合到组合器805。

也将认识到，为了清楚和简洁，图8示出独立地对每个音频成分操作的渲染引擎801。然而，在大部分典型应用中，渲染算法可以是更复杂的算法，其在产生音频信号时同时考虑多于一个音频成分。

类似地，将认识到，很多渲染算法为多个扬声器703产生输出。例如，幅值平移可为每个音频成分产生至少两个驱动信号成分。这些不同的驱动信号可例如被馈送到对应于不同的音频换能器的不同输出开关或组合器。

在很多实施例中，不同的渲染模式和算法可被预先确定和实施为音频处理装置701的部分。然而在一些实施例中，渲染算法可作为输入流的部分、即连同音频数据一起被提供。

在很多实施例中，渲染算法可被实施为应用于音频数据的时间-频率瓦片的矩阵操作，如本领域中的技术人员已知的那样。

在一些实施例中，可针对所有音频成分选择相同的渲染模式，即针对给定扬声器703，单个渲染模式可被选择并可应用于向从那个扬声器703渲染的声音提供贡献的所有音频成分。然而在其它实施例中，给定扬声器703的渲染模式针对不同的音频成分可以是不同的。

这可例如是在音频成分对应于环绕声系统的五个空间通道的情形中的情况。在可能的情形中，音频换能器位置数据可指示例如右后扬声器被定位于比标称位置更向前得多，且实际上被定位于收听者的前方和侧面处。同时，右前扬声器可被定位于比左前扬声器更中央处。在这样的例子中，使用幅值平移算法在右前扬声器和右后扬声器之间渲染前右通道可能是有利的。这可导致右前通道的所感知的位置进一步到前右扬声器的右边，并可特别导致前右和前左通道的对称感知的位置。同时，右后通道可从右后通道被渲染，但使用引入高扩散程度的渲染算法以便使右后扬声器位于过向前的事实模糊。因此，为右后扬声器选择的渲染模式对于右前通道音频成分和右后通道音频成分将是不同的。

在一些实施例中，所有音频成分可以是相同的音频类型。然而，音频处理装置701可在其中音频成分可具有不同类型的实施例中提供特别有利的性能。

特别地，音频数据可提供多个音频成分，多个音频成分可包括来自音频通道成分、音频对象成分和音频场景成分的组的多个音频类型。

在很多实施例中，音频数据可包括可被编码为个体的音频对象（例如特定的合成地产生的音频对象或布置成捕获特定的音频源例如单个乐器的麦克风）的多个成分。

每个音频对象一般对应于单个声源。因此，与音频通道和特别是常规空间多通道信号的音频通道相反，音频对象一般不包括来自可具有实质上不同的位置的多个声源的成分。类似地，每个音频对象一般提供声源的完全表示。每个音频对象因此一般与仅仅单个声源的空间位置数据相关。特别地，每个音频对象可一般被考虑为声音的单个和完整表示，并可与单个空间位置相关。

音频对象不与任何特定的渲染配置相关，且特别地不与声换能器/扬声器的任何特定空间配置相关。因此，和与渲染配置例如特定的空间扬声器设置（例如环绕声设置）相关的音频通道相反，不关于任何特定的空间渲染配置来定义音频对象。

音频对象因此一般是被处理为个体实例（例如歌手、乐器或合唱队）的单个或组合声源。一般，音频对象具有定义音频对象的规定位置和特别地音频对象的点源位置的相关空间位置信息。然而，这个位置独立于特定的渲染设置。对象（音频）信号是表示音频对象的信号。对象信号可包含例如在时间上不并发的多个对象。

单个音频对象也可包含多个个体的音频信号，例如来自不同方向的同一乐器的同时记录。

相反，音频通道与标称音频源位置相关。音频通道因此一般没有相关位置数据，但与在标称相关扬声器配置中的扬声器的标称位置相关。因此，虽然音频通道一般与在相关配置中的扬声器位置相关，音频对象不与任何扬声器配置相关。音频通道因此代表当使用标称扬声器配置执行渲染时应从给定标称位置渲染的组合音频。音频通道因此代表要求声成分从与通道相关的标称位置被渲染的音频场景的所有音频源，以便标称扬声器配置在空间上渲染音频源。音频对象相反一般不与任何特定的渲染配置相关，且替代地提供应从一个声源位置渲染的音频，以便相关声源成分被感知为起源于那个位置。

音频场景成分通过一组正交空间成分之一来表征，其中原始音频声场可在数学上被分解。

特别地，它可以是原始声场的一组正交球谐成分之一，这些正交球谐成分一起充分描述在原始声场内的规定位置处的原始声场。甚至更特别地，它可以是一组高阶高保真度立体声响复制（HOA）成分的单个成分。

音频场景成分通过它不直接表示扬声器信号的事实而与音频成分通道区分开。更确切地，每个个体的音频场景成分根据规定的平移矩阵贡献于每个扬声器信号。此外，音频成分通过它不包含关于单个个体声源的信息但更确切地包含关于存在于原始声场中的所有声源（“物理”源和“背景”源例如混响）的信息的事实而与音频对象区分开。

在实际的例子中，一个音频场景成分可包含在记录位置处的全向麦克风的信号，而三个其它音频场景成分包含正交地定位于与全向麦克风相同的位置处的三个速度（双向）麦克风的信号。额外的音频场景成分可包含更高阶麦克风的信号（物理信号或从球面麦克风阵列的信号的合成信号）。替代地，音频场景成分可合成地从声场的综合描述产生。

在一些实施例中，音频数据可包括音频成分，其可以是根据MPEG标准ISO/IEC23008-3 MPEG 3D Audio的音频通道、音频对象和音频场景。

在一些实施例中，渲染模式的选择进一步取决于音频成分的音频类型。特别地，当输入音频数据包括不同类型的音频成分时，渲染控制器709可考虑此，并可为给定扬声器703的不同音频类型选择不同的渲染模式。

作为简单的例子，渲染控制器709可选择幅值平移渲染模式的使用以补偿被预期对应于高度局部化的源的音频对象的扬声器位置误差，并可使用解相关的渲染模式用于不被预期提供高度局部化的源的音频场景对象。

在很多实施例中，音频类型将由与音频对象一起接收的元数据指示。在一些实施例中，元数据可直接指示音频类型，而在其它实施例中，它可以是间接指示，例如通过包括只适用于一种音频类型的位置数据。

接收器705因此可接收这样的音频类型指示数据并将此馈送到当选择适当的渲染模式时使用它的渲染控制器709。相应地，渲染控制器709可针对具有不同类型的至少两个音频成分针对一个扬声器703选择不同渲染模式。

在一些实施例中，渲染控制器709可包括不同组渲染模式以从不同的音频类型选择。例如，对于音频通道，第一组渲染模式可用于由渲染控制器709选择，对于音频对象，不同组渲染模式可以是可用的，以及对于音频场景对象，又一组渲染模式可以是可用的。

作为另一例子，渲染控制器709可首先产生包括通常适合于实际扬声器设置的可用渲染方法的子集。因此，渲染配置数据可用于确定可用渲染模式的子集。子集将因此取决于扬声器的空间分布。作为例子，如果扬声器设置由或多或少等距地分布在收听者周围的多个扬声器组成，则模块可推断出，基于矢量的幅值平移和高保真度立体声响复制渲染模式是可能的适当方法，而波束成型不是。

作为下一步骤，其它可用的信息由系统使用来在所产生的子集的渲染模式之间决定。特别地，可考虑音频对象的音频类型。例如，对于音频通道，可选择基于矢量的幅值平移，胜过高保真度立体声响复制，而对于应被渲染为高度扩散的音频对象（例如，如由元数据指示的）,可选择高保真度立体声响复制渲染。

在下文中，给出一些可能的例子：

● 如果扬声器配置本质上符合标准立体声（多通道）扬声器配置且音频类型是“基于通道的”或“基于对象的”，则可选择标准立体声渲染。

● 当扬声器或多或少随机地分布在收听者周围，而没有在其间的任何极大或极小的“间隙”，且音频类型是“基于通道的”或“基于对象的”时，可选择基于矢量的幅值平移。

● 如果扬声器聚集成紧密间隔的紧密阵列（例如在其间小于几分米），则可选择波束成型渲染。

● 当有以相对于收听者的对称方位角放置的两个扬声器且只有单个用户时，可选择串音消除渲染。

● 在前扬声器设置由两个紧密间隔的扬声器组成时例如当平板计算机用于观看电影时，可选择立体声偶极子渲染。

● 当扬声器配置本质上等距地分布在收听者周围且音频类型是“音频场景成分”或“扩散”（背景）“音频对象”类型时，可选择高保真度立体声响复制渲染。

● 对于具有间隔开不大于大约25 cm的大量扬声器的扬声器配置，对于任何音频类型且当大收听区域被期望时，可选择波场合成渲染。

● 在其它可用的渲染方法不令人满意地执行的情况下对于任何音频类型，可选择最小二乘法优化渲染。

针对个体音频类型和个体扬声器子集根据这些扬声器的位置对适当渲染类型的个体和独立的选择的组合提供特别有利的操作和高质量空间体验。

然而将认识到，基于音频类型对渲染算法的选择实际上不限于下面的情形：针对扬声器的不同子集选择不同的渲染算法。

例如，音频处理装置可包括用于接收音频数据、音频描述数据和渲染配置数据的接收器，音频数据包括不同音频类型的多个音频成分的音频数据，音频描述数据至少指示至少一些音频成分的音频类型，以及渲染配置数据包括一组音频换能器的音频换能器位置数据；用于产生用于这组音频换能器的音频换能器信号的渲染器，渲染器能够根据多个渲染模式渲染音频成分；布置成响应于音频描述数据和渲染配置数据/音频换能器位置数据而针对多个音频成分的每个音频成分从多个渲染模式选择用于渲染器的渲染模式的渲染控制器。

因此，在这样的系统中，可以不针对音频换能器的不同子集个体地选择渲染模式，但可针对所有音频换能器选择渲染模式。在这样的系统中，所述操作将遵循针对图7的音频处理装置701描述的原理，但将简单地考虑作为整体的音频换能器组并可能为所有扬声器703选择相同的渲染算法。因此，该描述加以必要的变更也可适用于这样的系统。

然而在图7的系统中，针对扬声器703的不同子集独立地执行基于音频描述数据且特别地基于音频类型数据对渲染模式的选择。使得不同子集的渲染模式可以是不同的。相应地，实现对特定渲染配置和扬声器设置以及对渲染的音频的提高的适应。

将认识到，可在不同的实施例中使用用于选择个体扬声器的渲染模式的不同算法和选择标准。

在很多实施例中，渲染控制器709布置成基于给定扬声器相对于预定位置的位置来选择那个扬声器的渲染模式。特别地，在很多实施例可以根据实际位置实际上偏离标称或默认位置多少来选择渲染模式。

例如，为了大部分音频通道的渲染，假设默认扬声器设置。例如在很多系统中，假设以相等的距离围绕收听位置的一组实质上等距扬声器。对于这样的音频对象，渲染控制器709可布置成根据扬声器到默认位置多么接近来选择扬声器的渲染模式。

在很多实施例中，可为每种音频类型指定默认渲染模式。默认渲染模式可针对下面的情况向用户提供有利的空间体验：扬声器位于它们的正确默认位置处，或它们只从这些偏离小的量。然而，如果一个或多个扬声器位于远离适当的位置处，则被渲染的声音可以不提供期望的空间音频体验。例如，如果后右扬声器位于用户的左手侧上，则后声级将被扭曲。这个特定的情形提供可能的渲染模式选择方法可如何提高所感知的体验的例子。例如，如果后扬声器本质上在正确的角度处但左和右环绕声通道被交换，则选择将这两个通道简单地交换回到它们的正确地方的渲染方法常常更好，而不是使用例如可此外导致在通道之间的声音的泄漏的基于幅值平移的方法。

因此，在一些实施例中，渲染控制器709可确定每个扬声器相对于默认位置的位置。如果差异低于给定阈值（其可被预先确定或可被动态地调整），则选择默认渲染模式。例如，对于音频通道成分，渲染模式可简单地是将音频通道馈送到位于默认假设的位置处的适当扬声器的渲染模式。然而，如果扬声器位置偏离了多于阈值，则选择不同的渲染模式。例如在这种情况下，基于扬声器和在默认位置的另一侧上的第二扬声器来选择幅值平移渲染模式。在这种情况下，幅值平移渲染可用于渲染对应于默认位置的声音，即使扬声器不位于这个位置处。

作为特定的例子，如果后右扬声器位于收听者的左边，可在后右扬声器和前右扬声器之间使用幅值平移来渲染后右环绕声通道。因此，可针对不在正确位置上的扬声器（后右扬声器）但还针对可在默认位置处的另一扬声器（右前扬声器）改变渲染模式。然而，其它扬声器的渲染模式仍然可使用默认渲染方法（中心、前左和后左扬声器）。此外，虽然在默认位置处的扬声器的渲染模式可由于另一扬声器的位置远离它的默认位置而被改变，这个修改的渲染只可适用于一些音频成分。例如，前音频对象的渲染可使用右前扬声器的默认渲染。

在一些实施例中，渲染控制器709可针对给定音频对象将扬声器703分成至少两个子集。第一子集可包括在音频换能器的位置和预定位置之间的差异超过给定阈值的至少一个扬声器703。第二子集可包括在音频换能器的位置和预定位置之间的差异不超过阈值的至少一个扬声器703。可由渲染控制器709选择的渲染模式组在这个实施例中可以是不同的。特别地，对于第二子集，可从一组默认渲染模式选择渲染模式。实际上，在一些情形中，这组默认渲染模式可以只包括单个默认渲染模式。然而对于第一子集，可从特别地可以只包括非默认渲染模式的不同组渲染模式选择渲染模式。将认识到，扬声器的第一子集可潜在地也包括在默认位置处的一个或多个扬声器。例如对于位于用户左边的右后扬声器，第一子集可包括不仅右后扬声器而且右前扬声器。

作为另一例子，系统可由在收听者前面的少量紧密间隔开的扬声器和在“标准”左和右环绕声位置处的两个后扬声器组成。在这种情况下，第二子集可由两个后扬声器和紧密间隔开的前扬声器的中心扬声器组成，且基于通道的信号的左和右环绕声和中心通道可直接发送到对应的扬声器。紧密间隔开的前扬声器——包括第二子集的“中心”扬声器——在这种情况下形成第一子集，且波束成型渲染可应用于它们用于再现基于通道的信号的前左和右通道。

在一些实施例中，当选择适当的渲染模式时，渲染控制器709可考虑其它渲染配置数据。

例如，渲染控制器709可被提供关于收听位置的信息并可使用此来选择适当的算法。例如，如果收听位置改变为相对于扬声器设置是不对称的，则渲染控制器709可将选择偏向到基于矢量的幅值平移的使用，以便补偿这样的不对称性。

作为另一例子，在收听位置是动态的且扬声器配置由围绕收听者的扬声器的阵列组成的情况下，可使用波场合成渲染来提供在大收听区域内的所有位置处的最佳收听体验。

作为又一例子，如果用户的位置可被跟踪且只有在收听者的前面的几个扬声器是可用的，则串音消除渲染可被使用并可根据收听者位置数据被适应性地控制。

将认识到，可在不同的实施例中使用用于选择并评估不同的渲染模式或渲染模式的组合的不同方法。

例如，在很多实施例中，渲染控制器709可布置成响应于由感知模型产生的质量度量而选择渲染模式。特别地，渲染控制器709可布置成基于从计算感知模型产生的质量度量来选择渲染模式。例如，渲染控制器709可布置成使用用户的预期收听体验的计算模拟来评估哪个渲染方法提供最接近音频数据的理想渲染的声音图像。该方法可例如基于例如在M.Park、P. A. Nelson和K. Kang的“A Model of Sound Localisation Applied to theEvaluation of Systems for Stereophony”（Acta Acustica united with Acustica, 94(6), 825-839, (2008)）中描述的方法。

这样的感知模型可特别地能够基于到收听者的耳朵的输入来计算质量估量或度量。因此，模型可针对收听者的每只耳朵针对给定输入，估计所感知的空间体验的质量。

作为例子，渲染控制器709可相应地估计渲染模式的不同组合，其中每个组合对应于扬声器的不同子集的渲染模式的选择。对于这些组合中的每个，可计算在默认收听位置处的收听者的耳朵处的因而产生的信号。这个计算考虑扬声器703的位置，可能包括房间特性等。

例如，可首先计算从每个扬声器渲染的音频（假设组合的特定渲染模式被评估）。可基于扬声器的特定位置从每个扬声器到收听者的每只耳朵来估计传递函数，且可相应地通过组合来自每个扬声器的贡献并考虑所估计的传递函数来估计在用户的耳朵处的因而产生的音频信号。因而产生的双耳声信号然后被输入到计算感知模型（例如在上面提到的文章中提议的模型）且因而产生的质量度量被计算。针对在一组质量度量中的所有因而产生的组合重复该方法。渲染控制器709可接着选择提供最佳质量度量的渲染模式的组合。

渲染模式的每个组合可对应于用于扬声器703的多个子集的渲染模式的可能选择，其中用于每个子集的渲染模式可单独地被选择。此外，不同的组合可对应于到不同子集的划分。例如，一个组合可考虑用于前扬声器的立体声渲染和用于后扬声器的最小二乘法渲染；另一组合可考虑用于前扬声器的波束成型渲染和用于后扬声器的最小二乘法渲染，另一组合可考虑用于左扬声器的幅值平移和用于后扬声器和中心扬声器的立体声渲染等。

实际上在原则上和实际上在一些实施例中，组合可包括到子集的所有可能的划分和那些子集的所有可能的渲染模式选择。然而将认识到，在很多实施例中，这样的评估可能太复杂且在计算上是密集的。在很多实施例中，组合的数量可例如通过将扬声器基于它们的位置划分成子集（例如一个子集是接近它们的默认位置的所有扬声器，而另一子集是不接近它们的默认位置的所有扬声器）而显著减少，且只有这些子集被考虑。替代地或此外，其它要求或标准可用于减少针对每个子集考虑的渲染模式的数量。例如，可针对其中扬声器位置不足够靠近在一起的所有子集来忽视波束成型。

在一些实施例中，渲染控制器709可相应地布置成针对扬声器的不同子集针对渲染模式的多个组合产生双耳声信号估计；响应于双耳声信号估计而确定每个组合的质量度量；以及将渲染模式选择为其质量度量指示最高质量的渲染模式的组合。

在很多实施例中，基于在子集中的扬声器的位置来选择给定扬声器子集的渲染模式。然而，在一些实施例中，渲染控制器709可进一步考虑不是子集的部分的扬声器的位置。例如在音频对象的渲染被期望在没有在附近的单个扬声器的位置处（例如在收听者后面的源，而只有扬声器存在于收听者的前面）的情形中，可采用“虚拟渲染”算法例如串音消除或波束成型渲染，在这些选项之间的最终选择取决于实际扬声器配置的特性（例如间隔）。

在一些实施例中，渲染控制器709可布置成在渲染模式的选择中进一步考虑扬声器703的音频渲染特性数据。例如，如果3D扬声器设置的头顶扬声器是不能够再现低频的小高频扬声器（貌似合理，因为将大的全范围扬声器安装在天花板上不是简单的），旨在用于头顶扬声器的信号的低频部分可与在水平平面中围绕收听者的所有全范围扬声器等同地分布。

在一些实施例中，渲染控制器709可布置成响应于用户渲染偏好而选择渲染模式。用户偏好可例如被提供为手动用户输入。在一些实施例中，可响应于在操作期间提供的用户输入来确定用户偏好。例如，音频处理装置701可渲染音频，同时在可能的渲染模式之间切换。用户可指示他偏爱的渲染，且音频处理装置701可存储这个偏好并使用它来调整选择算法。例如，在两个可能的渲染模式之间的选择的阈值可在用户的偏好的方向偏向。

在一些实施例中，接收器705可进一步接收一个或多个音频成分的渲染位置数据，且用于一个或多个音频成分的渲染模式的选择可取决于位置。

例如，局部化声源的音频对象可连同指示音频对象应被渲染于的位置的位置数据一起被接收。渲染控制器709可接着评估位置是否对应于针对特定的当前扬声器设置可使用基于矢量的幅值平移准确地在期望位置处渲染时的位置。如果是，则它继续选择基于矢量的幅值平移渲染算法用于该音频对象。然而如果当前渲染配置不允许幅值平移提供适当的声源定位（例如由于相关扬声器只布置在用户的另一侧上），则渲染控制器709可替代地选择使在两个或多个扬声器之间的驱动信号解相关的渲染方法，以便产生声源位置的扩散空间感知。

在一些实施例中，该方法可在单独频带中被应用。特别地，在一些实施方式中，音频处理装置701可布置成对音频成分的不同频带潜在地使用不同的渲染算法。在这样的实施例中，渲染控制器709可布置成针对不同的频带执行渲染模式的独立选择。

例如，渲染器707可布置成将给定音频成分分成高频成分和低频成分（例如有大约500Hz的交叉频率）。这些成分中的每个的渲染可单独地被执行，且因此不同的渲染算法可以潜在地用于不同的频带。额外的自由度允许渲染控制器709将渲染模式的选择优化到在不同频带中的音频成分的特定空间显著性。特别地，人类空间感知通常比在更低频率下更取决于在更高频率下的空间线索。相应地，渲染控制器709可选择提供期望空间体验的用于高频带的渲染模式，而对于低频带，可选择具有减小的资源要求的不同和更简单的渲染算法。

作为另一例子，渲染控制器709可检测到扬声器的子集可被考虑为被布置为具有某个间隔的阵列，该间隔被定义为在子集的任两个相邻的扬声器之间的最大距离。在这样的情况下，阵列的间隔确定上频率，对于该上频率，子集可有效地并有利地用作用于例如波束成型或波场合成或最小二乘法的阵列。渲染控制器709可接着分离音频成分以产生使用任何阵列型渲染方法渲染的低频成分。

在很多实施例中，音频处理装置701可布置成动态地改变渲染模式的选择。例如，当音频成分的特性改变时，（例如从表示特定的声源到一般背景噪声，当例如扬声器停止讲话时），渲染控制器709可改变所使用的渲染模式。

在一些实施例中，渲染模式的改变可以是渐进的转变。例如不是如在图8的例子中的在不同的渲染引擎的输出之间简单地切换，可执行一个信号的慢渐强和另一信号的渐弱。

在一些实施例中，渲染控制器709可布置成使音频成分的渲染模式的变化与音频成分的音频内容中的变化同步。

因此，在一些实施例中，渲染模式选择可以是动态的，并随着内容中的变化而改变。选择的变化可与音频中的转变例如与场景变化同步。例如，音频处理装置701可布置成检测在音频内容中的实质性和瞬时转变，例如在（低通滤波的）幅值水平中的变化或在（时间平均的）频谱中的实质性变化。每当这样的变化被检测到时，渲染控制器709可执行重新评估以确定从那时起的适当渲染模式。

将认识到，为了清楚，上面的描述参考不同的功能电路、单元和处理器描述了本发明的实施例。然而，将明显，可使用在不同的功能电路、单元或处理器之间的功能的任何适当的分布而不减损本发明。例如，被示为由单独的处理器或控制器执行的功能可由相同的处理器或控制器执行。因此，对特定的功能单元或电路的提及只被看作对用于提供所述功能的适当装置的提及，而不是指示严格的逻辑或物理结构或组织。

可以在任何适当的形式——包括硬件、软件、固件或这些的任何组合——中实施本发明。本发明可以可选地至少部分地被实施为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。可以用任何适当的方式物理地、功能地和逻辑地实施本发明的实施例的元件和部件。实际上，可在单个单元中、在多个单元中或作为其它功能单元的部分实施功能。因此，本发明可在单个单元中实施或可物理地和功能地分布在不同的单元、电路和处理器之间。

虽然结合一些实施例描述了本发明，其非旨在被限制到本文阐述的特定形式。更确切地，本发明的范围只由所附权利要求限制。此外，虽然特征可能看起来结合特定的实施例被描述，本领域中的技术人员将认识到，可根据本发明来组合所述实施例的各种特征。在权利要求中，术语“包括”并不排除其它元件或步骤的存在。

此外，虽然个体地被列出，多个装置、元件、电路或方法步骤可由例如单个电路、单元或处理器实施。此外，虽然个体的特征可包括在不同的实施例中，这些也许可能被有利地组合，且包括在不同的权利要求中并不暗示特征的组合不是可行的和/或有利的。此外，特征包括在一个类别的权利要求中并不暗示对这个类别的限制，而更确切地指示特征同样可视情况应用于其它权利要求类别。此外，在权利要求中的特征的顺序并不暗示特征必须工作的任何特定顺序，且特别是在方法权利要求中的个体步骤的顺序并不暗示步骤必须以这个顺序被执行。更确切地，步骤可以按任何适当的顺序被执行。此外，单数提及并不排除多个。因此对“一”、“一个”、“第一”、“第二”等的提及并不排除多个。在权利要求中的参考符号被提供仅仅作为澄清的例子，不应被解释为以任何方式限制权利要求的范围。

Claims

1.一种音频处理装置，包括：

接收器（705），其用于接收音频数据和渲染配置数据，所述音频数据包括多个音频成分的音频数据且所述渲染配置数据包括在渲染配置中的一组音频换能器（703）的音频换能器位置数据；

渲染器（707），其用于从所述音频数据产生用于所述组音频换能器的音频换能器信号，所述渲染器（707）能够根据多个渲染模式渲染音频成分；

渲染控制器（709），其布置成响应于所述音频换能器位置数据而从所述多个渲染模式选择用于所述渲染器（707）的渲染模式；以及

其中所述渲染器（707）布置成针对所述组音频换能器的不同子集采用不同的渲染模式，并针对所述组音频换能器（703）的每个所述不同子集独立地选择渲染模式，以及

其中所述渲染控制器（709）布置成响应于所述组音频换能器（703）的第一音频换能器相对于在所述渲染配置中所述第一音频换能器的预定位置的位置来选择所述第一音频换能器的渲染模式。

2.如权利要求1所述的音频处理装置，其中所述渲染器（707）可操作来针对所述组音频换能器（703）的第一音频换能器的音频对象采用不同的渲染模式，且所述渲染控制器（709）布置成针对所述第一音频换能器的每个所述音频对象独立地选择渲染模式。

3.如权利要求1或2所述的音频处理装置，其中所述多个音频成分中的至少两个是不同的音频类型。

4.如权利要求3所述的音频处理装置，其中所述多个音频成分包括来自由下列项组成的组的不同音频类型的至少两个音频成分：

- 音频通道成分，

- 音频对象成分，以及

- 音频场景成分；

以及所述渲染器布置成针对所述至少两个音频成分使用不同渲染模式。

5.如权利要求3所述的音频处理装置，其中所述接收器（705）布置成接收指示至少第一音频成分的音频类型的音频类型指示数据，且所述渲染控制器（709）布置成响应于所述音频类型指示数据而选择用于所述第一音频成分的所述渲染模式。

6.如权利要求1所述的音频处理装置，其中所述渲染控制器（709）布置成选择用于所述第一音频换能器的默认渲染模式，除非在所述第一音频换能器的位置与所述预定位置之间的差异超过阈值。

7.如权利要求1所述的音频处理装置，其中所述渲染控制器（709）布置成：将所述组音频换能器（703）分成音频换能器的第一子集和音频换能器的第二子集，音频换能器的所述第一子集包括其中在所述音频换能器的位置和所述预定位置之间的差异超过阈值的音频换能器，而音频换能器的所述第二子集包括其中在所述音频换能器的位置和所述预定位置之间的差异不超过阈值的至少一个音频换能器；以及从第一渲染模式子集选择用于所述第一子集的每个音频换能器的渲染模式并从第二渲染模式子集选择用于所述第二子集的每个音频换能器的渲染模式。

8.如权利要求1所述的音频处理装置，其中所述多个渲染模式包括从由下列项组成的组选择的至少一个渲染模式：

- 立体声渲染；

- 基于矢量的幅值平移渲染；

- 波束成型渲染；

- 串音消除渲染；

- 高保真度立体声响复制渲染；

- 波场合成渲染；以及

- 最小二乘法优化渲染。

9.如权利要求1所述的音频处理装置，其中所述接收器（705）还布置成接收所述音频成分的渲染位置数据，且所述渲染控制器（709）布置成响应于所述渲染位置数据而选择所述渲染模式。

10.如权利要求1所述的音频处理装置，其中所述渲染器（707）布置成针对所述音频成分中的音频成分的不同频带采用不同的渲染模式；且所述渲染控制器（709）布置成针对所述音频成分的不同频带独立地选择渲染模式。

11.如权利要求1所述的音频处理装置，其中所述渲染控制器（709）布置成使至少一个音频成分的渲染的变化与在所述至少一个音频成分中的音频内容变化同步。

12.如权利要求1所述的音频处理装置，其中所述渲染控制器（709）还布置成响应于来自由下列项组成的组的渲染配置数据而选择所述渲染模式：

- 不在所述组音频换能器中的音频换能器的音频换能器位置数据；

- 收听位置数据；

- 所述组音频换能器的音频换能器的音频换能器音频渲染特性数据；以及

- 用户渲染偏好。

13.如权利要求1所述的音频处理装置，其中所述渲染控制器（709）布置成响应于由感知模型产生的质量度量而选择所述渲染模式。

14.一种音频处理的方法，所述方法包括：

接收音频数据和渲染配置数据，所述音频数据包括多个音频成分的音频数据并且所述渲染配置数据包括在渲染配置中的一组音频换能器（703）的音频换能器位置数据；

从所述音频数据产生所述组音频换能器的音频换能器信号，所述产生包括根据多个可能的渲染模式中的渲染模式来渲染音频成分；

响应于所述音频换能器位置数据从所述多个可能的渲染模式选择用于所述渲染器的渲染模式；以及

其中所述音频换能器信号的产生包括针对所述组音频换能器的不同子集采用不同的渲染模式，以及针对所述组音频换能器（703）的每个不同子集独立地选择渲染模式，以及

其中选择用于所述渲染器的渲染模式包括响应于所述组音频换能器（703）的第一音频换能器相对于在所述渲染配置中所述第一音频换能器的预定位置的位置而选择用于所述第一音频换能器的渲染模式。