CN104471641B

CN104471641B - 用于改善对多声道音频信号的呈现的方法和设备

Info

Publication number: CN104471641B
Application number: CN201380038438.2A
Authority: CN
Inventors: 奥利弗·威伯特; 约翰内斯·伯姆; 彼得·杰克斯
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2012-07-19
Filing date: 2013-07-19
Publication date: 2017-09-12
Anticipated expiration: 2033-07-19
Also published as: WO2014013070A1; US11798568B2; US20180247656A1; US10460737B2; JP2015527610A; KR102201713B1; US20240127831A1; US10381013B2; US20200020344A1; US20220020382A1; KR102429953B1; TW201411604A; US9589571B2; KR20150032718A; CN104471641A; EP2875511B1; US20170140764A1; KR20220113842A; US20150154965A1; KR102581878B1

Abstract

传统的音频压缩技术执行标准化的信号变换，与内容的类型无关。多声道信号被分解为它们的信号分量，随后进行量化和编码。由于缺少对场景构成的特性的了解，所述方法是不利的，尤其对于例如多声道音频或高阶立体声(HOA)内容。一种用于对预处理处理的音频数据进行编码的改善方法包括：对预处理的音频数据进行编码；以及对辅助数据进行编码，所述辅助数据表示特定的音频预处理。一种用于对编码的音频数据进行解码的改善方法包括：确定在编码之前是否已经对音频数据进行预处理；对音频数据进行解码；从接收到的数据提取与预处理有关的信息；以及根据所提取的预处理的信息，对解码的音频数据进行后处理。

Description

用于改善对多声道音频信号的呈现的方法和设备

技术领域

本发明的领域为音频压缩，具体地多声道音频信号和以声场为导向的音频场景的压缩，例如高阶立体声(HOA)。

背景技术

目前，多声道音频信号的压缩方案不能明确地考虑输入的音频材料是如何制作或混合的。因此，已知的音频压缩技术无法获知他们将进行压缩的内容的原始/混合类型。在已知方法中，执行“盲”信号变换，通过所述变换将多声道信号分解为随后进行量化和编码的信号分量。这种方法的缺点在于对上述信号分解的计算是要求计算能力的，针对给定片段的音频场景，寻找最适合的和最有效的信号分解是困难的并且易于出错。

发明内容

本发明涉及一种用于改善多声道音频呈现的方法和设备。

发现至少一部分上述缺点是由于缺少关于场景组成的特性的先验知识而导致的。尤其对于空间音频内容(例如，多声道音频或高阶立体声(HOA)内容)，这种现有信息有助于采用压缩方案。例如，压缩算法中的通用预处理步骤是音频场景分析，目的是从原始内容或原始内容混合中提取定向的音频源或音频对象。可以与残余空间音频分量分离地对这种定向的音频源或音频对象进行编码。

在一个实施例中，用于对预处理的音频数据进行编码的方法包括以下步骤：对预处理的音频数据进行编码；以及对辅助数据进行编码，所述辅助数据表示对音频数据的特定音频进行预处理。

在一个实施例中，本发明涉及一种用于对编码的音频数据进行解码的方法，包括以下步骤：确定在编码之前是否已经对音频数据进行预处理；对音频数据进行解码；从接收到的数据提取与预处理有关的信息；以及根据所提取的预处理信息，对解码的音频数据进行后处理。可以通过分析音频数据或通过分析伴随的元数据，来实现所述确定在编码之前是否已经对音频数据进行预处理的步骤。

在本发明的一个实施例中，用于对预处理的音频数据进行编码的编码器包括：第一编码器，用于对预处理的音频数据进行编码；以及第二编码器，用于对辅助数据进行编码，所述辅助数据表示对音频数据的特定音频进行预处理。

在本发明的一个实施例中，用于对编码的音频数据进行解码的解码器包括：分析器，用于确定在编码之前是否已经对音频数据进行预处理；第一解码器，用于对所述音频数据进行解码；数据流解析单元或数据流提取单元，用于从接收到的数据提取与预处理有关的信息；以及处理单元，用于根据所提取的预处理信息对解码的音频数据进行后处理。

在本发明的一个实施例中，计算机可读介质将可执行指令存储在其上，以便引起计算机执行根据上述方法中的至少一个的方法。

本发明的总体构思是基于对多声道音频压缩系统的以下扩展中的至少一个的：

根据一个实施例，多声道音频压缩和/或呈现系统具有接口，所述接口包括多声道音频信号流(例如，PCM流)、声道或相应扬声器的相关空间位置以及表示向多声道音频信号流施加的混合的类型的元数据。混合类型表示例如(在先)使用或配置和/或HOA或VBAP平移的任何详情、特定记录技术或等同信息。所述接口可以是信号传输链的输入接口。在HOA内容的情况下，扬声器的空间位置可以是虚拟扬声器的位置。

根据一个实施例，多声道压缩编解码器的比特流包括信令信息和后续的呈现算法，所述信令信息向解码器传输与虚拟或实际扬声器位置和原始混合信息有关的上述元数据。从而，可以调整任何施加在解码侧上的任何呈现技术，以便适应所述具体传输内容的编码侧上的特定混合特性。

在一个实施例中，元数据的使用是可选的并且是可以接通或关断的。即，可以按照不使用元数据的简单模式来解码和呈现音频内容，但是在所述简单模式下，所述解码和/或呈现不是优化的。在增强模式下，可以通过使用元数据实现优化的解码和/或呈现。在该示例中，解码器/呈现器可以在两个模式之间切换。

附图说明

参考附图描述了本发明的有利示例实施例，附图中：

图1是已知多声道传输系统的结构；

图2是根据本发明的一个实施例的多声道传输系统的结构；

图3是根据本发明的一个实施例的智能解码器；

图4是针对HOA信号的多声道传输系统的结构；

图5是DSHT的空间采样点；

图6是针对在编码器和解码器结构框中使用的码本的球面采样位置的示例；以及

图7是特别改善的多声道音频编码器的示例实施例。

具体实施方式

图1示出了多声道音频编码的已知方法。在多声道音频编码器20中对来自音频制作阶段10的音频数据进行编码，并在多声道音频解码器30中对其进行传输和解码。可以明确地传输元数据(或可以隐含地包括它们的信息)，所述元数据与空间音频成份相关。这种传统元数据局限于与扬声器的空间位置有关的信息，例如特定格式的形式(例如，立体声或ITU-R BS.775-1，也称作“5.1环绕声”)或具有扬声器位置的表格。不向多声道音频编码器20传送与如何产生特定空间音频混合/记录有关的信息，因此当在多声道音频编码器20内压缩信号时无法采用或利用这种信息。

然而，可以认识到，如果多声道空间音频编码器处理源自高阶立体声(HOA)格式的内容、用任意固定麦克风设备进行的记录以及用任意特定平移算法进行的多声道混合中的至少一个，则由于在这些情况下压缩方案可以采用特定的混合特性，对内容的原始类型和混合类型中的至少一个的了解是十分重要的。此外，附加混合信息指示可能对原始多声道音频内容有帮助。有利的是指示例如所用平移方法(例如，基于矢量的幅度平移(VBAP))或其任何细节，以便改善编码效率。有利地，可以根据所述信息来调整音频场景分析的信号模型以及后续的编码步骤。这样导致在速率失真性能和计算工作量方面更高效的压缩系统。

在HOA内容的具体情况下，存在以下问题：存在多种不同惯例，例如，复数值的vs实数值的球面谐波、多个/不同规范化方案等。为了避免不同产生的HOA内容之间的不兼容，有用的是定义通用格式。通过使用例如离散球面谐波变换(DSHT)的变换来将HOA时域系数变换为等同的空间表示(多声道表示)，来实现该目的。根据空间采样位置的规则球面分布来创建DSHT，其中可以认为所述空间采样位置与虚拟扬声器位置等同。下文给出了与DSHT有关的更多定义和详情。使用HOA的另一定义的任何系统能够从这种在空间域内定义的通用格式，导出它自己的HOA系数表示。如下文所详述，关于虚拟扬声器信号表现原始HOA信号的先验知识对于压缩所述通用格式的信号是相当有益的。

此外，这种混合信息等对于解码器和呈现器同样是有用的。在一个实施例中，将所述混合信息等包括在比特流中。可以调整所用的呈现算法以便适应原始混合(例如，HOA或VBAP)，从而允许向灵活的扬声器位置更好地进行混缩或呈现。

图2根据本发明的一个实施例的示出了多声道音频传输系统的扩展。通过添加对在音频内容的制作阶段10所施加的混合类型、记录类型、编辑类型、合成类型等中的至少一个进行描述的元数据，来实现所述扩展。解码器输出携带这种信息，并可以在多声道压缩编解码器40、50中使用所述信息，以便改善效率。向多声道音频编码器40传达与如何产生特定的空间音频混合/记录有关的信息，因此可以在压缩所述信号中采用或利用这种信息。

可以如何使用这种元数据信息的一个示例在于：可以依赖于于输入材料的混合类型，由多声道编解码器激活不同编码模式。例如，在一个示例中，如果在编码器输入处表示HOA混合，则将编码模式切换为如下所述(相对等式(3)-(16))的HOA专用编码/解码原理(HOA模式)，然而如果输入信号的混合类型不是HOA或是未知的，则使用不同的(例如，更传统的)多声道编码技术。在HOA模式下，在一个实施例中所述编码以DSHT块开始，其中DSHT在开始HOA专用编码处理之前恢复原始HOA系数。在另一实施例中，使用除了DSHT之外的不同离散变换，以便进行比较。

图3示出了根据本发明的一个实施例的“智能”呈现系统，所述系统使用本发明的元数据来完成向存在于解码器端子处的M个扬声器的灵活地下混合(down-mix)、上混合(up-mix)或重新混合(re-mix)经过解码的N个声道。可以将与混合类型、记录等的元数据用于选择多个模式之一，以便完成高效的、高质量的呈现。多声道编码器50根据与输入音频数据的混合类型有关的元数据，使用优化编码，且不仅对N个经过编码的音频声道和与扩音器位置有关的信息进行编码/将其提供给解码器60，而且还对例如“混合类型”信息进行编码/将其提供给解码器60。解码器60(在接收侧)使用在接收侧可用的扬声器的实际扬声器位置，以便产生针对M个音频声道的输出信号，其中所述扬声器的实际扬声器位置是在发送侧(即，解码器)处是未知的。在一个实施例中，N与M不同。在一个实施例中，N等于M或不同于M，但是，接收侧处的实际扬声器位置与在编码器50中和在音频制作10中假定的扬声器位置不同。编码器50或音频制作10可以假定例如标准化的扬声器位置。

图4示出了如何将本发明用于高效地传输HOA内容。通过逆DSHT(iDSHT)410将输入的HOA系数变换为空间域。将得到的N个音频声道、它们(虚拟)的空间位置以及指示(例如，如“HOA混合”标志的标志)提供给多声道音频编码器420，所述多声道音频编码器420是压缩编码器。因此，压缩编码器可以使用其输入信号是由HOA衍生的先验知识。音频编码器420和音频解码器430或音频呈现器之间的接口包括N个音频声道、它们(虚拟)的空间位置和所述指示。在解码侧执行逆处理，即，可以通过在解码430之后应用DSHT 440来恢复HOA表示，其中所述DSHT 440使用在对所述内容进行编码之前应用的相关操作的知识。根据本发明，通过所述接口接收这种元数据形式的知识。

一些类型的(但不必是所有类型的)元数据(具体地，在本发明的范围内)应是例如以下内容中的至少一个：

-从HOA内容得到原始内容的指示加上以下内容中的至少一个：

○HOA表示的阶次

○2D、3D或半球面表示的指示；以及

○空间采样点(适应性的或固定的)的位置

-使用VBAP合成混合原始数据的指示加上对成对VBAP(双)或三个一组扬声器的分配；以及

-用固定分散的麦克风记录原始内容的指示加上以下内容中的至少一个：

○一个或更多个麦克风在记录设备上的一个或更多个位置和方向；以及

○一个或更多个类型的麦克风，例如，心脏形的vs全方位的vs超心脏形的等。

本发明的主要优点在于以下方面。

通过对输入材料的信号特性的更好的先验知识，获得更高效的压缩方案。编码器可以将这种先验知识用于改善音频场景分析(例如，可以采用混合内容的源模型)。混合内容的源模型的示例是在音频制作阶段10修改、编辑或合成信号源的情况。这种音频制作阶段通常被用于制作多声道音频信号，通常位于多声道音频编码器块20之前。同样在图2中假定(未示出)这种音频制作阶段10在新的编码块40之前。通常，丢失所述编辑信息而不传递给编码器，因此无法采用所述信息。本发明实现保留这种信息。音频制作阶段10的示例包括记录并混合合成声音或多个麦克风信息，例如合成地映射到扬声器位置的多个声音源。

本发明的另一优点在于可以明显改善对所传送的并经过解码的内容的呈现，具体地，对于病态场景和扬声器位置易变的场景，在所述病态场景中可用扬声器的数量与可用声道的数量不同(所谓的缩混和上混合场景)。后者需要根据扬声器位置进行重新映射。

另一优点在于可以在基于声道的音频传输系统中传输声场相关格式的音频数据(例如，HOA)，而不丢失高质量呈现所需的重要数据。

根据本发明的对元数据的传输允许在解码侧进行优化解码和/或呈现，具体地，当执行空间分解时。尽管可以通过多种方法(例如，Karhunen-Loeve变换(KLT))获得一般空间分解，然而，优化分解(根据本发明，使用元数据进行的分解)是计算成本较小的，与此同时提供更好质量的多声道输出信号(例如，在呈现期间，可以更易于将单个声道调整或映射到扬声器位置，所述映射是更准确的)。如果在呈现期间的混合(矩阵化)阶段修改(增加或减少)声道的数量，或如果修改一个或更多个扬声器位置(特别在调整多个声道中的每个声道以适应特定扬声器位置的情况下)，则该方法是特别有利的。

在下文中，描述了高阶立体声(HOA)和离散球面谐波变换(DSHT)。

在用感知编码器进行压缩之前，例如可以通过离散球面谐波变换(DSHT)来将HOA信号变换为空间域。传输或存储这种多声道音频信号表示通常需要适合的多声道压缩技术。通常，在将所述I个经过解码的信号最终矩阵化为J个新信号之前，执行声道独立的感知解码。术语矩阵化意味着以加权的方式添加或混合解码的信号根据以下方式矢量排列所有信号(i＝I，...I)以及所有新信号(j＝1，...J)：

术语“矩阵化”源自通过如下矩阵操作根据数学获得的事实：

其中A表示由混合权重构成的混合矩阵。本文将术语“混合”和“矩阵化”用作同义。混合/矩阵化用于向任意特定扬声器设备呈现音频信号的目的。

所述特定单个扬声器设置所依赖的矩阵，因此用于在呈现期间矩阵化的矩阵通常在感知编码阶段是未知的。

以下部分给出了对高阶立体声(HOA)的简要介绍，并定义了要处理的信号(数据速率压缩)。

高阶立体声(HOA)是基于对感兴趣压缩区域内的声场的描述，其中假定所述感兴趣压缩区域内没有声源。在该情况下，通过齐次波动方程完全物理上确定t时刻在感兴趣区域(球面坐标下)内的位置x＝[r，θ，φ]^T处的声压p(t，x)的空间时间行为。所述方程示出了声压相对时间的傅里叶变换，即：

其中ω表示角频率(且{}与相对应)，根据下式可以扩展为一系列球面谐波(SH)：

在等式(4)中，c_S表示声音的速度，表示角波数。此外，j_n(·)表示第一类型且阶数为n的球面贝塞尔函数，表示阶次为n且角度为m的球面谐波(SH)。实际上，将与声场有关的完整信息包含在声场系数中。

应注意，SH通常是复数值的函数。然而，通过对它们的适当线性组合有可能获得实数值的函数，并相对这些函数执行扩展。

考虑到等式(4)中的压力声场描述，可以将源场定义为：

其中声场或幅值密度[9]D(kc_S，Ω)取决于角波数和角方向Ω＝[θ，φ]^T。源场可以包括远场/近场、离散源/连续源[1]。所述源场系数通过下式与源场系数相关：

其中是第二类型的球面汉克尔函数，r_S是与初始状态的源距离。考虑到近场，应注意，将正向频率和第二类型的球面汉克尔函数用于输入波(与e^-ikr相关)。

HOA域中的信号可以在频域或时域中表示为源场或声场系数的逆傅里叶变换。以下描述将假定使用时域表示的源场系数：

有限数：将等式(5)中的无限系列缩短为n＝N。所述缩短与空间频带限制相对应。通过下式给出系数(或HOA声道)的数目：

O_3D＝(N+1)²for3D (8)

或针对仅2D描述，通过O_2D＝2N+1表示。系数包括随后由扬声器重现的一个时间采样m的音频信息。可以存储或传送所述系数，因此所述系数受到数据速率压缩。可以通过具有O_3D元素的矢量b(m)表示系数的单个时间采样m：

且通过矩阵B表示M个时间采样的块

B：＝[b(m_START+1)，b(m_START+2)，...b(m_START+M)] (10)

可以通过用球面谐波的扩展来得到声场的二维表示。可以将其视为上述一般描述使用固定倾角不同权重的系数和减少集合的O_2D系数(m＝±n)的特殊情况。因此，同样将所有以下考虑应用到2D表示，术语球面需要被替换为术语球面。

下文描述了从HOA系数域到空间的、基于声道的域变换，及其逆变换。可以针对单位球面上的I个离散空间采样位置Ω_l＝[θ_l，φ_l]^T，使用时域HOA系数重写等式(5)：

假定L_Sd＝(N+1)²个球面采样位置Ω_C，针对HOA数据块B，以矢量符号重写上式：

W＝Ψ_iB， (12)

其中W：＝[w(m_START+1)，w(m_START+2)，...，w(m_START+M)]且表示L_Sd多声道信号的单个时间采样，矩阵具有矢量如果非常规律地选择球面采样位置，则矩阵Ψ_f存在有：

Ψ_fΨ_i＝I， (13)

其中I是O_3D×O_3D单位矩阵。然后，可以通过下式来定义到等式(12)的对应变换：

B＝Ψ_fW. (14)

等式(14)将L_Sd球面信号变换为系数域，可以将上式重新写成前向变换：

B＝DSHT{W}， (15)

其中DSHT{}表示离散球面谐波变换。对应逆变换将O_3D系数信号变换为空间域，以便形成基于L_Sd声道的信号，等式(12)变为：

W＝iDSH^T{B}. (16)

下文描述了HOA系数的数目O_3D(参照方程(8))与球面位置的数目L_Sd相匹配的DSHT。首先，选择默认球面采样网格。对于M个时间采样的块，旋转球面采样网格，使得最小化下项的对数：

其中是元素的绝对值(矩阵行序数为i和列序数为i)，是的对角元素。直观上，与图5所示的DSHT的球面采样网格相对应。

DSHT的适合球面采样位置和得到这种位置的过程是所熟知的。图6示出了采样网格的示例。具体地，图6示出了针对在编码器和解码器结构块pEpD中所使用的码本的球面采样位置的示例，即，在图6a)中L_Sd＝4，在图6b)中L_Sd＝9，在图6c)中L_Sd＝16，且在图6d)中L_Sd＝25。可以将这种码本和其它事物用于根据预先限定的空间扬声器配置来进行呈现。

图7示出了图4所示的特别改善的多声道音频编码器420的示例实施例。所述多声道音频编码器包括DSHT块421，计算与逆DSHT块410相反的DSHT(以便反转块410)。块421的目的在于在其输出70处提供基本与逆DSHT块410的输入相同的信号。然后，进一步优化对该信号70的处理。信号70不仅包括提供给MDCT块411的音频分量，而且还包括指示一个或更多个主要音频信号分量，或者主要音频信号分量的一个或更多个位置的信号部分71。然后，将所述信号用于检测424至少一个最强源方向和计算425旋转参数以便自适应旋转iDSHT。在一个实施例中，所述过程是随时间变化的，即，所述检测424和计算425以所定义的离散时间步阶连续进行重新调整。计算iDSHT的自适应旋转矩阵，在iDSHT块423中执行自适应的iDSHT。旋转的效果是旋转iDSHT 423的采样网格，使得一侧(即，单个空间采样位置)与最强源方向(可能随时间改变)相匹配。这样提供对在iDSHT块423中的音频信号进行更有效且更好的编码。MDCT块22有利于补偿音频帧片段的时间交叠。iDSHT块423提供了经过编码的音频信号74，旋转参数计算块425提供旋转参数作为预处理信息75(至少一部分的预处理信息)。附加地，预处理信息75可以包括其它信息。

此外，本发明涉及以下实施例。

在一个实施例中，本发明涉及一种用于传输和/或存储并处理基于声道的3D音频表示的方法，包括以下步骤：发送/存储边信息(side information)以及基于声道的音频信息，所述边信息指示基于声道的音频信息的混合类型和所需扬声器位置，其中所述混合类型指示在在先处理阶段混合(例如，在混合立体声中)音频内容所依据的算法，其中所述扬声器位置指示扬声器的位置(理想位置，例如，在混合立体声中)或在先处理阶段的虚拟位置。在接收到所述数据结构和基于声道的音频信息之后的其它处理步骤使用所述混合&扬声器位置信息。

在一个实施例中，本发明涉及一种用于传输和/或存储并处理基于声道的3D音频表示的设备，包括：用于发送(或用于存储)边信息(SI)以及基于声道的音频信息的装置，所述边信息指示基于声道的音频信息的混合类型和所需扬声器位置，其中所述混合类型发信号通知在在先处理阶段混合(例如，在混合立体声中)音频内容所依据的算法，其中所述扬声器位置指示扬声器的位置(理想位置，例如，在混合立体声中)或在先处理阶段的虚拟位置。此外，所述设备包括处理器，在接收到所述数据结构和基于声道的音频信息之后，使用所述混合&扬声器位置信息。

在一个实施例中，本发明涉及一种3D音频系统，其中混合信息发信号通知HOA内容，HOA阶次和与理想球面采样网格相关的虚拟扬声器位置信息被用于将HOA 3D音频转换为基于声道的表示。在接收到/读取所传输的基于声道的音频信息和附随的边信息(SI)之后，将SI用于将基于声道的音频重新编码为HOA格式。通过根据所述球面采样位置计算模式矩阵Ψ并将其与基于声道的内容(DSHT)进行矩阵相乘来进行所述重新编码。

在一个实施例中，将所述系统/方法用于回避不同HOA格式的不调。使用与第一格式相关的并分布在SI中的iDSHT，来将在制作侧的第一HOA格式的HOA 3D音频内容变换为基于相关声道的3D音频表示。使用SI和与第二格式相关的DSHT，来将接收到的基于声道的音频信息变换为第二HOA格式。在系统的一个实施例中，第一HOA格式使用具有复数值的HOA表示，第二HOA格式使用具有实数值的HOA表示。在系统的一个实施例中，第二HOA格式使用复数HOA表示，第一HOA格式使用采用实数值的HOA表示。

在一个实施例中，本发明涉及一种3D音频系统，其中将混合信息用于从在速率压缩、信号增强或呈现中使用的信号分离定向的3D音频分量(音频对象提取)。在一个实施例中，其它步骤发信号通知HOA、HOA阶次和相关理想球面采样网格，所述相关理想球面采样网格用于在通过使用基于块的共变法(covariance method)确定主信号方向来恢复HOA表示和提取定向分量之前，将HOA 3D音频变换为基于声道的表示。所述方向被用于将定向信号HOA解码为这些方向。在一个实施例中，其它步骤发信号通知基于矢量的幅度平移(VBAP)和相关扬声器位置信息，其中所述扬声器位置信息被用于确定三个一组扬声器(speakertriplets)，并将共变法用于从所述三个一组扬声器的声道提取相关信号。

在3D音频系统的一个实施例中，根据定向信号和与信号提取相关的残余信号(HOA信号、三个一组VBAP(对))产生残余信号。

在一个实施例中，本发明涉及一种通过以下步骤对残余信号执行数据速率压缩的系统：降低HOA残余信号的阶次，并压缩被降低阶次的信号和定向信号；将残余三个一组扬声器声道混合为单声道流，并提供相关关联信息；以及发送所述信息和经过压缩的单声道信号以及经过压缩的定向信号。

在执行数据速率压缩的系统的一个实施例中，有助于向扬声器呈现音频，其中使用声道领域中的主信号方向和经过解关联的残余信号，将所提取的定向信号平移到扬声器。

本发明通常允许信号化音频内容混合特性。本发明可以用在音频设备中，具体地，用在音频编码设备、音频混合设备和音频解码设备中。

应注意，尽管仅示出DSHT，然而本领域技术人员应认识到，除了DSHT之外，还可以构造或应用其它类型的变换，其中在本发明的精神和范围内考虑了所有其它类型的变化。此外，尽管以上描述中示例性地描述了HOA格式，然而本领域技术人员应认识到，本发明还可以使用除了立体声之外的其它类型的声场相关格式，其中在本发明的精神和范围内考虑了所有其他类型的声场相关格式。

尽管本文参考本发明的优选实施例示出、描述并指出了本发明的根本创新特征，然而应认识到本领域技术人员可以在所述装置和方法中(在所公开设备的形式和细节方面以及对其的操作中)进行多种省略、替代和改变，而不脱离本发明的精神。应认识到，仅示例性地描述了本发明，可以对多种细节进行修改而不脱离本发明的范围。明确地表现出以基本相同方式执行基本相同功能以实现相同结果的元件的所有组合均在本发明的范围内。此外，全面地构思并考虑了从一个所述实施例到另一实施例的要素替换。

参考文献：

[1]T.D.Abhayapala“Generalized frarnework for spherical microphoneamayys：Spatial and frequency decomposition，in Proc，IEEE intemationalConference on Acoustles，Speecn，and Signal Processing(ICASSP)，(accepled)Vol.X，pp，.April2008，Les Vegas USA.

[2]James R.Driscoli and Dennis M.Healy Jr.”Compuring Fouriertrensforns and Gonvolutons orn the 2-soheere.Advanoes in Applied Mathemalics，15：202-250，1994

Claims

1.一种用于对预处理的音频数据进行编码的方法，包括以下步骤：

-针对音频数据，检测至少三个不同类型的音频数据类型，所述类型包括第一高阶立体声HOA格式、利用多个麦克风的给定设置进行的麦克风记录、以及根据特定平移混合的多声道音频流；

-如果根据检测所述音频数据具有第一HOA格式，则通过逆离散球面谐波变换iDSHT(423)，将第一HOA格式的音频数据的系数变换为不同的第二HOA格式的系数；

-如果根据检测所述音频数据具有第一HOA格式，则对音频数据或所述第二HOA格式的系数进行编码；以及

-对辅助数据进行编码，所述辅助数据表示对音频数据的特定音频预处理，所述辅助数据至少包括与虚拟或实际扬声器位置有关的元数据以及与音频数据有关的混合信息，所述混合信息包括第一HOA格式的详情、多个麦克风的给定设置和所述特定平移的详情中的至少一个的详情。

2.根据权利要求1所述的方法，其中从音频制作阶段(10)获得所述预处理的音频数据以及至少一部分的辅助数据，所获得的那部分辅助数据包括修改信息、编辑信息和合成信息中的至少一个。

3.根据权利要求2所述的方法，其中所述音频制作阶段(10)执行记录、混合和声音合成中的至少一个。

4.根据权利要求1所述的方法，其中所述辅助数据表示根据HOA内容得到所述音频内容加上以下内容中的至少一个：HOA内容表示的阶次，2D、3D或半球面表示以及空间采样点的位置。

5.根据权利要求1所述的方法，其中所述辅助数据表示使用VBAP合成地混合音频内容，加上对VBAP成对扬声器或三个一组扬声器的分配。

6.根据权利要求1所述的方法，其中所述辅助数据表示用固定分散的麦克风记录所述音频内容加上以下内容中的至少一个：一个或更多个麦克风在记录设备上的一个或更多个位置和方向；以及一个或更多个类型的麦克风。

7.一种用于对编码的音频数据进行解码的方法，包括以下步骤：

-确定该编码的音频数据在编码之前是否已被预处理；

-对音频数据进行解码；

-从接收到的数据提取与预处理有关的信息，所述信息至少包括与虚拟或实际扬声器位置有关的元数据以及与音频数据有关的混合信息，所述混合信息包括第一HOA格式的详情、多个麦克风的设置和特定平移的详情中的至少一个的详情；以及

-根据所提取的预处理信息，对解码的音频数据进行后处理，

其中基于音频数据具有第一HOA格式，基于离散球面谐波变换(DSHT)将音频数据的系数从第二HOA格式变换为第一HOA格式。

8.根据权利要求7所述的方法，其中所述与预处理有关的信息表示根据HOA内容得到音频内容加上以下内容中的至少一个：HOA内容表示的阶次，2D、3D或半球面表示以及空间采样点的位置。

9.根据权利要求7所述的方法，其中所述与预处理有关的信息表示使用VBAP合成地混合音频内容加上对成对VBAP或三个一组扬声器的分配。

10.根据权利要求7所述的方法，其中所述与预处理有关的信息指示用固定分散的麦克风记录所述音频内容加上以下内容中的至少一个：一个或更多个麦克风在记录设备上的一个或更多个位置和方向；以及一个或更多个类型的麦克风。

11.根据权利要求7所述的方法，其中所述元数据的使用是可选的并且所述元数据的使用是可接通或关断的。

12.一种用于对预处理的音频数据进行编码的编码器，所述音频数据包括至少三个不同类型的音频数据类型，所述类型包括第一高阶立体声HOA格式、利用多个麦克风的给定设置进行的麦克风记录、以及根据特定平移混合的多声道音频流，所述编码器包括：

-逆离散球面谐波变换iDSHT块(410)，用于如果所述音频数据具有第一HOA格式，则将第一HOA格式的音频数据的系数变换为不同的第二HOA格式的系数；

-第一编码器，用于如果所述音频数据具有第一HOA格式，则对音频数据进行编码，或对所述第二HOA格式的系数进行编码；以及

-第二编码器，用于对辅助数据进行编码，所述辅助数据表示对音频数据的特定音频进行预处理，所述辅助数据至少包括与虚拟或实际扬声器位置有关的元数据以及与音频数据有关的混合信息，所述混合信息包括第一HOA格式的详情、多个麦克风的给定设置和所述特定平移的详情中的至少一个的详情。

13.根据权利要求12所述的编码器，其中所述编码器包括DSHT块(421)；MDCT块(422)；第二逆DSHT块(423)，用于执行逆DSHT；源方向检测块(424)；以及参数计算块(425)，其中：

DSHT块(421)适用于计算并执行与由所述逆离散球面谐波变换块(410)执行的iDSHT相反的DSHT，所述DSHT块(421)向MDCT块(422)、源方向检测块(424)及参数计算块(425)提供输出，且其中

MDCT块(422)适用于补偿音频帧片段的时间交叠，所述MDCT块(422)向第二逆DSHT块(423)提供输出，且其中

源方向检测块(424)适用于检测在DSHT块(421)的输出中的一个或更多个最强源方向，并向参数计算块(425)提供输出，且其中参数计算块(425)适用于计算旋转参数，并向第二逆DSHT块(423)提供旋转参数，所述旋转参数定义将第二逆DSHT块(423)的逆DSHT的采样网格的空间采样位置映射到所检测到的一个或更多个最强源方向之一的旋转，且其中

第二逆DSHT块(423)适用于根据从参数计算块(425)接收到的旋转参数计算自适应旋转矩阵并且执行自适应逆DSHT，所述自适应逆DSHT包括根据自适应旋转矩阵的旋转以及逆DSHT。

14.一种用于对编码的音频数据进行解码的解码器，包括：

-分析器，用于确定该编码的音频数据在编码之前是否已被预处理；

-第一解码器，用于对所述音频数据进行解码；

-数据流解析和提取单元，用于从接收的数据提取与预处理有关的信息，所述信息至少包括与虚拟或实际扬声器位置有关的元数据以及与音频数据有关的混合信息，所述混合信息包括第一HOA格式的详情、多个麦克风的设置和特定平移的详情中的至少一个的详情；以及

-处理单元，用于根据所提取的预处理信息对解码的音频数据进行后处理，

15.根据权利要求14所述的解码器，其中所述与预处理有关的信息表示使用VBAP合成地混合音频内容加上成对VBAP或三个一组扬声器的分配。

16.根据权利要求14所述的解码器，其中所述与预处理有关的信息表示用固定分散的麦克风记录所述音频内容加上以下内容中的至少一个：一个或更多个麦克风在记录设备上的一个或更多个位置和方向；以及一个或更多个类型的麦克风。

17.根据权利要求14所述的解码器，其中所述元数据的使用是可选的，并且所述元数据的使用是可接通或关断的。

18.一种适于呈现HOA信号的音频呈现器，所述音频呈现器包括接口，所述接口包括：多个输入声道，用于接收多声道音频数据和输入声道的空间位置信息，以及用于接收元数据的至少一个声道，所述元数据规定了已经向多声道音频数据施加的音频混合的类型，