CN101223575A

CN101223575A - 音频编码和解码

Info

Publication number: CN101223575A
Application number: CNA2006800255555A
Authority: CN
Inventors: E·G·P·舒杰斯; G·H·霍索; H·普尔恩哈根; W·A·施尔德巴克; H·霍里克; H·M·K·克约林; K·J·罗登
Original assignee: Koninklijke Philips Electronics NV; Coding Technologies Sweden AB
Current assignee: Dolby International Ltd.; Koninklijke Philips NV; Dolby Sweden AB
Priority date: 2005-07-14
Filing date: 2006-07-07
Publication date: 2008-07-16
Anticipated expiration: 2026-07-07
Also published as: US7966191B2; KR101492826B1; EP2088580A2; DE602006007139D1; RU2010137467A; EP1902443B1; KR20100134084A; RU2461078C2; KR20080037672A; ATE523877T1; CN101223575B; EP2088580B1; HK1154984A1; MX2008000504A; JP5097702B2; JP2011059711A; JP5269039B2; PL2088580T3; KR101496193B1; JP2009501354A

Abstract

音频编码器(109)具有分级编码结构且生成包括一个或多个音频通道以及参数音频编码数据的数据流。编码器(109)包括编码结构处理器(305)，它把解码器树结构数据插入到数据流中。解码器树结构数据包括指示在分级解码器结构的分级的层中用于音频通道的通道分割特性的至少一个数据值，且可以具体地规定要由解码器应用的解码器树结构。解码器(115)包括接收数据流的接收机(401)，和响应于解码器树结构数据而生成分级解码器结构的解码器结构处理器(405)。解码处理器(403)然后通过使用分级解码器结构从数据流生成输出音频通道。

Description

音频编码和解码

本发明涉及使用分级(hierarchical)编码结构和/或分级解码器结构的音频编码和/或解码。

在音频处理领域中，把多个音频通道(audio channel)转换成另外的更大数目的音频通道是熟知的。这样的变换可以因为各种原因而被执行。例如，音频信号可被转换成另一个格式，以提供增强的用户体验。例如，传统的立体声记录仅仅包括两个通道，而现代的先进的音频系统典型地使用五个或六个通道，如在流行的5.1环绕声系统中那样。因此，两个立体声通道可被转换成五个或六个通道，以便充分利用先进的音频系统。

通道转换的另一个原因是编码效率。已经发现，例如立体声音频信号可被编码成组合有描述音频信号的空间属性的参数比特流的单通道音频信号。解码器可以以非常令人满意的精度再生立体声音频信号。这样，可以得到很大的比特速率节省。

有几个参数可被使用来描述音频信号的空间属性。一个这样的参数是通道间的互相关，诸如在立体声信号的左通道与右通道之间的互相关。另一个参数是通道的功率比。在所谓的(参数)空间音频编码器中，从原始音频信号提取这些和其它参数，以便产生具有减小数目的通道-例如仅单个通道的音频信号，加上描述原始音频信号的空间属性的参数组。在所谓的(参数)空间音频解码器中，重建原始音频信号。

空间音频编码是最近引入来有效地编码多通道音频素材的技术。在空间音频编码中，M通道音频信号被描述为N通道音频信号加上一组相应的空间参数，其中N典型地小于M。因此，在空间音频编码器中，M通道信号被下混合为N通道信号，并且提取了空间参数。在解码器中，N通道信号和空间参数被利用来(感性地)重建M通道信号。

这样的空间音频编码优选地利用级联的或基于树的分级结构，包括在编码器和解码器中的标准单元。在编码器中，这些标准单元可以是把通道组合成较低数目的通道的下混合器(down-mixer)，诸如2到1、3到1、3到2等等下混合器，而在解码器中，相应的标准单元可以是把通道分割(split)成较高数目的通道的上混合器(up-mixer)，诸如1到2、2到3等等上混合器。

然而，这样的方法的问题在于，解码器结构必须匹配于编码器的结构。虽然这可以通过使用标准化的编码器和解码器结构而达到，但这样的方法是不灵活的，且将趋向于导致次最佳性能。

因此，改进的系统将是有利的，且特别是允许增加的灵活性、减小的复杂性和/或改进的性能的系统将是有利的，

因此，本发明寻求优选地单个地或组合地缓和、减轻或消除一个或多个上述的缺点。

按照本发明的第一方面，提供了用于生成多个输出音频通道的设备；该设备包括：用于接收包括多个输入音频通道和参数音频数据的数据流的装置；该数据流还包括用于一个分级解码器结构的解码器树结构数据，该解码器树结构数据包括至少一个数据值，指示在分级解码器结构的分级的层中用于音频通道的通道分割特性；响应于解码器树结构数据而生成分级解码器结构的装置；以及使用分级解码器结构从该数据流生成多个输出音频通道的装置。

本发明可以允许灵活地生成音频通道，以及具体地可以允许解码器功能性适配于用于生成数据流的编码器结构。本发明可以例如允许编码器选择用于多通道信号的适当的编码方法，而同时允许该设备自动地适配于它。本发明可以允许一数据流具有改进的质量-比特速率比值。具体地，本发明可以允许自动适配和/或高的灵活度，而同时提供从分级编码/解码结构可得到的改进的音频质量。而且本发明可以允许分级解码器结构的信息的有效通信。具体地，本发明可以允许对于解码器树结构数据的低的额外开销。本发明可以提供自动适配于所接收的比特流且可与任何适当的分级编码结构一起使用的设备。

每个音频通道可以支持一个个体音频信号。数据流可以是单个比特流，或可以例如是通过不同的分布通道分布的多个子比特流的组合。数据流可以具有有限的持续时间，诸如与给定尺寸的数据文件相对应的固定持续时间。通道分割特性可以是指示给定的音频通道在分级的层中被划分成多少通道的特性。例如，通道分割特性可以反映给定的音频通道是否没有被划分，或它是否被划分成两个音频通道。

解码器树结构数据可包括用于多个音频通道的分级解码器结构的数据。具体地，解码器树结构数据可包括用于多个输入音频通道的每个通道的一组数据。例如，解码器树结构数据可包括对于每个输入信号的用于一个解码器树结构的数据。

按照本发明的可选特征，解码器树结构数据包括多个数据值，每个数据值指示在分级解码器结构的一个分级的层中用于一个通道的通道分割特性。

这可以提供用于有效的数据通信，允许设备适配于用于该数据流的编码。解码器树结构数据可具体地为分级解码器结构中的每个通道分割功能都包括一个数据值。解码器树结构数据还可为每个输出通道都包括一个数据值，指示对于给定的分级的层，信号不发生进一步的通道分割。

按照本发明的可选特征，预定的数据值指示在分级的层中对于该通道没有通道分割。

这可以提供用于有效的数据通信，允许设备有效地和可靠地适配于用于数据流的编码。

按照本发明的可选特征，预定的数据值指示在分级的层中对于通道进行一到二通道分割。

这可以提供用于有效的数据通信，允许设备有效地和可靠地适配于用于数据流的编码。具体地，对于使用低复杂性标准通道分割功能的许多分级系统而言，这可以允许非常有效的信息转送。

按照本发明的可选特征，该多个数据值是二进制数据值。

这可以提供用于有效的数据通信，允许设备有效地和可靠地适配于用于数据流的编码。具体地，对于主要使用一个特定的通道分割功能性-诸如一到二通道分割功能性-的系统而言，这可以允许非常有效的信息转送。

按照本发明的可选特征，一个预定的二进制数据值指示一到二通道分割，以及另一个预定的二进制数据值指示没有通道分割。

这可以提供用于有效的数据通信，允许设备有效地和可靠地适配于用于数据流的编码。具体地，对于基于(based around)低复杂性一到二通道分割功能性的系统而言，这可以允许非常有效的信息转送。有效的解码可以由一个低复杂性分级解码器结构达到，该分级解码器结构响应于低复杂性数据而生成。这个特征可以允许用于解码器树结构数据的通信的低额外开销且可以特别适合于由简单编码功能编码的数据流。

按照本发明的可选特征，数据流还包括输入通道的数目的指示。

这可以易于解码结构的解码和生成，和/或可以允许在解码器树结构数据中分级解码器结构的信息的更有效编码。具体地，用于生成分级解码器结构的装置可以响应于输入通道的数目的指示来这样做。例如，在许多实际的情形下，输入通道的数目可以从数据流得到，然而，在某些特定的情形下，音频和参数数据可能被分开。在这样的情形下，由于数据流数据可能已被处理(例如，从立体声被下混合到单声道)，所以如果输入通道的数目已知，则可以是有利的。

按照本发明的可选特征，数据流还包括输出通道的数目的指示。

这可以易于解码结构的解码和生成，和/或可以允许在解码器树结构数据中分级解码器结构的信息的更有效编码。具体地，用于生成分级解码器结构的装置可以根据输出通道的数目的指示来这样做。另外，该指示可被用作为解码器树结构数据的错误检验。

按照本发明的可选特征，数据流包括在分级解码器结构中多个一到二通道分割功能的指示。

这可以易于解码结构的解码和生成，和/或可以允许在解码器树结构数据中分级解码器结构的信息的更有效编码。具体地，生成分级解码器结构的装置可以响应于在分级解码器结构中多个一到二通道分割功能的指示来这样做。

按照本发明的可选特征，数据流还包括在分级解码器结构中多个二到三通道分割功能的指示。

这可以易于解码结构的解码和生成，和/或可以允许在解码器树结构数据中分级解码器结构的信息的更有效编码。具体地，用于生成分级解码器结构的装置可以响应于在分级解码器结构中该多个二到三通道分割功能的指示来这样做。

按照本发明的可选特征，解码器树结构数据包括响应于二到三通道分割功能的存在来排序的多个解码器树结构的数据。

这可以易于解码结构的解码和生成，和/或可以允许在解码器树结构数据中分级解码器结构的信息的更有效编码。具体地，该特征可以允许那些其中二到三通道分割可能只出现在根层的系统中的有利性能。例如，用于生成分级解码器结构的装置可以首先生成对于两个输入通道的二到三分割功能性，后面跟随以仅仅使用一到二通道分割功能性的其余结构的生成。其余结构可能具体响应于二进制解码器树结构数据被生成，因此减小所需要的比特速率。数据流还可包含多个解码器树结构的排序的信息。

按照本发明的可选特征，用于至少一个输入通道的解码器树结构数据包括在根层存在二到三通道分割功能的指示，后随以二进制数据，这里每个二进制数据值指示没有分割功能性或指示用于该二到三分割功能性的从属层(dependent layer)的一到二通道分割功能性。

这可以易于解码结构的解码和生成，和/或可以允许在解码器树结构数据中分级解码器结构的信息的更有效编码。具体地，该特征可以允许在那些其中二到三通道分割可能只出现在根层的系统中的有利性能。例如，用于生成分级解码器结构的装置可以首先生成用于一个输入通道的二到三通道分割功能性，后随以仅仅使用一到二通道分割功能性的其余结构的生成。该其余结构可以具体地响应于二进制解码器树结构数据被生成，因此减小所需要的比特速率。

按照本发明的可选特征，数据流包括对于至少一个输出通道的扬声器位置的指示。

这可以允许被易化的解码且可以允许设备的改进的性能和/或适配，因此提供了增加的灵活性。

按照本发明的可选特征，用于生成分级解码器结构的装置被安排成响应于解码器树结构数据来确定用于分级的层的通道分割功能的乘法参数。

这可以允许改进的性能和/或改进的适配/灵活性。具体地，该特征不单可以允许分级解码器结构，而且也可以允许通道分割功能的操作以适配于所接收的数据流。乘法参数可以是矩阵乘法参数。

按照本发明的可选特征，解码器树结构包括在至少一个分级的层中的至少一个通道分割功能性，该至少一个通道分割功能性包括：解相关(decorrelate)装置，用于直接从数据流的音频输入通道生成解相关的信号；至少一个通道分割单元，用于从来自较高分级的层的音频通道和该解相关信号生成多个分级层输出通道；以及用于响应于解码器树结构数据来确定解相关滤波器或通道分割单元的至少一个特性的装置。

这可以允许改进的性能和/或改进的适配/灵活性。具体地，该特征可以允许分级解码器结构，其具有改进的解码性能且可以生成具有提高的音频质量的输出通道。具体地，可以得到其中没有解相关信号通过级联的解相关滤波器生成的分级解码器结构，且该分级解码器结构动态地和自动地适配于所接收的数据流。

解相关滤波器接收数据流的音频输入通道而不进行修改，且具体地不(诸如通过另一个解相关滤波器)进行信号的任何预先的滤波。解相关滤波器的增益可以具体地响应于解码器树结构数据来被确定。

按照本发明的可选特征，解相关装置包括电平补偿装置，用于对音频输入通道执行音频电平补偿，以生成经电平补偿的音频信号；以及解相关滤波器，用于滤波经电平补偿的音频信号，以生成解相关的信号。

这可以允许改进的质量和/或被易化的实现。

按照本发明的可选特征，电平补偿装置包括用前置矩阵(prematrix)进行的矩阵乘法。这可以允许有效的实现。

按照本发明的可选特征，对于只包括一到二通道分割功能性的分级解码器结构，该前置矩阵的系数具有至少一个单位值。

这可以降低复杂性和允许有效的实现。该分级解码器结构可包括除一到二通道分割功能性以外的其它功能性，但按照本特征，该分级解码器结构将不包括任何其它的通道分割功能性。

按照本发明的可选特征，该设备还包括用于响应于在较高分级的层中通道分割功能性的参数来确定在该至少一个分级的层中该至少一个通道分割功能性的前置矩阵的装置。

这可以允许有效的实现和/或改进的性能。在较高分级的层中通道分割功能性可包括例如位于解码器树结构的根层的二到三通道分割功能性。

按照本发明的可选特征，该设备包括用于响应于在该至少一个分级的层中该至少一个通道分割功能性的参数来确定该至少一个通道分割功能性的通道分割矩阵的装置。

这可以允许有效的实现和/或改进的性能。这对于仅仅包括一到二通道分割功能性的分级解码器树结构是特别有利的。

按照本发明的可选特征，该设备还包括用于响应于较高分级的层的二到三上混合器的参数来确定在该至少一个分级的层中该至少一个通道分割功能性的前置矩阵的装置。

这可以允许有效的实现和/或改进的性能。这对于在解码器树结构的根层中包括二到三通道分割功能性的分级解码器树结构是特别有利的。

按照本发明的可选特征，用于确定前置矩阵的装置被安排成响应于确定相应于二到三上混合器的第一输入的第一子前置矩阵和相应于二到三上混合器的第二输入的第二子前置矩阵，而确定对于至少一个通道分割功能性的前置矩阵。

按照本发明的另一方面，提供了用于生成包括多个输出音频通道的数据流的设备，该设备包括：用于接收多个输入音频通道的装置；分级编码装置，用于参数地编码该多个输入音频通道，以生成包括该多个输出音频通道和参数音频数据的数据流；用于确定相应于分级编码装置的分级解码器结构的装置；以及用于把解码器树结构数据包括在数据流中的装置，该解码器树结构数据包括指示在分级解码器结构的分级的层处用于音频通道的通道分割特性的至少一个数据值。

按照本发明的另一方面，提供了数据流，包括：多个编码的音频通道；参数音频数据；和用于分级解码器结构的解码器树结构数据，该解码器树结构数据包括至少一个数据值，该至少一个数据值指示在分级解码器结构的分级的层处用于音频通道的通道分割特性。

按照本发明的另一方面，提供了其上存储有如上所述的信号的存储媒体。

按照本发明的另一方面，提供了生成多个输出音频通道的方法，该方法包括：接收包括多个输入音频通道和参数音频数据的数据流；该数据流还包括用于分级解码器结构的解码器树结构数据，该解码器树结构数据包括指示在分级解码器结构的分级的层处用于音频通道的通道分割特性的至少一个数据值；响应于解码器树结构数据来生成分级解码器结构；以及使用分级解码器结构来从该数据流生成多个输出音频通道。

按照本发明的另一方面，提供了生成包括多个输出音频通道的数据流的方法，该方法包括：接收多个输入音频通道；分级编码装置参数地编码该多个输入音频通道，以生成包括该多个输出音频通道和参数音频数据的数据流；确定相应于该分级编码装置的分级解码器结构；以及把解码器树结构数据包括在数据流中，该解码器树结构数据包括指示在该分级解码器结构的分级的层处用于音频通道的通道分割特性的至少一个数据值。

按照本发明的另一方面，提供了用于生成多个输出音频通道的接收机，该接收机包括：用于接收包括多个输入音频通道和参数音频数据的数据流的装置；该数据流还包括用于分级解码器结构的解码器树结构数据，该解码器树结构数据包括指示在分级解码器结构的分级的层处用于音频通道的通道分割特性的至少一个数据值；响应于解码器树结构数据而生成分级解码器结构的装置；以及使用分级解码器结构来从该数据流生成多个输出音频通道的装置。

按照本发明的另一方面，提供了用于生成包括多个输出音频通道的数据流的发送机，该发送机包括：用于接收多个输入音频通道的装置；用于参数地编码该多个输入音频通道以生成包括多个输出音频通道和参数音频数据的数据流的分级编码装置；用于确定相应于分级编码装置的分级解码器结构的装置；以及用于把解码器树结构数据包括在数据流的装置，该解码器树结构数据包括指示在分级解码器结构的分级的层处用于音频通道的通道分割特性的至少一个数据值。

按照本发明的另一方面，提供了包括用于生成数据流的发送机和用于生成多个输出音频通道的接收机的传输系统；其中该发送机包括：用于接收多个输入音频通道的装置，用于参数地编码该多个输入音频通道以生成包括多个音频通道和参数音频数据的数据流的分级编码装置，用于确定相应于分级编码装置的分级解码器结构的装置，用于把解码器树结构数据包括在数据流中的装置，该解码器树结构数据包括指示在分级解码器结构的分级的层处用于音频通道的通道分割特性的至少一个数据值，和用于把数据流发送到接收机的装置，以及该接收机包括：用于接收数据流的装置，响应于解码器树结构数据而生成分级解码器结构的装置，以及使用分级解码器结构从该数据流生成多个输出音频通道的装置。

按照本发明的另一方面，提供了用于接收数据流的方法；该方法包括：接收包括多个输入音频通道和参数音频数据的数据流；该数据流还包括用于分级解码器结构的解码器树结构数据，该解码器树结构数据包括指示在分级解码器结构的分级的层处用于音频通道的通道分割特性的至少一个数据值；响应于该解码器树结构数据来生成分级解码器结构；以及使用该分级解码器结构来从数据流生成多个输出音频通道。

按照本发明的另一方面，提供了发送包括多个输出音频通道的数据流的方法，该方法包括：接收多个输入音频通道；参数地编码该多个输入音频通道以生成包括多个输出音频通道和参数音频数据的数据流；确定相应于分级编码装置的分级解码器结构；把解码器树结构数据包括在数据流中，该解码器树结构数据包括指示在该分级解码器结构的分级的层处用于音频通道的通道分割特性的至少一个数据值；以及发送该数据流。

按照本发明的另一方面，提供了发送和接收数据流的方法，该方法包括：在发送机处：接收多个输入音频通道，参数地编码该多个输入音频通道以生成包括多个音频通道和参数音频数据的数据流，确定相应于分级编码装置的分级解码器结构，把解码器树结构数据包括在数据流中，该解码器树结构数据包括指示在该分级解码器结构的分级的层处用于音频通道的通道分割特性的至少一个数据值，和把该数据流发送到接收机；以及在接收机处：接收该数据流，响应于该解码器树结构数据来生成分级解码器结构，以及使用该分级解码器结构来从数据流生成多个输出音频通道。

按照本发明的另一方面，提供了用于执行如上所述的任何方法的计算机程序产品。

按照本发明的另一方面，提供了包括如上所述的设备的音频播放设备。

按照本发明的另一方面，提供了包括如上所述的设备的音频记录设备。

参照此后描述的实施例，将明白和阐明本发明的这些和其它方面、特征和优点。

将参照附图，仅仅通过示例方式来描述本发明的实施例，其中：

图1图解说明按照本发明的某些实施例的、用于传送音频信号的传输系统；

图2图解说明可以在本发明的某些实施例中利用的分级编码器结构的例子；

图3图解说明按照本发明的某些实施例的编码器的例子；

图4图解说明按照本发明的某些实施例的解码器的例子；

图5图解说明可以在本发明的某些实施例中利用的某些分级解码器结构的例子；

图6图解说明具有在根处的二到三上混合器的分级解码器结构的例子；

图7图解说明包括多个解码器树结构的分级解码器结构的例子；

图8图解说明一到二上混合器的例子；

图9图解说明可以在本发明的某些实施例中利用的某些分级解码器结构的例子；

图10图解说明可以在本发明的某些实施例中利用的某些分级解码器结构的例子；

图11图解说明按照本发明的某些实施例的解码方法的示例性流程图；

图12图解说明按照本发明的某些实施例的矩阵解码器结构的例子；

图13图解说明可以在本发明的某些实施例中利用的分级解码器结构的例子；

图14图解说明可以在本发明的某些实施例中利用的分级解码器结构的例子；以及

图15图解说明按照本发明的某些实施例的、发送和接收音频信号的方法。

以下的说明聚焦于可应用来通过使用多个低复杂性通道下混合器和上混合器来编码和解码多通道音频信号的本发明的实施例。然而，将会意识到，本发明不限于这种应用。本领域技术人员将会理解，下混合器被安排成把多个音频通道组合成较低数目的音频通道和附加参数数据，以及上混合器被安排成从较低数目的音频通道和参数数据生成多个音频通道。因此，上混合器提供通道分割功能性。

图1图解说明按照本发明的某些实施例的、用于音频信号通信的传输系统100。传输系统100包括发送机101，它通过具体地可以是互联网的网络105被耦合到接收机103。

在特定的例子中，发送机101是信号记录设备以及接收机是信号播放设备103，但将会意识到，在其它实施例中，发送机和接收机可以在其它应用中使用，以及用于其它用途。例如，发送机101和/或接收机103可以是代码转换功能性的一部分，且例如可以提供到其它信号源或目的地的接口。

在其中支持信号记录功能的特定例子中，发送机101包括接收模拟信号的数字化器107，该模拟信号通过采样和模拟-数字转换而被转换成数字PCM信号。

发送机101被耦合到图1的编码器109，后者按照编码算法来编码PCM信号。编码器100被耦合到网络发送机111，该网络发送机接收编码的信号，并接口到互联网105。网络发送机可以通过互联网105把编码信号发送到接收机103。

接收机103包括网络接收机113，网络接收机接口到互联网105，并被安排成接收来自发送机101的编码信号。

网络接收机111被耦合到解码器115。解码器115接收编码信号，并按照解码算法解码该信号。

在其中支持信号播放功能的特定例子中，接收机103还包括信号播放器117，信号播放器接收来自解码器115的解码的音频信号，并把它呈现给用户。具体地，信号播放器113可包括对于输出解码的音频信号所需要的数字-模拟转换器、放大器和扬声器。

在图1的例子中，编码器109和解码器115使用由小的构建块组成的级联的或基于树的结构。编码器109因此使用分级编码结构，其中音频通道在分级结构的不同层中渐进地处理。这样的结构可以导致特别有利的编码，其有高的音频质量、然而相对低的复杂性和编码器109的简易实现。

图2图解说明可以在本发明的某些实施例中利用的分级编码器结构的例子。

在该例子中，编码器109编码由左前(l_f)、左环绕(l_s)、右前(r_f)、右环绕(r_s)、中央(c₀)和压低音扬声器(subwoofer)或低频增强(lfe)通道组成的5.1通道环绕声输入信号。通道首先在分段块201中被分段和被变换到频域。最终得到的频域信号成对地馈送到二到一(TTO)下混合器203，它把两个输入信号下混合成单个输出通道，并提取相应的参数。因此，三个TTO下混合器203把六个输入通道下混合成三个音频通道和参数。

如图2所图解说明的，TTO下混合器203的输出被用作为对于其它TTO下混合器205、207的输入。具体地，TTO下混合器203中的两个被耦合到第四TTO下混合器205，后者把相应的通道组合成单个通道。TTO下混合器203中的第三连同第四TTO下混合器205一起被耦合到第五TTO下混合器207，它把剩余的两个通道组合成单个通道(M)。这个信号最后被变换回时域，导致编码的多通道音频比特流m。

TTO下混合器203可被认作为组成编码结构的第一层，第二层包括第四TTO下混合器205以及第三层包括第五TTO下混合器207。因此，在分级编码器结构的每层中进行多个音频通道到较低数目的音频通道的组合。

编码器109的分级编码结构可以导致对于低复杂性的非常有效和高质量的编码。而且，分级编码结构可以根据被编码的信号的本性而变化。例如，如果编码简单的立体声信号，则这可以通过只包括单个TTO下混合器和单层的分级编码结构来达到。

为了让解码器115处理使用不同分级编码结构被编码的信号，它必须能够适配于为特定信号使用的分级编码结构。具体地，解码器115包括功能性来把它本身配置成具有匹配于编码器109的分级编码结构的分级解码器结构的功能。然而，为了做到这一点，解码器115必须被提供以用于编码所接收的比特流的分级编码结构的信息。

图3图解说明按照本发明的某些实施例的编码器109的例子。

编码器109包括接收多个输入音频通道的接收处理器301。对于图2的特定例子，编码器109接收六个输入通道。接收处理器301被耦合到具有分级编码结构的编码处理器303。作为例子，编码处理器303的分级编码结构可以相应于图2所图解说明的结构。

编码处理器303还被耦合到编码结构处理器305，它被安排成确定由编码处理器303使用的分级编码结构。编码处理器303可以具体地把结构数据馈送到编码结构处理器305。作为响应，编码结构处理器305生成指示分级解码器结构的解码器树结构数据，该分级解码器结构必须被解码器使用来解码由编码处理器303生成的编码信号。

将会意识到，解码器树结构数据可以直接被确定为描述分级编码结构的数据，或可以例如是直接描述必须被使用的分级解码器结构的数据(例如，它可以描述对编码处理器303的结构的补充结构)。

解码器树结构数据具体地包括指示在分级解码器结构的分级的层处用于音频通道的通道分割特性的至少一个数据值。因此，解码器树结构数据可包括在解码器中必须在哪里分割音频通道的至少一个指示。这样的指示可以例如是一个层的指示，在该层中编码结构包括下混合器，或等价地可以是必须包括上混合器的解码器树结构的一个层的指示。

编码处理器303和编码结构处理器305被耦合到数据流生成器307，数据流生成器生成包括来自编码处理器303的已编码音频和来自编码结构处理器305的解码器树结构数据的比特流。这个数据流然后被馈送到网络发送机111，用于传送到接收机103。

图4图解说明按照本发明的某些实施例的解码器115的例子。

解码器115包括接收机401，接收机接收从网络接收机113传送的数据流。解码器115还包括被耦合到接收机401的解码处理器403和解码器结构处理器405。

接收机401提取解码器树结构数据且把这个数据馈送到解码器结构处理器405，而包括多个音频通道和参数音频数据的音频编码数据被馈送到解码处理器403。

解码器结构处理器405被安排成响应于所接收的解码器树结构数据来确定分级解码器结构。具体地，解码器结构处理器405可以提取规定数据分割的数据值，并可以生成补足(complement)编码处理器303的分级编码结构的分级解码器结构的信息。这个信息被馈送到解码处理器403，使得该解码处理器被配置用于规定的分级解码器结构。

随后，解码器结构处理器405通过使用分级解码器结构而着手去生成相应于加到编码器109的原始输入的输出通道。

因此，该系统可以允许音频信号、且具体地是多通道音频信号的有效和高质量的编码、解码和分布。使得实现一个非常灵活的系统，其中解码器可以自动适配于编码器，且因此同一个解码器可以与多个不同的编码器一起使用。

解码器树结构数据使用指示在分级解码器结构的不同分级层处用于音频通道的通道分割特性的数据值而被有效地传送。因此，解码器树结构数据为灵活的和高性能分级编码和解码结构而进行最佳化。

例如，5.1通道信号(即，六通道信号)可被编码为立体声信号加上一组空间参数。这样的编码可以通过使用简单的TTO或三到二(TTT)下混合器的许多不同的分级编码结构而达到，且因此使用一到二(OTT)或二到三(TTT)上混合器的许多不同的分级解码器结构是可能的。这样，为了解码相应的空间比特流，解码器应当具有编码器中已利用的分级编码结构的知识。于是一种直截了当的途径是藉助于到查找表中的索引来用信号通知比特流中的树。适当的查找表的例子可以是：

树码字	树
树码字	树	0...000	单声道到5.1变例A
0...001	单声道到5.1变例B	0...000	单声道到5.1变例A
0...001	单声道到5.1变例B	0...010	立体声到5.1变例A
...	...	0...010	立体声到5.1变例A
...	...	1...111	...

然而，使用这样的查找表具有缺点：可能被使用的所有分级编码结构必须在查找表中明显地规定。然而，这需要所有的解码器/编码器必须接收更新的查找表，以便把新的分级编码结构引入到系统中。这是非常不希望的，且导致了复杂的操作和不灵活的系统。

相反，使用其中数据值指示在分级解码器结构的不同层处的通道分割的解码器树结构数据便允许解码器树结构数据的简单一般通信，该解码器树结构数据可以描述任何的分级解码器结构。因此，新的编码结构可以容易地使用，而不需要相应解码器的任何预先通知。

因此，与基于查找表的途径相反，图1的系统可以处理任意数目的输入和输出通道，而同时保持完全的灵活性。这是通过在比特流中规定编码器/解码器树的说明而达到的。从这个说明，解码器可以得出在何处和如何应用那些被编码在比特流中的随后的参数。

解码器树结构数据可以具体地包括多个数据值，其中每个数据值指示在分级解码器结构的一个分级的层中用于一个通道的通道分割特性。具体地，解码器树结构数据可为要被包括在分级解码器结构中的每个上混合器包括一个数据值。而且，可以为不再分割的每个通道包括一个数据值。因此，如果解码器树结构数据的数据值具有相应于一个特定的预定数据值的值，则这可以指示相应的通道不被进一步分割、而实际上就是解码器115的输出通道。

在某些实施例中，系统可以仅仅并入专门地使用TTO下混合器的编码器，以及解码器因此可以仅仅使用OTT上混合器来实施。在这样的实施例中，可以为解码器的每个通道包括一个数据值。而且，数据值可以呈现两个可能值之一，一个值指示通道不被分割，而另一个值指示通道由OTT上混合器分割成两个通道。而且，在解码器树结构数据中数据值的次序可以指示哪些通道被分割，从而指示分级解码器结构中OTT上混合器的位置。因此，可以得到包括完全描述所需要的分级解码器结构的简单二进制值的解码器树结构数据。

作为特定例子，将描述图5的解码器的分级解码器结构的比特串说明的推导。

在本例中，假设编码器可能只使用TTO下混合器，因此，解码器树可以由二进制串描述。在图5的例子中，简单的输入音频通道通过使用OTT上混合器被扩展成五通道输出信号。在本例中，可以辨别四层的深度，第一层用0表示，是在输入信号的层上，最后一层用3表示，是在输出信号的层上。将会意识到，在本说明中，这些层的特征在于用上混合器形成层边界的音频通道，这些层可以等价地被认为包括上混合器或由上混合器形成。

在本例中，图5的分级解码器结构可以通过由以下步骤得到的比特串“111001000”描述：

1-在层0，t0处的输入信号被分割(OTT上混合器A)，结果，在层0处的所有信号都被说明(account for)，移到层1。

1-在层1处的第一信号(出自OTT上混合器A的顶部)被分割(OTT上混合器B)。

1-在层1处的第二信号(出自OTT上混合器A的底部)被分割(OTT上混合器C)，在层1处的所有信号都被描述，移到层2。

0-在层2处的第一信号(OTT上混合器B的顶部)不再被分割。

0-在层2处的第二信号(OTT上混合器B的底部)不再被分割。

1-在层2处的第三信号(OTT上混合器C的顶部)再次被分割。

0-在层2处的第四信号(OTT上混合器D的底部)不再被分割，在层2处的所有信号都被描述，移到层3。

0-在层3处的第一信号(OTT上混合器D的顶部)不再被分割，

0-在层3处的第二信号(OTT上混合器D的底部)不再被分割，所有的信号都已描述。

在某些实施例中，编码可以限于只使用TTO和TTT下混合器，因此解码可以限于只使用OTT和TTT上混合器。虽然TTT上混合器可以在许多不同的配置中被使用，但在其中(波形)预测被使用来从两个输入信号精确地估计三个输出信号的模式下使用它们是特别有利的。由于TTT上混合器的这个预测本性，这些上混合器的逻辑位置是在树的根部。这是由于OTT上混合器会破坏原始波形，由此而使得预测不适当。因此，在某些实施例中，在解码器结构中所使用的仅有的上混合器是在根层的OTT上混合器或TTT上混合器。

因此，对于这样的系统，可以辨别三种不同的情形，它们一起考虑了(allow for)一个通用树说明：

1)使TTT上混合器作为根的树。

2)仅由OTT上混合器组成的树。

3)“空树”，即，从输入到输出通道的直接映射。

图6图解说明在根处有TTT上混合器的示例分级解码器结构和图7图解说明包括多个解码器树结构的示例分级解码器结构。图7的分级解码器结构包括按照以上给出的所有三个例子的解码器树结构。

在某些实施例中，解码器树结构数据按输入通道是否包括TTT上混合器的次序进行排序。解码器树结构数据可包括在根层存在TTT上混合器的指示，后面跟随有指示较低层的通道是被OTT上混合器分割还是不再被分割的二进制数据。这可以改进在比特速率和低信令花费方面的性能。

例如，解码器树结构数据可以指示有多少TTT上混合器被包括在分级解码器结构中。由于每个树结构可能只包括位于根级别的一个TTT上混合器，所以树的其余部分可以由如前所述的二进制串来描述(即，由于树是对于较低层的仅有OTT上混合器的树，所以可以应用与对于仅有OTT上混合器的分级解码器结构描述的相同的方法)。

另外，其余的树结构或者是仅有OTT上混合器的树，或者是空树，它们也可以由二进制串描述。因此，所有的树可以由二进制数据值描述，以及二进制串的解译可以取决于树属于哪个类别。这个信息可以通过该树在解码器树结构数据中的位置来提供。例如，包括TTT上混合器的所有树可以首先放置在解码器树结构数据中，随后是仅有OTT上混合器的树，随后是空树。如果在分级解码器结构中的TTT上混合器和OTT上混合器的数目被包括在解码器树结构数据中，则解码器可不需要任何另外的数据便被配置。因此，实现了所需要的解码器结构的信息的高度有效通信。传送该解码器树结构数据的额外开销可以保持为非常低，然而提供了一个高度灵活的系统，它可以描述变化很多样的分级解码器结构。

作为特定例子，图7的解码器的分级解码器结构可以通过以下的处理过程从解码器树结构数据得出：

-输入信号的数目是从(可能编码的)下混合得出。

-整个树的OTT上混合器和TTT上混合器的数目在解码器树结构数据中被用信号通知，并可以从其中提取。输出信号的数目可以得出为：输出信号数目＝输入信号数目+TTT上混合器数目+OTT上混合器数目。

-输入通道可以在解码器树结构数据中被重新映射，以使得在重新映射后首先遇到按照情形1)的树，随后是按照情形2)、然后是3)的树。对于图7的例子，这将导致次序3，0，1，2，4，即，信号0在重新映射后是信号3，信号1在重新映射后是信号0，等等。

-对于每个TTT上混合器，三个仅有OTT(OTT-only)的树的说明通过使用上述的方法被给出，每个TTT输出通道一个仅有OTT的树。

-对于所有的剩余的输入信号，给出仅有OTT的说明。

在某些实施例中，对于输出通道的扬声器位置的指示被包括在解码器树结构数据中。例如，可以使用预定的扬声器位置的查找表，诸如，举例而言：

比特串	(虚拟)扬声器位置
比特串	(虚拟)扬声器位置	0...000	左(前)
0...001	右(前)	0...000	左(前)
0...001	右(前)	0...010	中央
0...011	LFE	0...010	中央
0...011	LFE	0...100	左环绕
0...101	右环绕	0...100	左环绕
0...101	右环绕	0...110	中央环绕
...	...	0...110	中央环绕

替换地，扬声器位置可以通过使用分级方法被表示。例如，头几个比特规定x轴，例如，L，R，C，然后另外几个比特规定y轴，例如，前面、侧面、环绕以及另外几个比特规定z轴(高度(elevation))。

作为特定例子，下面提供对于遵循以上描述方针的比特流的示例性比特流语法。在本例中，输入和输出信号的数目在比特流中明显地编码。这样的信息可被使用来验证部分的比特流。

语法

TreeDescription()

{

numInChan＝bsNumInChan+1；

numOutChan＝bsNumOutChan+2；

numTttUp_mixers＝bsNumTttUp_mixers；

numOttUp_mixers＝bsNumOttUp_mixers；

For(ch＝0；ch＜numInChan；ch++){

bsChannelRemapping[ch]

}

For(ch＝0；ch＜numOutChan；ch++){

bsOutputChannelPos[ch]

}

Idx＝0；

ottUp_mixerIdx＝0；

For(i＝0；i＜numTttUp_mixers；i++){

TttConfig(i)；

for(ch＝0；ch＜3；ch++，idx++){

OttTreeDescription(idx)；

}

while(ottUp-mixerIdx＜numOttUp_mixersidx＜numInChan+numTttUp_mixers){

OttTreeDescription(idx)；

idx++；

}

numOttUp_mixers＝ottUp_mixerIdx+1；

}

在本例中，每个OttTree在下面图解说明的OttTreeDescription()中处理。

语法

OttTreeDescription(idx)

{

CurrLayerSignals＝1

NextLayerSignals＝0

while(CurrLayerSignals＞0){

bsOttUp_mixerPresent

if(bsOttUp_mixerPresent＝＝1){

OttConfig(ottUp_mixerIdx)；

ottDefaultCld[ottUp_mixerIdx]＝

bsOttDefaultCld[ottUp_mixerIdx]；

ottModeLfe[ottUp_mixerIdx]＝

bsOttModeLfe[ottUp_mixerIdx]；

NextLayerSignals+＝2；

ottUp_mixerIdx++；

}

CurrLayerSignals--；

if((CurrLayerSignals＝＝0)&&

(NextLayerSignals＞0)){

CurrLayerSignals＝NextLayerSignals；

NextLayerSignals＝0；

}

在以上的语法中，黑体格式被使用来指示从比特流读取元素。

将会意识到，在这样的说明中不需要分级的层的表示法。例如，也可以应用基于“只要有开口端，就有更多比特来到”的原理的说明。然而为了解码该数据，这种表示法可以变为有用。

除了表示OTT上混合器是否存在的单个比特以外，对于OTT上混合器包括以下的数据：

-缺省的通道电平差。

-OTT上混合器是否为LFE(低频增强)OTT上混合器，即，参数是否是仅仅带限的和不包含任何相关/相干数据。

另外，数据可以规定上混合器的特定属性，诸如在TTT上混合器的例子中，规定使用哪个模式(基于波形的预测、基于能量的说明等等)。

正如本领域技术人员将知道的，OTT上混合器使用解相关的信号来把单个通道分割成两个通道，而且，解相关的信号是从单个输入通道信号得出的。图8图解说明按照这个方法的OTT上混合器的例子。因此，图5的示例性解码器可以由图9的图来表示，图上明显地显示生成解相关信号的解相关器块。

然而，正如可以看到的，这个方法导致解相关器块的级联，使得用于更低层OTT上混合器的解相关信号从一个已经根据另一解相关信号生成的输入信号生成。因此，不是从根级别的原始输入信号生成，而是更低层的解相关信号将已经由几个解相关块处理。由于每个解相关块包括解相关滤波器，所以这个方法可导致解相关信号的“模糊(smearing)”(例如，瞬态可能很大地失真)。这导致输出信号的音频质量降级。

这样，为了改进音频质量，在解码器上混合中施加的解相关器可能因此在某些实施例中移动，使得防止解相关信号的级联。图10图解说明相应于图9的那种的解码器结构的例子，但解相关器直接耦合到输入通道。因此，不是取前驱OTT上混合器的输出作为加到解相关器的输入，而是解相关器上混合器直接取被增益上混合器GB，GC和GD预处理的原始输入信号t0。这些增益保证：在解相关器的输入处的功率等同于在图9的结构中解相关器的输入处将达到的功率。这样得到的结构不包含解相关器的级联，由此，导致改进的音频质量。

下面将描述如何响应于解码器树结构数据来确定分级的层的上混合器的矩阵乘法参数的例子。具体地，说明将聚焦在其中用于生成上混合器的解相关信号的解相关滤波器被直接连接到解码结构的音频输入通道的实施例。因此，说明将聚焦于诸如图10所图解说明的那样的编码器的实施例。

图11图解说明按照本发明的某些实施例的解码方法的示例性流程图。

在步骤1101，从所接收的比特流解码已量化和编码的参数。正如本领域技术人员将会意识到的，这可以导致传统的参数音频编码参数的多个向量，诸如：

CLD₀＝[-10 15 10 12 ... 10]

CLD₁＝[5 1 2 15 10 ... 2]

ICC₀＝[1 0.6 0.9 0.3 ... -1]

ICC₁＝[0 1 0.6 0.9 ... 0.3]

等。

每个向量代表沿频率轴的参数。

步骤1101后面是步骤1103，在其中从解码的参数数据来确定对于各个上混合器的矩阵。

(频率无关的)一般化的OTT和TTT矩阵分别给出为：

[\begin{matrix} y_{0} \\ y_{1} \end{matrix}] = [\begin{matrix} H_{11} & H_{12} \\ H_{21} & H_{22} \end{matrix}] [\begin{matrix} x_{0} \\ d_{0} \end{matrix}],

[\begin{matrix} y_{0} \\ y_{1} \\ y_{2} \end{matrix}] = [\begin{matrix} M_{11} & M_{12} & M_{13} \\ M_{21} & M_{22} & M_{23} \\ M_{31} & M_{32} & M_{33} \end{matrix}] [\begin{matrix} x_{0} \\ x_{1} \\ d_{0} \end{matrix}],

信号x_i，d_i，和y_i分别代表输入信号、从信号x_i得出的解相关信号、和输出信号。矩阵项H_ij和M_ij是在步骤1103中得出的参数的函数。

该方法然后划分成两个并行的路径，其中一个路径指引到得出树-前置矩阵值(步骤1105)，而一个路径指引到得出树-混合矩阵值(步骤1107)。

前置矩阵相应于在解相关与矩阵应用之前加到输入信号的矩阵乘法。具体地，前置矩阵相应于在解相关滤波器之前加到输入信号的增益上混合器。

更详细地，一个直截了当的解码器实现将通常导致解相关滤波器的级联，正如举例而言图9中施加的。如上所解释的，优选地是防止这种级联。为了做到这一点，解相关滤波器都移动到与图10所示的相同的分级级别。为了保证已解相关的信号具有适当的能量水平，即，等同于在图9的直截了当情形下该已解相关信号的电平，在解相关之前施加前置矩阵。

作为例子，图10的增益G_B如下地得出。首先，重要的是指出，1到2上混合器把输入信号功率划分成1到2上混合器的上部和下部输出。这个属性在通道间强度差(IID)或通道间电平差(ICLD)参数中反映。因此，增益G_B被计算为由上部输出除以1到2上混合器的上部和下部输出的和值的能量比。将会意识到，由于IID或ICLD参数可以是时间和频率变化的，所以该增益也可以随时间和频率变化。

混合矩阵是由上混合器加到输入信号的矩阵，以便生成附加的通道。

最后的前置和混合矩阵方程是OTT和TTT上混合器的级联的结果。由于解码器结构已经被修改成防止解相关器的级联，所以这在确定最后的方程时必须被考虑。

在其中只使用预定配置的实施例中，在矩阵项H_ij与M_ij以及最后的矩阵方程之间的关系是恒定的，并可以施加标准修改。

然而，对于以前描述的更灵活的和动态的方法，可以通过更复杂的方法来决定前置和混合矩阵值的确定，正如将在后面描述的。

步骤1105后面是步骤1109，其中在步骤1005得出的前置矩阵被映射到实际的频率网格，后者被应用来把时域信号变换到频域(在步骤1113中)。

步骤1109后面是步骤1111，其中可以内插频率矩阵参数的内插。具体地，取决于参数的时间更新是否相应于步骤1113的时间到频率变换的更新，可以施加内插。

在步骤1113，输入信号被转换到频域，以便应用映射的和任选地内插的前置矩阵。

步骤1115跟随在步骤1111和步骤1113后面，它包括把前置矩阵应用到频域输入信号。实际的矩阵应用是一组矩阵乘法。

步骤1115后面是步骤1117，其中从步骤1115的矩阵应用得到的部分信号被馈送到解相关滤波器，以便生成解相关信号。

相同的方法应用于得出混合矩阵方程。

具体地，步骤1107后面是步骤1119，其中在步骤1107确定的方程被映射到步骤1113的时间到频率变换的频率网格。

步骤1119后面是步骤1121，其中混合矩阵值可选地被内插，这再次取决于参数和变换的时间更新。

在步骤1115，1117和1121生成的值因此形成对于上混合矩阵乘法所需要的参数，且这是在步骤1123执行的。

步骤1123后面是步骤1125，在其中最终得到的输出被变换回时域。

相应于图11上的步骤1115，1117和1123的步骤可以由图12图解说明。图12图解说明按照本发明的某些实施例的矩阵解码器结构的例子。

图12图解说明输入下混合通道可以如何被使用来重建多通道输出。如上所述，处理过程可以通过与中间解相关单元的两个矩阵乘法来描述。

因此，处理输入通道以形成输出通道可以按照下式描述：

v^{n, k} = M_{1}^{n, k} x^{n, k}

y^{n, k} = M_{2}^{n, k} w^{n, k}

其中M₁ ^n，k是二维矩阵，其把一定数目的输入通道映射到一定数目的进入解相关器的通道，它是对于每个时隙n和每个次能带(subband)k定义的；以及

M₂ ^n，k是二维矩阵，其把一定数目的预处理通道映射到一定数目的输出通道，它是对于每个时隙n和每个混合次能带k定义的。

下面将描述步骤1105和1107的前置和混合矩阵方程可如何从解码器树结构数据生成的例子。

首先，参照图13的示例性树来考虑只具有OTT上混合器的解码器树结构。

对于这种类型的树，有利的是规定多个协助(helper)变量：

{Tree}^{1} = [\begin{matrix} 0 & 1 & 2 & 3 & 4 \\ 0 & 0 & 1 & 1 \\ 0 & 0 \end{matrix}],

描述对于每个OTT上混合器遇到的OTT上混合器索引(即，在本例中，输入到第4OTT上混合器的信号已经通过第0和第1OTT上混合器，如由Tree¹矩阵的第5列给出的。同样地，输入到第2OTT上混合器的信号已经通过第0OTT框，如由在Tree¹矩阵的第3列给出的，如此等等。)。

{Tree}_{sign}^{1} = [\begin{matrix} 1 & 1 & 1 & 1 & 1 \\ 1 & - 1 & 1 & - 1 \\ 1 & 1 \end{matrix}],

描述对于每个OTT上混合器是跟随上部路径还是下部路径。正号指示上部路径，而负号指示下部路径。

矩阵相应于Tree¹矩阵，因此当在Tree¹矩阵中的某个列和行指出某个OTT上混合器时，在Tree¹ _sign矩阵中的同一个列和行指示那个特定的OTT上混合器的下面部分还是上面部分被使用来到达在特定列的第一行中给出的OTT上混合器。(即，在本例中，输入到第4OTT上混合器的信号已通过第0OTT上混合器的上部路径(如由在Tree¹ _sign矩阵中的第3行、第5列指示的)，和第1OTT上混合器的下部路径(如由在Tree¹ _sign矩阵中的第2行、第5列指示的))。

{Tree}_{depth}^{1} = [\begin{matrix} 1 & 2 & 2 & 3 & 3 \end{matrix}]

描述对于每个OTT上混合器的树的深度(即：在本例中，上混合器0是在第1层，上混合器1和2是在第2层，以及上混合器3和4是在第3层)：以及

Tree_elements＝[5]

表示树中元素的数目(即，在本例中，树包括五个上混合器)。

描述仅仅用于解相关信号的前置矩阵的时间矩阵K₁然后按照下式定义：

对于0≤i≤Tree_elements

这里

X_{{Tree}^{1} (i, p)} = \{\begin{matrix} c_{l, {Tree}^{1} (i, p)}, & {Tree}_{sign}^{1} (i, p) = 1 \\ c_{r, {Tree}^{1} (i, p)}, & {Tree}_{sign}^{1} (i, p) = - 1 \end{matrix}

是对于由Tree¹(i，p)指示的OTT上混合器的增益值，这取决于使用的是OTT框的上部还是下部输出，以及这里

c_{l, x} = \sqrt{\frac{{IID}_{lin, X}^{2}}{1 + {IID}_{lin, X}^{2}}}

和

c_{r, X} = \sqrt{\frac{1}{1 + {IID}_{lin, X}^{2}}},

这里

{IID}_{lin, X} = 10^{\frac{{IID}_{X}}{20}}

IID值是从比特流得到的通道间强度差值。

最后的前置混合矩阵(pre-mix matrix)M₁然后被构建为：

M_{1} (i) = [\begin{matrix} 1 \\ K_{1} (i) \end{matrix}]

记住前置混合矩阵的目的是要能够把包括在图13的OTT上混合器中的解相关器移动到OTT框之前。因此，前置混合矩阵需要为OTT上混合器中的所有解相关器供应一个“干的(dry)”输入信号，其中输入信号具有它们在树的特定点处将应该具有的电平，该点是把解相关器移动到树前面之前解相关器所处之处。

另外记住前置矩阵仅对进到解相关器中的信号施加预增益，以及在混合矩阵M₂中进行解相关器信号与“干的”下混合信号的混合，这将在下面阐明，前置混合矩阵的第一元素给出一个被直接耦合到M₂矩阵的输出(见图12，其中m/c线图解说明了这一点)。

假定一个仅有OTT上混合器的树是当前正在观察的，很清楚：前置混合向量M₁的第二元素也将是1，因为进入OTT上混合器零的解相关器的信号正好是下混合输入信号，以及对于这个OTT上混合器而言，把解相关器移动到整个树前面并没有差别，因为它已经是树中的第一个。

而且，假定加到解相关器的输入向量由v^n，k＝M₁ ^n，kx^n，k给出和观察图13和图12，以及得到M₁ ^n，k矩阵中的元素的方式，很清楚：M₁的第一行相应于图12的m信号，随后的行相应于OTT框0，...，4的解相关器输入信号。因此，w^n，k向量将为如下：

w^{n, k} = [\begin{matrix} m \\ e_{0} \\ e_{1} \\ e_{2} \\ e_{3} \\ e_{4} \end{matrix}]

其中e_n表示图13上来自第n个OTT框的解相关器输出。

现在观察混合矩阵M₂，这个矩阵的元素可以类似地推断。然而，对于这个矩阵，目的是对干信号进行增益调节和把它与相关的解相关器输出混合。记住在树中的每个OTT上混合器可以由下式描述：

[\begin{matrix} Y_{1} [k] \\ Y_{2} [k] \end{matrix}] = [\begin{matrix} H 11 & H 12 \\ H 21 & H 22 \end{matrix}] [\begin{matrix} X [k] \\ Q [k] \end{matrix}]

其中Y₁是OTT框的上部输出，而Y₂是下部输出，且X是干的输入信号，以及Q是解相关器信号。

由于输出通道通过矩阵乘法y^n，k＝M₂ ^n，kw^n，k来形成以及w^n，k向量被形成为下混合信号与解相关器的输出的组合，如图12所示，M₂矩阵的每行相应于输出通道，并且在特定行中的每个元素指示多少下混合信号和不同的解相关器应当被混合来形成特定的输出通道。

作为例子，可以观察混合矩阵M₂的第一行。

y^{n, k} = M_{2}^{n, k} w^{n, k} = [\begin{matrix} \begin{matrix} H 11_{0} {H 11}_{1} {H 11}_{3} & {H 12}_{0} {H 11}_{1} {H 11}_{3} & {H 12}_{1} {H 11}_{3} & 0 & {H 12}_{3} & 0 \end{matrix} \end{matrix}] [\begin{matrix} m \\ e_{0} \\ e_{1} \\ e_{2} \\ e_{3} \\ e_{4} \end{matrix}]

在M₂中第一行的第一元素相应于“m”信号的贡献，并且是对由OTT上混合器0，1和3的上部输出所给出的输出的贡献。给定以上的H矩阵，这相应于H11₀，H11₁和H11₃，因为对OTT框的上部输出的干信号的量由OTT上混合器的H11元素给出。

第二元素相应于解相关器D1的贡献，后者按照上文是处于OTT上混合器0中。因此，这个的贡献是H11₀，H11₃和H12₀。这是明显的，因为H12₀元素给出来自OTT上混合器0的解相关器输出，以及该信号随后通过OTT上混合器1和3，作为干信号的一部分，且因此按照H11₀和H11₃元素被进行增益调节。

同样地，第三元素相应于解相关器D2的贡献，后者按照上文是处于OTT上混合器1中。因此，这个的贡献是H12₀和H11₃。

第五元素相应于解相关器D3的贡献，后者按照上文是处于OTT上混合器3中。因此，这个的贡献是H12₃。

第一行的第四和第六元素是零，因为没有解相关器D4或D6的贡献是相应于矩阵的第一行的输出通道的部分。

以上的、预演的(walk-through)例子使得矩阵元素可被推断为OTT上混合器矩阵元素H的乘积。

为了得到对于一般树的混合矩阵M₂，可以得出如对于矩阵M₁的类似过程。首先，得到以下的协助变量：

矩阵Tree为每个出通道保有(hold)一列，描述信号必须通过以到达每个输出通道的OTT上混合器的索引。

Tree = [\begin{matrix} 0 & 0 & 0 & 0 & 0 & 0 \\ 1 & 1 & 1 & 1 & 2 & 2 \\ 3 & 3 & 4 & 4 \end{matrix}]

矩阵Tree_sign为树中的每个上混合器保有一个指示符，以指示上部(1)或下部(-1)路径是否应当被使用来到达当前的输出通道。

{Tree}_{sign} = [\begin{matrix} 1 & 1 & 1 & 1 & - 1 & - 1 \\ 1 & 1 & - 1 & - 1 & 1 & - 1 \\ 1 & - 1 & 1 & - 1 \end{matrix}]

Tree_depth向量保有必须被通过以到达特定输出通道的上混合器的数目。

Tree_depth＝[3 3 3 3 2 2]

Tree_elements向量保有在整个树的每个子树中上混合器的数目。

Tree_elements＝[5]

如果以上定义的表示法足以描述可被用信号通知的所有树，则可以定义M₂矩阵。用于子树k一从一个输入通道创建N个输出通道-的矩阵按照下式被定义：

对于

\{\begin{matrix} 0 \leq j < {Tree}_{outChannels} \\ 0 \leq i \leq {Tree}_{elements} \end{matrix}

这里

其中H元素由相应于具有索引Tree(p，j)的OTT上混合器的参数来定义。

下面，假设在根级别处牵涉到TTT上混合器的更一般的树，诸如，举例而言图14的解码器结构。包含两个变量M1_i和M2_i的上混合器表示OTT树，且因此不一定是单个OTT上混合器。而且，首先假设TTT上混合器不采用解相关信号，即，TTT矩阵可被描述为3×2矩阵：

{M 1}_{TTT} = [\begin{matrix} {M 1}_{TTT}^{0,0} & {M 1}_{TTT}^{0,1} \\ {M 1}_{TTT}^{1,0} & {M 1}_{TTT}^{1,1} \\ {M 1}_{TTT}^{2,0} & {M 1}_{TTT}^{2,1} \end{matrix}]

在这些假设下和为了得到用于第一TTT上混合器的最后的前置和混合矩阵，对于每个OTT树得到两组前置混合矩阵，一组描述用于TTT上混合器的第一输入信号的前置矩阵，一组描述用于TTT上混合器的第二输入信号的前置矩阵。在施加前置矩阵块和解相关后，信号可以求和。

因此可以如下地得到输出信号：

最后，在TTT上混合器将采用解相关的情形下，解相关信号的贡献可以用后处理的形式加上。在已得到TTT上混合器解相关信号后，对每个输出信号的贡献简单地是由每个随后的OTT上混合器的IID扩展的[M₁₃，M₂₃，M₃₃]向量给出的贡献。

该方法在步骤1501中发起，其中发送机接收多个输入音频通道。

步骤1501后面是步骤1503，其中发送机参数地编码该多个输入音频通道，以生成包括多个音频通道和参数音频数据的数据流。

步骤1503后面是步骤1505，其中确定相应于分级编码装置的分级解码器结构。

步骤1505后面是步骤1507，其中发送机把解码器树结构数据包括在数据流中，该解码器树结构数据包括指示在分级解码器结构的分级的层中用于音频通道的通道分割特性的至少一个数据值。

步骤1507后面是步骤1509，其中发送机发送数据流到接收机。

步骤1509后面是步骤1511，其中接收机接收数据流。

步骤1511后面是步骤1513，其中响应于解码器树结构数据来确定要由接收机使用的分级解码器结构。

步骤1513后面是步骤1515，其中接收机通过使用分级解码器结构来从数据流生成该多个输出音频通道。

将会意识到，为了清晰起见，以上的说明已参考不同的功能单元和处理器来描述本发明的实施例。然而，将很明显：可以使用在不同的功能单元或处理器之间的功能性的任何适当分布，而不贬低本发明。例如，被图解说明为要由单独的处理器或控制器执行的功能性可以由相同的处理器或控制器执行。因此，参照特定的功能单元仅仅要被看作为是参照适当的用于提供所描述功能性的装置，而并不指示严格的逻辑或物理结构或组织。

本发明可以以包括硬件、软件、固件或这些的任何组合的任何适当形式被实施。本发明可以可选地至少部分作为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件来实施。本发明的实施例的元素和部件可以物理地、功能地和逻辑地以任何适当的方式被实施。事实上，功能性可以以单个单元、多个单元或作为其它功能单元的一部分来实施。这样，本发明可以以单个单元被实施，或可以物理地和功能地分布在不同的单元与处理器之间。

虽然本发明已结合某些实施例描述，但本发明不打算限于这里阐述的具体形式。而是，本发明的范围仅仅由所附权利要求限制。另外，虽然特征可显现为是结合具体实施例描述的，但本领域技术人员将会认识到，所描述的实施例的各种特征可以按照本发明进行组合。在权利要求中，术语“包括”不排除其它元素或步骤的存在。

而且，虽然各个地列出，但多个装置、元素或方法步骤可以例如由单个单元或处理器实施。另外，虽然各个特征可被包括在不同的权利要求中，但这些特征可能被有利地组合，且在不同权利要求中包括这些特征并不意味着特性的组合不可行和/或不利。另外，在一种类别的权利要求中包括特征并不意味着限于这个类别，而是表明在适当时该特征同样适用于其它权利要求类别。而且，在权利要求中特征的次序并不是指其中特征必须按其起作用的任何特定的次序，以及具体地，在方法权利要求中各个步骤的次序并不是指步骤必须以这个次序执行。而是，步骤可以以任何适当的次序执行。另外，单数引用并不排除复数。因此，提及“一个”、“第一”、“第二”等等并不排除复数个。在权利要求中的参考符号仅仅作为说明性例子被提供，而无论如何不应当被解释为限制权利要求的范围。

Claims

1.一种用于生成多个输出音频通道的设备；该设备包括：

用于接收(401)包括多个输入音频通道和参数音频数据的数据流的装置；该数据流还包括用于分级解码器结构的解码器树结构数据，该解码器树结构数据包括指示在分级解码器结构的分级的层中用于音频通道的通道分割特性的至少一个数据值；

响应于解码器树结构数据而生成(405)分级解码器结构的装置；以及

使用分级解码器结构从该数据流生成(403)多个输出音频通道的装置。

2.权利要求1的设备，其中解码器树结构数据包括多个数据值，每个数据值指示在分级解码器结构的一个分级的层中用于一个通道的通道分割特性。

3.权利要求2的设备，其中预定的数据值指示在分级的层中对于该通道没有通道分割。

4.权利要求2的设备，其中预定的数据值指示在分级的层中对于该通道进行一到二通道分割。

5.权利要求2的设备，其中该多个数据值是二进制数据值。

6.权利要求5的设备，其中一个预定的二进制数据值指示一到二通道分割，以及另一个预定的二进制数据值指示没有通道分割。

7.权利要求1的设备，其中数据流还包括输入通道的数目的指示。

8.权利要求1的设备，其中数据流还包括输出通道的数目的指示。

9.权利要求1的设备，其中数据流还包括在分级解码器结构中多个一到二通道分割功能的指示。

10.权利要求1的设备，其中数据流还包括在分级解码器结构中多个二到三通道分割功能的指示。

11.权利要求1的设备，其中解码器树结构数据包括用于响应于二到三通道分割功能性的存在来排序的多个解码器树结构的数据。

12.权利要求1的设备，其中用于至少一个输入通道的解码器树结构数据包括在根层存在二到三通道分割功能的指示，随后是二进制数据，其中每个二进制数据值指示没有分割功能性或指示用于该二到三分割功能性的从属层的一到二通道分割功能性。

13.权利要求1的设备，其中数据流还包括对于至少一个输出通道的扬声器位置的指示。

14.权利要求1的设备，其中用于生成(405)分级解码器结构的装置被安排成响应于解码器树结构数据来确定用于分级的层的通道分割功能的乘法参数。

15.权利要求1的设备，其中解码器树结构包括在至少一个分级的层中的至少一个通道分割功能性，该至少一个通道分割功能性包括：

解相关装置，用于直接从数据流的音频输入通道生成解相关的信号；

至少一个通道分割单元，用于从来自较高分级的层的音频通道和该解相关信号生成多个分级层输出通道；以及

用于响应于解码器树结构数据来确定解相关滤波器或通道分割单元的至少一个特性的装置。

16.权利要求15的设备，其中解相关装置包括电平补偿装置，用于对音频输入通道执行音频电平补偿，以生成经电平补偿的音频信号；以及解相关滤波器，用于滤波经电平补偿的音频信号，以生成该解相关的信号。

17.权利要求16的设备，其中电平补偿装置包括用前置矩阵进行的矩阵乘法。

18.权利要求17的设备，其中对于只包括一到二通道分割功能性的分级解码器结构，该前置矩阵的系数具有至少一个单位值。

19.权利要求17的设备，还包括用于响应于在较高分级的层中通道分割功能性的参数来确定在该至少一个分级的层中该至少一个通道分割功能性的前置矩阵的装置。

20.权利要求17的设备，其中该设备包括用于响应于在该至少一个分级的层中该至少一个通道分割功能性的参数来确定该至少一个通道分割功能性的通道分割矩阵的装置。

21.权利要求17的设备，还包括用于响应于较高分级的层的二到三通道分割功能性的参数来确定在该至少一个分级的层中该至少一个通道分割功能性的前置矩阵的装置。

22.权利要求21的设备，其中用于确定前置矩阵的装置被安排成响应于确定相应于二到三上混合器的第一输入的第一子前置矩阵和相应于二到三上混合器的第二输入的第二子前置矩阵，而确定对于至少一个通道分割功能性的前置矩阵。

23.一种用于生成包括多个输出音频通道的数据流的设备，该设备包括：

用于接收(301)多个输入音频通道的装置；

分级编码装置(303)，用于参数地编码该多个输入音频通道，以生成包括该多个输出音频通道和参数音频数据的数据流；

用于确定(305)相应于分级编码装置的分级解码器结构的装置；以及

用于把解码器树结构数据包括(307)在数据流中的装置，该解码器树结构数据包括指示在分级解码器结构的分级的层处用于音频通道的通道分割特性的至少一个数据值。

24.一种数据流，包括：

多个编码的音频通道；

参数音频数据；和

用于分级解码器结构的解码器树结构数据，该解码器树结构数据包括指示在分级解码器结构的分级的层处用于音频通道的通道分割特性的至少一个数据值。

25.一种其上存储有按照权利要求24的信号的存储媒体。

26.一种生成多个输出音频通道的方法，该方法包括：

接收包括多个输入音频通道和参数音频数据的数据流(1511)；该数据流还包括用于分级解码器结构的解码器树结构数据，该解码器树结构数据包括指示在分级解码器结构的分级的层处用于音频通道的通道分割特性的至少一个数据值；

响应于解码器树结构数据来生成分级解码器结构(1513)；以及

通过使用分级解码器结构来从该数据流生成多个输出音频通道(1515)。

27.一种生成包括多个输出音频通道的数据流的方法，该方法包括：

接收(1501)多个输入音频通道；

参数地编码(1503)该多个输入音频通道，以生成包括该多个输出音频通道和参数音频数据的数据流；

确定相应于分级编码装置的分级解码器结构(1505)；以及

把解码器树结构数据包括(1507)在数据流中，该解码器树结构数据包括指示在分级解码器结构的分级的层处用于音频通道的通道分割特性的至少一个数据值。

28.一种用于生成多个输出音频通道的接收机(103)，该接收机(103)包括：

用于接收(401)包括多个输入音频通道和参数音频数据的数据流的装置；该数据流还包括用于分级解码器结构的解码器树结构数据，该解码器树结构数据包括指示在分级解码器结构的分级的层处用于音频通道的通道分割特性的至少一个数据值；

响应于解码器树结构数据而生成(403)分级解码器结构的装置；以及

使用分级解码器结构来从该数据流生成(405)该多个输出音频通道的装置。

29.一种用于生成包括多个输出音频通道的数据流的发送机(101)，该发送机包括：

用于接收(301)多个输入音频通道的装置；

用于参数地编码该多个输入音频通道以生成包括该多个输出音频通道和参数音频数据的数据流的分级编码装置(303)；

把解码器树结构数据包括(307)在数据流中的装置，该解码器树结构数据包括指示在分级解码器结构的分级的层处用于音频通道的通道分割特性的至少一个数据值。

30.一种包括用于生成数据流的发送机(101)和用于生成多个输出音频通道的接收机(103)的传输系统；其中该发送机(101)包括：

用于接收(301)多个输入音频通道的装置，

用于参数地编码该多个输入音频通道以生成包括该多个音频通道和参数音频数据的数据流的分级编码装置(303)，

用于确定(305)相应于该分级编码装置的分级解码器结构的装置，

把解码器树结构数据包括(307)在数据流中的装置，该解码器树结构数据包括指示在分级解码器结构的分级的层处用于音频通道的通道分割特性的至少一个数据值，和

用于把数据流发送(111)到该接收机(103)的装置；以及该接收机(103)包括：

用于接收(401)数据流的装置，

响应于解码器树结构数据而生成(403)分级解码器结构的装置，以及

使用分级解码器结构从该数据流生成(405)多个输出音频通道的装置。

31.一种接收数据流的方法；该方法包括：

接收(1511)包括多个输入音频通道和参数音频数据的数据流；该数据流还包括用于分级解码器结构的解码器树结构数据，该解码器树结构数据包括指示在分级解码器结构的分级的层处用于音频通道的通道分割特性的至少一个数据值；

响应于该解码器树结构数据来生成(1513)分级解码器结构；以及

通过使用该分级解码器结构来从数据流生成(1515)多个输出音频通道。

32.一种发送包括多个输出音频通道的数据流的方法，该方法包括：

接收(1501)多个输入音频通道；

参数地编码(1503)该多个输入音频通道以生成包括多个输出音频通道和参数音频数据的数据流；

确定相应于分级编码装置的分级解码器结构(1505)；

把解码器树结构数据包括(1507)在数据流中，该解码器树结构数据包括指示在分级解码器结构的分级的层处用于音频通道的通道分割特性的至少一个数据值；以及

发送(1509)该数据流。

33.一种发送和接收数据流的方法，该方法包括：在发送机(101)处：

接收(1501)多个输入音频通道，

参数地编码(1503)该多个输入音频通道以生成包括多个音频通道和参数音频数据的数据流，

确定相应于分级编码装置的分级解码器结构(1505)，

把解码器树结构数据包括(1507)在数据流中，该解码器树结构数据包括指示在分级解码器结构的分级的层处用于音频通道的通道分割特性的至少一个数据值，和

把该数据流发送(1509)到接收机；以及

在接收机(103)处：

接收(1511)该数据流，

响应于该解码器树结构数据来生成分级解码器结构(1513)，和

通过使用分级解码器结构来从数据流生成该多个输出音频通道(1515)。

34.一种用于执行权利要求26，27，31，32和33的任一项的方法的计算机程序产品。

35.一种包括按照权利要求1的设备的音频播放设备。

36.一种包括按照权利要求23的设备的音频记录设备。