CN1930608B

CN1930608B - 生成等级参数的设备和方法及生成多通道表示的设备和方法

Info

Publication number: CN1930608B
Application number: CN2005800073514A
Authority: CN
Inventors: 海科·普尔哈根; 拉尔斯·维尔莫斯; 约纳斯·恩德格拉德; 约纳斯·勒登; 克里斯托弗·薛林
Original assignee: Coding Technologies Sweden AB
Current assignee: Dolby International AB
Priority date: 2004-04-16
Filing date: 2005-04-12
Publication date: 2010-05-05
Anticipated expiration: 2025-04-12
Also published as: US20070258607A1; CN1930608A; KR100848365B1; US10244319B2; US10250984B2; US20160203822A1; JP4589962B2; SE0400998D0; KR100848367B1; DE602005002942T2; DE602005002451T2; PL1695338T3; US9635462B2; US20180054676A9; ATE376240T1; US20190320263A1; US20170229128A1; US20170229126A1; CN1965351B; US20170229132A1

Abstract

具有多个原始通道的多通道信号的参数表示包括参数集，当参数集与至少一个下混通道一起使用时，允许多通道重构。计算额外的等级参数(rM)，使得由等级参数加权的至少一个下混通道的能量等于原始通道的能量之和。将额外的等级参数与参数集或者与下混通道一起发送到多通道重构器。用于生成多通道表示的设备在将下混信号输入到上混频器或者上混处理内之前，使用等级参数来校正(902)至少一个所传输的下混通道的能量。

Description

生成等级参数的设备和方法及生成多通道表示的设备和方法

技术领域

本发明涉及使用空间参数对音频信号多通道表示进行编码。本发明公开了用于根据少于输出通道数的多个通道来估计和定义用来重建多通道信号的新方法。具体地讲，本发明旨在最小化多通道表示的比特率，并提供多通道信号的编码表示，使得能够对所有可能的通道配置容易地编码和解码数据。

背景技术

在PCT/SE02/01372“Efficient and scalable Parametric Stereo codingfor Low Bit rate Audio Coding Applications”中已经表明，可以根据给出立体声像的非常紧凑表示的单声道信号，来重建逼近原始立体声像的立体声像。基本原理是将输入信号划分为频带和时间段，估计通道间强度差(IID)和通道间相干性(ICC)。第一参数是特定频带中两个通道之间功率分布的测量，第二参数是特定频带中两个通道之间相关性的估计。在解码器一侧，通过根据IID数据在两个输出通道之间分配单声道信号，并且添加去相关信号以保留原始立体声通道的通道相关性，来根据单声道信号重建立体声像。

对于多通道(在此环境中，多通道意味着多于两个输出通道)的情况，必须考虑几个其他问题。存在数种多通道配置。最常见的是5.1配置(中央通道、正面左/右通道、环绕左/右通道、和LFE通道)。然而，还存在许多其他配置。根据完整的编码器/解码器系统的观点，希望系统对所有通道配置可以使用相同的参数集(例如，IID和ICC)或其子集。ITU-R BS.775定义了数种下混方案，能够根据给定的通道配置获得包括较少通道的通道配置。而不是总是要对所有通道解码和依赖下混，可能希望具有一种多通道表示，使得接收机能够在解码通道之前立即提取通道配置有关的参数。另外，根据可扩展或嵌入式编码的观点，希望固有地可扩展的参数集，其中，例如可以在位流中的增强层中存储与环绕通道相对应的数据。

与上面不同，还可能希望能够根据所处理的信号特性使用不同的参数定义，以便在参数化之间切换，这导致针对当前所处理信号段的最小比特率开销。

在本领域中，已知另一种使用和信号或下混信号以及额外参数侧面信息的多通道信号表示，称作双耳提示编码(binaural cue coding，BCC)。在“Binaural Cue Coding-Part 1：Psycho-Acoustic Fundamentalsand Design Principles”，IEEE Transactions on Speech and AudioProcessing，vol.11，No.6，November 2003，F.Baumgarte，C.Faller和“Binaural Cue Coding.Part 2：Schemes and Applications”，IEEETransactions on Speech and Audio Processing，vol.11，No.6，November2003，C.Faller & F.Baumgarte中描述了这种技术。

一般而言，双耳提示编码是一种根据一个下混音频通道和侧面信息进行多通道空间呈现的方法.BCC编码器要计算的且BCC解码器用于音频重构或音频呈现的数个参数包括通道间等级差、通道间时间差和通道间相干性参数.这些通道间提示是对空间像的感觉的确定因素.这些参数是针对原始多通道信号的时间样本块所给出的，并且还是频率选择性的，从而每个多通道信号样本块具有针对数个频带的数个提示.在一般的C播放通道情况下，在每个子带中考虑通道对，即，每个通道相对于参考通道之间的通道间等级差和通道间时间差.对于每个通道间等级差，将一个通道定义为参考通道.利用通道间等级差和通道间时间差，可以向所使用的播放设置的扬声器对中一对之间的任意方向呈现源.为了确定所呈现的源的宽度或扩散，对于所有音频通道，每个子带考虑一个参数就足够了.该参数是通道间相干性参数.通过修改子带信号使所有可能的通道对具有相同的通道间相干性参数，来控制所呈现的源的宽度.

在BCC编码中，确定参考通道1和任何其他通道之间的所有通道间等级差。例如，当确定中央通道为参考通道时，计算左通道和中央通道之间的第一通道间等级差、右通道和中央通道之间的第二通道间等级差、左环绕通道和中央通道之间的第三通道间等级差、和右环绕通道和中央通道之间的第四通道间等级差。这种情况描述了五通道方案。当五通道方案另外包括低频增强通道(也称作“重低音”通道)时，计算低频增强通道和作为信号参考通道的中央通道之间的第五通道间等级差。

当使用信号下混通道(也称作“单声道”通道)和诸如ICLD(通道间等级差)、ICTD(通道间时间差)和ICC(通道间相干性)之类所传送的提示重构原始多通道时，使用这些提示修改单声道信号的频谱系数。使用正实数执行等级修改，其中正实数确定每个频谱系数的等级修改。使用复数生成通道间时间差，其中复数的大小确定每个频谱系数的相位修改。另一函数确定相干性影响。通过首先计算参考通道的因子，来计算每个通道的等级修改的因子。计算参考通道的因子，使得对每个频率分区，所有通道的功率之和与和信号的功率相同。然后，根据参考通道的等级修改因子，使用各自的ICLD参数，计算其他通道的等级修改因子。

于是，为了执行BCC合成，要计算参考通道的等级修改因子。为了该计算，一个频带的所有ICLD参数都是必须的。然后，根据该信号通道的此等级修改，可以计算非参考通道的其他通道的等级修改因子。

这种方法的缺点在于，为了完美的重构，需要每一个通道间等级差。当存在易出错的传输通道时，这种要求甚至更成问题。所传输的通道间等级差之中的每个错误将导致重构多通道信号中的错误，因为需要用每个通道间等级差来计算多通道输出信号中的每一个。另外，当在传输期间丢失了通道间等级差时，不能进行重构，尽管这种通道间等级差例如仅仅对于左环绕通道或右环绕通道是必要的，但这些通道对于多通道重构没有那么重要，因为大部分信息包括在正面左通道(后文称作左通道)、正面右通道(后文称作右通道)或中央通道中。当在传输期间丢失了低频增强通道的通道间等级差时，情况变得更恶劣。在这种情况下，不可能进行多通道重构，或者只可能进行错误的多通道重构，尽管低频增强通道对于听众的收听舒适性不是决定性的。于是，单个通道间等级差中的错误蔓延为每个重构输出通道内的错误。

参数多通道表示的问题在于，通常，给出通道间等级差，例如，BCC编码中的ICLD，或者其他参数多通道表示中的平衡值，作为相对值，而不是绝对值.在BCC中，ICLD参数描述通道和参考通道之间的等级差.也可以给出平衡值，作为通道对中两个通道之间的比例.当重构多通道信号时，将这种等级差或平衡参数应用于基础通道，可以是单声道基础通道或具有两个基础通道的立体声基础通道信号.于是，例如在五或六个重构输出通道之间分配至少一个基础通道中所包括的能量.于是，重构输出通道中的绝对能量由通道间等级差或平衡参数以及接收机输入处的下混信号能量确定.

当接收机输入处的下混信号能量相对于编码器输出的下混信号变化时，将出现等级改变。在这种情况下，要强调的是，取决于所使用的参数化方案，当参数是频率选择性的时，这种等级变化不仅会导致重构信号的一般音量变化，而且还会导致严重的假象。因为输出通道在该特定频带中的频率分量具有太低或太高的等级，例如，当对下混信号的特定频带的操作多于频率刻度上别处的频带时，这种操作在重构输出信号中容易显现。

另外，时变等级操作也会导致重构输出信号的整体等级随时间变化，因此感觉到讨厌的假象。

虽然上面的情况集中在编码、传输和解码下混信号所导致的等级操作，但也可能出现其他等级偏差。由于被下混为一个或两个通道的不同通道之间的相位依赖性，可能出现这样的情况：单声道信号具有的能量不等于原始信号的能量和。因为通常在样本方面(sample-wise)，即通过添加时间波形，执行下混，所以左信号和右信号之间例如180度的相位差将导致下混信号中两个通道的完全抵消，这将导致零能量，尽管两个信号肯定都具有一定的信号能量。虽然在通常情况下这种极端情况不太可能发生，但是仍将出现能量变化，因为所有信号当然并非完全不相关。这种变化也可以导致重构输出信号的音量波动，并且还将导致假象，因为重构输出信号的能量将不同于原始多通道信号的能量。

发明内容

本发明的目的是提供一种参数化概念，这导致具有改进输出质量的多通道重构。

该目的通过提供下列技术方案来实现的。

根据本发明的一个方面，提供一种用于在多通道信号的参数表示中生成等级参数的设备，其中所述多通道信号具有多个原始通道，所述参数表示包括参数集，当所述参数集与至少一个下混通道一起使用时，允许多通道重构，所述设备包括：等级参数计算器，用于计算等级参数(r_M)，以使由所述等级参数加权的所述至少一个下混通道的能量等于原始通道的能量之和的方式计算所述等级参数；和输出接口，用于生成输出数据，所述输出数据包括所述等级参数和所述参数集，或者所述等级参数和所述至少一个下混通道。

根据本发明的另一个方面，提供一种用于使用具有参数集的参数表示，生成原始多通道信号的重构多通道表示的设备，所述原始多通道信号具有至少三个原始通道，所述参数集当与至少一个下混通道一起使用时，允许多通道重构，所述参数表示包括等级参数，对所述等级参数进行计算，使得由所述等级参数加权的所述至少一个下混通道的能量等于原始通道的能量之和，所述设备包括：等级校正器，用于使用所述等级参数对所述至少一个下混通道应用等级校正，从而通过使用参数集中的参数进行上混来得到校正的多通道重构。

根据本发明的再一个方面，提供一种用于在多通道信号的参数表示中生成等级参数的方法，所述多通道信号具有多个原始通道，所述参数表示包括参数集，当所述参数集与至少一个下混通道一起使用时，允许多通道重构，所述方法包括：计算等级参数(r_M)，对以使由所述等级参数加权的所述至少一个下混通道的能量等于所述原始通道的能量之和的方式计算所述等级参数；和生成输出数据，所述输出数据包括所述等级参数和所述参数集，或者所述等级参数和所述至少一个下混通道.

根据本发明的再一个方面，提供一种用于使用具有参数集的参数表示，生成原始多通道信号的重构多通道表示的方法，所述原始多通道信号具有至少三个原始通道，所述参数集当与至少一个下混通道一起使用时，允许多通道重构，所述参数表示包括等级参数，以使由所述等级参数加权的所述至少一个下混通道的能量等于所述原始通道的能量之和的方式计算所述等级参数，所述方法包括：使用所述等级参数对所述至少一个下混通道应用等级校正，从而通过使用所述参数集中的参数进行上混来得到校正的多通道重构。

本发明基于如下发现：为了高质量重构，以及由于灵活的编码/传输和解码方案，与下混信号或多通道信号的参数表示一起发送额外的等级参数，从而多通道重构器可以使用该等级参数和等级差参数以及下混信号一起来重新生成多通道输出信号，该输出信号不会出现等级变化或频率选择性的、等级导致的假象。

根据本发明，如此计算等级参数，使得由等级参数加权(例如，相乘或相除)的至少一个下混通道的能量等于原始通道的能量和。

在一个实施例中，根据下混通道的能量和原始通道的能量和之比得到等级参数。在该实施例中，在编码器一侧计算下混通道和原始多通道信号之间的等级差，并且输入到数据流中作为等级校正因子，将等级校正因子视为额外的参数，这也是对于下混通道的样本块以及特定频带给出的。于是，对于存在通道间等级差和平衡参数的每个块和频带，加入了新的等级参数。

本发明还提供了灵活性，因为允许传输多通道信号的下混，这不同于参数所基于的下混。例如，当广播台不希望广播由多通道编码器所生成的下混信号，而是希望广播由音响工程师在音响工作室中生成的下混信号(这是基于人类的主观和创造性印象的下混)时，可能出现这种情况。尽管如此，广播台可能希望与此“主下混”结合还发送多通道参数。根据本发明，参数集和主下混之间的适配由等级参数提供，在这种情况下，等级参数是主下混和参数集所基于的参数下混之间的等级差。

本发明的优点在于：额外的等级参数提供了改进的输出质量和改进的灵活性，因为与一个下混信号有关的参数集也可以适配于不是在参数计算期间生成的另一下混。

为了比特率减小的目的，优选的是，应用新等级参数的Δ编码以及量化和熵编码。具体地讲，Δ编码将导致高编码增益，因为带与带之间或者时间块与时间块之间的变化将不会如此之高，从而获得相对小的差值，这在与随后的诸如Huffman编码器之类的熵编码结合使用时允许良好的编码增益。

在本发明的优选实施例中，使用多通道信号参数表示，其包括至少两个不同的平衡参数，平衡参数指示两个不同通道对之间的平衡。具体地讲，灵活性、可扩展性、错误鲁棒性、甚至比特率效率是由于作为第一平衡参数基础的第一通道对不同于作为第二平衡参数的第二通道对的结果，其中形成这些通道对的四个通道彼此都不同。

于是，优选的概念偏离了单个参考通道的概念，并且使用多平衡或超平衡的概念，这对于人类的声音印象更为直观和自然。具体地讲，第一和第二平衡参数之下的参数对可以包括原始通道、下混通道，或者优选地，输入通道之间的特定组合。

已经发现，根据作为第一通道的中央通道以及作为通道对的第二通道的左原始通道和右原始通道之和得到的平衡参数对于提供中央通道和左右通道之间的确切能量分配尤其有用.应该注意，在此环境中，这三个通道通常包括音频场景的大部分信息，其中特别是左右立体声定位不仅受到左和右之间平衡的影响，而且还受到中央与左和右之和之间平衡的影响.根据本发明的优选实施例，使用此平衡参数，来反映这种观察.

优选的是，当发送单个单声道下混信号时，已经发现，除了中央/左加上右平衡参数之外，左/右平衡参数、背面-左/背面-右平衡参数以及正面/背面平衡参数是比特率高效参数表示的最佳解，该最佳解是灵活的，具有错误鲁棒性，并且在较大程度无假象的。

在接收机一侧，与其中仅由所发送的信息来计算每个通道的BCC合成不同，优选的多通道表示还利用有关用来生成下混通道的下混方案的信息。于是，除了平衡参数之外，还使用现有技术系统中不使用的关于下混方案的信息来进行上混。因此，执行上混操作，使得形成针对平衡参数的通道对的重构多通道信号内的通道之间的平衡由平衡参数确定。

这一概念，即对不同平衡参数使用不同通道对，使得可以生成一些通道，而不需要每个所传输平衡参数的知识。特别是，不需要关于任何背面-左/背面-右平衡或者正面/背面平衡的任何知识，可以重构左、右和中央通道。从位流提取额外参数或者线接收器发送额外平衡参数允许重构一个或多个额外通道，这种效果允许非常精调的可扩展性。这与现有技术的单参考系统不同，在现有技术的单参考系统中，需要每个通道间电平差来重构所有重构输出通道的全部或仅仅其子组。

优选概念的灵活性还在于，平衡参数的选择能够适于特定的重构环境。例如，当五通道设置形成原始多通道信号设置，以及四通道设置形成重构多通道设置，即，仅具有单个环绕扬声器，例如位于听众身后时，正面-背面平衡参数允许计算组合环绕通道，而不需要关于左环绕通道和右环绕通道的任何知识。这与单参考通道系统不同，在单参考通道系统中，必须从数据流中提取针对左环绕通道的通道间等级差以及针对右环绕通道的通道间等级差。然后，必须计算左环绕通道和右环绕通道。最后，必须加上两个通道，以获得四通道再现配置的单个环绕扬声器通道。在更直观和更加面向用户的平衡参数表示中，不需要执行所有这些步骤，因为这种表示自动给予组合环绕通道，因为平衡参数表示不依赖单个参考通道，而是还允许使用原始通道的组合作为平衡参数通道对的通道。

本发明涉及音频信号的参数化多通道表示的问题。本发明提供了对多通道表示定义适当参数的有效方式，并且还提供了不必对所有通道解码就能提取代表所希望的通道配置的参数的能力。本发明还解决了对给定信号段选择最优参数配置以最小化编码给定信号段的空间参数所需比特率的问题。本发明还提出了在一般的多通道环境中如何应用先前仅适用于双通道情况的去相关方法。

在优选实施例中，本发明包括如下特征：

-在编码器一侧，将多通道信号下混为一个或两个通道表示；

-给定多通道信号，或者以灵活的方式或者以每帧为基础，定义表示多通道信号的参数，以便最小化比特率，或者以便使解码器能够提取位流等级上的通道配置；

-在解码器一侧，给定解码器当前所支持的通道配置，提取相关参数集；

-给定当前通道配置，创建所需数目的彼此去相关信号；

-给定从位流数据解码的参数集以及去相关信号，重建输出信号。

-多通道音频信号的参数化定义，从而无论通道配置如何，可以使用相同的参数或参数子集.

-多通道音频信号的参数化定义，从而可以在可扩展编码方案中使用参数，其中在可扩展流的不同层中传输参数集的子集。

-多通道音频信号的参数化定义，从而解码器输出信号的能量重构不受用来编码下混信号的底层音频编解码器的影响。

-在多通道音频信号的不同参数化之间切换，从而最小化编码参数化的比特率开销。

-多通道音频信号的参数化定义，其中包括表示下混信号的能量校正因子的参数。

-使用数个彼此去相关的去相关器来重建多通道信号。

-根据上混矩阵H重建多通道信号，上混矩阵H是根据所传输的参数集计算的。

附图说明

现在将参考附图描述本发明，这些描述仅作为示例而不是限制本发明的范围或精神，在附图中：

图1示出了本发明中使用的用于5.1通道配置的命名法；

图2示出了本发明优选实施例的可能编码器实施方式；

图3示出了本发明优选实施例的可能解码器实施方式；

图4示出了根据本发明的多通道信号的一种优选参数化；

图5示出了根据本发明的多通道信号的一种优选参数化；

图6示出了根据本发明的多通道信号的一种优选参数化；

图7示出了生成单个基础通道或两个基础通道的下混方案的示意设置；

图8示出了上混方案的示意表示，上混方案基于本发明的平衡参数和关于下混方案的信息；

图9a示意性地示出了根据本发明的编码器侧等级参数的确定；

图9b示意性地示出了根据本发明的解码器侧等级参数的使用；

图10a示出了可扩展位流，在该位流的不同层中，具有多通道参数化的不同部分；

图10b示出了可扩展性表，指示使用哪些平衡参数可以构建哪些通道，以及没有使用或计算哪些平衡参数和通道；以及

图11示出了根据本发明的上混矩阵的应用。

具体实施方式

下述实施例仅仅是对本发明的原理应用在音频信号的多通道表示方面的说明。应该理解，下面所述的布置和细节的修改和改变对本领域技术人员而言是显而易见的。因此，本发明仅由所附权利要求的范围限制，而非由此处作为对实施例的说明和解释而提出的具体细节来限制。

在下面概述如何参数化IID和ICC参数以及如何应用它们以重建音频信号多通道表示的本发明描述中，假设所有引用的信号都是滤波器组中的子带信号，或者相应通道的全部频率范围中一部分的某些其他频率选择性表示.因此，应该理解，本发明不限于具体滤波器组，并且在下面针对信号的子带表示的一个频带概述了本发明，并且相同操作适用于所有子带信号.

虽然平衡参数也称作“通道间强度差(IID)”参数，要强调的是，通道对之间的平衡参数不必是通道对的第一通道中的能量或强度与通道对中第二通道的能量或强度之比。一般而言，平衡参数指示通道对的两个通道之间声音源的定位。虽然这种定位通常由能量/等级/强度差给出，但是可以使用信号的其他特性，例如两个通道的功率测量或者通道的时间或频率包络等。

在图1中，示出了5.1通道配置的不同通道，其中a(t)101表示左环绕通道，b(t)102表示左前通道，c(t)103表示中央通道，d(t)104表示右前通道，e(t)105表示右环绕通道，f(t)106表示LFE(低频效果)通道。

假设将期望算符定义为：

E [f (x)] = \frac{1}{T} {&Integral;}_{0}^{T} f (x (t)) dt

于是，上述通道的能量可以根据如下等式定义(这里以左环绕通道为示例)：

A＝E[a²(t)]

五个通道在编码器一侧下混为双通道表示或单通道表示。这可以以多种方式来进行，并且一种常用方式是根据如下等式定义的ITU下混：

5.1到双通道下混：

l_d(t)＝αb(t)+βa(t)+γc(t)+δf(t)

r_d(t)＝αd(t)+βe(t)+γc(t)+δf(t)

和5.1到单通道下混：

m_{d} (t) = \sqrt{\frac{1}{2}} (l_{d} (t) + r_{d} (t))

常数α、β、γ和δ的常用值是

α＝1，

及δ＝0。

IDD参数定义为两个任意选择的通道或者通道加权组的能量比。给定5.1通道配置的上述通道的能量，可以定义多个IDD参数集合。

图7示出了使用上述等式来计算基于单个的通道m或优选的两个基于立体声的通道l_d和r_d的一般下混频器700。一般而言，下混频器使用特定的下混信息。在线性下混的优选实施例中，该下混信息包括加权因子α、β、γ和δ。在本领域中已知，可以使用更多或更少的常数或非常数加权因子。

在ITU推荐的下混中，将α设置为1，β和γ设置为相等，并且等于0.5的平方根，并且将δ设置为0。一般而言，因子α可以在1.5和0.5之间变化。另外，因子β和γ可以彼此不同，并且在0和1之间变化。对低频增强通道f(t)同样如此。该通道的因子δ可以在0和1之间变化。另外，左下混和右下混的因子不必彼此相等。当考虑非自动下混(例如，由音响工程师执行)时，这是显而易见。音响工程师更注重执行创造性下混而非由任何数学规则所指导的下混。实际上，音响工程师由其自身的创造性感觉来引导。当这种“创造性”下混由特定参数集来记录时，根据本发明将由图8所示的本发明上混频器来使用，该上混频器不仅由参数来指导，而且还由关于下混方案的额外信息来指导。

当如图7所示执行了线性下混时，加权参数是上混频器要使用的关于下混方案的优选信息。然而，当存在信号方案中所使用的其他信息时，上混频器也可以使用该其他信息作为关于下混方案的信息。例如，这种其他信息可以是特定的矩阵元素或特定因子或上混矩阵的矩阵元素内的函数，例如如图11所示。

给定图1所示的5.1通道配置并观察其他通道配置如何涉及5.1通道配置：对于三通道的情况，其中环绕通道不可用，即，根据上面的标记，B、C和D可用。对于四通道配置，B、C和D可用，并且表示单个环绕通道的A和E的组合也可用，或者在此环境中更一般地称作背面通道。

本发明使用适用于所有这些通道的IID参数，即5.1通道配置的四通道子集具有描述5.1通道的IID参数集内的相应子集。

下面的IID参数集解决此问题：

r_{1} = \frac{L}{R} = \frac{α^{2} B + β^{2} A + γ^{2} C + δ^{2} F}{α^{2} D + β^{2} E + γ^{2} C + δ^{2} F}

r_{2} = \frac{γ^{2} 2 C}{α^{2} (B + D)}

r_{3} = \frac{β^{2} (A + E)}{α^{2} (B + D) + γ^{2} 2 C}

r_{4} = \frac{β^{2} A}{β^{2} E} = \frac{A}{E}

r_{5} = \frac{δ^{2} 2 F}{α^{2} (B + D) + β^{2} (A + E) + γ^{2} 2 C}

显而易见，r₁参数对应于左下混通道和右通道下混之间的能量比。r₂参数对应于中央通道和左右前通道之间的能量比。r₃参数对应于三个正面通道和两个环绕通道之间的能量比。r₄参数对应于两个环绕通道之间的能量比。r₅参数对应于LFE通道和所有其他通道之间的能量比。

在图4中，示出了上述能量比。不同的输出通道由101至105表示，并且与图1中相同，因此这里不再赘述。扬声器设置分为左半部和右半部，其中中央通道103是两个半部的一部分。左半边和右半边之间的能量比就是称作r₁的参数。这在图4中由r₁下的实线表示。另外，中央通道103与左右前通道102和103之间的能量分配由r₂表示。最后，整个前面通道设置(102、103和104)与背面通道(101和105)之间的能量分配在图5中由r₃参数旁的箭头表示。

给定上面的参数化以及所传送的单个下混通道的能量：

M = \frac{1}{2} (α^{2} (B + D) + β^{2} (A + E) + 2 γ^{2} C + 2 δ^{2} F)

重构通道的能量可以表示为：

F = \frac{1}{2 γ^{2}} \frac{r_{2}}{1 + r_{5}} 2 M

A = \frac{1}{β^{2}} \frac{r_{4}}{1 + r_{4}} \frac{r_{3}}{1 + r_{3}} \frac{1}{1 + r_{5}} 2 M

E = \frac{1}{β^{2}} \frac{1}{1 + r_{4}} \frac{r_{3}}{1 + r_{3}} \frac{1}{1 + r_{5}} 2 M

C = \frac{1}{2 γ^{2}} \frac{r_{2}}{1 + r_{2}} \frac{1}{1 + r_{3}} \frac{1}{1 + r_{5}} 2 M

B = \frac{1}{α^{2}} (2 \frac{r_{1}}{1 + r_{1}} M - β^{2} A - γ^{2} C - δ^{2} F)

D = \frac{1}{α^{2}} (2 \frac{1}{1 + r_{1}} M - β^{2} E - γ^{2} C - δ^{2} F)

因此，M信号的能量可以分配到重构通道中，导致重构通道具有与原始通道相同的能量。

图8中示出了上面优选的上混方案。根据F、A、E、C、B和D的等式，显而易见，上混频器要使用的关于下混方案的信息是加权因子α、β、γ和δ，它们用于在如此加权或未加权的通道加在一起或者彼此相减以达到一定数目的下混通道(少于原始通道数)之前对原始通道进行加权。于是，根据图8可知，根据本发明，重构通道的能量不仅由从编码器侧向解码器侧发送的平衡参数确定，而且还由下混因子α、β、γ和δ确定。

在考虑图8时可知，为了计算左和右能量B和D，在等式内使用已经计算的通道能量F、A、E、C。然而，这并不一定意味着顺序上混方案。实际上，为了获得完全并行的上混方案(例如使用具有特定上混矩阵元素的特定上混矩阵来执行)，将A、C、E和F的等式插入到B和D的等式中。于是，可知重构通道能量仅由平衡参数、下混通道以及关于下混方案的信息(例如，下混因子)确定。

给定上述IID参数，可知定义可以用于多种通道配置的IID参数的参数集的问题已经解决，这在下面是显而易见。作为示例，观察三通道配置(即，根据一个可用通道重建三个前面的通道)，可知，r₃、r₄和r₅参数是无用的，因为A、E和F通道不存在。还可知，参数r₁和r₂足以根据下混的单个通道来重建三个通道，因为r₁描述左和右前通道之间的能量比，r₂描述中央通道与左和右前通道之间的能量比。

在更一般的情况下，容易得知，如上定义的IID参数(r₁...r₅)适用于根据m个通道重建n个通道的所有子集，其中m＜n≤6。观察图4，可知：

-对于根据1个通道重建2个通道的系统，根据r₁参数，获得了保留通道之间正确的能量比的足够信息；

-对于根据1个通道重建3个通道的系统，根据r₁和r₂参数，获得了保留通道之间正确的能量比的足够信息；

-对于根据1个通道重建4个通道的系统，根据r₁、r₂和r₃参数，获得了保留通道之间正确的能量比的足够信息；

-对于根据1个通道重建5个通道的系统，根据r₁、r₂、r₃和r₄参数，获得了保留通道之间正确的能量比的足够信息；

-对于根据1个通道重建5.1通道的系统，根据r₁、r₂、r₃、r₄和r₅参数，获得了保留通道之间正确的能量比的足够信息；

-对于根据2个通道重建5.1通道的系统，根据r₂、r₃、r₄和r₅参数，获得了保留通道之间正确的能量比的足够信息。

图10b中的表示出了上述可扩展性特征。图10a中所示出的、稍后将解释的可扩展位流还可以适用于图10b中的表，以获得比图10a所示出的好得多的可扩展性。

特别是，优选的概念有利之处在于，可以根据单个平衡参数r₁，容易地重构左右通道，而不需要任何其他平衡参数的知识或提取。为此，在图8中的B、D的等式中，简单地将通道A、C、F和E设置为零。

作为另一种选择，当仅考虑平衡参数r₂时，重构通道一方面是中央通道和低频通道(当该通道没有设置为零时)之间的和，另一方面是左右通道之间的和。于是，仅使用单个参数，一方面可以重构中央通道，另一方面可以重构单声道信号。该特征可能已经对简单的3通道表示有用，其中例如通过均分根据左和右之和得到左和右信号，并且中央与左和右之和之间的能量就是由平衡参数r₂确定。

在这种环境中，平衡参数r₁或r₂处于较低的扩展(scaling)层。

至于图10b的表中的第二项，这一项指示如何仅使用两个平衡参数而不是所有5个平衡参数来生成3个通道B、D及C和F之和，这些参数r₁和r₂之一可能已经处于比位于较低扩展层中的参数r₁或r₂高的扩展层中。

当考虑图8中的等式时可知，为计算C，将非提取参数r₅和另一非提取参数r₃设置为0。另外，将未使用的通道A、E、F也设置为0，从而可以计算3个通道B、D以及中央通道C和低频增强通道F之间的组合。

当要上混4通道表示时，仅从参数数据流中提取参数r₁、r₂和r₃就足够了。在这种环境中，r₃可以处于其他参数r₁或r₂的下一较高扩展层中。4通道配置尤其适用于与本发明的超级平衡参数表示相结合，因为如稍后参考图6所述，一方面根据正面通道的组合，另一方面根据背面通道，已经得到第三平衡参数r₃。这是由于参数r₃是正面-背面平衡参数，它是根据具有背面通道A和E的组合作为第一通道以及左通道B、右通道E和中央通道C的组合作为正面通道的通道对得到的。

于是，自动获得两个环绕通道的组合通道能量，而不需要任何进一步的单独计算和后继组合，与单个参考通道设置中的情况一样。

当要从单个通道重建5个通道时，进一步的平衡参数r₄是必要的。该参数r₄可以处于下一较高扩展层中。

当要执行5.1重构时，需要每个平衡参数。于是，必须将包括下一平衡参数r₅的下一较高扩展层发送到接收机，并且由接收机评估。

然而，使用根据通道扩展数来扩展IID参数的相同方法，上述IID参数可以扩展为覆盖通道数大于5.1配置的通道配置s。因此，本发明不限于上述示例。

现在观察通道配置为5.1通道配置的情况，这是最常用的情况。另外，假设根据两个通道重建5.1通道。针对该情况，可以通过以如下参数替换参数r₃和r₄来定义不同的参数集：

q_{3} = \frac{β^{2} A}{α^{2} B}

q_{4} = \frac{β^{2} E}{α^{2} D}

参数q₃和q₄表示正面和背面左通道之间的能量比、以及正面和背面右通道之间的能量比。可以设想数种其他参数化。

在图5中使修改的参数化形象化。不是用一个参数描述正面和背面通道之间的能量分配(如图4中r₃所示)以及用参数描述左环绕通道和右环绕通道之间的能量分配(如图4中r₄所示)，而是使用参数q₃和q₄描述左前通道102和左环绕通道101之间的能量比、以及右前通道104和右环绕通道105之间的能量比。

本发明优选的是可以使用多个参数集来表示多通道信号。本发明的附加特征在于，可以根据所使用的参数的量化类型，选择不同的参数化。

例如，由于高比特率的约束而使用参数化的粗量化的系统，应该使用在上混处理期间不会使错误加大的参数化。

观察在根据一个通道重建5.1通道的系统中针对重构能量的上述表达式中两个：

B = \frac{1}{α^{2}} (2 \frac{r_{1}}{1 + r_{1}} M - β^{2} A - γ^{2} C - δ^{2} F)

D = \frac{1}{α^{2}} (2 \frac{1}{1 + r_{1}} M - β^{2} E - γ^{2} C - δ^{2} F)

很显然，由于M、A、C和F参数的极小的量化效果，相减可以导致B和D能量的大变化。

根据本发明，应该使用对参数的量化不那么敏感的不同参数化。因此，如果使用粗量化，则如上定义的r₁参数：

r_{1} = \frac{L}{R} = \frac{α^{2} B + β^{2} A + γ^{2} C + δ^{2} F}{α^{2} D + β^{2} E + γ^{2} C + δ^{2} F}

可以由根据如下等式定义的替代定义来代替：

r_{1} = \frac{B}{D}

这样，能够得到如下的重构能量等式：

B = \frac{1}{α^{2}} \frac{r_{1}}{1 + r_{1}} \frac{1}{1 + r_{2}} \frac{1}{1 + r_{3}} \frac{1}{1 + r_{5}} 2 M

D = \frac{1}{α^{2}} \frac{1}{1 + r_{1}} \frac{1}{1 + r_{2}} \frac{1}{1 + r_{3}} \frac{1}{1 + r_{5}} 2 M

而A、E、C和F的重构能量等式仍然与上面相同。很显然，根据量化的观点，这种参数化代表了更好地调节的系统。

在图6中示出了如上面说明的能量比。不同的输出通道由101至105表示，并且与图1中相同，因此这里不再赘述。扬声器设置分为正面部分和背面部分。整个正面通道设置(102、103和104)与背面通道(101和105)之间的能量分配由图6中r₃参数所指示的箭头表示。

本发明的另一显著的重要特征是当观察如下参数化时

r_{2} = \frac{γ^{2} 2 C}{α^{2} (B + D)}

r_{1} = \frac{B}{D}

根据量化的观点，这不仅是更好地调节的系统.上述参数化还具有这样的优点：得到用来重构三个正面通道的参数，而不会影响环绕通道.可以设想描述中央通道和所有其他通道之间的关系的参数r₂。然而，这也具有缺点：环绕通道将包括在描述正面通道的参数的估计中。

应该记住，在本发明中，所描述的参数化也可以应用于通道之间相关性或相干性的测量，显而易见，在r₂的计算中包括背面通道可以对成功地准确重建正面通道产生重大的负面影响。

例如，可以想象在所有正面通道中具有相同信号，并且在背面通道中具有完全非相关信号的情况。如果频繁使用背面通道来重建原始声音的环境信息，这是不常见的。

如果相对于所有其他通道来描述中央通道，中央通道和所有其他通道之和之间的相关性测量将非常低，因为背面通道完全不相关。对于估计正面左/右通道与背面左/右通道之间的相关性的参数同样如此。

因此，得到了可以正确重构能量的参数化，但是不包括所有正面通道相同(即，强相关)的信息。该参数化不包括左和右前通道与背面通道去相关以及中央通道也与背面通道去相关的信息。然而，所有正面通道相同的事实不是从这种参数化得到的。

利用本发明所教导的如下参数化克服此问题

r_{2} = \frac{γ^{2} 2 C}{α^{2} (B + D)}

r_{1} = \frac{B}{D}

因为背面通道不包括在解码器侧用来重建正面通道的参数的估计中。

根据本发明，中央通道103与左前通道102和右前通道103之间的能量分配由r₂指示。左环绕通道101和右环绕通道105之间的能量分配由r₄指示。最后，左前通道102和右前通道104之间的能量分配由r1给出。很显然，除了r1之外所有参数与图4所示相同，此处r1对应于左前扬声器和右前扬声器之间的能量分配，而非整个左侧与整个右侧之间的能量分配。为了完整起见，还给出了描述中央通道103和lfe通道106之间的能量分配的参数r5。

图6示出了本发明的优选参数化实施例的概述。第一平衡参数r₁(由实线指示)构成前左/前右平衡参数。第二平衡参数r₂是中左-右平衡参数。第三平衡参数r₃构成正面/背面平衡参数。第四平衡参数r₄构成左后/右后平衡参数。最后，第五平衡参数r₅构成中央/lfe平衡参数。

图4示出了相关情形。图4中实线所示出的下混左/右平衡情况下的第一平衡参数r₁可以由原始前左/前右平衡参数代替，其中原始前左/前右平衡参数在作为底层通道对的通道B和D之间定义。在图4中由虚线r₁示出了这一情况，并且对应于图5和图6中的实线r₁。

在双基础通道的情况下，参数r₃和r₄，即正面/背面平衡参数和背面左/右平衡参数右两个单侧正面/背面参数代替。第一单侧正面/背面参数q₃也可以视为第一平衡参数，它是根据由左环绕通道A和左通道B构成的通道对得到的。第二单侧正面/背面参数是参数q₄，它也可以视为第二参数，它基于由右通道D和右环绕通道E构成的第二通道对。此外，两个通道对彼此独立。对于中央/左-右平衡参数r₂也是如此，中央/左-右平衡参数r₂具有中央通道C作为第一通道以及左和右通道B和D之和作为第二通道。

根据本发明，下面定义另一种非常适用于根据一个或两个通道重建5.1通道的系统的粗量化的参数化。

对于一到5.1通道：

q_{1} = \frac{β^{2} A}{M},

q_{2} = \frac{α^{2} B}{M},

q_{3} = \frac{γ^{2} C}{M},

q_{4} = \frac{α^{2} D}{M},

q_{2} = \frac{β^{2} E}{M}

及

q_{5} = \frac{δ^{2} F}{M}

对于二到5.1通道：

q_{1} = \frac{β^{2} A}{L},

q_{2} = \frac{α^{2} B}{L},

q_{3} = \frac{γ^{2} C}{M},

q_{4} = \frac{α^{2} D}{R},

q_{2} = \frac{β^{2} E}{R}

及

q_{5} = \frac{δ^{2} F}{M}

很显然，上述参数化包括的参数多于根据严格的理论观点来正确重新分配所传输信号的能量以重构信号所需的参数。然而，这种参数化对于量化误差非常不敏感。

针对双基通道设置的上述参数集利用多个参考通道。然而，与图6中的参数配置不同，图7中的参数集仅仅依赖于下混通道而非原始通道作为参考通道。根据完全不同的通道对得到平衡参数q₁、q₃和q₄。

虽然已经描述了多个本发明的实施例，其中用于得到平衡参数的通道对仅包括原始通道(图4、图5、图6)或包括原始通道以及下混通道(图4、图5)或者仅依赖于下混通道作为参考通道(如图7中下部所示)，优选的是，图2的环绕数据编码器206中包括的参数生成器可操作来仅使用原始通道或原始通道的组合，而针对非平衡参数所基于的通道对中通道的基础通道或基础通道的组合。这是由于不能完全保证单个基础通道或两个立体声基础通道在它们从环绕编码器发送到环绕解码器期间不出现能量改变。这种下混通道或单个下混通道的能量变化可以是由在低比特率条件下工作的音频编码器205(图2)或音频解码器302(图3)引起的。这种情况可以导致对单声道下混通道或立体声下混通道的能量的操作，这种操作可能在左和右立体声下混通道之间不同，或者甚至可以是频率选择性和时间选择性的。

为了确保针对这种能量变化的完全安全，根据本发明，对每个下混通道的每一块和频带发送额外的等级信息。当平衡参数基于原始信号而非下混信号时，对于每个频带单个校正因子就足够了，因为任何能量校正将不会影响原始通道之间的平衡情况。即使当不传送额外的等级信息时，任何下混通道能量变化也不会导致声音源在音频像中的定位失真，而是只会导致一般的音量变化，这不像由于平衡条件改变而引起的声音源迁移那样使人烦恼。

重要的是要注意，如上所述，需要小心使(信号通道的)能量M是能量B、D、A、E、C和F之和。并不总是这样的，因为下混到一个通道中的不同通道间存在相位依赖。能量校正因子可以作为额外参数r_M发送，并且解码器侧接收到的下混信号能量如此定义：

r_{M} M = \frac{1}{2} (α^{2} (B + D) + β^{2} (A + E) + 2 γ^{2} C + 2 δ^{2} F) .

在图9中示出了根据本发明的额外参数r_M的应用。在901中，在将下混输入信号发送到701～705的上混模块之前，利用r_M参数修改下混输入信号。这与图7中相同，因此不再赘述。本领域技术人员可知，上面单通道下混示例的参数r_M可以扩展为每个下混通道一个参数，因此不限于单个下混通道。

图9a示出了本发明的等级参数计算器900，而图9b示出了本发明的等级校正器902.图9a示出了编码器侧的情况，图9b示出了相应的解码器侧情况.等级参数或“额外”参数r_M是给出特定能量比的校正因子。为了对此进行解释，假设如下的示例性场景。对于特定的原始多通道信号，一方面存在“主下混”，另一方面存在“参数下混”。例如，音响工程师已经在音响工作室中根据主观质量印象生成了主下混。另外，特定的音频存储介质也包括参数下混，参数下混例如由图2的环绕编码器203执行。参数下混包括一个基础通道或两个基础通道，这些基础通道形成了使用平衡参数集或者原始多通道信号的任何其他参数表示来进行多通道重构的基础。

例如，可以是这样的情况，广播台不希望从发射机向接收机发送参数下混而是发送主下混。另外，为了将主下混升级为多通道表示，广播台还发送原始多通道信号的参数表示。因为(一个块和一个频带中的)能量可以(并且通常会)在主下混和参数下混之间改变，在块900中生成相对等级参数r_M，并且发送到接收机作为附加参数。根据主下混和参数下混得到等级参数，并且优选的是，等级参数是主下混和参数下混的一个块和一个频带内的能量之比。

通常，等级参数计算为原始通道的能量(E_orig)和与下混通道的能量之比，其中该下混通道可以是参数下混(E_PD)或主下混(E_MD)或者任何其他下混信号。通常，使用从编码器向解码器发送的具体下混信号的能量。

图9b示出了在解码器侧的等级参数使用的实施方式。等级参数以及下混信号输入到等级校正器模块902中。等级校正器根据等级参数，校正单基通道或多基通道。因为附加参数r_M是相对值，所以将此相对值乘以相应基础通道的能量。

虽然图9a和9b示出了将等级校正应用于下混通道的情况，但是等级参数也可以集成在上混矩阵中。为此，图8中的等式中每次出现的M由项“r_M M”代替。

研究根据2个通道重建5.1通道的情况，进行如下观察。

如果本发明与图2和图3中205和302所示的底层编解码器一起使用，需要做出更多的考虑。观察前面定义的IID参数，其中r1如下定义

r_{1} = \frac{L}{R} = \frac{α^{2} B + β^{2} A + γ^{2} C + δ^{2} F}{α^{2} D + β^{2} E + γ^{2} C + δ^{2} F}

该参数在解码器侧是隐式可用的，因为系统是根据2个通道重建5.1通道，假如所传输的两个通道是环绕通道的立体声下混。

然而，在比特率约束下工作的音频编解码器可以修改频谱分布，从而解码器侧测量的L和R能量不同于它们在编码器侧的值。根据本发明，同样对于根据两个通道重构5.1通道的情况，对重构通道能量分布的这种影响通过传输如下参数而消失

r_{1} = \frac{B}{D} .

如果提供信令装置，编码器可以使用不同参数集来编码当前信号段，并且选择对于所处理的特定信号段给出最低开销的IID参数集。右前通道和背面通道之间的能量等级类似，正面和背面左通道之间的能量等级类似，但是可能与右前和背面通道中的等级明显不同。给定参数的Δ编码和随后的熵编码，使用参数q₃和q₄而非r₃和r₄可以更有效.对于具有不同特性的另一个信号段，不同的参数集可以给出较低的比特率开销.给定信号段的特性，本发明允许在不同参数表示之间自由切换，以便最小化当前编码信号段的比特率开销.在IID参数的不同参数化之间切换，以便获得最低的可能比特率开销，以及提供信令装置以指示当前使用何种参数化的能力是本发明的本质特征.

另外，参数的Δ编码可以在频率方向或者时间方向中进行，并进行不同参数之间的Δ编码。根据本发明，如果提供指示所使用的特定Δ编码的信令装置，参数可以相对于任何其他参数来进行Δ编码。

对任何编码方案感兴趣的特征是进行可扩展编码的能力。这意味着可以将编码位流分为多个不同的层。核心层是可自解码的，并且可以解码较高层以增强解码核心层信号。对于不同的环境，可用层的数目可以改变，但是只要核心层可用，解码器可以产生输出样本。如上所述，使用r₁至r₅参数对多通道编码进行参数化，使它们自身非常适于可扩展编码。因此，可以在增强层中存储例如两个环绕通道(A和E)的数据(即参数r₃和r₄)，并且在核心层中存储与正面通道相对应的参数，由参数r₁和r₂表示。

在图10中示出了根据本发明的可扩展位流实施方式。位流层由1001和1002表示，其中1001是保持波形编码下混信号和重建正面通道(102、103和104)所需的参数r₁和r₂的核心层。1002所表示的增强层保持用于重建背面通道(101和105)的参数。

本发明的另一个重要方面是在多通道配置中使用去相关器。在文献PCT/SE02/01372中针对一到二通道的情况描述了使用去相关器的概念。然而，当将此理论扩展到两个以上的通道时，出现了多个问题，本发明解决了这些问题。

初等数学表明，为了从N个信号得到M个彼此去相关的信号，需要M-N个去相关器，其中所有不同的去相关器是根据公共输入信号创建彼此正交的输出信号的函数。去相关器通常是全通或近全通滤波器，给定输入x(t)，产生输出y(t)，其中E[|y|²]＝E[|x|²]，并且几乎消除了互相关E[yx^*]。好的去相关器设计还涉及到进一步的感觉标准，设计方法的一些示例可以是当向去相关信号加入原始信号时，最小化梳状滤波器特性，以及最小化在瞬态信号处有时太长的冲激响应的效果。某些现有技术的去相关器利用人工混响器来去相关。现有技术还包括例如通过修改复子带样本的相位来进行分数延迟，以获得较高的回响密度，因此获得更大的时间扩散。

本发明提出了如下方法：修改基于混响的去相关器，以便实现根据公共输入信号创建彼此去相关的输出信号的多个去相关器。如果两个去相关器在相同输入的情况下的输出y₁(t)和y₂(t)消除或几乎消除了互相关，则这两个去相关器彼此去相关。假设输入是平稳白噪声，那么冲激响应h₁和h₂必须正交，因为E[h₁h₂ ^*]消除或几乎消除。可以以多种方式构建对集彼此去相关的去相关器。进行这种修改的一种有效方式是改变相位旋转因子q，这是分数延迟的一部分。

本发明规定相位旋转因子可以是全通滤波器中延迟线的一部分，或者就是整个分数延迟。在后一种情况下，该方法不限于全通或混响之类的滤波器，而是也可以应用于例如包括分数延迟部分的简单延迟。去相关器中的全通滤波器链路在Z域中可以如下描述：

H (z) = \frac{{qz}^{- m} - a}{1 - aq z^{- m}}

其中，q是复值相位旋转因子(|q|＝1)，m是样本中延迟线长度，并且a是滤波器系数.由于稳定性原因，滤波器吸收的大小应该限制于|a|＜1.然而，通过使用可选的滤波器系数a′＝-a，定义了新的混响器，其具有相同的混响衰落特性，但是输出与未修改的混响器的输出显著不相关.另外，相位旋转因子q的修改可以通过例如添加恒定相位偏移q′＝qe^jC来进行。常数C可以用作恒定相位偏移，或者可以进行缩放，使其对应于其所应用的所有频带的恒定时间偏移。相位偏移常数C也可以是对所有频带不同的随机值。

根据本发明，通过向如下大小为(m+p)×1个信号的列向量应用大小为n×(m+p)的上混矩阵H，来执行从m个通道生成n个通道的操作

y = [\begin{matrix} m \\ s \end{matrix}]

其中，m是m个被下混且编码的信号，并且s中的p个信号被两两彼此去相关，并且与m中的所有信号去相关。这些去相关信号是由去相关器根据m中的信号产生的。然后n个重构信号a′、b′...包含在如下列向量中

x′＝Hy

图11中示出了上述操作，其中去相关信号由去相关器1102、1103和1104创建。上混矩阵H由1101给出，其对向量y进行操作，给出输出信号x′。

设R＝E[xx^*]是原始信号向量的相关矩阵，R′＝E[x′x′^*]是重构信号的相关矩阵。此处以及下文中，对于具有复数项的矩阵或向量X，X^*表示X的伴随矩阵、复共轭转置。

R的对角线包含能量值A、B、C...，并且可以根据如上定义的能量配额，解码为总能量等级。因为R^*＝R，所以只有n(n-1)/2个不同的离对角线互相关值，包含要通过调整上混矩阵H来全部或部分重构的信息。全相关结构的重构对应于R′＝R的情况。正确的能量等级的重构仅对应于R′和R在它们的对角线上相同的情况。

在从m＝1个通道得到n个通道的情况下，全相关结构的重构通过使用p＝n-1个彼此去相关的去相关器、满足如下条件的上混矩阵H来实现：

{HH}^{*} = \frac{1}{M} R

其中M是单个所传输信号的能量。因为R是半正定的，这种解的存在是公知的。此外，对于H的设计留下了n(n-1)/2的自由度，它们在本发明中用来获得上混矩阵的进一步希望的特性。中心设计标准是H对所传输的相关性数据的依赖性应该是平滑的。

参数化上混矩阵的一种方便方式是H＝UDV，其中U和V是正交矩阵，并且D是对角矩阵。可以选择D的绝对值的平方等于R/M的特征值。忽略V并对特征值进行排序，使最大的值应用于第一坐标，将使输出中去相关信号的总体能量最小化。正交矩阵U处于由n(n-1)/2个旋转角度来参数化的实状态。以这些角度和D的n个对角线值的形式发送相关性数据，将立即给出所希望的H的平滑依赖性。然而，因为必须将能量数据变换为特征值，所以这种方法牺牲了可扩展性。

本发明所教导的第二方法包括：通过根据R＝GR₀G定义归一化相关矩阵R₀，来从R中的相关性部分分离能量部分，其中G是对角矩阵，对角线值等于R的对角线项的平方根，即，

并且R₀在对角线上为1。设H₀是正交上混矩阵，其定义在等能量的完全非相关信号情况下优选的归一化上混。这种优选上混矩阵的示例有

\frac{1}{\sqrt{2}} [\begin{matrix} 1 & - 1 \\ 1 & 1 \end{matrix}],

\frac{1}{2} [\begin{matrix} 1 & 1 & \sqrt{2} \\ 1 & 1 & - \sqrt{2} \\ \sqrt{2} & - \sqrt{2} & 0 \end{matrix}],

\frac{1}{2} [\begin{matrix} 1 & 1 & 1 & 1 \\ 1 & 1 & - 1 & - 1 \\ 1 & - 1 & - 1 & 1 \\ 1 & - 1 & 1 & - 1 \end{matrix}] .

然后由

定义上混，其中矩阵S是SS^*＝R₀的解。选择此解对R₀中归一化的互相关值的依赖性是连续的，从而S在R₀＝I情况下等于单位矩阵I。

将n个通道分为较少通道的组，这是一种重构局部互相关结构的方便方式。根据本发明，对于从1个通道重构5.1通道的情况，尤其有利的分组方式是{a，e}，{c}，{b，d}，{f}，其中对组{c}，{f}不应用去相关，并且通过对相同的下混/去相关对进行上混来产生组{a，e}，{b，d}。对于这两个子系统，在完全不相关情况下优选的归一化上混可以分别选择为

\frac{1}{\sqrt{2}} [\begin{matrix} 1 & - 1 \\ 1 & 1 \end{matrix}],

\frac{1}{\sqrt{2}} [\begin{matrix} 1 & 1 \\ 1 & - 1 \end{matrix}],

于是，将只发送和重构总共15个互相关中的两个，即，通道{a，e}和{b，d}之间的互相关。在上面使用的术语中，这是针对n＝6，m＝1且p＝1情况的设计示例。上混矩阵H大小为6×2，在第3行和第6行的第二列中的两项为零，对应于输出c′和f′。

本发明所教导的用于合并去相关信号的第三种方法是更为简单的观点：每个输出通道具有不同的去相关器，导致去相关信号s_a，s_b，...。然后，形成重构信号如下：

etc...

参数控制输出通道a′，b′，...中出现的去相关信号的数量。以这些角度的形式发送相关性数据。容易计算所得到的例如通道a′和b′之间的归一化互相关等于乘积因为成对的互相关的数目为n(n-1)/2，并且存在n个去相关器，所以如果n＞3，一般不能用这种方法来匹配给定的相关性结果，但是其优点是这是一种非常简单且稳定的解码方法，并且直接控制每个输出通道中去相关信号的产生量。这使得去相关信号的混合能够基于结合了例如通道对的能量等级差的感觉标准。

对于从m＞1个通道重构n个通道的情况，不再假设相关矩阵R_y＝E[yy^*]是对角矩阵，并且在将R′＝HR_yH^*匹配到目标R时必须考虑这一点。因为R_y具有块矩阵结构，所以可以简化，

R_{y} = [\begin{matrix} R_{m} & 0 \\ 0 & R_{s} \end{matrix}],

其中，R_m＝E[mm^*]且R_s＝E[ss^*]。另外，假设彼此去相关的去相关器，矩阵R_s是对角矩阵。应该指出，这还在重构正确能量方面影响上混设计。在解码器中计算解，或者从编码器发送关于下混信号的相关性结构R_m的信息。

对于从2个通道重构5.1通道的情况，上混的优选方法是：

[\begin{matrix} a^{'} \\ b^{'} \\ c^{'} \\ d^{'} \\ e^{'} \\ f^{'} \end{matrix}] = [\begin{matrix} h_{11} & 0 & h_{13} & 0 \\ h_{21} & 0 & h_{23} & 0 \\ h_{31} & h_{32} & 0 & 0 \\ 0 & h_{42} & 0 & h_{44} \\ 0 & h_{52} & 0 & h_{54} \\ h_{61} & h_{62} & 0 & 0 \end{matrix}] \cdot [\begin{matrix} m_{1} \\ m_{2} \\ s_{1} \\ s_{2} \end{matrix}],

其中，s₁是根据m₁＝l_d的去相关得到的，s₂是根据m₂＝r_d的去相关得到的。

此处，将组{a，b}和{d，e}视为分离的1→2通道系统，其中考虑对的互相关。对于通道c和f，如下调整权重

E[|h₃₁m₁+h₃₂m₂|²]＝C，

E[|h₆₁m₁+h₆₂m₂|²]＝F.

本发明可以以硬件芯片和DSP的形式实现，对于各种系统，对于模拟或数字信号的存储或传输，可以使用任意编解码器。图2和图3示出了本发明的可能实施方式。在该示例中，示出了以六个输入信号工作的系统(5.1通道配置)。在图2中，在编码器侧，将各个通道的模拟输入信号转换为数字信号201，并且对每个通道使用滤波器组进行分析202。滤波器组的输出送入环绕编码器203，环绕编码器203包括参数生成器，其执行下混，创建一个或两个有音频编码器205编码的通道。另外，根据本发明，提取诸如IID和ICC参数之类的环绕参数，并且根据本发明，提取204描述时间频率网格以及使用了哪种参数化的控制数据。根据本发明，对所提取的参数206进行编码，或者在不同的参数化之间进行切换，或者以可扩展方式安排参数。环绕参数207、控制信号和编码下混信号208复用209为串行位流。

在图3中示出了一种典型的解码器实施方式，即，用于生成多通道重构的设备。在此，假设音频解码器输出频域表示的信号，例如，来自QMF合成滤波器组之前的MPEG-4高效AAC解码器的输出。对串行位流进行解复用301，并且将编码环绕数据送入环绕数据解码器303，并且将下混编码通道送入音频解码器302，在该示例中，音频解码器302是MPEG-4高效AAC解码器。环绕数据解码器对环绕数据进行解码，并且将其送入环绕解码器305，环绕解码器305包括上混频器，上混频器根据解码的下混通道和环绕数据及控制信号，重建六个通道。将来自环绕解码器的输出合成306到时域信号，随后DAC 307将时域信号转换为模拟信号。

虽然主要参考平衡参数的生成和使用描述了本发明，但是应该强调，优选的是，为得到平衡参数，对通道对的相同分组也可以用来计算通道间相干性参数或者这些双通道对之间的“宽度”参数.另外，使用与平衡参数计算相同的通道对，也可以得到通道间时间差或一种“相位提示”.在接收机一侧，这些参数可以用作平衡参数的补充或者替代，以生成多通道重构.作为另一种选择，除了由其他参考通道所确定的其他通道间等级差之外，还可以使用通道间相干性参数或者甚至通道间时间差.然而，由于结合图10a和图10b所讨论的本发明的可扩展性特征，优选的是，对所有参数使用相同的通道对，从而在可扩展位流中，每个扩展层包括用于重构输出通道的子组的所有参数，它们可以由相应扩展层生成，如图10b的表中倒数第二列所示.当仅计算并向解码器发送了各个通道对之间的相干性参数或时间差参数时，本发明是有用的.在这种情况下，当执行多通道重构时，等级参数已经在解码器处以供使用.

依据本发明方法的特定实施要求，本发明的方法可以通过硬件或软件来实现。可以使用数字存储介质，具体地讲，存储有电子可读控制信号的盘或CD来实施，其与可编程计算机系统协作，从而执行本发明的方法。因此，一般而言，本发明是计算机程序产品，在机器可读载体上存储了程序代码，当该计算机程序产品在计算机上运行时，所述程序代码可操作来执行本发明的方法。因此，换句话说，本发明的方法是具有程序代码的计算机程序，在该计算机程序在计算机上运行时，程序代码执行本发明中的至少一种方法。

Claims

1.一种用于在多通道信号的参数表示中生成等级参数的设备，其中所述多通道信号具有多个原始通道，所述参数表示包括参数集，当所述参数集与至少一个下混通道一起使用时，允许多通道重构，所述设备包括：

等级参数计算器(900)，用于计算等级参数(r_M)，以使由所述等级参数加权的所述至少一个下混通道的能量等于原始通道的能量之和的方式计算所述等级参数；和

输出接口，用于生成输出数据，所述输出数据包括所述等级参数和所述参数集，或者所述等级参数和所述至少一个下混通道。

2.根据权利要求1所述的设备，其中所述等级参数计算器(900)计算原始通道的能量之和与所述至少一个下混通道的能量之比的量度作为所述等级参数。

3.根据权利要求1或2所述的设备，其中所述参数表示包括所述至少一个下混通道的多个频带中每一个频带的参数集，

其中所述等级参数计算器(900)计算每个频带的等级参数。

4.根据权利要求1或2所述的设备，其中所述参数表述包括所述至少一个下混通道的时间段序列中时间段的参数集，和

其中所述等级参数计算器(900)计算所述至少一个下混通道的时间段序列中每个时间段的等级参数。

5.根据权利要求1或2所述的设备，其中所述输出接口生成可扩展数据流，所述可扩展数据流在较低扩展层中包括所述参数集的第一参数子组，所述第一参数子组允许重构输出通道的第一子组，

所述可扩展数据流在较高扩展层中包括所述参数集的第二参数子组，所述第二参数子组与所述第一子组一起允许重构输出通道的第二子组，和

其中所述输出接口将所述等级参数输入到所述较低扩展层。

6.根据权利要求1或2所述的设备，还包括参数生成器，所述参数生成器生成左/右平衡参数作为第一平衡参数，生成中央平衡参数作为第二平衡参数，生成正面/背面平衡参数作为第三参数，生成左后/右后平衡参数作为第四平衡参数，生成低频增强平衡参数作为第五平衡参数。

7.一种用于使用具有参数集的参数表示，生成原始多通道信号的重构多通道表示的设备，所述原始多通道信号具有至少三个原始通道，所述参数集当与至少一个下混通道一起使用时，允许多通道重构，所述参数表示包括等级参数，对所述等级参数进行计算，使得由所述等级参数加权的所述至少一个下混通道的能量等于原始通道的能量之和，所述设备包括：

等级校正器(902)，用于使用所述等级参数对所述至少一个下混通道应用等级校正，从而通过使用参数集中的参数进行上混来得到校正的多通道重构。

8.根据权利要求7所述的设备，其中所述等级参数是通道的能量之比，其中所述等级校正器(902)使用所述等级参数对所述至少一个下混通道加权。

9.一种用于在多通道信号的参数表示中生成等级参数的方法，所述多通道信号具有多个原始通道，所述参数表示包括参数集，当所述参数集与至少一个下混通道一起使用时，允许多通道重构，所述方法包括：

计算(900)等级参数(r_M)，对以使由所述等级参数加权的所述至少一个下混通道的能量等于所述原始通道的能量之和的方式计算所述等级参数；和

生成输出数据，所述输出数据包括所述等级参数和所述参数集，或者所述等级参数和所述至少一个下混通道。

10.一种用于使用具有参数集的参数表示，生成原始多通道信号的重构多通道表示的方法，所述原始多通道信号具有至少三个原始通道，所述参数集当与至少一个下混通道一起使用时，允许多通道重构，所述参数表示包括等级参数，以使由所述等级参数加权的所述至少一个下混通道的能量等于所述原始通道的能量之和的方式计算所述等级参数，所述方法包括：

使用所述等级参数对所述至少一个下混通道应用等级校正，从而通过使用所述参数集中的参数进行上混来得到校正的多通道重构。