CN116114016A

CN116114016A - 音频量化器和音频去量化器以及相关方法

Info

Publication number: CN116114016A
Application number: CN202180048663.9A
Authority: CN
Inventors: 以马利·拉韦利; 戈兰·马尔科维奇; 让·弗雷德里克·基内; 弗伦茨·罗伊特尔胡贝尔; 史蒂芬·多拉; 埃伦尼·福托普楼
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2020-07-07
Filing date: 2021-07-05
Publication date: 2023-05-12
Also published as: WO2022008448A1; ZA202213859B; TWI793666B; MX2023000340A; BR112023000223A2; BR112022026703A2; CN115843378A; AU2021306852B2; CA3184222A1; US20230197090A1; AU2021303726A1; TW202211208A; WO2022008454A1; JP2023532808A; TW202209303A; EP4179529A1; CA3184522A1; JP2023532809A; EP4179531A1; MX2023000341A

Abstract

一种用于量化多个音频信息项目的音频量化器，包括：第一级矢量量化器(141、143)，用于对多个音频信息项目进行量化以确定第一级矢量量化结果和对应于第一级矢量量化结果的多个中间量化项目；残余项目确定器(142)，用于根据多个中间量化项目和多个音频信息项目来计算多个残余项目；以及第二级矢量量化器(145)，用于对多个残余项目进行量化以获得第二级矢量量化结果，其中，第一级矢量量化结果和第二级矢量量化结果是多个音频信息项目的量化表示。

Description

音频量化器和音频去量化器以及相关方法

技术领域

规范和优选实施例

本发明涉及例如可以应用于例如IVAS的MDCT立体声处理的音频信号处理。

此外，本发明可以应用于立体声频谱噪声整形参数的联合编码。

背景技术

频谱噪声整形在频域中对量化噪声进行整形，使得量化噪声被人耳感知得最少，因此，可以最大化解码输出信号的感知质量。

频谱噪声整形是在最先进的基于变换的音频编解码器中使用的技术。

高级音频编码(AAC)

在这种方法[1][2]中，MDCT频谱被分区为多个非均匀缩放因子频带。例如，在48kHz下，MDCT具有1024个系数，并被分区为49个缩放因子频带。在每个频带中，缩放因子用于缩放该频带的MDCT系数。然后采用具有恒定步长的标量量化器来量化缩放的MDCT系数。在解码器侧，在每个频带中执行逆缩放，从而对由标量量化器引入的量化噪声进行整形。

49个缩放因子作为辅助信息被编码到比特流中。由于相对较大数量的缩放因子和所需的高精度，因此通常需要非常大量的比特来对缩放因子进行编码。这在低比特率和/或低延迟时可能成为问题。

基于MDCT的TCX

在基于MDCT的TCX(MPEG-D USAC[3]和3GPP EVS[4]标准中使用的基于变换的音频编解码器)中，在基于LPC的感知滤波器(如最近基于ACELP的语音编解码器(例如，AMR-WB)中使用的类似感知滤波器)的帮助下执行频谱噪声整形。

在该方法中，首先在预加重的输入信号上估计16个线性预测系数(LPC)的集合。然后对LPC进行加权和量化。然后在64个均匀间隔的频带中计算所加权和量化的LPC的频率响应。然后使用所计算的频率响应在每个频带中缩放MDCT系数。然后使用具有由全局增益控制的步长的标量量化器对缩放的MDCT系数进行量化。在解码器侧，在64个频带的每个中执行逆缩放，从而对由标量量化器引入的量化噪声进行整形。

该方法与AAC方法比具有明显的优点：它仅需要编码16(LPC)+1(全局增益)个参数作为辅助信息(与AAC中的49个参数相比)。此外，通过采用LSF表示和矢量量化器，可以用少量比特来高效地编码16个LPC。因此，基于MDCT的TCX的方法比AAC方法需要更少的辅助信息比特，这在低比特率和/或低延迟时可以产生显著差异。

改进的基于MDCT的TCX(心理声学LPC)

改进的基于MDCT的TCX系统在[5]中公布。在该新方法中，自相关(用于估计LPC)不再在时域中执行，而是使用MDCT系数能量的逆变换在MDCT域中进行计算。这允许通过简单地将MDCT系数分组为64个非均匀频带并计算每个频带的能量来使用非均匀频率缩放。它还降低了计算自相关所需的复杂度。

新的频谱噪声整形(SNS)

在[6]中描述并在低复杂度通信编解码器(LC3/LC3 plus)中实现的用于频谱噪声整形的改进技术中，可以通过在编码器侧使用更大数量的缩放因子进行缩放以及通过将编码器侧的缩放参数下采样为16个缩放参数(SNS参数)的第二集合来获得低比特率而不造成质量的实质性损失。因此，一方面获得了低比特率辅助信息，然而另一方面获得了由于精细缩放而导致的音频信号频谱的高质量频谱处理。

立体声线性预测(SLP)

在[7]中描述的论文中，通过不仅考虑帧间预测，而且还考虑从一个声道到另一声道的预测来计算线性预测系数集合。然后使用与用于单声道LP的技术类似的技术对所计算的二维系数集合进行量化和编码，但在论文的上下文中没有考虑残余项目的量化。然而，所描述的实施方式具有高延迟和显著复杂度，因此，它相当不适合于需要低延迟的实时应用，例如通信系统。

在[8]中描述的立体声系统(如基于MDCT的系统)中，执行离散LR声道信号的预处理，以便使用频域噪声整形将频谱缩放到“白化域”。然后，执行联合立体声处理，以最佳方式对白化的频谱进行量化和编码。

之前描述的频谱噪声整形技术的缩放参数是针对每个声道独立量化编码的。这导致辅助信息的双比特率需要通过比特流被发送给解码器。

发明内容

本发明的目的是提供改进的或更高效的编码/解码概念。

该目的是通过权利要求1所述的音频量化器、权利要求16所述的音频去量化器、权利要求31所述的量化方法、权利要求32所述的去量化方法或权利要求33所述的计算机程序来实现的。

本发明基于以下发现：针对多声道信号的L、R信号或通常两个或更多个声道相关的情况可以获得比特率节省。在这种情况下，两个声道的提取参数非常相似。因此，应用参数的联合量化编码，从而导致比特率的显著节省。该比特率的节省可以用于若干个不同的方向。一个方向可以是将节省的比特率用于核心信号的编码，从而改善立体声或多声道信号的整体感知质量。另一方向是在核心信号的编码未被改善并因此整体感知质量未被改善但保持相同质量的情况下达到较低的整体比特率。

在优选实施例中，根据第一方面，音频编码器包括：缩放参数计算器，用于针对多声道音频信号的第一声道的第一缩放参数集合以及针对多声道音频信号的第二声道的第二缩放参数集合计算第一组联合编码缩放参数和第二组联合编码缩放参数。音频编码器还包括：信号处理器，用于将第一缩放参数集合应用于多声道音频信号的第一声道并且将第二缩放参数集合应用于多声道音频信号的第二声道。信号处理器附加地从分别通过应用第一缩放参数集合和第二缩放参数集合而获得的第一声道数据和第二声道数据中导出多声道音频数据。音频编码器附加地具有：编码信号形成器，用于使用多声道音频数据和关于第一组联合编码缩放参数的信息以及关于第二组联合编码缩放参数的信息来获得编码多声道音频信号。

优选地，缩放参数计算器被配置为自适应的，使得针对多声道音频信号的每个帧或子帧，确定是要执行对缩放参数进行联合编码还是对缩放参数进行单独编码。在另一实施例中，该确定基于所考虑的多声道音频信号的声道之间的相似度分析。具体地，通过计算联合编码参数的能量，并且具体地，计算第一组联合编码缩放参数和第二组联合编码缩放参数中的一个缩放参数集合的能量，来进行相似度分析。具体地，缩放参数计算器将第一组计算为对应的第一缩放参数和第二缩放参数之间的和，并将第二组计算为对应的第一缩放参数和第二缩放参数之间的差值。具体地，第二组并且优选地表示差值的缩放参数用于相似度度量的确定，以便决定是对缩放参数进行联合编码还是对缩放参数进行单独编码。该情况可以经由立体声或多声道标志用信号通知。

此外，优选地用两级量化过程具体地对缩放参数进行量化。第一级矢量量化器对多个缩放参数或一般而言对音频信息项目进行量化以确定第一级矢量量化结果并确定对应于第一级矢量量化结果的多个中间量化器项目。此外，量化器包括用于根据多个中间量化项目和多个音频信息项目来计算多个残余项目的残余项目确定器。此外，提供了一种第二级矢量量化器，用于对多个残余项目进行量化以获得第二级矢量量化结果，其中，第一级矢量量化结果和第二级矢量量化结果共同表示多个音频信息项目的量化表示，该多个音频信息项目在一个实施例中是缩放参数。具体地，音频信息项目可以是联合编码缩放参数或单独编码缩放参数。此外，其他音频信息项目可以是对矢量量化有用的任何音频信息项目。具体地，除了作为特定音频信息项目的缩放参数或缩放因子之外，对矢量量化有用的其他音频信息项目是诸如MDCT或FFT线的频谱值。可以被矢量量化的其他音频信息项目当它是频谱或时间包络数据表示时是时域音频值(例如音频采样值)或时域音频样本的组或谱域频率线的组或LPC数据或其他包络数据。

在优选实施方式中，残余项目确定器针对每个残余项目计算对应的音频信息项目(例如，缩放参数)与对应的中间量化项目(例如，量化缩放参数或缩放因子)之间的差值。此外，残余项目确定器被配置为：针对每个残余项目，对对应的音频信息项目与对应的中间量化项目之间的差值进行放大或加权，使得多个残余项目大于对应的差值，或者对多个音频信息项目和/或多个中间量化项目进行放大或加权，然后计算所放大的项目之间的差值以获得残余项目。通过该过程，可以对量化误差进行有用的控制。具体地，当第二组音频信息项目(例如，不同缩放参数)非常小时(这是典型的情况)，当第一声道和第二声道彼此相关使得已经确定了联合量化时，残余项目通常非常小。因此，当残余项目被放大时，与未执行该放大的情况相比，量化结果将包括未量化为0的更多值。因此，编码器或量化侧的放大可以是有用的。

当如在另一优选实施例中那样，执行第二组联合编码缩放参数(例如，差分缩放参数)的量化时，情况尤其如此。由于这些辅助缩放参数无论如何都很小，因此可能会出现这样情况：在没有放大的情况下，大多数不同的缩放参数无论如何都被量化为0。因此，为了避免这种可能导致立体声印象的损失并因此导致心理声学质量的损失的情况，执行放大使得仅少量或几乎没有辅助缩放参数被量化为0。这当然会减少比特率的节省。然而，由于该事实，量化的残余数据项目无论如何都很小，即导致表示小值的量化索引，并且比特率增加不会太高，因为小值的量化索引比更大值的量化索引被更高效地编码。这甚至可以通过附加地执行熵编码操作来增强，该熵编码操作关于比特率比更大的量化索引更有利于小的量化索引。

在另一优选实施例中，第一级矢量量化器是具有特定码本的矢量量化器，并且第二级矢量量化器是代数矢量量化器，导致在码本编号中，基础码本中的矢量索引和沃罗诺伊(Voronoi)索引作为量化索引。优选地，矢量量化器和代数矢量量化器两者被配置为执行其中两个量化器具有相同的分割级别过程的分割级别矢量量化。此外，第一级矢量量化器和第二级矢量量化器被配置为使得第一级矢量量化器结果的比特数和相应的精度大于第二级矢量量化器结果的比特数或精度，或第一级矢量量化器结果的比特数和相应的精度不同于第二级矢量量化器结果的比特数或精度。在其他实施例中，第一级矢量量化器具有固定比特率，并且第二级矢量量化器具有可变比特率。因此，一般地，第一级矢量量化器和第二级矢量量化器的特性彼此不同。

在根据第一方面的用于对编码音频信号进行解码的音频解码器的优选实施例中，音频解码器包括用于对关于联合编码缩放参数的信息进行解码的缩放参数解码器。此外，音频解码器具有信号处理器，其中，缩放参数解码器被配置为：使用不同的组合规则组合第一组联合编码缩放参数和第二组联合编码缩放参数以获得然后由信号处理器使用的第一缩放参数集合的缩放参数和第二缩放参数集合的缩放参数。

根据本发明的另一方面，提供了一种音频去量化器，包括第一级矢量去量化器、第二级矢量去量化器和组合器，该组合器用于组合由第一级矢量去量化器获得的多个中间量化信息项目和从第二级矢量去量化器获得的多个残余项目以获得去量化的多个音频信息项目。

联合缩放参数编码的第一方面可以和与两级矢量量化相关的第二方面相结合。另一方面，两级矢量量化的方面可以应用于单独编码缩放参数(例如，左声道和右声道的缩放参数)或者可以应用于作为另一种音频信息项目的中间缩放参数。因此，可以独立于第一方面或与第一方面一起应用两级矢量量化的第二方面。

随后，总结本发明的优选实施例。

在使用基于变换(MDCT)的编码的立体声系统中，从介绍部分中描述的用于在编码器侧执行频域噪声整形的任何技术中提取的缩放参数需要被量化并被编码作为辅助信息被包括在比特流内。然后在解码器侧，缩放参数被解码并用于缩放每个声道的频谱以按照最小化感知的方式对量化噪声进行整形。

可以应用两个声道(左声道和右声道)的频谱噪声整形参数的独立编码。

取决于两个声道之间的相关程度，独立地或联合地自适应地编码频谱噪声整形缩放参数。总之：

·计算缩放参数的中间/辅助表示

·计算辅助参数的能量。

·取决于能量——指示两个信号之间的相关程度——对参数进行编码：

·独立地：如当前方法一样，针对每个声道使用例如两级矢量量化(VQ)

·联合地：

○使用例如两级矢量量化对中间矢量进行编码。例如通过假设第一级VQ输出包括为零的量化值并仅应用第二级量化(例如，代数矢量量化器(AVQ))，使用更粗略的量化方案对辅助矢量进行编码。

○一个附加比特用于用信号通知量化的辅助矢量是否为零

●用于用信号通知两个声道是被联合编码还是被独立编码的附加一个比特被发送给解码器

在图24中，示出了如[8]中详细描述的基于MDCT立体声的编码器实现。[8]中描述的立体声系统的重要部分是立体声处理是在“白化”频谱上执行的。因此，每个声道经历预处理，其中，针对每个帧，在加窗之后，时域块被变换为MDCT域，然后取决于信号特性在频谱噪声整形(SNS)之前或之后自适应地应用时间噪声整形(TNS)。在频谱噪声整形之后，执行联合立体声处理，即自适应逐带M-S、L/R决策，以高效方式对白化的频谱系数进行量化和编码。作为下一步，进行立体声智能间隙填充(IGF)分析，并将相应信息比特写入比特流。最后，对所处理的系数进行量化和编码。已经添加了与图1中的附图标记相似的附图标记。缩放因子的计算和处理发生在图24中两个TNS块之间的块SNS中。块窗口示出了加窗操作。块MCLT表示修改的复杂度重叠变换。块MDCT表示修改的离散余弦变换。块功率谱表示功率谱的计算。块块切换决策表示对输入信号的分析以确定要用于加窗的块长度。块TNS表示时间噪声整形，并且该特征在块SNS中的频谱的缩放之前或之后执行。

在[7]中描述的MDCT立体声编解码器实现中，在编码器侧执行离散L-R声道的预处理，以便使用频域噪声整形将频谱缩放到“白化域”。然后，执行联合立体声处理，以最佳方式对白化的频谱进行量化和编码。

在解码器侧，如图25所示以及[8]中所述，对编码信号进行解码，并执行逆量化和逆立体声处理。然后，每个声道的频谱通过从比特流中检索到的频谱噪声整形参数进行“去白化”。已经添加了与图1中的附图标记相似的附图标记。缩放因子的解码和处理发生在图25中的块220中。图中指示的块与图24中的编码器中的块相关并且通常执行对应的逆操作。“窗口和OLA”块执行合成加窗操作和后续的重叠和相加操作以获得时域输出信号L和R。

[8]中的系统中应用的频域噪声整形(FDNS)在这里被替换为[6]中描述的SNS。SNS的处理路径的框图分别如图1和图2的编码器和解码器的框图所示。

优选地，可以通过在编码器侧用更大数量的缩放因子进行缩放并且通过将编码器侧的缩放参数下采样到第二缩放参数或缩放因子集合中来获得低比特率而没有质量的实质损失，其中，随后被编码且经由输出接口被发送或存储的第二集合中的缩放参数少于第一数量的缩放参数。因此，在编码器侧，一方面获得了精细缩放，而另一方面获得了低比特率。

在解码器侧，所发送的少量缩放因子由缩放因子解码器进行解码以获得第一缩放因子集合，其中，第一集合中的缩放因子或缩放参数的数量大于第二集合中的缩放因子或缩放参数的数量，然后，在解码器侧在频谱处理器内再次使用更大数量的缩放参数执行精细缩放，以获得精细缩放的频谱表示。

因此，一方面获得了低比特率，然而另一方面获得了音频信号频谱的高质量频谱处理。

在优选实施例中进行的频谱噪声整形仅使用非常低的比特率来实现。因此，即使在基于低比特率变换的音频编解码器中，这种频谱噪声整形也是必不可少的工具。频谱噪声整形在频域中对量化噪声进行整形，使得量化噪声被人耳感知得最少，因此，可以最大化解码输出信号的感知质量。

因此，优选实施例依赖于根据振幅相关度量计算的频谱参数，例如频谱表示的能量。具体地，逐带能量或一般地逐带振幅相关度量被计算为缩放参数的基础，其中，用于计算逐带振幅相关度量的带宽从较低带向较高带增加，以便尽可能接近人的听觉特性。优选地，将频谱表示划分为频带是根据公知的巴克(Bark)缩放进行的。

在另一些实施例中，线性域的缩放参数被计算，并且具体地针对具有大量缩放参数的第一缩放参数集合进行计算，并且该大量缩放参数被转换为类对数域。类对数域通常是小的值被扩展而大的值被压缩的域。然后，缩放参数的下采样或抽取操作在类对数域中进行，该类对数域可以是以10为底的对数域，或以2为底的对数域，其中，出于实现目的，优选后者。然后在类对数域中计算第二缩放因子集合，并且优选地，执行第二缩放因子集合的矢量量化，其中，缩放因子在类对数域中。因此，矢量量化的结果指示类对数域缩放参数。第二缩放因子或缩放参数集合具有例如第一集合的缩放因子的数量的一半或甚至三分之一或甚至更优选地四分之一的数个缩放因子。然后，将第二缩放参数集合中的量化的少量缩放参数放入比特流中，然后从编码器侧发送给解码器侧或作为编码音频信号与已经使用这些参数进行处理的量化频谱一起被存储，其中，该处理附加地涉及使用全局增益的量化。然而，优选地，编码器从这些量化的类对数域第二缩放因子中再次导出线性域缩放因子集合，该线性域缩放因子集合是第三缩放因子集合，并且第三缩放因子集合中的缩放因子的数量大于第二数量，并优选地甚至等于第一缩放因子的第一集合中的缩放因子的第一数量。然后，在编码器侧，这些插值的缩放因子用于处理频谱表示，其中，所处理的频谱表示最终被量化，并以任何方式进行熵编码，例如通过霍夫曼(Huffman)编码、算术编码或基于矢量量化的编码等。

在接收具有少量频谱参数的编码信号连同频谱表示的编码表示的解码器中，少量的缩放参数被插值为大量的缩放参数，即，以获得第一缩放参数集合，其中，第二缩放因子或缩放参数集合的缩放因子的缩放参数的数量少于第一集合(即，由缩放因子/参数解码器计算的集合)的缩放参数的数量。然后，位于用于对编码音频信号进行解码的装置内的频谱处理器使用该第一缩放参数集合来处理解码的频谱表示以获得缩放的频谱表示。用于转换缩放的频谱表示的转换器然后操作以最终获得优选地在时域中的解码音频信号。

其他实施例带来了下面阐述的附加优点。在优选实施例中，在与[6]或[8]或[1]中使用的缩放因子类似的16个缩放参数的帮助下执行频谱噪声整形。这些参数在编码器中通过以下方式来获得：首先计算64个非均匀频带(类似于现有技术3的64个非均匀频带)中的MDCT频谱的能量，然后将一些处理(平滑、预加重、本底噪声、对数转换)应用于64个能量，然后对64个处理的能量进行4倍下采样以获得最终被归一化和缩放的16个参数。然后使用矢量量化(使用与现有技术2/3中使用的矢量量化类似的矢量量化)来量化这16个参数。然后对量化参数进行插值以获得64个插值的缩放参数。然后使用这64个缩放参数直接对64个非均匀频带中的MDCT频谱进行整形。类似于现有技术2和3，然后使用具有由全局增益控制的步长的标量量化器对缩放的MDCT系数进行量化。

在另一实施例中，关于两个组之一(例如，第二组)的联合编码缩放参数的信息(优选地与辅助缩放参数相关)不包括量化索引或其他量化比特，而仅包括诸如指示第二组的缩放参数针对音频信号的一部分或帧全部为零的标志或单个比特之类的信息。该信息由编码器通过分析或其他方式来确定，并被解码器用于基于该信息(例如，通过针对音频信号的时间部分或帧生成零缩放参数)来合成第二组缩放参数，或者被解码器用于仅使用第一组联合编码缩放参数来计算第一缩放参数集合和第二缩放参数集合。

在另一实施例中，第二组联合编码缩放参数仅使用两级量化器的第二量化级进行量化，该第二量化级优选地是可变速率量化器级。在这种情况下，假设第一级产生全零量化值，使得仅第二级是有效的。在又另一实施例中，仅应用两级量化器的第一量化级(其优选地是固定速率量化级)，并且第二级根本不用于音频信号的时间部分或帧。这种情况对应于假设所有残余项目为零或小于第二量化级的最小或第一量化步长的情况。

附图说明

本发明的优选实施例随后参考附图进行讨论，其中：

图1示出了根据第一方面的解码器；

图2示出了根据第一方面的编码器；

图3a示出了根据第一方面的另一编码器；

图3b示出了根据第一方面的编码器的另一实施方式；

图4a示出了根据第一方面的解码器的另一实施例；

图4b示出了解码器的另一实施例；

图5示出了编码器的另一实施例；

图6示出了编码器的另一实施例；

图7a示出了根据第一方面或第二方面的矢量量化器的优选实施方式；

图7b示出了根据第一方面或第二方面的另一量化器；

图8a示出了根据本发明的第一方面的解码器；

图8b示出了根据本发明的第一方面的编码器；

图9a示出了根据本发明的第二方面的编码器；

图9b示出了根据本发明的第二方面的解码器；

图10示出了根据第一方面或第二方面的解码器的优选实施方式；

图11是用于对音频信号进行编码的装置的框图；

图12是图1的缩放因子计算器的优选实现方式的示意性表示；

图13是图1的下采样器的优选实施方式的示意性表示；

图14是图4的缩放因子编码器的示意性表示；

图15是图1的频谱处理器的示意性图示；

图16一方面示出了实现频谱噪声整形(SNS)的编码器的一般表示，并且另一方面示出了实现频谱噪声整形(SNS)的解码器的一般表示；

图17一方面示出了其中时间噪声整形(TNS)与频谱噪声整形(SNS)一起实现的编码器侧的更详细的表示，并且另一方面示出了其中时间噪声整形(TNS)与频谱噪声整形(SNS)一起实现的解码器侧的更详细的表示；

图18示出了用于对编码音频信号进行解码的装置的框图；

图19示出了示出图8的缩放因子解码器、频谱处理器和频谱解码器的细节的示意性图示；

图20示出了将频谱细分为64个频带；

图21一方面示出了下采样操作的示意性图示，并且另一方面示出了插值操作的示意性图示；

图22a示出了具有重叠帧的时域音频信号；

图22b示出了图1转换器的实施方式；

图22c示出了图8的转换器的示意性图示；

图23示出了比较不同的发明过程的直方图；

图24示出了编码器的实施例；以及

图25示出了解码器的实施例。

具体实施方式

图8示出了一种用于对编码音频信号进行解码的音频解码器，该编码音频信号包括多声道音频数据和关于联合编码缩放参数的信息，该多声道音频数据包括针对两个或更多个音频声道的数据。解码器包括缩放参数解码器220和在图8a中作为单个项目示出的信号处理器210、212、213。缩放参数解码器220接收关于联合编码的第一组缩放参数和第二组缩放参数的信息，其中，优选地，第一组缩放参数是中间缩放参数，并且第二组缩放参数是辅助缩放参数。优选地，信号处理器接收多声道音频数据的第一声道表示和多声道音频数据的第二声道表示，并将第一缩放参数集合应用于从多声道音频数据中导出的第一声道表示，并且将第二缩放参数集合应用于从多声道音频数据中导出的第二声道表示，以在图8a的块210、212、213的输出处获得解码音频信号的第一声道和第二声道。优选地，联合编码缩放参数包括关于第一组联合编码缩放参数(例如，中间缩放参数)的信息和关于第二组联合编码缩放参数(例如，辅助缩放参数)的信息。此外，缩放参数解码器220被配置为使用第一组合规则组合第一组联合编码缩放参数和第二组联合编码缩放参数以获得第一缩放参数集合的缩放参数，并且使用不同于第一组合规则的第二组合规则组合相同的第一组联合编码缩放参数和第二组联合编码缩放参数以获得第二缩放参数集合中的缩放参数。因此，缩放参数解码器220应用两种不同的组合规则。

在优选实施例中，两种不同的组合规则一方面是加法或求和组合规则，并且另一方面是减法或差值组合规则。然而，在其他实施例中，第一组合规则可以是乘法组合规则，而第二组合规则可以是商或除法组合规则。因此，取决于第一组缩放参数和第二组缩放参数或第一缩放参数集合和第二缩放参数集合的对应缩放参数的表示，所有其他组合规则对也是有用的。

图8b示出了用于对包括两个或更多个声道的多声道音频信号进行编码的对应音频编码器。音频编码器包括缩放参数计算器140、信号处理器120和编码信号形成器1480、1500。缩放参数计算器140被配置用于：根据多声道音频信号的第一声道的第一缩放参数集合以及根据多声道音频信号的第二声道的第二缩放参数集合来计算第一组联合编码缩放参数和第二组联合编码缩放参数。此外，信号处理器被配置用于：将第一缩放参数集合应用于多声道音频信号的第一声道，并用于将第二缩放参数集合应用于多声道音频信号的第二声道以导出多声道频道音频数据。多声道音频数据是从缩放的第一声道和第二声道导出的，并且多声道音频数据与关于第一组联合编码缩放参数和第二组联合编码缩放参数的信息一起被编码信号形成器1480、1500使用以在图8b中的块1500的输出处获得编码的多声道音频信号。

图1示出了图8a的解码器的另一实施方式。具体地，比特流被输入到信号处理器210中，该信号处理器210通常执行熵解码和逆量化连同智能间隙填充过程(IGF过程)和缩放或白化的声道的逆立体声处理。块210的输出被缩放或左右白化解码，或者通常是多声道信号的若干个解码声道。比特流包括：在单独编码情况下针对左声道和右声道的缩放参数的辅助信息比特，以及针对缩放的联合编码缩放参数(如图1中的M、S缩放参数所示)的辅助信息比特。该数据被引入到缩放参数或缩放因子解码器220中，缩放因子解码器220在其输出端处生成解码的左缩放因子和解码的右缩放因子，这些缩放因子然后被应用于整形频谱块212、230中以最终获得优选的左声道和右声道的MDCT频谱，这些MDCT频谱然后可以使用特定的逆MDCT操作被转换到时域。

图2给出了对应的编码器侧实现。图2从具有输入到频谱整形器120a的左声道和右声道的MDCT频谱开始，并且频谱整形器120a的输出被输入到处理器120b，该处理器120b例如执行立体声处理、编码器侧的智能间隙填充操作、以及对应的量化和(熵)编码操作。因此，块120a、120b一起表示图8b的信号处理器120。此外，为了在块计算SNS(频谱噪声整形)缩放因子120b中执行对缩放因子的计算，还提供了MDST频谱，并且MDST频谱与MDCT频谱一起被转发给功率谱计算器110a中。备选地，功率谱计算器110a可以直接对输入信号进行操作而无需MDCT或MDST频谱过程。例如，另一种方式是根据DFT操作而不是MDCT和MDST操作来计算功率谱。此外，缩放因子被图2中所示的缩放参数计算器140计算为缩放因子的块量化编码。具体地，块140取决于第一声道与第二声道之间的相似度输出左声道和右左声道的单独编码缩放因子或M和S的联合编码缩放因子。这在图2中的块140的右侧示出。因此，在该实施方式中，块110b计算左声道和右声道的缩放因子，然后块140确定单独编码(即左缩放因子和右缩放因子的编码)是比联合编码缩放因子(即，通过两种不同的组合规则(例如，一方面是加法，而另一方面是减法)从单独的缩放因子中导出的M和S缩放因子)的编码更好还是更差。

块140的结果是L、R或M、S的辅助信息比特，这些辅助信息比特与块120b的结果一起被引入到图2所示的输出比特流中。

图3a示出了图2或图8b的编码器的优选实施方式。第一声道被输入到块1100a中，该块1100a针对第一声道(即，声道L)确定单独的缩放参数。此外，第二声道被输入到块1100b中，该块1100b针对第二声道(即，声道R)确定单独的缩放参数。然后，第一声道的下采样器130a和第二声道的下采样器130b相应地对左声道的缩放参数和右声道的缩放参数进行下采样。结果是左声道的下采样参数(DL)和右声道的下采样参数(DR)。

然后，这些数据DL和DR都被输入到联合缩放参数确定器1200中。联合缩放参数确定器1200生成第一组联合编码缩放参数(例如，中间或M缩放参数)和第二组联合编码缩放参数(例如，辅助或S缩放参数)。两组都被输入对应的矢量量化器140a、140b以获得量化值，这些量化值然后在最终的熵编码器140c中并被编码以获得关于联合编码缩放参数的信息。

熵编码器140c可以被实现为执行算术熵编码算法或具有一维霍夫曼码表或具有一维或多维霍夫曼码表的熵编码算法。

图3b中示出了编码器的另一种实现，其中不使用单独的缩放参数(例如，图3a中的130a、130b处所示的左声道的下采样参数和右声道的下采样参数)执行下采样。相反，联合缩放参数确定和对应下采样器130a、130b进行的后续下采样的操作顺序被改变。使用图3a还是图3b的实施方式取决于特定的实施方式，其中优选图3a的实施方式，因为已经对下采样的缩放参数执行联合缩放参数确定1200，即，与图3b中的情况相比，通常对较少数量的输入执行由缩放参数计算器140执行的两个不同的组合规则。

图4a示出了一种用于对编码音频信号进行解码的音频解码器，该编码音频信号具有多声道音频数据和关于联合编码缩放参数的信息，该多声道音频数据包括针对两个或更多个音频声道的数据。然而，图4a中的解码器仅是图8a的整个解码器的一部分，因为在图4a中仅示出了信号处理器的一部分，并且具体地，对应的声道缩放器212a、212b。对于缩放参数解码器220，该元件包括熵解码器2200，该熵解码器2200反转由图3a中的对应块140c执行的过程。此外，熵解码器输出量化的联合编码缩放参数，例如量化的M缩放参数和量化的S缩放参数。对应组的缩放参数被输入到去量化器2202和2204中，以便获得M缩放参数和S缩放参数的去量化值。这些去量化值然后被输入到单独的缩放参数确定器2206中，该单独的缩放参数确定器2206输出左声道和右声道的缩放参数，即，单独的缩放参数。这些对应的缩放参数被输入到插值器222a、222b中以获得左声道(IL)的插值缩放参数和右声道(IR)的插值缩放参数。这两个数据分别被输入到声道缩放器212a和212b中。此外，声道缩放器在例如由图1中的块210进行的整个过程之后相应地接收第一声道表示。相应地，声道缩放器212b也获得其对应的由图1中的块210输出的第二声道表示。然后，发生如图1中命名的最终声道缩放或“整形频谱”以获得左声道和右声道的整形频谱声道，左声道和右声道在图1中被示出为“MDCT频谱”。然后，可以执行在240a、240b处所示的针对每个声道的最终频域到时域的转换，以便最终获得时域表示中的多声道音频信号的解码第一声道和解码第二声道。

具体地，图4a左侧部分所示的缩放参数解码器220可以被包括在如图1所示的音频解码器内，或如图4a中共同所示，但也可以作为本地解码器被包括在编码器内，如将关于图5所示，图5明确地示出了在缩放参数编码器140的输出处的本地缩放参数解码器220。

图4b示出了另一实施方式，其中，针对图4a，交换了插值和用于确定单独的缩放参数的缩放参数确定的顺序。具体地，使用图4b的插值器222a、222b对联合编码缩放参数M和S进行插值，并且将所插值的联合编码缩放参数(例如，IM和IS)输入到单独的缩放参数确定器2206中。然后，块2206的输出是上采样的缩放参数，即，针对例如图21所示的64个频带中的每个频带的缩放参数。

图5示出了图8b、图2或图3a、图3b的编码器的另一优选实施方式。第一声道和第二声道两者都被引入到可选的时域到频域转换器(例如，图5的100a、100b)。由块100a、100b输出的频谱表示被输入到声道缩放器120a，该声道缩放器120a单独地缩放左声道和右声道的频谱表示。因此，声道缩放器120a执行图2的120a中所示的整形频谱操作。声道缩放器的输出被输入到图5的声道处理器120b中，并且块120b的处理的声道输出被输入到编码信号形成器1480、1500中以获得编码音频信号。

此外，为了确定单独或联合编码的缩放参数，提供了相似度计算器1400，其直接在时域中接收第一声道和第二声道作为输入。备选地，相似度计算器可以在时域到频域转换器100a、100b的输出端处接收第一声道和第二声道，即频谱表示。

尽管将结合图6来概述两个声道之间的相似度是基于第二组联合编码缩放参数(即，基于辅助缩放参数)计算的，但应当注意，该相似度也可以直接基于时域或谱域声道来计算，而无需显式地计算联合编码缩放参数。备选地，相似度也可以基于第一组联合编码缩放参数(即，基于中间缩放参数)来确定。具体地，当辅助缩放参数的能量低于阈值时，则确定可以执行联合编码。类似地，也可以测量帧中的中间缩放参数的能量，并且例如当中间缩放参数的能量大于另一阈值时，可以做出联合编码的确定。因此，可以实现用于确定第一声道与第二声道之间的相似度的许多不同方式，以便决定是对缩放参数进行联合编码还是对缩放参数进行单独编码。然而，需要指出的是，缩放参数的联合编码或单独编码的确定不一定必须与声道的联合立体声编码的确定相同，即两个声道是使用中间/辅助表示进行联合地编码还是以L、R表示进行单独地编码。对缩放参数的联合编码的确定是独立于对实际声道的立体声处理的确定进行的，因为对在图2中的块120b中执行的任何种类的立体声处理的确定是在使用中间和辅助缩放因子对频谱进行缩放或整形之后进行的。具体地，如图2所示，块140可以确定联合编码。因此，如图2中指向块140的箭头所示，M缩放因子和S缩放因子可以出现在该块内。在图5的编码器内应用本地缩放参数解码器220的情况下，则实际使用的用于对频谱进行整形的缩放参数，尽管是左缩放参数和右缩放参数，但仍然是从中间和辅助编码缩放参数和解码缩放参数中导出的。

关于图5，提供了模式决定器1402。模式决定器1402接收相似度计算器1400的输出，并且当声道不够相似时决定对缩放参数进行单独编码。然而，当确定声道相似时，则由块1402确定缩放参数的联合编码，并且关于是应用了缩放参数的单独编码还是变化联合编码的信息由图5所示的从块1402向编码信号形成器1480、1500提供的对应辅助信息或标志1403用信号通知。此外，编码器包括缩放参数编码器140，该缩放参数编码器140接收第一声道的缩放参数和第二声道的缩放参数，并在模式决定器1402的控制下单独或联合地编码缩放参数。在一个实施例中，缩放参数编码器140可以输出如虚线所示的第一声道和第二声道的缩放参数，使得声道缩放器120a使用对应的第一声道缩放参数和第二声道缩放参数执行缩放。然而，优选在编码器内应用本地缩放参数解码器220，使得声道缩放使用本地编码和解码的缩放参数进行，使得去量化的缩放参数应用于编码器中的声道缩放。这具有以下优点：至少关于所使用的用于声道缩放或频谱整形的缩放参数，在编码器和解码器中的声道缩放器内发生完全相同的情况。

图6示出了本发明的关于音频编码器的另一优选实施例。提供了MDCT频谱计算器100，其例如可以是应用MDCT算法的时域到频域转换器。此外，如图2所示，提供了功率谱计算器110a。单独的缩放参数由对应的计算器1100来计算，并且为了计算联合编码缩放参数，使用加法块1200a和减法块1200b来计算。然后，为了确定相似度，使用辅助参数(即，第二组联合编码缩放参数)执行每帧的能量计算。在块1406中，执行与阈值的比较，并且与用于图5的帧的模式决定器1402类似，该块输出对应帧的模式标志或立体声标志。另外，该信息被提供给在当前帧中执行单独或联合编码的可控编码器。为此，可控编码器140接收由块1100计算的缩放参数，即单独的缩放参数，并且附加地接收联合编码的缩放参数，即由块1200a和1200b确定的缩放参数。

当块140确定帧的所有辅助参数都被量化为0时，块140优选地针对该帧生成零标志。当第一声道和第二声道彼此非常接近，并且声道之间的差异以及因此缩放因子之间的差异使得这些差异小于由块140中包括的量化器应用的最小量化阈值时，将出现该结果。块140输出关于用于对应帧的联合编码或单独编码的缩放参数的信息。

图9a示出了用于量化多个音频信息项目的音频量化器。音频量化器包括第一级矢量量化器141、143，其用于量化多个音频信息项目(例如，缩放因子或缩放参数或频谱值等)以确定第一级矢量量化结果146。另外，块141、143生成对应于第一级矢量量化结果的多个中间量化项目。中间量化项目例如是与第一级结果相关联的值。当第一级结果标识具有例如16个特定(量化)值的特定码本时，则中间量化项目是与作为第一级结果146的码本矢量索引相关联的16个值。输入到第一级矢量量化器141、143的中间量化项目和音频信息项目被输入到用于根据多个中间量化项目和多个音频信息项目来计算多个残余项目的残余项目确定器。这是例如通过针对每个项目计算原始项目与量化项目之间的差值来进行。残余项目被输入到用于对多个残余项目进行量化以获得第二级矢量量化结果的第二级矢量量化器145。然后，块141、143的输出处的第一级矢量量化结果和块145的输出处的第二级矢量量化结果一起表示由可选编码信号形成器1480、1500编码的多个音频信息项目的量化表示，可选编码信号形成器1480、1500输出量化音频信息项目，该量化音频信息项目在优选实施例中不仅被量化而且还被附加地熵编码。

图9b示出了对应的音频去量化器。音频去量化器包括第一级矢量去量化器2220，其用于对量化的多个音频信息项目中包括的第一级量化结果进行去量化以获得多个中间量化音频信息项目。此外，提供了第二级矢量去量化器2260，其被配置用于对量化的多个音频信息项目中包括的第二级矢量量化结果进行去量化以获得多个残余项目。来自块2220的中间项目和来自块2260的残余项目两者由组合器2240进行组合，该组合器2240用于组合多个中间量化信息项目和多个残余项目以获得去量化的多个音频信息项目。具体地，块2220的输出处的中间量化项目是单独编码的缩放参数(例如，针对L和R的缩放参数或例如针对M的第一组联合编码缩放参数)，并且残余项目可以表示联合编码辅助缩放参数，例如，即第二组联合编码缩放参数。

图7a示出了图9a的第一级矢量量化器141、143的优选实施方式。在步骤701中，执行对缩放参数的第一子集的矢量量化以获得第一量化索引。在步骤702中，执行对缩放参数的第二子集的矢量量化以获得第二量化索引。此外，取决于实施方式，如块703所示地执行对缩放参数的第三子集的矢量量化以获得作为可选索引的第三量化索引。当存在分割级别量化时，应用图7a中的过程。示例性地，音频输入信号被分成图21所示的64个频带。这64个频带被下采样为16个频带/缩放因子，使得整个频带被16个缩放因子覆盖。这16个缩放因子由第一级矢量量化器141、143以图7a所示的分割级别模式进行量化。图21的通过对原始64个缩放因子进行下采样而获得的16个缩放因子中的前8个缩放因子通过步骤701进行矢量量化，因此该前8个缩放因子表示缩放参数的第一子集。针对8个上频带的其余8个缩放参数表示在步骤702中进行矢量量化的缩放参数的第二子集。取决于实施方式，缩放参数或音频信息项目的整个集合的分离不一定必须恰好在两个子集中进行，而是也可以在三个子集中甚至更多个子集中进行。

与执行了多少个分割无关，每个级别的索引一起表示第一级结果。如关于图14所讨论的，这些索引可以经由图14中的索引组合器被组合以具有单个第一级索引。备选地，第一级结果可以由第一索引、第二索引和可能的第三索引、以及可能甚至更多个未组合但按照原样进行熵编码的索引组成。

除了形成第一级结果的对应索引之外，为了计算帧的残余缩放参数，步骤701、702、703还提供了在块704中使用的中间缩放参数。因此，例如由图9a的块142执行的步骤705产生残余缩放参数，这些残余缩放参数然后由步骤705执行的(代数)矢量量化进行处理以生成第二级结果。因此，分别针对单独的缩放参数L、单独的缩放参数R和第一组联合缩放参数M生成第一级结果和第二级结果。然而，如图7b所示，第二组联合编码缩放参数或辅助缩放参数的(代数)矢量量化仅通过步骤706来执行，该步骤706在优选实施方式中与步骤705相同并且由图9a的块142再次执行。

在另一实施例中，关于两个组之一(例如，第二组)的联合编码缩放参数的信息(优选地与辅助缩放参数相关)不包括量化索引或其他量化比特，而仅包括诸如指示第二组的缩放参数针对音频信号的一部分或帧全部为零或者全部为特定值(例如，小值)的标志或单个比特之类的信息。该信息由编码器通过分析或其他方式来确定，并被解码器用于基于该信息(例如，通过针对音频信号的时间部分或帧生成零缩放参数或通过生成特定值缩放参数或通过生成全部例如小于最小或第一量化级的小随机缩放参数)来合成第二组缩放参数，或者被解码器用于仅使用第一组联合编码缩放参数来计算第一缩放参数集合和第二缩放参数集合。因此，代替执行图7a中的级705，仅将针对第二组联合编码缩放参数的全零标志写为第二级结果。在这种情况下也可以省略块704中的计算，并且可以由用于决定是否要激活并发送全零标志的决定器来代替。该决定器可以通过指示全部跳过S参数的编码的用户输入或比特率信息来控制，或者可以实际执行对残余项目的分析。因此，针对具有全零比特的帧，缩放参数解码器不执行任何组合，而是仅使用第一组联合编码缩放参数来计算第二缩放参数集合，例如通过将第一组的编码缩放参数除以2或通过使用另一预定值进行加权。

在另一实施例中，仅使用两级量化器的第二量化级对第二组联合编码缩放参数进行量化，该第二量化级优选地是可变速率量化器级。在这种情况下，假设第一级产生全零量化值，使得仅第二级是有效的。图7b示出了该情况。

在又另一实施例中，仅应用图7a中的两级量化器的第一量化级(例如，701、702、703)(其优选地是固定速率量化级)，并且第二级705根本不用于音频信号的时间部分或帧。这种情况对应于假设所有残余项目为零或小于第二量化级的最小或第一量化步长的情况。然后，图7b的项目706将对应于图7a的项目701、702、703，并且项目704也可以被省略并且可以被用于决定是否仅使用第一级量化的决定器代替。该决定器可以由用户输入或比特率信息控制，或者可以实际执行对残余项目的分析以确定残余项目足够小，使得由单级量化的第二组联合编码缩放参数的准确性是足够的。

在本发明的在图14中另外示出的优选实施方式中，代数矢量量化器145附加地执行分割级别计算，并且优选地，执行与矢量量化器所执行的分割级别操作相同的分割级别操作。因此，残余值的子集关于频带编号对应于缩放参数的子集。针对具有两个分割级别的情况，即对于图21的前8个下采样的频带，代数矢量量化器145生成第一级别结果。此外，代数矢量量化器145针对上8个下采样的缩放因子或缩放参数或一般地音频信息项目生成第二级别结果。

优选地，代数矢量量化器145被实现为ETSI TS 126 445 V13.2.0(2016-08)中第5.2.3.1.6.9节中定义的代数矢量量化器，如参考文献(4)所提到的，在参考文献(4)中，对应的分割多速率点阵矢量量化的结果是每8个项目的码本编号，即基础码本中的矢量索引和8维沃罗诺伊Voronoi索引。然而，在仅具有单个码本的情况下，可以避免码本编号，并且仅基础码本中的矢量索引和对应的n维沃罗诺伊Voronoi索引就足够。因此，这些项目(对于代数矢量量化结果的每个级别，这些项目是项目a、项目b和项目c或者仅是项目b和项目c)表示第二级量化结果。

随后，参考图10，图10示出了根据本发明的第一方面或第二方面或根据两个方面的与图7a、7b的编码或图14的编码相匹配的对应解码操作。

在图10的步骤2221中，检索量化的中间缩放因子，即第二组联合编码缩放因子。这是在立体声模式标志或图5的项目1403指示真值时进行的。然后，执行第一级解码2223和第二级解码2261，以便重新执行由图14的编码器(并且具体地，由关于图14描述的或关于图7a描述的代数矢量量化器145)进行的过程。在步骤2225中，假设辅助缩放因子全部为0。在步骤2261中，通过0标志值来检查针对该帧是否实际存在非零量化缩放因子。在0标志值指示针对该帧存在非零辅助缩放因子的情况下，则使用第二级解码2261或仅执行图7b的块706来检索并解码量化的辅助缩放因子。在块2207中，将联合编码缩放参数变换回单独编码缩放参数，以便随后输出量化的左缩放参数和右缩放参数，这些缩放参数然后可以用于在解码器中对频谱进行逆缩放。

当立体模式标志值指示零值或当确定在帧内已经使用单独编码时，则仅针对左缩放因子和右缩放因子执行第一级解码2223和第二级解码2261，并且由于左缩放因子和右缩放因子已经在单独编码表示中，因此不需要诸如块2207的任何变换。下面描述了在编码器侧的立体声处理之前并且在解码器侧的逆立体声处理之后对缩放频谱所需的SNS缩放因子进行有效编码和解码的过程，以将本发明的优选实施方式示出为具有注释的示例性伪代码。

缩放因子的联合量化和编码

任何类型的量化(例如，均匀或非均匀标量量化)和熵编码或算术编码可以用于表示参数。在所描述的实施方式中，如算法描述中可以看到的，实现了2级矢量量化方案：

●第一级：2个分割(每个分割8维)，每个分割5个比特，因此用10个比特进行编码

●第二级：代数矢量量化(AVQ)，再次通过残余项目的缩放进行2个分割，其中码本索引是熵编码的，因此使用可变比特率。

由于高度相关声道的辅助信号可以被认为很小，因此仅使用例如缩小规模的第2级AVQ足以表示对应的SNS参数。通过跳过这些信号的第1级VQ，可以实现SNS参数编码的显著复杂度和比特节省。

下面给出了所实现的量化的每个级的伪代码描述。第一级具有2分割矢量量化，每个分割使用5个比特：

从编码过程中输出的索引最终被打包到比特流中并发送给解码器。

上面针对第二级公开的AVQ过程优选地被实现为EVS中所概述的，该EVS是指基于MDCT的TCX章节中的高速率LPC(子章节5.3.3.2.1.3)。具体地，对于所使用的第二级代数矢量量化器，它是5.3.3.2.1.3.4中所述的代数矢量量化器，并且在子章节5.2.3.1.6.9中描述了用于对细化进行量化的代数VQ。在实施例中，对于每个索引，具有用于基础码本索引的码字的集合和用于沃罗诺伊Voronoi索引的码字的集合，并且所有这些索引都是熵编码的，因此具有可变比特率。因此，每个子频带j中AVQ的参数由码本编号、基码本中的矢量索引、以及n维(例如，8维)沃罗诺伊Voronoi索引组成。

缩放因子的解码

在解码器端，从比特流中提取索引，并且索引用于解码并导出缩放因子的量化值。下面给出了该过程的伪代码示例。

下面的伪代码详细地描述了2级解码的过程。

关于编码器侧的残余项目的缩放或放大/加权以及解码器侧的缩放或衰减/加权，加权因子不是针对每个值或分割单独计算的，而是使用单个权重或少量的不同权重(作为近似以避免复杂度)来缩放所有参数。该缩放是确定例如粗略量化(更多量化为零)比特率节省和量化精度(具有相应的频谱失真)之间的折衷的因素，并且可以在编码器中被预定，使得该预定值不必被发送给解码器，但可以在解码器中被固定地设置或初始化以节省传输比特。因此，残余项目的较高缩放将需要更多比特，但具有最小的频谱失真，而降低缩放将节省附加比特，并且如果频谱失真被保持在可接受的范围内，则降低缩放可以用作附加比特率节省的手段。

优选实施例的优点

●当两个声道是相关的并且SNS参数被联合编码时，节省大量比特。

在前一部分中描述的系统中实现的每帧比特节省的示例如下所示：

○独立的：平均88.1个比特

○新独立的：平均72.0个比特

○新联合的：平均52.1个比特

其中，

○“独立的”是[8]中描述的MDCT立体声实现，其使用SNS[6]进行FDNS编码，两个声道仅独立地使用2级VQ，

■第一级：8比特训练的码本(16维)

■第二级：残余项目的AVQ以因子4进行缩放(可变比特率)

○“新独立的”是指本发明的先前描述的实施例，其中，两个声道的相关性不够高并且它们使用如上所述的新的VQ 2级方法被单独编码，并且残余项目以减小因子2.5进行缩放。

○“新联合的”是指联合编码的情况(也如上所述)，其中，在第二级中，残余项目再次以减少因子2.5进行缩放。

●所提出方法的另一优点是计算复杂度节省。如[6]中所示，由于估计LPC所需的自相关计算，新的SNS在[5]中描述的基于LPC的FDNS的计算复杂度方面更优。因此，当将来自[8](其中，使用改进的基于LPC的FDNS[5])的基于MDCT的立体声系统的计算复杂度与其中新的SNS[6]替换基于LPC的方法的实现进行比较时，在32kHz采样速率下存在约6WMOPS的节省。

此外，新的两级量化(第一级使用VQ，而第二级使用减小规模的AVQ)实现了计算复杂度的一定程度的进一步降低。对于前一部分中描述的实施例，计算部分的复杂度在32kHz采样速率下进一步降低了约1WMOPS，具有可接受频谱失真的折衷。

优选实施例或方面的总结

1.频谱噪声整形参数的联合编码，其中，计算参数的中间/辅助表示，并且使用量化和熵编码对中间表示进行编码，并使用较粗略的量化方案对辅助表示进行编码。

2.基于声道相关性或相干性自适应地确定应该对噪声整形参数进行独立编码还是联合编码。

3.发送信令比特以确定对参数进行独立编码还是联合编码。

4.基于MDCT立体实现的应用：

●使用辅助系数为零的比特用信号通知

●使用SNS

●功率谱用于计算SNS

●在第一级中使用2个具有5个比特的分割。

●调整第二级AVQ的残余项目的缩放可以进一步减少用于第二级量化的比特数。

图23示出了根据当前现有技术实现(上面描述为“独立的”)、根据本发明的第二方面的新独立实现、以及根据本发明的第一方面的新的联合实现的两个声道的比特数比较。图23示出了直方图，其中，纵轴表示出现的频率而横轴示出了用于对两个声道的参数进行编码的总比特数的区间。

随后，示出了进一步优选的实施例，其中，特别强调对每个音频声道的缩放因子的计算，并且其中，另外特别强调对缩放参数的下采样和上采样的特定应用，该特定应用在对联合编码缩放参数的计算之前或之后应用，如关于图3a、图3b所示。

图11示出了用于对音频信号160进行编码的装置。尽管音频信号的其他表示(例如，预测域或任何其他域)原则上也是有用的，音频信号160优选地在时域中可用。该装置包括转换器100、缩放因子计算器110、频谱处理器120、下采样器130、缩放因子编码器140和输出接口150。转换器100被配置用于将音频信号160转换为频谱表示。缩放因子计算器110被配置用于根据频谱表示来计算第一缩放参数或缩放因子集合。在块120处接收其他声道，并且来自其他声道的缩放参数由块140接收。

在整个说明书中，使用术语“缩放因子”或“缩放参数”来指代相同的参数或值，即，在某个处理之后用于对某种频谱值进行加权的值或参数。该加权当在线性域中执行时，实际上是与缩放因子的乘法运算。然而，当加权在对数域中执行时，则通过实际的加法或减法操作来进行与缩放因子的加权操作。因此，在本申请的术语中，缩放不仅意味着乘法或除法，而且还取决于特定域意味着加法或减法，或者一般地意味着频谱值例如使用缩放因子或缩放参数被加权或修改的每个操作。

下采样器130被配置用于对第一缩放参数集合进行下采样以获得第二缩放参数集合，其中，第二缩放参数集合中的第二数量的缩放参数少于第一缩放参数集合中的第一数量的缩放参数。这也在图11中的块中进行了概述，其中指出了第二数量小于第一数量。如图11所示，缩放因子编码器被配置用于生成第二缩放因子集合的编码表示，并且该编码表示被转发给输出接口150。由于第二缩放因子集合比第一缩放因子集合具有更少数量的缩放因子的事实，因此用于发送或存储第二缩放因子集合的编码表示的比特率与以下情况相比更低：在下采样器130中执行的缩放因子的下采样尚未被执行。

此外，频谱处理器120被配置用于使用第三缩放参数集合处理由图11中的转换器100输出的频谱表示，第三缩放参数或缩放因子集合具有多于第二数量的缩放因子的第三数量的缩放因子，其中，频谱处理器120被配置为出于频谱处理的目的而使用已经从块110经由线171可用的第一缩放因子集合。备选地，频谱处理器120被配置为使用由下采样器130输出的第二缩放因子集合来计算第三缩放因子集合，如线172所示。在另一实现中，频谱处理器120使用由缩放因子/参数编码器140输出的编码表示来计算第三缩放因子集合，如图11中的线173所示。优选地，频谱处理器120不使用第一缩放因子集合，而是使用由下采样器计算的第二缩放因子集合或者甚至更优选地使用编码表示，或者一般地使用量化的第二缩放因子集合，然后执行用于对量化的第二频谱参数集合进行插值的插值操作以获得由于插值操作而具有更大数量的缩放参数的第三缩放参数集合。

因此，由块140输出的第二缩放因子集合的编码表示要么包括优选使用的缩放参数码本的码本索引，要么包括对应的码本索引集。在其他实施例中，编码表示包括当码本索引或码本索引集或一般地编码表示被输入到解码器侧矢量解码器或任何其他解码器时所获得的量化缩放因子或量化缩放参数。

优选地，频谱处理器120使用在解码器侧也可用的同一缩放因子集合，即，使用量化的第二缩放参数集合连同插值操作以最终获得第三缩放因子集合。

在优选实施例中，第三缩放因子集合中的缩放因子的第三数量等于缩放因子的第一数量。然而，较少数量的缩放因子也是有用的。示例性地，例如，可以在块110中导出64个缩放因子，然后可以将64个缩放因子下采样为16个缩放因子用于传输。然后，可以在频谱处理器120中不必对64个缩放因子而是对32个缩放因子执行插值。备选地，可以对甚至更大数量的缩放因子(例如，多于64个缩放因子，只要编码输出信号170中发送的缩放因子的数量少于在图11的块110中计算或在块120中计算和使用的缩放因子的数量)执行插值。

优选地，缩放因子计算器110被配置为执行图12所示的若干个操作。这些操作涉及对每个频带的振幅相关度量的计算111，其中，一个声道的频谱表示被输入到块111中。针对其他声道的计算将以类似的方式进行。每个频带的优选振幅相关度量是每个频带的能量，但也可以使用其他振幅相关度量，例如，每个频带的振幅幅度的总和或对应于能量的平方振幅的总和。然而，除了用于计算每个频带的能量的2的幂之外，还可以使用其他将反映信号的响度的幂(例如，3的幂)并且也可以使用甚至不同于整数的幂(例如1.5或2.5的幂)来计算每个频带的振幅相关度量。只要确保这些幂所处理的值是正值，甚至可以使用小于1.0的幂。

由缩放因子计算器执行的另一操作可以是频带间平滑112。该频带间平滑优选地用于平滑掉可能出现在通过步骤111所获得的振幅相关度量的矢量中的可能不稳定性。如果不执行该平滑，这些不稳定性将在稍后被转换为对数域时被放大，如115所示，尤其是在能量接近0的频谱值中。然而，在其他实施例中，不执行频带间平滑。

由缩放因子计算器110执行的另一优选操作是预加重操作113。该预加重操作具有与之前关于现有技术所讨论的基于MDCT的TCX处理的基于LPC的感知滤波器中使用的预加重操作类似的目的。该过程增加了低频中整形频谱的幅度，从而导致低频中的降低的量化噪声。

然而，取决于实施方式，预加重操作——与其他特定操作一样——不一定必须执行。

另一可选处理操作是本底噪声添加处理114。该过程通过限制波谷中的整形频谱的幅度放大来改善包含非常高频谱动态(例如，Glockenspiel)的信号的质量，这具有降低波峰中的量化噪声的间接效果，代价是波谷中的量化噪声的增加，其中，由于人耳的掩蔽特性(例如，绝对收听阈值、掩蔽前阈值、掩蔽后阈值或一般的掩蔽阈值)，波谷中的量化噪声无论如何是不可感知的，这通常指示在频率上与高音量音调相对接近的非常低音量的音调根本不可感知(即，被完全掩蔽或仅被人类听觉机制粗略地感知)，使得该频谱贡献可以相当粗略地被量化。

然而，不一定必须执行本底噪声添加操作114。

此外，块115指示类对数域转换。优选地，在类对数域中执行图12中的块111、112、113、114之一的输出的变换。类对数域是接近0的值被扩展而高的值被压缩的域。优选地，对数域是底为2的域，但也可以使用其他对数域。然而，底为2的对数域更适合在定点信号处理器上实现。

缩放因子计算器110的输出是第一缩放因子集合。

如图12所示，块112至115中的每个块可以被桥接，即，块111的输出例如可能已经是第一缩放因子集合。然而，所有处理操作并且具体地类对数域转换都是优选的。因此，例如甚至可以通过仅执行步骤111和115而无需执行步骤112至114中的过程来实现缩放因子计算器。在块115的输出处，获得声道(例如，L声道)的缩放参数集合，并且也可以通过类似计算获得另一声道(例如，R声道)的缩放参数集合。

因此，缩放因子计算器被配置用于执行图12所示的过程中的一个或两个或更多个过程，如连接若干个块的输入/输出线所指示的。

图13再次针对单个声道示出了图11的下采样器130的优选实施方式。另一声道的数据以类似的方式进行计算。优选地，在步骤131中执行低通滤波或者一般地具有特定窗口w(k)的滤波，然后执行对滤波结果的下采样/抽取操作。由于低通滤波131和在优选实施例中的下采样/抽取操作132都是算术操作，因此滤波131和下采样132可以在单个操作内执行，如稍后将概述的。优选地，以如下方式来执行下采样/抽取操作：执行在第一缩放参数集合的各组缩放参数之间的重叠。优选地，执行在两个抽取的计算参数之间滤波操作中的一个缩放因子的重叠。因此，步骤131在抽取之前对缩放参数的矢量执行低通滤波。该低通滤波与心理声学模型中使用的扩展功能具有相似的效果。它减少了峰值处的量化噪声，但代价是增加了峰值周围的量化噪声，相对于峰值处的量化噪声，峰值周围处的量化噪声无论如何至少在感知上被掩蔽到更高程度。

此外，下采样器附加地执行均值移除133和附加缩放步骤134。然而，低通滤波操作131、均值移除步骤133和缩放步骤134仅为可选步骤。因此，图13或图11所示的下采样器可以被实施为仅执行步骤132或执行图13所示的两个步骤(例如，步骤131、133和134之一以及步骤132)。备选地，只要执行下采样/抽取操作132，下采样器就可以执行所有四个步骤或仅执行图13所示的四个步骤中的三个步骤。

如图13所示，图13中由下采样器执行的音频操作是在类对数域中执行的，以便获得更好的结果。

图15示出了频谱处理器的优选实施方式。图11的编码器内包括的频谱处理器120包括插值器121，该插值器121针对每个声道或备选地针对一组联合编码缩放参数接收量化的第二缩放参数集合并且针对声道或针对一组联合编码缩放参数输出第三缩放参数集合，其中，第三数量大于第二数量并且优选地等于第一数量。此外，频谱处理器包括线性域转换器120。然后，在块123中，一方面使用线性缩放参数并且另一方面使用由转换器100获得的频谱表示来执行频谱整形。优选地，执行后续时间噪声整形操作(即，频率上预测)，以便在块124的输出处获得频谱残余值，同时将TNS辅助信息转发给输出接口，如箭头129所示。

最后，频谱处理器125、120b具有以下中的至少一个：标量量化器/编码器，被配置用于接收针对整个频谱表示(即，针对整个帧)的单个全局增益；以及立体声处理功能和IGF处理功能等。优选地，全局增益是取决于特定比特率考虑而导出的。因此，全局增益被设置为使得由块125、120b生成的频谱表示的编码表示满足特定要求(例如，比特率要求、质量要求或两者)。全局增益可以迭代地计算或者可以根据情况在前馈度量中计算。通常，全局增益与量化器一起使用，并且高全局增益通常导致较粗略的量化，而低全局增益导致较精细的量化。因此，换言之，当获得固定量化器时，高全局增益导致较大量化步长，而低全局增益导致较小量化步长。然而，其他量化器也可以与全局增益功能一起使用，例如对于高的值具有某种压缩功能(即，某种非线性压缩功能)的量化器，使得例如较高的值比较低的值压缩得更多。当对应于对数域中的加法在线性域中在量化之前全局增益乘以值时，全局增益与量化粗略度之间的上述依赖性是有效的。然而，如果通过线性域中的除法或通过对数域中的减法来应用全局增益，则相关性是相反的。当“全局增益”表示相反值时，情况也是如此。

随后，给出了关于图11至图15描述的各个过程的优选实施方式。

对优选实施例的详细分步描述

编码器：

●步骤1：每个频带的能量(111)

每个频带E_B(n)的能量被计算如下：

其中，X(k)是MDCT系数，N_B＝64是频带的数量，以及Ind(n)是频带索引。频带是非均匀的，并遵循与感知相关的巴克(bark)缩放(低频较小，高频较大)。

·步骤2：平滑(112)

每个频带的能量E_B(b)使用下式进行平滑：

说明：该步骤主要是用于平滑矢量EB(b)中可能出现的不稳定性。如果未被平滑，这些不稳定性在被转换为对数域时被放大(参见步骤5)，尤其是在能量接近0的波谷中。

●步骤3：预加重(113)

然后使用下式来预加重每个频带E_S(b)的平滑能量：

其中，g_tilt控制预加重倾斜并取决于采样频率。采样频率例如16kHz时为18，并且48kHz时为30。该步骤中使用的预加重与现有技术2的基于LPC的感知滤波器中使用的预加重具有相同的目的，它增加了低频中的整形频谱的幅度，从而导致低频中的降低的量化噪声。

●步骤4：本底噪声(114)

使用下式将-40dB的本底噪声添加到E_P(b)：

E_P(b)＝max(E_P(b)，本底噪声)，b＝0..63

其中，本底噪声由下式来计算：

该步骤通过限制波谷中的整形频谱的振幅放大改善了包含非常高频谱动态(例如，glockenspie)的信号的质量，这具有减少波峰中的量化噪声的间接效果，但代价是增加了波谷中的量化噪声，波谷中的量化噪声无论如何都是不可感知的。

●步骤5：对数(115)

然后使用下式执行到对数域的变换：

●步骤6：下采样(131、132)

然后使用下式对矢量E_L(b)进行因子4的下采样：

其中，

该步骤在抽取之前对矢量E_L(b)应用低通滤波(w(k))。该低通滤波与心理声学模型中使用的扩展功能具有相似的效果。它减少了峰值处的量化噪声，但代价是增加了峰值周围的量化噪声，峰值周围处的量化噪声无论如何在感知上被掩蔽。

●步骤7：均值移除和缩放(133、134)

最终的缩放因子是在均值移除和进行因子0.85的缩放之后获得的。

由于编解码器具有附加全局增益，因此可以在不丢失任何信息的情况下移除均值。移除均值还允许更高效的矢量量化。

0.85的缩放会稍微压缩噪声整形曲线的幅度。它与步骤6中所提到的扩展功能具有类似的感知效果：减少峰值处的量化噪声，而增加了波谷处的量化噪声。

●步骤8：量化(141、142)

使用矢量量化对缩放因子进行量化，生成索引，该索引然后被打包到比特流中并被发送给解码器，并且生成量化缩放因子scfQ(n)。

●步骤9：插值(121、122)

使用下式对量化缩放因子scfQ(n)进行插值：

scfQint(0)＝scfQ(0)

scfQint(1)＝scfQ(0)

并且使用下式变换回线性域：

g_SNS(b)＝2^scfQint(b)，b＝0..63

插值用于得到平滑的噪声整形曲线，从而避免相邻频带之间的任何大幅度跳跃。

●步骤10：频谱整形(123)

SNS缩放因子g_SNS(b)分别应用于每个频带的MDCT频率线以生成整形频谱X_s(k)。

图18示出了用于对编码音频信号250(编码为L、R或M、S的立体声信号)进行解码的装置的优选实施方式，该编码音频信号250包括关于编码频谱表示的信息和关于第二缩放参数集合(单独编码的或联合编码的)的编码表示的信息。解码器包括输入接口200、频谱解码器210(例如，执行IGF处理或逆立体声处理或去量化处理)、缩放因子/参数解码器220、频谱处理器230(例如，针对R、L)和转换器240(例如，针对R、L)。输入接口200被配置用于接收编码音频信号250，以及用于提取被转发给频谱解码器210的编码频谱表示，以及用于提取被转发给缩放因子解码器220的第二缩放因子集合的编码表示。此外，频谱解码器210被配置用于对编码频谱表示进行解码以获得被转发给频谱处理器230的解码频谱表示。缩放因子解码器220被配置用于对编码的第二缩放参数集合进行解码以获得被转发给频谱处理器230的第一缩放参数集合。第一缩放因子集合的缩放因子或缩放参数的数量大于第二缩放因子集合的缩放因子或缩放参数的数量。频谱处理器230被配置用于使用第一缩放参数集合来处理解码的频谱表示以获得缩放的频谱表示。缩放的频谱表示然后被转换器240转换以最终获得解码音频信号260，该解码音频信号260是具有多于两个声道的立体声信号或多声道信号。

优选地，缩放因子解码器220被配置为以与关于图11的频谱处理器120所已经讨论的与第三缩放因子或缩放参数集合的计算相关的方式基本相同的方式进行操作，如结合块141或142并且具体地关于图15的块121、122所讨论的。具体地，缩放因子解码器被配置为执行与之前关于步骤9所已经讨论的过程基本上相同的用于插值和变换回线性域的过程。因此，如图19所示，缩放因子解码器220被配置用于将解码器码本221应用于每个帧的表示编码的缩放参数表示的一个或多个索引。然后，在块222中执行插值，该插值与关于图15中的块121所讨论的插值基本相同。然后，使用线性域转换器223，该线性域转换器223与关于图15所已经讨论的线性域转换器122基本相同。然而，在其他实施方式中，块221、222、223的操作可以与关于编码器侧的对应块所已经讨论的操作不同。

此外，图18或图19所示的频谱解码器210包括去量化器/解码器块，其接收编码频谱作为输入并且输出优选地使用全局增益进行去量化的去量化频谱，该全局增益附加地在编码音频信号内以编码的形式从编码器侧发送给解码器侧。块210还可以执行IGF处理或逆立体声处理(例如，MS解码)。去量化器/解码器210例如可以包括算术或霍夫曼(Huffman)解码器功能，其接收某种代码作为输入并且输出表示频谱值的量化索引。然后，这些量化索引与全局增益一起输入到去量化器中，并且输出是去量化的频谱值，去量化的频谱值然后可以在TNS解码器处理块211中进行TNS处理(例如，对频率的逆预测)，然而，该TNS解码器处理块211是可选的。具体地，TNS解码器处理块附加地接收已经由图15的块124生成的TNS辅助信息，如线129所示。TNS解码器处理步骤211的输出被输入到频谱整形块212中，该频谱整形块212使用单独的缩放因子分别针对每个声道进行操作，其中，由缩放因子解码器计算的第一缩放因子集合应用于根据情况能或不能被TNS处理的解码频谱表示，并且输出是每个声道的缩放频谱表示，缩放频谱表示然后被输入到图18的转换器240中。

随后讨论了解码器的优选实施例的另一些过程。

解码器：

●步骤1：量化(221)

在编码器步骤8中生成的矢量量化器索引是从比特流中读取的，并且用于对量化缩放因子scfQ(n)进行解码。

●步骤2：插值(222、223)

与编码器第9步相同。

●步骤3：频谱整形(212)

SNS缩放因子g_SNS(b)分别应用于每个频带的量化MDCT频率线以生成解码的频谱

如以下代码所示。

图16和图17示出了一般的编码器/解码器设置，其中，图16表示没有TNS处理的实施方式，而图17示出了包括TNS处理的实施方式。当指示相同的附图标记时，图16和图17中所示的类似功能对应于其他附图中的类似功能。具体地，如图16所示，输入信号160(例如，立体声信号或多声道信号)被输入到变换级110，并且随后执行频谱处理120。具体地，频谱处理由附图标记123、110、130、140指示的SNS编码器反映，指示块SNS编码器实现了由这些附图标记指示的功能。在SNS编码器块之后，执行量化编码操作120b、125，并且编码信号被输入到比特流中，如图16中的180处所示。比特流180然后出现在解码器侧，并且在附图标记210所示的逆量化和解码之后，执行图18的块210、220、230所示的SNS解码器操作，使得在最后，在逆变换240之后，获得解码的输出信号260。

图17示出了与图16中的表示类似的表示，但表明：优选地，在编码器侧TNS处理是在SNS处理之后执行的，并且相应地，关于解码器侧的处理顺序，TNS处理211是在SNS处理212之前执行的。

优选地使用频谱噪声整形(SNS)与量化/编码(参见下面的框图)之间的附加工具TNS。TNS(时间噪声整形)也对量化噪声进行整形，但也进行时域整形(与SNS的频域整形相反)。TNS对于包含尖锐攻击的信号和语音信号是有用的。

TNS通常应用于变换与SNS之间(例如，在AAC中)。然而，优选地，优选将TNS应用于整形频谱。这避免了TNS解码器在以低比特率操作编解码器时产生的一些伪影。

图20示出了优选地将编码器侧的块100所获得的频谱系数或频谱线细分为频带。具体地，表明较低频带的谱线数量比较高频带少。

具体地，图20中的x轴对应于频带的索引并且示出了64个频带的优选实施例，而y轴对应于谱线的索引并示出了一帧中的320个谱系数。具体地，图20示例性地示出了存在32kHz的采样频率的超宽带(SWB)情况的情形。

对于宽带情况，关于各个频带的情形是一个帧产生160条谱线，并且采样频率是16kHz，使得对于这两种情况，一个帧具有10毫秒的时间长度。

图21示出了关于在图11的下采样器130中执行的优选下采样或如图18的缩放因子解码器220中执行的或如图19的块222中所示的对应的上采样或插值的更多细节。

沿x轴，给出了频带0至63的索引。具体地，存在从0至63的64个频带。

对应于scfQ(i)的16个下采样点被示为竖直线1100。具体地，图21示出了如何执行缩放参数的特定分组以最终获得下采样点1100。示例性地，四个频带的第一块由(0、1、2、3)组成，并且该第一块的中点在由项目1100沿x轴在索引1.5处指示的1.5处。

相应地，四个频带的第二块是(4、5、6、7)，并且第二块的中点是5.5。

窗口1110对应于关于之前描述的步骤6下采样所讨论的窗口w(k)。可以看出，这些窗口以下采样点为中心，并且每一侧都存在一个块的重叠，如前所述。

图19的插值步骤222从16个下采样点恢复64个频带。这在图21中通过将任何线1120的位置计算为特定线1120周围的1100处指示的两个下采样点的函数可以看出。以下示例具体说明了这一点。

第二频带的位置被计算为它周围的两条竖直线(1.5和5.5)的函数：2＝1.5+1/8x(5.5-1.5)。

相应地，第三频带的位置被计算为它周围的两条竖直线1100(1.5和5.5)的函数：3＝1.5+3/8x(5.5-1.5)。

针对前两个频带和最后两个频带执行特定过程。对于这些频带，无法执行插值，因为在0至63的范围之外将不存在竖直线或对应于竖直线1100的值。因此，为了解决该问题，如关于步骤9所述执行外插：如之前所概述的，插值一方面针对两个频带0、1，而另一方面针对62和63。

此外，一方面讨论了图11的转换器100的优选实施方式，并且另一方面讨论了图18的转换器240的优选实施方式。

具体地，图22a示出了用于指示在转换器100内的编码器侧执行的成帧的时间表。图22b示出了编码器侧的图11的转换器100的优选实施方式，而图22c示出了解码器侧的转换器240的优选实施方式。

编码器侧的转换器100优选地被实现为执行具有重叠帧(例如，50％重叠)的成帧，使得帧2与帧1重叠并且帧3与帧2和帧4重叠。然而，也可以执行其他重叠或非重叠处理，但优选与MDCT算法一起执行50％重叠。为此，转换器100包括分析窗口101和随后连接的频谱转换器102，该频谱转换器102用于执行FFT处理、MDCT处理或任何其他类型的时间到频谱转换处理以获得与在图11中被输入到转换器100之后的块的频谱表示序列相对应的帧序列。

相应地，缩放的频谱表示被输入到图18的转换器240中。具体地，转换器包括时间转换器241，该时间转换器241实现逆FFT操作、逆MDCT操作或对应的频谱到时间转换操作。输出被插入到合成窗口242中，并且合成窗口242的输出被输入到重叠相加处理器243中以执行重叠相加操作，以便最终获得解码的音频信号。具体地，块243中的重叠相加处理例如在例如帧3的后半部分和帧4的前半部分的对应样本之间执行逐个样本的相加，使得获得针对如图22a中的项目1200所示的帧3和帧4之间的重叠的音频采样值。以逐个样本的方式执行类似的重叠相加操作，以获得解码的音频输出信号的其余音频采样值。

这里要提及的是，之前讨论的所有替代方案或方面以及由所附权利要求中的独立权利要求定义的所有方面可以被单独使用，即，没有与所设想的替代方案、目标或独立权利要求不同的任何其他替代方案或目标。然而，在其他实施例中，两个或更多个备选方案或方面或独立权利要求可以彼此组合，并且在其他实施例中，所有方面或备选方案和所有独立权利要求可以彼此组合。

尽管上面描述了更多方面，但所附权利要求指示两个不同方面，即，音频解码器、音频编码器以及使用多声道音频信号的声道的缩放参数的联合编码的相关方法，或音频量化器、音频去量化器或相关方法。根据情况这两个方面可以组合或单独使用，并且根据这些方面的本发明适用于与上述具体应用不同的其他音频处理应用。

此外，参考了示出第一方面的附加图3a、图3b、图4a、图4b、图5、图6、图8a、图8b，以及示出第二方面的图9a、图9b，以及示出在第一方面内应用的第二方面的图7a、图7b。

本发明的编码信号可以存储在数字存储介质或非暂时性存储介质上，或者可以在诸如无线传输介质或诸如互联网的有线传输介质的传输介质上传输。

虽然已经在装置的上下文中描述了一些方面，但将清楚的是，这些方面还表示对应方法的描述，其中，块或装置对应于方法步骤或方法步骤的特征。类似地，在方法步骤上下文中描述的方面也指示对相应块或项或者相应装置的特征的描述。

取决于某些实现要求，可以在硬件中或在软件中实现本发明的实施例。实施方式可以使用其上存储有电子可读控制信号的数字存储介质(例如，软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或FLASH存储器)来执行，其与可编程计算机系统协作(或能够协作)，使得执行相应方法。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，其能够与可编程计算机系统协作以便执行本文所述的方法之。

通常，本发明的实施例可以实现为具有程序代码的计算机程序产品，程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。

其他实施例包括存储在机器可读载体或非暂时性存储介质上的用于执行本文描述的方法之一的计算机程序。

换言之，本发明方法的实施例因此是具有程序代码的计算机程序，程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。

因此，本发明方法的另一实施例是其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质)，该计算机程序用于执行本文所述的方法之一。

因此，本发明方法的另一实施例是表示计算机程序的数据流或信号序列，该计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如，经由互联网)传输。

另一实施例包括处理装置，例如，计算机或可编程逻辑器件，所述处理装置被配置为或适于执行本文所述的方法之一。

另一实施例包括其上安装有计算机程序的计算机，该计算机程序用于执行本文所述的方法之一。

在一些实施例中，可编程逻辑器件(例如，现场可编程门阵列)可以用于执行本文所述的方法的功能中的一些或全部。在一些实施例中，现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常，这些方法优选地由任意硬件装置来执行。

上述实施例对于本发明的原理仅是说明性的。应当理解的是，本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此，旨在仅由所附专利权利要求的范围来限制而不是由借助对本文的实施例的描述和解释所给出的具体细节来限制。

随后，总结了另一些实施例/示例：

1.一种用于对编码音频信号进行解码的音频解码器，所述编码音频信号包括多声道音频数据和关于联合编码缩放参数的信息，所述多声道音频数据包括针对两个或更多个音频声道的数据，所述音频解码器包括：

缩放参数解码器(220)，用于对所述关于联合编码缩放参数的信息进行解码，以获得解码音频信号的第一声道的第一缩放参数集合和所述解码音频信号的第二声道的第二缩放参数集合；以及

信号处理器(210、212、230)，用于将所述第一缩放参数集合应用于从所述多声道音频数据中导出的第一声道表示，并且用于将所述第二缩放参数集合应用于从所述多声道音频数据中导出的第二声道表示，以获得所述解码音频信号的第一声道和第二声道，

其中，所述联合编码缩放参数包括关于第一组联合编码缩放参数的信息和关于第二组联合编码缩放参数的信息，以及

其中，所述缩放参数解码器(220)被配置为：使用第一组合规则组合所述第一组中的联合编码缩放参数和所述第二组中的联合编码缩放参数以获得所述第一缩放参数集合中的缩放参数，并且使用不同于所述第一组合规则的第二组合规则组合所述第一组中的联合编码缩放参数和所述第二组中的联合编码缩放参数以获得所述第二缩放参数集合中的缩放参数。

2.根据示例1所述的音频解码器，其中，所述第一组联合编码缩放参数包括中间缩放参数，并且所述第二组联合编码缩放参数包括辅助缩放参数，并且其中，所述缩放参数解码器(220)被配置为：在所述第一组合规则中使用加法，并且在所述第二组合规则中使用减法。

3.根据示例1或2所述的音频解码器，其中，所述编码音频信号被组织成帧的序列，其中，第一帧包括所述多声道音频数据和所述关于联合编码缩放参数的信息，并且其中，第二帧包括单独编码缩放参数信息，以及

其中，所述缩放参数解码器(220)被配置为：检测所述第二帧包括单独编码缩放参数信息，并计算所述第一缩放参数集合和所述第二缩放参数集合。

4.根据示例3所述的音频解码器，其中，所述第一帧和所述第二帧各自包括状态辅助信息，所述状态辅助信息在第一状态中指示所述第一帧包括关于联合编码缩放参数的信息，并且所述状态辅助信息在第二状态中指示所述第二帧包括单独编码缩放参数信息，并且

其中，所述缩放参数解码器(220)被配置为读取所述第二帧的状态辅助信息，基于所读取的状态辅助信息检测所述第二帧包括单独编码缩放参数信息，或者读取所述第一帧的状态辅助信息，并且使用所读取的状态辅助信息来检测所述第一帧包括关于联合编码缩放参数的信息。

5.根据前述示例之一所述的音频解码器，

其中，所述信号处理器(210、212、230)被配置为对所述多声道音频数据进行解码以导出所述第一声道表示和所述第二声道表示，其中，所述第一声道表示和所述第二声道表示是具有频谱采样值的谱域表示，以及

其中，所述信号处理器(210、212、230)被配置为：将所述第一集合和所述第二集合的每个缩放参数应用于对应的多个所述频谱采样值以获得所述第一声道的整形频谱表示和所述第二声道的整形频谱表示。

6.根据示例5所述的音频解码器，其中，所述信号处理器(210、212、230)被配置为：将所述第一声道的整形频谱表示和所述第二声道的整形频谱表示转换到时域以获得所述解码音频信号的所述第一声道的时域表示和所述第二声道的时域表示。

7.根据前述示例之一所述的音频解码器，其中，所述第一声道表示包括第一数量的频带，其中，所述第一缩放参数集合包括第二数量的缩放参数，所述第二数量小于所述第一数量，以及

其中，所述信号处理器(210、212、230)被配置为对所述第二数量的缩放参数进行插值以获得数量大于或等于所述第一数量的频带的多个插值的缩放参数，并且其中，所述信号处理器(210、212、230)被配置为使用所述插值的缩放参数来缩放所述第一声道表示，

或者

其中，所述第一声道表示包括第一数量的频带，其中，所述关于第一组联合编码缩放参数的信息包括第二数量的联合编码缩放参数，所述第二数量小于所述第一数量，

其中，所述缩放参数解码器(220)被配置为：对所述第二数量的联合编码缩放参数进行插值以获得数量大于或等于所述第一数量的频带的多个插值的联合编码缩放参数，以及

其中，所述缩放参数解码器(220)被配置为：处理所述插值的联合编码缩放参数以确定所述第一缩放参数集合和所述第二缩放参数集合。

8.根据前述示例之一所述的音频解码器，其中，所述编码音频信号被组织成帧的序列，其中，所述关于第二组联合编码缩放参数的信息包括特定帧中的零辅助信息，其中，所述缩放参数解码器(220)被配置为检测零辅助信息以确定所述第二组联合编码缩放参数针对所述特定帧全部为零，以及

其中，所述缩放参数解码器(220)被配置为：仅从所述第一组联合编码缩放参数中导出所述第一缩放参数集合和所述第二缩放参数集合中的缩放参数，或者在组合所述第一组中的联合编码缩放参数和所述第二组中的联合编码缩放参数中设置为零值或小于噪声阈值的值。

9.根据前述示例之一所述的音频解码器，

其中，所述缩放参数解码器(220)被配置为：

使用第一去量化模式对所述关于第一组联合编码缩放参数的信息进行去量化，并且

使用第二去量化模式对所述关于第二组联合编码缩放参数的信息进行去量化，所述第二去量化模式不同于所述第一去量化模式。

10.根据示例9所述的音频解码器，其中，所述缩放参数解码器(220)被配置为使用具有关联的比所述第一去量化模式低或高的量化精度的所述第二去量化模式。

11.根据示例9或10所述的音频解码器，其中，所述缩放参数解码器(220)被配置为使用第一去量化级(2220)和第二去量化级(2260)和组合器(2240)作为所述第一去量化模式，所述组合器(2240)接收所述第一去量化级(2220)的结果和所述第二去量化级(2260)的结果作为输入，以及

使用所述第一去量化模式的所述第二去量化级(2220)作为所述第二去量化模式，接收所述关于第二组联合编码缩放参数的信息作为输入。

12.根据示例11所述的音频解码器，其中，所述第一去量化级(2220)是矢量去量化级，并且其中，所述第二去量化级(2260)是代数矢量去量化级，或者其中，所述第一去量化级(2220)是固定速率去量化级，并且其中，所述第二去量化级(2260)是可变速率去量化级。

13.根据示例11或12所述的音频解码器，其中，针对所述编码音频信号的帧，所述关于第一组联合编码缩放参数的信息包括两个或更多个索引，并且其中，所述关于第二组联合编码缩放参数的信息包括单个索引或较少数量的索引或包括与第一组相同数量的索引，以及

其中，所述缩放参数解码器(220)被配置为：在所述第一去量化级(2220)中，例如针对所述两个或更多个索引中的每个索引，确定所述第一组的中间联合编码缩放参数，并且其中，所述缩放参数解码器(220)被配置为：在所述第二去量化级(2260)中，例如根据所述单个或较少数量或与所述关于第一组联合编码缩放参数的信息相同数量的索引来计算所述第一组的残余联合编码缩放参数，并由所述组合器(2240)根据所述第一组的中间联合编码缩放参数和所述第一组的残余联合编码缩放参数来计算所述第一组联合编码缩放参数。

14.根据示例11至13之一所述的音频解码器，其中，所述第一去量化级(2220)包括使用具有第一数量的条目的第一码本的索引或使用表示第一精度的索引，其中，所述第二去量化级(2260)包括使用具有第二数量的条目的第二码本的索引或使用表示第二精度的索引，并且其中，所述第二数量低于或高于所述第一数量或者所述第二精度低于或高于所述第一精度。

15.根据前述示例之一所述的音频解码器，其中，所述关于第二组联合编码缩放参数的信息指示所述第二组联合编码缩放参数针对所述编码音频信号的帧全部为零或处于特定值，并且其中，所述缩放参数解码器(220)被配置为：在使用所述第一规则或所述第二规则进行组合时，使用为零或处于所述特定值或者是合成的联合编码缩放参数的联合编码缩放参数，或

其中，针对包括全零或特定值信息的所述帧，所述缩放参数解码器(220)被配置为仅使用所述第一组联合编码缩放参数而不进行组合操作来确定所述第二缩放参数集合。

16.根据示例9或10之一所述的音频解码器，其中，所述缩放参数解码器(220)被配置为使用第一去量化级(2220)和第二去量化级(2260)和组合器(2240)作为所述第一去量化模式，所述组合器(2240)接收所述第一去量化级(2220)的结果和所述第二去量化级(2260)的结果作为输入，并使用所述第一去量化模式的所述第一去量化级(2220)作为所述第二去量化模式。

17.一种用于对包括两个或更多个声道的多声道音频信号进行编码的音频编码器，包括：

缩放参数计算器(140)，用于根据所述多声道音频信号的第一声道的第一缩放参数集合以及根据所述多声道音频信号的第二声道的第二缩放参数集合来计算第一组联合编码缩放参数和第二组联合编码缩放参数；

信号处理器(120)，用于将所述第一缩放参数集合应用于所述多声道音频信号的第一声道，并用于将所述第二缩放参数集合应用于所述多声道音频信号的第二声道，以及用于导出多声道频道音频数据；以及

编码信号形成器(1480、1500)，用于使用所述多声道音频数据和关于第一组联合编码缩放参数的信息以及关于第二组联合编码缩放参数的信息来获得编码多声道音频信号。

18.根据示例17所述的音频编码器，其中，所述信号处理器(120)被配置为：在所述应用的操作中，

对所述第一组联合编码缩放参数和所述第二组联合编码缩放参数进行编码，以获得所述关于第一组联合编码缩放参数的信息和所述关于第二组联合编码缩放参数的信息，

对所述关于第一组联合编码缩放参数的信息和所述关于第二组联合编码缩放参数的信息进行本地解码，以获得本地解码的第一缩放参数集合和本地解码的第二缩放参数集合，以及

使用本地解码的第一缩放参数集合来缩放所述第一声道以及使用本地解码的第二缩放参数集合来缩放所述第二声道，

或者

其中，所述信号处理器(120)被配置为：在所述应用的操作中，

量化所述第一组联合编码缩放参数和所述第二组联合编码缩放参数，以获得量化的第一组联合编码缩放参数和量化的第二组联合编码缩放参数，

对所述量化的第一组联合编码缩放参数和所述量化的第二组联合编码缩放参数进行本地解码，以获得本地解码的第一缩放参数集合和本地解码的第二缩放参数集合，以及

使用本地解码的第一缩放参数集合来缩放所述第一声道以及使用本地解码的第二缩放参数集合来缩放所述第二声道。

19.根据示例17或18所述的音频编码器，

其中，所述缩放参数计算器(140)被配置为：使用第一组合规则组合所述第一缩放参数集合中的缩放参数和所述第二缩放参数集合中的缩放参数以获得所述第一组联合编码缩放参数中的联合编码缩放参数，并且使用不同于所述第一组合规则的第二组合规则组合所述第一缩放参数集合中的缩放参数和所述第二缩放参数集合中的缩放参数以获得所述第二组联合编码缩放参数中的联合编码缩放参数。

20.根据示例19所述的音频编码器，其中，所述第一组联合编码缩放参数包括中间缩放参数，并且所述第二组联合编码缩放参数包括辅助缩放参数，并且其中，所述缩放参数计算器(140)被配置为：在所述第一组合规则中使用加法，并且在所述第二组合规则中使用减法。

21.根据示例17至20之一所述的音频编码器，其中，所述缩放参数计算器被配置为处理所述多声道音频信号的帧序列，

其中，所述缩放参数计算器(140)被配置为：

针对所述帧序列的第一帧计算第一组联合编码缩放参数和第二组联合编码缩放参数，以及

分析所述帧序列的第二帧以确定所述第二帧的单独编码模式，以及

其中，所述编码信号形成器(1480、1500)被配置为：在编码音频信号中引入指示所述第二帧的单独编码模式或所述第一帧的联合编码模式的状态辅助信息以及关于所述第二帧的第一单独编码缩放参数集合和第二单独编码缩放参数集合的信息。

22.根据示例17至21之一所述的音频编码器，其中，所述缩放参数计算器(140)被配置为：

计算所述第一声道的所述第一缩放参数集合和所述第二声道的所述第二缩放参数集合，

对所述第一缩放参数集合和所述第二缩放参数集合进行下采样以获得下采样的第一集合和下采样的第二集合；以及

使用不同的组合规则组合来自所述下采样的第一集合和所述下采样的第二集合的缩放参数以获得所述第一组中的联合编码缩放参数和所述第二组中的联合编码缩放参数，

或者

其中，所述缩放参数计算器(140)被配置为：

使用不同的组合规则组合来自所述第一集合的缩放参数和来自所述第二集合的缩放参数以获得所述第一组中的联合编码缩放参数和所述第二组中的联合编码缩放参数，以及

对所述第一组联合编码缩放参数进行下采样以获得下采样的第一组联合编码缩放参数，以及对所述第二组联合编码缩放参数进行下采样以获得下采样的第二组联合编码缩放参数，

其中，下采样的第一组和下采样的第二组表示所述关于第一组联合编码缩放参数的信息和所述关于第二组联合编码缩放参数的信息。

23.根据示例21或22所述的音频编码器，

其中，所述缩放参数计算器(140)被配置为：计算所述第二帧中的第一声道和第二声道的相似度，并且在所计算的相似度与阈值具有第一关系的情况下确定所述单独编码模式或者在所计算的相似度与阈值具有不同的第二关系的情况下确定所述联合编码模式。

24.根据示例23所述的音频编码器，其中，所述缩放参数计算器(140)被配置为：

针对所述第二帧计算每个频带的第一集合的缩放参数和第二集合的缩放参数之间的差值，

处理所述第二帧的每个差值从而移除负号以获得所述第二帧的处理差值，

组合所述处理差值以获得相似度度量，

将所述相似度度量与所述阈值进行比较，以及

当所述相似度度量大于所述阈值时，决定支持所述单独编码模式，或者当所述相似度度量低于所述阈值时，决定支持所述联合编码模式。

25.根据示例17至24之一所述的音频编码器，其中，所述信号处理器(120)被配置为：

使用第一级量化功能(141、143)对所述第一组联合编码缩放参数进行量化，以获得一个或多个第一量化索引作为第一级结果，并获得中间的第一组联合编码缩放参数，

根据所述第一组联合编码缩放参数和所述中间的第一组联合编码缩放参数来计算(142)残余的第一组联合编码缩放参数，以及

使用第二级量化功能(145)对所述残余的第一组联合编码缩放参数进行量化，以获得一个或多个量化索引作为第二级结果。

26.根据示例17至25之一所述的音频编码器，

其中，所述信号处理器(120)被配置为使用单级量化功能来对所述第二组联合编码缩放参数进行量化以获得一个或多个量化索引作为单级结果，或

其中，所述信号处理器(120)被配置用于：至少使用第一级量化功能和第二级量化功能对所述第一组联合编码缩放参数进行量化，并且其中，所述信号处理器(120)被配置用于：使用单级量化功能对所述第二组联合编码缩放参数进行量化，其中，所述单级量化功能选自所述第一级量化功能和所述第二级量化功能。

27.根据示例21至26之一所述的音频编码器，其中，所述缩放参数计算器(140)被配置为：

使用第一级量化功能(141、143)对所述第一缩放参数集合进行量化，以获得一个或多个第一量化索引作为第一级结果，并获得中间的第一缩放参数集合，

根据所述第一缩放参数集合和所述中间的第一缩放参数集合来计算(142)残余的第一缩放参数集合，以及

使用第二级量化功能(145)对所述残余的第一缩放参数集合进行量化，以获得一个或多个量化索引作为第二级结果，

或者

其中，所述缩放参数计算器(140)被配置为：

使用第一级量化功能(141、143)对所述第二缩放参数集合进行量化，以获得一个或多个第一量化索引作为第一级结果，并获得中间的第二缩放参数集合，

根据所述第二缩放参数集合和所述中间的第二缩放参数集合来计算(142)残余的第二缩放参数集合，以及

使用第二级量化功能(145)对所述残余的第二缩放参数集合进行量化，以获得一个或多个量化索引作为第二级结果。

28.根据示例25或27所述的音频编码器，

其中，所述第二级量化功能(145)在执行矢量量化之前使用小于1的放大值或加权值来增大所述残余的第一组联合编码缩放参数或所述残余的第一缩放参数集合或所述残余的第二缩放参数集合，其中，所述矢量量化是使用增大的残余值来执行的，和/或

其中，示例性地，所述加权值或放大值用于将缩放参数除以所述加权值或放大值，其中，所述加权值优选地在0.1和0.9之间，或更优选地在0.2和0.6之间，或甚至更优选地在0.25和0.4之间，和/或

其中，相同的放大值用于所述残余的第一组联合编码缩放参数或所述残余的第一缩放参数集合或所述残余的第二缩放参数集合的所有缩放参数。

29.根据示例25至28之一所述的音频编码器，

其中，所述第一级量化功能(141、143)包括具有与所述一个或多个量化索引的第一大小相对应的第一数量的条目的至少一个码本，

其中，所述第二级量化功能(145)或单级量化功能包括具有与所述一个或多个量化索引的第二大小相对应的第二数量的条目的至少一个码本，以及

其中，所述第一数量大于或小于所述第二数量，或者所述第一大小大于或小于所述第二大小，或

其中，所述第一级量化功能(141、143)是固定速率量化功能，并且所述第二级量化功能(145)是可变速率量化功能。

30.根据示例15至29之一所述的音频编码器，其中，所述缩放参数计算器(140)被配置为：

接收所述第一声道的第一MDCT表示和所述第二声道的第二MDCT表示，

接收所述第一声道的第一MDST表示和所述第二声道的第二MDST表示，

根据所述第一MDCT表示和所述第一MDST表示来计算所述第一声道的第一功率谱，并且根据所述第二MDCT表示和所述第二MDST表示来计算所述第二声道的第二功率谱，以及

根据所述第一功率谱来计算所述第一声道的所述第一缩放参数集合，并且根据所述第二功率谱来计算所述第二声道的所述第二缩放参数集合。

31.根据示例30所述的音频编码器，

其中，所述信号处理器(120)被配置为：使用从所述第一缩放参数集合中导出的信息来缩放所述第一MDCT表示，并且使用从所述第二缩放参数集合中导出的信息来缩放所述第二MDCT表示。

32.根据示例17至31之一所述的音频编码器，

其中，所述信号处理器(120)被配置为：使用联合多声道处理来进一步处理缩放的第一声道表示和缩放的第二声道表示以导出所述多声道音频信号的多声道处理表示；可选地使用频带复制处理或智能间隙填充处理或带宽增强处理来进一步处理；以及对所述多声道音频信号的声道的表示进行量化和编码以获得所述多声道音频数据。

33.根据示例17至34之一所述的音频编码器，被配置为：针对所述多声道音频信号的帧，将所述关于第二组联合编码缩放参数的信息确定为全零或针对帧的所有联合编码缩放参数指示相同值或零值的全特定值信息，其中，所述编码信号形成器(1480、1500)被配置为使用全零或全特定值信息来获得所述编码多声道音频信号。

34.根据示例17至34之一所述的音频编码器，其中，所述缩放参数计算器(140)被配置用于：

计算第一帧的第一组联合编码缩放参数和第二组联合编码缩放参数，

计算第二帧的第一组联合编码缩放参数，

其中，在所述第二帧中，不计算或编码联合编码缩放参数，以及

其中，所述编码信号形成器(1480、1500)被配置为：使用标志作为所述关于第二组联合编码缩放参数的信息，所述标志指示：在所述第二帧中，所述第二组中的任何联合编码缩放参数不被包括在所述编码多声道音频信号中。

35.一种用于对编码音频信号进行解码的方法，所述编码音频信号包括多声道音频数据和关于联合编码缩放参数的信息，所述多声道音频数据包括针对两个或更多个音频声道的数据，所述方法包括：

对所述关于联合编码缩放参数的信息进行解码，以获得解码音频信号的第一声道的第一缩放参数集合和所述解码音频信号的第二声道的第二缩放参数集合；以及

将所述第一缩放参数集合应用于从所述多声道音频数据中导出的第一声道表示，并且将所述第二缩放参数集合应用于从所述多声道音频数据中导出的第二声道表示，以获得所述解码音频信号的第一声道和第二声道，

其中，所述解码包括：使用第一组合规则组合所述第一组中的联合编码缩放参数和所述第二组中的联合编码缩放参数以获得所述第一缩放参数集合中的缩放参数，并且使用不同于所述第一组合规则的第二组合规则组合所述第一组中的联合编码缩放参数和所述第二组中的联合编码缩放参数以获得所述第二缩放参数集合中的缩放参数。

36.一种对包括两个或更多个声道的多声道音频信号进行编码的方法，包括：

根据所述多声道音频信号的第一声道的第一缩放参数集合以及根据所述多声道音频信号的第二声道的第二缩放参数集合来计算第一组联合编码缩放参数和第二组联合编码缩放参数；

将所述第一缩放参数集合应用于所述多声道音频信号的第一声道，并将所述第二缩放参数集合应用于所述多声道音频信号的第二声道，以及导出多声道频道音频数据；以及

使用所述多声道音频数据和关于第一组联合编码缩放参数的信息以及关于第二组联合编码缩放参数的信息来获得编码多声道音频信号。

37.一种计算机程序，当运行在计算机或处理器上时，用于执行根据示例31或示例32所述的方法。

参考文献

[1]ISO/IEC 11172-3，Information technology-Coding of moving picturesand associated audio for digital storage media at up to about 1，5Mbit/s-Part3：Audio，1993.

[2]ISO/IEC 13818-7，Information technology-Generic coding of movingpictures and associated audio information-Part 7：Advanced Audio Coding(AAC)，2003.

[3]ISO/IEC 23003-3；Information technology-MPEG audio technologies-Part 3：Unified speech and audio coding.

[4]3GPP TS 26.445，Codec for Enhanced Voice Services(EVS)；Detailedalgorithmic description.

[5]G.Markovic，G.Fuchs，N.Rettelbach，C.Helmrich und B.Schubert，，，LINEARPREDICTION BASED CODING SCHEME USING SPECTRAL DOMAIN NOISE SHAPNG“.Patent US9,595,262 B2，14 March 2017.

[6]E.Ravelli，M.Schnell，C.Benndorf，M.Lutzky und M.Dietz，，，Apparatusand method for encoding and decoding an audio signal using downsampling orinterpolation of scale parameters“.WO Publication WO 2019091904 A1，5 11 2018.

[7]A.Biswas，Advances Advances in Perceptual Stereo Audio Coding UsingLinearPrediction Techniques，Eindhoven：Technical University of Eindhoven，2017.

[8]G.Markovic，E.RaveIli，M.Schnell，S.

W.Jaegars，M.Dietz，C.Heimrich，E.Fotopoulou，M.Multrus，S.Bayer，G.Fuchs und J.Herre，，，APPARATUS ANDMETHOD FOR MDCT M/S STEREO WITH GLOBAL ILD WITH IMPROVED MID/SIDE DECISION“.WO Publication WO2017EP5117。

Claims

1.一种用于量化多个音频信息项目的音频量化器，包括：

第一级矢量量化器(141、143)，用于对所述多个音频信息项目进行量化以确定第一级矢量量化结果和对应于所述第一级矢量量化结果的多个中间量化项目；

残余项目确定器(142)，用于根据所述多个中间量化项目和所述多个音频信息项目来计算多个残余项目；以及

第二级矢量量化器(145)，用于对所述多个残余项目进行量化以获得第二级矢量量化结果，其中，所述第一级矢量量化结果和所述第二级矢量量化结果是所述多个音频信息项目的量化表示。

2.根据权利要求1所述的音频量化器，其中，所述残余项目确定器(142)被配置为针对每个残余项目计算对应的音频信息项目与对应的中间量化项目之间的差值。

3.根据权利要求1或2所述的音频量化器，其中，所述残余项目确定器(142)被配置为：针对每个残余项目，对对应的音频信息项目与对应的中间量化项目之间的差值进行放大或加权，使得所述多个残余项目大于对应的差值，或者对所述多个音频信息项目和/或所述多个中间量化项目进行放大或加权，然后计算所放大的项目之间的差值以获得残余项目。

4.根据前述权利要求之一所述的音频量化器，

其中，所述残余项目确定器(142)被配置为：将所述多个中间量化项目与所述音频信息项目之间的对应差值除以小于1的预定因子，或者将所述多个中间量化项目与所述音频信息项目之间的对应差值乘以大于1的预定因子。

5.根据前述权利要求之一所述的音频量化器，

其中，所述第一级矢量量化器(141、143)被配置为以第一量化精度执行量化，其中，所述第二级矢量量化器(145)被配置为以第二量化精度执行量化，并且其中，所述第二量化精度低于或高于所述第一量化精度，或

其中，所述第一级矢量量化器(141、143)被配置为执行固定速率量化，并且其中，所述第二级矢量量化器(145)被配置为执行可变速率量化。

6.根据前述权利要求之一所述的音频量化器，其中，所述第一级矢量量化器(141、143)被配置为使用具有第一数量的条目的第一级码本，其中，所述第二级矢量量化器(145)被配置为使用具有第二数量的条目的第二级码本，并且其中，所述第二数量的条目少于或多于所述第一数量的条目。

7.根据前述权利要求之一所述的音频量化器，

其中，所述音频信息项目是针对音频信号的帧的缩放参数，所述缩放参数可用于在时域中缩放音频信号的时域音频样本或可用于在谱域中缩放音频信号的谱域音频样本，其中，每个缩放参数可用于缩放至少两个时域或谱域音频样本，其中，所述帧包括第一数量的缩放参数，

其中，所述第一级矢量量化器(141、143)被配置为执行将所述第一数量的缩放参数分割成两个或更多个缩放参数集合的操作，并且其中，所述第一级矢量量化器(141、143)被配置为确定每个缩放参数集合的量化索引以获得表示所述第一量化结果的多个量化索引。

8.根据权利要求7所述的音频量化器，其中，所述第一级矢量量化器(141、143)被配置为组合第一集合的第一量化索引和第二集合的第二量化索引以获得单个索引作为所述第一量化结果。

9.根据权利要求8所述的音频量化器，

其中，所述第一级矢量量化器(141、143)被配置为将所述第一索引和所述第二索引之一乘以与所述第一索引和所述第二索引的比特数相对应的数，并且将相乘后的索引和未相乘的索引相加以获得所述单个索引。

10.根据前述权利要求之一所述的音频量化器，

其中，所述第二级矢量量化器(145)是代数矢量量化器，其中，每个索引包括基础码本索引和沃罗诺伊Voronoi扩展索引。

11.根据前述权利要求之一所述的音频量化器，

其中，所述第一级矢量量化器(141、143)被配置为执行所述多个音频信息项目的第一分割，

其中，所述第二级矢量量化器(145)被配置为执行所述多个残余项目的第二分割，

其中，所述第一分割产生第一数量的音频信息项目子集，所述第二分割产生第二数量的残余项目子集，其中，所述第一数量的子集等于所述第二数量的子集。

12.根据前述权利要求之一所述的音频量化器，

其中，所述第一矢量量化器被配置为从第一码本搜索中输出具有第一比特数的第一索引，

其中，所述第二矢量量化器被配置为针对第二码本搜索输出具有第二比特数的第二索引，所述第二比特数少于或多于所述第一比特数。

13.根据权利要求12所述的音频量化器，

其中，所述第一比特数是在4和7之间的比特数，并且其中，所述第二比特数是在3和6之间的比特数。

14.根据前述权利要求之一所述的音频量化器，

其中，针对多声道音频信号的第一帧，所述音频信息项目包括所述多声道音频信号的第一声道的第一多个缩放参数和所述多声道音频信号的第二声道的第二多个缩放参数，

其中，所述音频量化器被配置为将所述第一级矢量量化器和所述第二级矢量量化器应用于所述第一帧的所述第一多个缩放参数和所述第二多个缩放参数，

其中，针对所述多声道音频信号的第二帧，所述音频信息项目包括第三多个中间缩放参数和第四多个辅助缩放参数，以及

其中，所述音频量化器被配置为：将所述第一级矢量量化器和所述第二级矢量量化器应用于所述第三多个中间缩放参数，并且将所述第二级矢量量化器应用于所述第四多个辅助缩放参数，并且不将所述第一级矢量量化器(141、143)应用于所述第四多个辅助缩放参数。

15.根据权利要求14所述的音频量化器，

其中，所述残余项目确定器(142)被配置为针对所述第二帧对所述第四多个辅助缩放参数进行放大或加权，并且其中，所述第二级矢量量化器(145)被配置为处理所述多声道音频信号的第二帧的放大或加权的辅助缩放参数。

16.一种用于对量化的多个音频信息项目进行去量化的音频去量化器，包括：

第一级矢量去量化器(2220)，用于对所述量化的多个音频信息项目中包括的第一级矢量量化结果进行去量化以获得多个中间量化音频信息项目；

第二级矢量去量化器(2260)，用于对所述量化的多个音频信息项目中包括的第二级矢量量化结果进行去量化以获得多个残余项目；以及

组合器(2240)，用于组合所述多个中间量化信息项目和所述多个残余项目以获得去量化的多个音频信息项目。

17.根据权利要求16所述的音频去量化器，其中，所述组合器(2240)被配置为针对每个去量化的信息项目计算对应的中间量化音频信息项目和对应的残余项目之和。

18.根据权利要求16或17之一所述的音频去量化器，

其中，所述组合器(2240)被配置为对所述多个残余项目进行衰减或加权，使得衰减的残余项目低于在执行所述衰减之前的对应残余项目，并且

其中，所述组合器(2240)被配置为将所述衰减的残余项目与对应的中间量化音频信息项目相加，

或者

其中，所述组合器(2240)被配置为在执行组合之前使用小于1的衰减值或加权值来衰减所述多个残余项目或联合编码缩放参数，其中，所述组合是使用衰减的残余值执行的，和/或

其中，示例性地，所述加权值或衰减值用于将缩放参数乘以所述加权值或放大值，其中，所述加权值优选地在0.1和0.9之间，或更优选地在0.2和0.6之间，或甚至更优选地在0.25和0.4之间，和/或

其中，相同的衰减值或加权值用于所述多个残余项目的所有缩放参数或任何联合编码缩放参数。

19.根据权利要求18所述的音频去量化器，其中，所述组合器(2240)被配置为将对应的残余项目乘以小于1的加权因子或者将对应的残余项目除以大于1的加权因子。

20.根据权利要求16至19之一所述的音频去量化器，

其中，所述第一级去量化器被配置为以第一精度执行去量化，

其中，所述第二级去量化器被配置为以第二精度执行去量化，其中，所述第二精度低于或高于所述第一精度。

21.根据权利要求16至20之一所述的音频去量化器，

其中，所述第一级去量化器被配置为使用具有第一数量的条目的第一级码本，其中，所述第二级去量化器被配置为使用具有第二数量的条目的第二级码本，并且其中，所述第二数量的条目少于或多于所述第一数量的条目，或

其中，所述第一级去量化器被配置为针对第一码本检索接收具有第一比特数的第一索引，

其中，所述第二级矢量去量化器(2260)被配置为针对第二码本检索接收具有第二比特数的第二索引，所述第二比特数少于或多于所述第一比特数，或者其中，示例性地，所述第一比特数是在4和7之间的比特数，并且其中，示例性地，所述第二比特数是在3和6之间的比特数。

22.根据权利要求16至21之一所述的音频去量化器，

其中，所述去量化的多个音频信息项目是针对音频信号的帧的缩放参数，所述缩放参数可用于在时域中缩放音频信号的时域音频样本或可用于在谱域中缩放音频信号的谱域音频样本，其中，每个缩放参数可用于缩放至少两个时域或谱域音频样本，其中，所述帧包括第一数量的缩放参数，

其中，所述第一级去量化器被配置为从所述第一级矢量量化结果的两个或更多个结果索引中确定第一缩放参数集合和第二缩放参数集合，以及

其中，所述第一级矢量去量化器(2220)或所述组合器(2240)被配置为将所述第一缩放参数集合和所述第二缩放参数集合组合成矢量以获得所述第一数量的中间量化缩放参数。

23.根据权利要求22所述的音频去量化器，

其中，所述第一级矢量去量化器(2220)被配置为：检索单个组合索引作为所述第一级去量化结果，并处理所述单个组合索引以获得所述两个或更多个结果索引。

24.根据权利要求23所述的音频去量化器，

其中，所述第一级去量化器被配置为：通过确定除法的余数来检索第一结果索引，并通过确定所述除法的整数结果来检索第二结果索引。

25.根据权利要求16至24之一所述的音频去量化器，其中，所述第二级矢量去量化器(2260)是代数矢量去量化器，其中，每个索引包括基础码本索引和沃罗诺伊Voronoi扩展索引。

26.根据权利要求16至25之一所述的音频去量化器，

其中，所述第一级矢量去量化器(2220)或所述组合器(2240)被配置为将来自音频信号的帧中的量化分割的第一缩放参数集合和第二缩放参数集合组合在一起，

其中，所述第二级矢量去量化器(2260)被配置为将来自残余参数的分割的第一残余参数集合和第二残余参数集合组合在一起，以及

其中，由所述第一矢量去量化器处理的分割数和由所述第二级矢量去量化器(2260)处理的另一分割数相同。

27.根据权利要求16至26之一所述的音频去量化器，

其中，所述第一级矢量去量化器(2220)被配置为使用具有第一比特数的第一索引来生成所述多个中间量化音频信息项目，并且

其中，所述第二级矢量去量化器(2260)被配置为使用具有第二比特数的第二索引作为索引来获得所述多个残余项目，其中，所述第二比特数少于或多于所述第一比特数。

28.根据权利要求27所述的音频去量化器，其中，所述第一比特数在四和七之间，并且所述第二比特数在三和六之间。

29.根据权利要求16至28之一所述的音频去量化器，

其中，针对多声道音频信号的第一帧，所述量化的多个音频信息项目包括所述多声道音频信号的第一声道的第一多个缩放参数和所述多声道音频信号的第二声道的第二多个缩放参数，

其中，所述音频去量化器被配置为将所述第一级矢量去量化器(2220)和所述第二级矢量去量化器(2260)应用于所述第一帧的所述第一多个缩放参数和所述第二多个缩放参数，

其中，针对所述多声道音频信号的第二帧，所述量化的多个音频信息项目包括第三多个中间缩放参数和第四多个辅助缩放参数，以及

其中，所述音频去量化器被配置为将所述第一级矢量去量化器(2220)和所述第二级矢量去量化器(2260)应用于所述第三多个中间缩放参数，并且将所述第二级矢量去量化器(2260)应用于所述第四多个辅助缩放参数，并且不将所述第一级矢量去量化器(2220)应用于所述第四多个辅助缩放参数。

30.根据权利要求29所述的音频去量化器，

其中，所述组合器(2240)被配置为：针对所述第二帧，在进一步使用或进一步处理所述第四多个辅助缩放参数之前，衰减所述第四多个辅助缩放参数。

31.一种对多个音频信息项目进行量化的方法，包括：

对所述多个音频信息项目进行第一级矢量量化以确定第一级矢量量化结果和对应于所述第一级矢量量化结果的多个中间量化项目；

根据所述多个中间量化项目和所述多个音频信息项目来计算多个残余项目；以及

对所述多个残余项目进行第二级矢量量化以获得第二级矢量量化结果，其中，所述第一级矢量量化结果和所述第二级矢量量化结果是所述多个音频信息项目的量化表示。

32.一种对量化的多个音频信息项目进行去量化的方法，包括：

对所述量化的多个音频信息项目中包括的第一级矢量量化结果进行第一级矢量去量化以获得多个中间量化音频信息项目；

对所述量化的多个音频信息项目中包括的第二级矢量量化结果进行第二级矢量去量化以获得多个残余项目；以及

组合所述多个中间量化信息项目和所述多个残余项目以获得去量化的多个音频信息项目。

33.一种计算机程序，当运行在计算机或处理器上时，用于执行权利要求31所述的方法或权利要求32所述的方法。