CN113330515B

CN113330515B - 使用子带合并的感知音频编解码

Info

Publication number: CN113330515B
Application number: CN201980087032.0A
Authority: CN
Inventors: 尼尔斯·沃纳; 伯恩德·埃德勒; 萨沙·迪什
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2018-10-26
Filing date: 2019-10-16
Publication date: 2024-05-24
Anticipated expiration: 2039-10-16
Also published as: US20210233544A1; KR102630922B1; JP7279160B2; WO2020083727A1; BR112021007516A2; EP3644313A1; JP2022505789A; CA3118121C; MX2021004636A; CA3118121A1; EP3871215A1; EP3871215C0; US11688408B2; EP3871215B1; KR20210076134A; CN113330515A

Abstract

实施例提供用于处理音频信号以获得音频信号的子带表示的音频处理器。音频处理器被配置为对音频信号的样本的至少两个部分重叠的块执行级联的重叠临界采样变换，以音频信号的第一样本块为基础获得子带样本集合，以及以音频信号的第二样本块为基础获得对应的子带样本集合。此外，音频处理器被配置为执行两个对应的子带样本集合的加权组合，一个子带样本集合以音频信号的第一样本块为基础获得，且一个子带样本集合是以音频信号的第二样本块为基础获得的，以获得音频信号的经混叠消减的子带表示；其中执行级联的重叠临界采样变换包括使用至少两个窗函数对以第一样本块为基础获得的二进制位的集合进行分段，并且基于经分段的对应于第一样本块的二进制位的集合获得至少两个经分段的二进制位的集合；其中执行级联的重叠临界采样变换包括使用至少两个窗函数对以第二样本块为基础获得的二进制位的集合进行分段，并且基于经分段的对应于第二样本块的二进制位的集合获得至少两个二进制位的集合；并且其中使用级联的重叠临界采样变换的第二重叠临界采样变换来处理二进制位的集合，其中第二重叠临界采样变换包括对至少一个二进制位的集合执行具有相同帧长度的重叠临界采样变换。

Description

使用子带合并的感知音频编解码

技术领域

实施例涉及用于处理音频信号以获得音频信号的子带表示的音频处理器/方法。进一步的实施例涉及用于处理音频信号的子带表示以获得音频信号的音频处理器/方法。一些实施例涉及具有使用子带合并和时域混叠消减的自适应非均匀时间/频率平铺的感知音频编码。一些实施例涉及一种用于辅助控制非均匀滤波器组的许多参数以及将滤波器组扩展到多信道操作的方法。

背景技术

在感知编码中，通常通过丢弃冗余和感知上不相关的信息来降低熵和位率。这是使用滤波器组和量化来实现的。此滤波器组、量化器和心理声学模型一起使用以成形量化噪声，因此它尽可能接近掩蔽阈值，以使整个系统的编码效率和感知质量最大化[2]。

在合成期间，量化噪声将通过滤波器组脉冲和频率响应的频谱和时间形状在时间和频率上成形。因此，为了允许对量化噪声形状进行细粒度控制，需要使用脉冲响应在时间和频率上都紧凑的滤波器组。

具有这些特性的最常用的滤波器组是改进的离散余弦变换(MDCT)，它是一种在所有频带中均具有均匀的时频分辨率的滤波器组。

然而，人类听觉系统表现出不均匀的时间/频率分辨率[3]，导致不同频率中的不同掩蔽阈值形状。

发明目的

因此，本发明的目的是提供一种用于操作非均匀滤波器组的概念，其允许增加量化噪声的量同时保持低可听伪影。

此目的由独立权利要求解决。

实施例提供用于处理音频信号以获得音频信号的子带表示的音频处理器。所述音频处理器包括级联的重叠临界采样变换级，被配置为对音频信号的至少两个部分重叠的样本块执行级联的重叠临界采样变换，以音频信号的第一样本块为基础获得子带样本集合，以及以音频信号的第二样本块为基础获得对应的子带样本集合。此外，音频处理器包括时域混叠消减级，被配置为执行两个对应的子带样本集合的加权组合，一个子带样本集合是以音频信号的第一样本块为基础获得的，且一个子带样本集合是以音频信号的第二样本块为基础获得的，以获得音频信号的经混叠消减的子带表示。由此，级联的重叠临界采样变换级被配置为使用至少两个窗函数对以第一样本块为基础获得的二进制位的集合进行分段，并且基于经分段的与第一样本块对应的二进制位的集合获得至少两个经分段的二进制位的集合，其中级联的重叠临界采样变换级被配置为使用至少两个窗函数对以第二样本块为基础获得的二进制位的集合进行分段，并基于经分段的与第二样本块相对应的二进制位的集合获得至少两个二进制位的集合[例如，至少两个合并因子频带][例如，每个二进制位的集合具有128个系数]，并且其中使用级联的重叠临界采样变换级的第二重叠临界采样变换级对二进制位的集合进行处理[例如合并]，其中第二重叠临界采样变换级是被配置为针对至少一个[例如，每个]二进制位的集合执行具有相同帧长度[例如合并因子]的重叠临界采样变换。

在实施例中，第二重叠临界变换级被配置为对以与第一样本块对应的经分段的二进制位的集合为基础获得的至少两个二进制位的集合中的第一集合[例如，具有128个系数]的N_1，1个子集执行N_1，1个重叠临界采样变换，其中N_1，1个重叠临界采样变换包括相同的帧长度[例如，合并因子]，其中N_1，1是大于或等于二的自然数。

在实施例中，第二重叠临界变换级被配置为对以第二样本块经分段的二进制位的集合为基础获得的至少两个二进制位的集合中的对应的第一集合[例如，具有128个系数]的[例如长度相等的]N_1，2个子集执行N_1，2个重叠临界采样变换，其中N_2，1个重叠临界采样变换包括相同的帧长度[例如，合并因子]，其中N_2，1是大于或等于二的自然数。

在实施例中，音频处理器被配置为针对每个二进制位的集合或针对每个对应的二进制位的集合单独地选择帧长度[例如合并因子]。

例如，处理器可以针对每个集合选择合并因子，从而例如实现改善的或甚至可能的最高的编码效率。

在实施例中，音频处理器被配置为针对每个样本块单独地选择帧长度[例如合并因子]。

例如，处理器可以针对每个块选择合并因子，从而实现例如改进的或甚至可能的最高的编码效率。

在实施例中，音频处理器被配置为，如果为两个相继块使用相同的帧长度[例如合并因子]，则激活时域混叠消减级或保持时域混叠消减级激活，和/或其中音频处理器被配置为，如果为两个相继块使用不同的帧长度，则停用时域混叠消减级或保持时域混叠消减级停用。

例如，由于TDAR，块之间存在依赖关系。如果合并因子被保持，则TDAR是可行的。如果两个相继块的合并因子不同，则停用TDAR。因此(可选地)，处理器可以被配置为执行公共/联合优化，以对合并因子进行适配，例如，针对每个子带样本集合[合并因子频带]一个网格。

在实施例中，处理器被配置为执行公共/联合优化，以对合并因子进行适配，[例如，针对每个子带样本集合[合并因子频带]一个网格]。

在实施例中，至少两个窗函数包括相同的窗宽[例如，将频谱划分为至少两个[例如，8个]相同大小的合并因子频带[例如，每个具有128个系数]]。

在实施例中，至少两个窗函数包括不同的窗宽[例如，将频谱划分为至少两个不同大小的合并因子频带]。

在实施例中，至少两个窗函数包括基本上矩形的窗。

在实施例中，使用第二重叠临界采样变换级对基于至少两个窗函数获得的二进制位的集合进行处理[例如合并]，其中第二重叠临界采样变换级被配置为针对基于至少两个窗函数获得的二进制位的集合中的至少一个[例如，每个]，执行具有相同帧长度[例如合并因子]的至少两个重叠临界采样变换。

在实施例中，音频处理器被配置为执行联合信道编码。

在实施例中，音频处理器被配置为执行M/S或MCT作为联合信道处理。

在实施例中，音频处理器被配置为针对至少两个经分段的二进制位的集合中的每一个，单独地激活或停用联合信道处理[例如，针对每个合并因子频带单独地激活或停用联合信道处理；例如在级联的重叠临界采样变换级的第一重叠临界采样变换级和第二重叠临界采样变换级之间]。

在实施例中，音频处理器被配置为从音频信号的经编码的经混叠消减的子带表示形成位流，其中音频处理器被配置为提供包括至少一个MF参数的位流，所述MF参数用信号通知位流中的对应的二进制位的集合的至少一个帧长度[例如，合并因子]。

在实施例中，音频处理器被配置为对至少一个MF参数进行熵编码。

在实施例中，音频处理器被配置为提供仅包括MF参数的子集的位流，所述MF参数的子集指用信号通知位流中对应的二进制位的集合的帧长度[例如合并因子]。

在实施例中，音频处理器被配置为提供包括用于每个对应的二进制位的集合的TDAR参数的位流。

在实施例中，音频处理器被配置为执行MF和TDAR参数的联合熵编码。

在实施例中，音频处理器被配置为提供包括至少一个MF参数的位流，使得TDAR参数是从至少一个MF参数可导出的[例如，在接收器或解码器场地处]。

例如，所述TDAR参数可从至少一个MF参数导出，而不是在由音频处理器提供的位流中包括TDAR参数。例如，两个相继帧中的相等MF参数可以指示TDAR是活跃的，其中两个相继帧中的不同MF参数可以指示TDAR是非活跃的。

在实施例中，音频处理器被配置为针对每个子带样本集合[合并因子频带]使用一个网格。

进一步的实施例提供了一种音频编码器，其中音频编码器包括根据上述实施例中的一个实施例的处理器，其中音频编码器包括编码器，被配置为对音频信号的经混叠消减的子带表示进行编码，以获得音频信号的经编码的经混叠消减的子带表示，并且其中音频编码器包括位流形成器，被配置为从音频信号的经编码的经混叠消减的子带表示形成位流。

进一步的实施例提供一种用于处理音频信号的子带表示以获得音频信号的音频处理器。音频处理器包括逆时域混叠消减级，被配置为执行音频信号的两个对应的经混叠消减的子带表示的加权组合，以获得经混叠的子带表示，其中经混叠的子带表示是子带样本集合。此外，音频处理器包括级联的逆重叠临界采样变换级，被配置为对子带样本集合执行级联的逆重叠临界采样变换，以获得与音频信号的样本块相关联的样本的集合。由此，级联的逆重叠临界采样变换级包括第一逆重叠临界采样变换级，被配置为对子带样本集合执行逆重叠临界采样变换，以获得与音频信号的给定子带相关联的二进制位的集合，其中，第一逆重叠临界采样变换级被配置为针对子带样本集合执行具有相同帧长度[例如，合并因子]的逆重叠临界采样变换。

在实施例中，第一逆重叠临界采样变换级被配置为对子带样本集合的N_1，1个子集执行N_1，1个逆重叠临界采样变换，其中N_1，1个临界重叠样本变换包括相同的帧长度[例如，合并因子]，其中N_1，1是大于或等于2的自然数。

进一步的实施例提供一种音频解码器，其中音频解码器包括位流解析器，被配置为对位流进行解析，以获得经编码的经混叠消减的子带表示，其中音频解码器包括解码器，被配置为对经编码的经混叠消减的子带表示进行解码，以获得音频信号的经混叠消减的子带表示，并且其中音频解码器包括根据上述实施例之一的音频处理器。

进一步的实施例提供一种用于处理音频信号以获得音频信号的子带表示的方法。所述方法包括对音频信号的至少两个部分重叠的样本块执行级联的重叠临界采样变换，以音频信号的第一样本块为基础获得子带样本集合，以音频信号的样本的第二样本块为基础获得对应的子带样本集合。此外，所述方法包括执行两个对应的子带样本集合的加权组合，一个子带样本集合是以音频信号的第一样本块为基础获得的，且一个子带样本集合是以音频信号的第二样本块为基础获得的，以获得音频信号的经混叠消减的子带表示。因此，执行级联的重叠临界采样变换包括使用至少两个窗函数对以第一样本块为基础获得的二进制位的集合进行分段，并且基于经分段的与第一样本块对应的二进制位的集合获得至少两个经分段的二进制位的集合[例如，至少两个合并因子频带]，其中执行级联的重叠临界采样变换包括使用至少两个窗函数对以第二样本块为基础获得的二进制位的集合进行分段，并基于经分段的与第二样本块对应的二进制位的集合获得至少两个二进制位的集合[例如，至少两个合并因子频带]，以及其中使用级联的重叠临界采样变换的第二重叠临界采样变换对二进制位的集合进行处理[例如合并]，其中第二重叠临界采样变换包括针对至少一个[例如，每个]二进制位的集合执行具有相同帧长度[例如，合并因子]的重叠临界采样变换。

进一步的实施例提供一种用于处理音频信号的子带表示以获得音频信号的方法。所述方法包括对音频信号的两个对应的经混叠消减的子带表示执行加权组合，以获得经混叠的子带表示，其中经混叠的子带表示是子带样本集合。此外，所述方法包括对子带样本集合执行级联的逆重叠临界采样变换，以获得与音频信号的样本块相关联的样本的集合，其中，执行级联的逆重叠临界采样变换包括对子带样本集合执行第一逆重叠临界采样变换，以获得与音频信号的给定子带相关联的二进制位的集合，其中执行第一逆重叠临界采样变换包括针对子带样本集合执行具有相同帧长度[例如合并因子]的逆重叠临界采样变换。

实施例提供了具有紧凑的脉冲响应的非均匀滤波器组，所述滤波器组通过能够在高频和低频中更紧密地遵循掩蔽阈值，从而引入了更多的量化噪声，而不会引入可听见的伪像，从而允许比均匀的滤波器组。

在实施例中，执行对合并因子频带的划分。因此，可能会有许多完全不同的合并布局。但是，由于高灵活性，很难优化整个系统。因此，在实施例中，频谱被划分为合并因子频带(MFB)，其中始终使用相同的合并因子(MF)(比较下面的第2.1.1节。)可以使用在合并因子频带边缘没有重叠的矩形窗口，因为所有合并因子频带都可以通过这种方式独立控制(比较图17)。

在实施例中，执行联合信道处理(M/S或多信道编码工具(MCT)[12])。通常，M/S或MCT也可以与子带合并和TDAR一起使用。中间信道和侧信道可以独立地使用每帧不同的MF参数和TDAR参数。

在实施例中，M/S或MCT单独开启/关闭每个合并因子频带。联合立体声的扩展是在第一MDCT和第二合并MDCT之间以频带方式打开/关闭联合立体声。这使得MS/MCT的频率选择性激活成为可能，例如每个MFB。但是，TDAR只能在具有相同联合立体声配置的两个帧之间(例如，L/R和M/S之间没有TDAR)。

在实施例中，从用于合并因子决策的现有方法中使用窗口切换决策器。在现有方法中，有针对长/短窗口的决策器控制。在某些情况下，这些决策器也可用于MF。

在实施例中，在位流中用信号通知合并因子(包括若干MF参数的熵编码和相互处理)。一般来说，我们需要位流中的一些位，以用信号通知当前帧的MF。这些位也可以是熵编码的。此外，这些位也可以在它们之间进行编码。背景：各种各样的MF，诸如2，8，1，2，16，32，大概比更均匀的MF，诸如例如4，4，8，8，16，16可能性更小。例如通过差分编码，这种相关性可用于保存数据。

在实施例中，传输较少的合并因子，其中可以从邻居导出/内插丢失的合并因子。如果MF真的要像前几节那样均匀，那么所有MF也可以从几个MF中插值。

在实施例中，TDAR参数是从MF参数导出的。TDAR可以作为每个MFB 1位传输。可替代地，TDAR位也可以从MF位中导出(两个相继帧中的相同MF参数＝TDAR打开)。然后，我们不需要TDAR的任何辅助信息。

在实施例中，执行MF参数和TDAR参数的互熵编码。MF值和TDAR值可以以相互的方式进行熵编码。

在这种情况下，对于8MFB和6MF，我们不需要

而仅需要

位。

在实施例中，合并因子频带以非均匀方式划分。为了简单起见，在下面的描述中假设了均匀的MFB。然而，这些也可能变得不均匀。可行的划分可能与比例因子带(SFB)相同。然后，每个SFB传输一个比例因子和一个合并因子。

在实施例中，执行基于网格的合并因子的优化。使用网格进行音频编码已经是最先进的[7]。但是，传统系统只能使用单个网格；另一方面，根据实施例，可以针对每个MFB使用一个网格。

进一步的实施例提供了一种用于处理音频信号以获得音频信号的子带表示的音频处理器。音频处理器包括级联的重叠临界采样变换级和时域混叠消减级。级联的重叠临界采样变换级被配置为对音频信号的至少两个部分重叠的样本块执行级联的重叠临界采样变换，以音频信号的第一样本块为基础获得子带样本集合，以及以音频信号的第二样本块为基础获得对应的子带样本集合。时域混叠消减级被配置为执行两个对应的子带样本集合的加权组合，一个子带样本集合是以音频信号的第一样本块为基础获得的，且一个子带样本集合是以音频信号的第二样本块为基础获得的，以获得音频信号的经混叠消减的子带表示。

进一步的实施例提供了一种用于处理音频信号的子带表示以获得音频信号的音频处理器。所述音频处理器包括逆时域混叠消减级和级联的逆重叠临界采样变换级。逆时域混叠消减级被配置为执行音频信号的(部分重叠的不同样本块的)两个对应的经混叠消减的子带表示的加权(和移位)组合，以获得经混叠的子带表示，其中经混叠的子带表示是子带样本集合。级联的逆重叠临界采样变换级被配置为对子带样本集合执行级联的逆重叠临界采样变换，以获得与音频信号的样本块相关联的样本的集合。

根据本发明的概念，附加的后处理级被添加到重叠临界采样变换(例如，MDCT)传递途径，附加的后处理级包括沿着频率轴的另一个重叠临界采样变换(例如，MDCT)和沿着每个子带时间轴的时域混叠消减。这允许从具有改进的脉冲响应的时间紧凑性的重叠临界采样变换(例如，MDCT)频谱图中提取任意频率标度，同时不引入附加的冗余，且引入经消减的重叠临界采样变换帧延迟。

进一步的实施例提供一种用于处理音频信号以获得音频信号的子带表示的方法。所述方法包括

-对音频信号的至少两个部分重叠的样本块执行级联的重叠临界采样变换，以音频信号的第一样本块为基础获得子带样本集合，以及以音频信号的第二样本块为基础获得对应的子带样本集合；以及

-执行两个对应的子带样本集合的加权组合，一个子带样本集合是以音频信号的第一样本块为基础获得的，且一个子带样本集合是以音频信号的第二样本块为基础获得的，以获得音频信号的经混叠消减的子带表示。

进一步的实施例提供一种用于处理音频信号的子带表示以获得音频信号的方法。所述方法包括：

-执行音频信号的(部分重叠的不同样本块的)两个对应的经混叠消减的子带表示的加权(和移位)组合，以获得经混叠的子带表示，其中经混叠的子带表示是子带样本集合；以及

-对子带样本集合执行级联的逆重叠的临界采样变换，以获得与音频信号的样本块相关联的样本的集合。

在从属权利要求中阐述了有利的实施方式。

随后，描述了用于处理音频信号以获得音频信号的子带表示的音频处理器的有利实施方式。

在实施例中，级联的重叠临界采样变换级可以是级联MDCT(MDCT＝修正的离散余弦变换)、MDST(MDST＝修正的离散正弦变换)或MLT(MLT＝调制的重叠变换)级。

在实施例中，级联的重叠临界采样变换级可以包括第一重叠临界采样变换级，所述第一重叠临界采样变换级被配置为对音频信号的至少两个部分重叠的样本块的第一样本块和第二样本块执行重叠临界采样变换，以获得第一样本块的第一二进制位的集合和第二样本块的第二二进制位的集合(重叠临界采样系数)。

第一重叠临界采样变换级可以是第一MDCT、MDST或MLT级。

级联的重叠临界采样变换级进一步可以包括第二重叠临界采样变换级，所述第二重叠临界采样变换级被配置为对第一二进制位的集合的段(适当的子集)执行重叠临界采样变换，并且对第二二进制位的集合的段(适当的子集)执行重叠临界采样变换，每个段与音频信号的子带相关联，以获得第一二进制位的集合的子带样本集合以及第二二进制位的集合的子带样本集合。

第二重叠临界采样变换级可以是第二MDCT、MDST或MLT级。

因此，第一和第二重叠临界采样变换级可以是相同类型，即MDCT、MDST或MLT级中的一个。

在实施例中，第二重叠临界采样变换级可以被配置为对第一二进制位的集合的至少两个部分重叠的段(适当的子集)执行重叠临界采样变换，以及对第二二进制位的集合的至少两个部分重叠的段(适当的子集)执行重叠临界采样变换，每个段与音频信号的子带相关联，以获得用于第一二进制位的集合的至少两个子带样本集合和用于第二二进制位的集合的至少两个子带样本集合。

从而，第一子带样本集合可以是以第一二进制位的集合的第一段为基础的第一重叠临界采样变换的结果，其中第二子带样本集合可以是以第一二进制位的集合的第二段为基础的第二重叠临界采样变换的结果，其中第三子带样本集合可以是以第二二进制位的集合的第一段为基础的第三重叠临界采样变换的结果，其中第四子带样本集合可以是以第二二进制位的集合的第二段为基础的第四重叠临界采样变换的结果。时域混叠消减级可以被配置为执行第一子带样本集合和第三子带样本集合的加权组合，以获得音频信号的第一经混叠消减的子带表示，并执行第二子带样本集合和第四子带样本集合的加权组合，以获得音频信号的第二经混叠消减的子带表示。

在实施例中，级联的重叠临界采样变换级可以被配置为使用至少两个窗函数对以第一样本块为基础获得的二进制位的集合进行分段，并且基于经分段的与第一样本块对应的二进制位的集合获得至少两个子带样本集合，其中级联的重叠临界采样变换级可以被配置为使用至少两个窗函数对以第二样本块为基础获得的二进制位的集合进行分段，并且基于经分段的与第二样本块对应的二进制位的集合获得至少两个子带样本集合，其中至少两个窗函数包括不同的窗宽。

在实施例中，级联的重叠临界采样变换级可以被配置为使用至少两个窗函数对以第一样本块为基础获得的二进制位的集合进行分段，并且基于经分段的与第一样本块对应的二进制位的集合获得至少两个子带样本集合，其中级联的重叠临界采样变换级可以被配置为使用至少两个窗函数对以第二样本块为基础获得的二进制位的集合进行分段，并基于经分段的与第二样本块对应的二进制位的集合获得至少两个子带样本集合，其中对应于相邻子带样本集合的窗函数的滤波器斜率是对称的。

在实施例中，级联的重叠临界采样变换级可以被配置为使用第一窗函数将音频信号的样本分段成第一样本块和第二样本块，其中重叠临界采样变换级可以被配置为使用第二窗函数对以第一样本块为基础获得的二进制位的集合和以第二样本块为基础获得的二进制位的集合进行分段，以获得对应的子带样本，其中第一窗函数和第二窗函数包括不同的窗口宽度。

在实施例中，级联的重叠临界采样变换级可以被配置为使用第一窗函数将音频信号的样本分段成第一样本块和第二样本块，其中重叠临界采样变换级可以被配置为使用第二窗函数对以第一样本块为基础获得的二进制位的集合和以第二样本块为基础获得的二进制位的集合进行分段，以获得对应的子带样本，其中第一窗函数的窗宽和第二窗函数的窗宽互不相同，其中第一窗函数的窗宽和第二窗函数的窗宽相差的因数不同于2的幂。

随后，音频处理器的有利实现描述了用于处理音频信号的子带表示以获得音频信号。

在实施例中，逆级联的重叠临界采样变换级可以是逆级联MDCT(MDCT＝修正的离散余弦变换)、MDST(MDST＝修正的离散正弦变换)或MLT(MLT＝调制的重叠变换)级。

在实施例中，级联的逆重叠临界采样变换级可以包括第一逆重叠临界采样变换级，所述第一逆重叠临界采样变换级被配置为对子带样本集合执行逆重叠临界采样变换，以获得与音频信号的给定子带相关联的二进制位的集合。

第一逆重叠临界采样变换级可以是第一逆MDCT、MDST或MLT级。

在实施例中，级联的逆重叠临界采样变换级可包括第一重叠和相加级，其被配置为执行与音频信号的多个子带相关联的二进制位的集合的级联，其包括与音频信号的给定子带相关联的二进制位的集合和与音频信号的另一个子带相关联的二进制位的集合的加权组合，以获得与音频信号的样本块相关联的二进制位的集合。

在实施例中，级联的逆重叠临界采样变换级可以包括第二逆重叠临界采样变换级，其被配置为对与音频信号的样本块相关联的二进制位的集合执行逆重叠临界采样变换，以获得与音频信号的样本块相关联的样本的集合。

第二个逆重叠临界采样变换级可以是第二逆MDCT、MDST或MLT级。

由此，第一和第二逆重叠临界采样变换级可以是相同类型，即逆MDCT、MDST或MLT级中的一个。

在实施例中，级联的逆重叠临界采样变换级可以包括第二重叠和相加级，所述第二重叠和相加级被配置为对与音频信号的样本块相关联的样本的集合和与音频信号的另一样本块相关联的另一样本的集合进行重叠和相加，音频信号的所述样本块与所述另一样本块部分重叠，以获得音频信号。

附图说明

在此，参考附图描述本发明的实施例。

图1示出了根据实施例的被配置为处理音频信号以获得音频信号的子带表示的音频处理器的示意框图；

图2示出了根据进一步实施例的被配置为处理音频信号以获得音频信号的子带表示的音频处理器的示意框图；

图3示出了根据进一步实施例的被配置为处理音频信号以获得音频信号的子带表示的音频处理器的示意框图；

图4示出了根据实施例的用于处理音频信号的子带表示以获得音频信号的音频处理器的示意框图；

图5示出了根据进一步实施例的用于处理音频信号的子带表示以获得音频信号的音频处理器的示意框图；

图6示出了根据进一步实施例的用于处理音频信号的子带表示以获得音频信号的音频处理器的示意框图；

图7示出了子带样本的示例(上图)及其样本随时间和频率的扩展(下图)；

图8以图表形式示出了通过几种不同变换获得的频谱和时间不确定性；

图9示出了通过使用和不使用TDAR的子带合并、简单的MDCT短块和阿达玛矩阵子带合并生成的两个示例性脉冲响应的比较的图表；

图10示出了根据实施例的用于处理音频信号以获得音频信号的子带表示的方法的流程图；

图11示出了根据实施例的用于处理音频信号的子带表示以获得音频信号的方法的流程图；

图12示出了根据实施例的音频编码器的示意框图；

图13示出了根据实施例的音频解码器的示意框图；

图14示出了根据实施例的音频分析器的示意框图；

图15示出了根据本发明的实施例的图2和图3中所示的音频处理器的第二重叠临界采样变换级的重叠临界采样变换子级的示意框图；

图16示出了根据本发明的实施例的图5和图6中所示的音频处理器的第一逆重叠临界采样变换级的逆重叠临界采样变换子级的示意框图；

图17示出了根据本发明的实施例的用于对二进制位的集合进行分段以获得二进制位的集合的窗函数的图；

图18示出了由编码器做出的合并因子(MF)和时域混叠消减(TDAR)选择的分布图；

图19以图表形式示出了在39个测试项目上不同失真参数q的两个系统的平均位率；

图20以表格形式列出了质量设置及其失真参数q和由此产生的平均位率；

图21以表格形式列出了不同的测试项目；

图22以表格形式列出了针对在轻度受损的(MQ)和中度受损的(LQ)质量设置下在窗口切换滤波器组(WS)与子带合并滤波器组(SM)之间的成对MUSHRA分数差的正态性的夏皮罗-威尔克检验；

图23示出了在轻度受损的(MQ)和中度受损的(LQ)质量设置下对窗口切换滤波器组(WS)和子带合并滤波器组(SM)之间MUSHRA分数差的分布和核密度估计的图表；

图24列出了轻度受损的(MQ)和中度受损的(LQ)质量设置下对窗口切换滤波器组(WS)与子带合并滤波器组(SM)进行比较的MUSHRA分数的均值、标准差(SD)和威尔科克森符号秩检验结果；

图25以图表形式示出了在轻度受损的(MQ)和中度受损的(LQ)质量设置下单个项目、窗口切换滤波器组和子带合并滤波器组的MUSHRA分数差的均值和95％置信区间；

图26示出了根据实施例的用于处理音频信号以获得音频信号的子带表示的方法的流程图；以及

图27示出了根据实施例的用于处理音频信号的子带表示以获得音频信号的方法的流程图。

具体实施方式

相同或等效的元件或具有相同或等效功能的元件在以下描述中由相同或等效的附图标记表示。

在以下描述中，阐述了多个细节以提供对本发明的实施例的更透彻的解释。然而，对于本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下实践本发明的实施例。在其他情况下，众所周知的结构和设备以框图形式而不是详细示出以避免混淆本发明的实施例。此外，除非另有特别说明，下文描述的不同实施例的特征可以相互组合。

首先，在第1节中，描述了基于级联两个MDCT和时域混叠消减(TDAR)的非均匀正交滤波器组，所述滤波器组能够实现在时间和频率上均紧凑的脉冲响应[1]。然后，在第2节中，评估了音频编码器场景中这种非均匀滤波器组的感知质量，并将其与当前编码器中使用的具有窗口切换的均匀滤波器组的性能进行比较，诸如高级音频编码(AAC)[2]。

1.基于级联两个MDCT和时域混叠消减(TDAR)的非均匀正交滤波器组

图1示出了根据实施例的被配置为处理音频信号102以获得音频信号的子带表示的音频处理器100的示意框图。音频处理器100包括级联的重叠临界采样变换(lappedcritically sampled transform,LCST)级104和时域混叠消减(time domain aliasingreduction，TDAR)级106。

级联的重叠临界采样变换级104被配置为对音频信号102的至少两个部分重叠的样本块108_1和108_2执行级联的重叠临界采样变换，以音频信号102的(至少两个重叠的样本块108_1和108_2中的)第一样本块108_1为基础获得子带样本集合110_1，1，以及以音频信号102的(至少两个重叠的样本块108_1和108_2中的)第二样本块108_2为基础获得对应的子带样本集合110_2，1。

时域混叠消减级104被配置为执行两个对应的子带样本集合110_1，1和110_2，1(即，与相同子带对应的子带样本)的加权组合，一个子带样本集合是以音频信号102的第一样本块108_1为基础获得的，且一个子带样本集合是以音频信号的第二样本块108_2为基础获得的，以获得音频信号102的经混叠消减的子带表示112_1。

在实施例中，级联的重叠临界采样变换级104可以包括至少两个级联的重叠临界采样变换级，或者换句话说，两个重叠临界采样变换级以级联方式连接。

级联的重叠临界采样变换级可以是级联的MDCT(MDCT＝修正的离散余弦变换)级。级联的MDCT级可以包括至少两个MDCT级。

自然地，级联的重叠临界采样变换级也可以是级联的MDST(MDST＝修正的离散正弦变换)或MLT(MLT＝调制的重叠变换)级，分别包括至少两个MDST或MLT级。

两个对应的子带样本集合110_1，1和110_2，1可以是与相同子带(即频带)对应的子带样本。

图2示出了根据进一步实施例的被配置为处理音频信号102以获得音频信号的子带表示的音频处理器100的示意框图。

如图2中所示，级联的重叠临界采样变换级104可以包括第一重叠临界采样变换级120，所述第一重叠临界采样变换级120被配置为对音频信号102的样本的至少两个部分重叠的块108_1和108_2中的(2M)个样本(x_i-1(n)，0≤n≤2M-1)的第一块108_1和(2M)个样本(x_i(n)，0≤n≤2M-1)的第二块108_2执行重叠临界采样变换，以获得用于第一样本块108_1的(M)个二进制位(LCST系数)(X_i-1(k)，0≤k≤M-1)的第一集合124_1和第二样本块108_2的(M)个二进制位(LCST系数)(Xi(k)，0≤k≤M-1)的第2集合124_2。

级联的重叠临界采样变换级104可以包括第二重叠临界采样变换级126，所述第二重叠临界采样变换级126被配置为对第一二进制位集合124_1的段128_1，1(适当子集)(X_v，i-1(k))执行重叠临界采样变换，并对第二二进制位集合124_2的段128_2，1(适当子集)(X_v，i(k))执行重叠临界采样变换，每个段与音频信号102的子带相关联，以获得针对第一二进制位集合124_1的子带样本的集合110_1，1，以及针对第二二进制位集合124_2的子带样本/>的集合110_2，1。

图3示出了根据进一步实施例的被配置为处理音频信号102以获得音频信号的子带表示的音频处理器100的示意框图。换言之，图3示出了分析滤波器组的示意图。因此，假设适当的窗函数。观察到，为了简单起见，在图3中(仅)示出子带帧(y[m]，0<＝m<N/2)的前半部分(即，仅等式(6)的第一行)的处理。

如图3中所示，第一重叠临界采样变换级120可以被配置为对(2M)个样本(x_i-1(n)，0≤n≤2M-1)的第一块108_1执行第一重叠临界采样变换122_1(例如，MDCTi-1)，以获得用于第一样本块108_1的(M)个二进制位(LCST系数)(X_i-1(k)，0≤k≤M-1)的第一集合124_1，并且对(2M)个样本(x_i(n)，0≤n≤2M-1)的第二块108_2执行第二重叠临界采样变换122_2(例如，MDCTi)，以获得用于第二样本块108_2的(M)个二进制位(LCST系数)(Xi(k)，0≤k≤M-1)的第二集合124_2。

详细来讲，第二重叠临界采样变换级126可以被配置为对第一二进制位集合124_1的至少两个部分重叠的段128_1，1和128_1，2(适当子集)(X_v，i-1(k))执行重叠临界采样变换，并且对第二二进制位集合的至少两个部分重叠的段128_2，1和128_2，2(适当子集)(X_v，i(k))执行重叠临界采样变换，每个段与音频信号的子带相关联，以获得针对第一二进制位集合124_1的子带样本的至少两个集合110_1，1和110_1，2，以及针对第二二进制位集合124_2的子带样本/>的至少两个集合110_2，1和110_2，2。

例如，第一子带样本集合110_1，1可以是以第一二进制位集合124_1的第一段132_1，1为基础的第一重叠临界采样变换132_1，1的结果，其中第二子带样本集合110_1，2可以是以第一二进制位集合124_1的第二段128_1，2为基础的第二重叠临界采样132_1，2变换的结果，其中第三子带样本集合110_2，1可以是以第二二进制位集合124_2的第一段128_2，1为基础的第三重叠临界采样变换132_2，1的结果，其中第四子带样本集合110_2，2可以是以第二二进制位集合124_2的第二段128_2，2为基础的第四重叠临界采样变换132_2，2的结果。

从而，时域混叠消减级106可以被配置为执行第一子带样本集合110_1，1和第三子带样本集合110_2，1的加权组合，以获得音频信号的第一经混叠消减的子带表示112_1(y_1，i[m₁])，其中时域混叠消减级106可以被配置为执行第二子带样本集合110_1，2和第四子带样本集合110_2，2的加权组合，以获得音频信号的第二经混叠消减的子带表示112_2(y_2，i[m₂])。

图4示出了根据实施例的用于处理音频信号的子带表示以获得音频信号102的音频处理器200的示意框图。音频处理器200包括逆时域混叠消减(TDAR)级202和级联的逆重叠临界采样变换(LCST)级204。

逆时域混叠消减级202被配置为执行音频信号102的两个对应的经混叠消减的子带表示112_1和112_2(y_v，i(m)，y_v，i-1(m))的加权(和移位)组合，以获得经混叠的子带表示110_1其中经混叠的子带表示是子带样本集合110_1。

级联的逆重叠临界采样变换级204被配置为对子带样本集合110_1执行级联的逆重叠临界采样变换，以获得与音频信号102的样本块108_1相关联的样本的集合。

图5示出了根据进一步实施例的用于处理音频信号的子带表示以获得音频信号102的音频处理器200的示意框图。级联的逆重叠临界采样变换级204可以包括第一逆重叠临界采样变换(LCST)级208以及第一重叠和相加级210。

第一逆重叠临界采样变换级208可以被配置为对子带样本集合110_1，1执行逆重叠临界采样变换，以获得与音频信号的给定子带相关联的二进制位的集合128_1，1。

第一重叠和相加级210可以被配置为执行与音频信号的多个子带相关联的二进制位的集合的级联，其包括与音频信号102的给定子带(v)相关联的二进制位的集合128_1，1的加权组合，其中二进制位/>的集合128_1，2与音频信号102的另一个子带(v-1)相关联，以获得与音频信号102的样本块108_1相关联的二进制位的集合124_1。

如图5中所示，级联的逆重叠临界采样变换级204可包括第二逆重叠临界采样变换(LCST)级212，其被配置为对与音频信号102的样本块108_1相关联的二进制位的集合124_1执行逆重叠临界采样采样变换，以获得与音频信号102的样本块108_1相关联的样本的集合206_1，1。

此外，级联的逆重叠临界采样变换级204可以包括第二重叠和相加级214，其被配置为对与音频信号102的样本块108_1相关联的样本集合206_1，1和与音频信号的另一样本块108_2相关联的另一样本集合206_2，1进行重叠和相加，音频信号102的样本块108_1和另一样本块108_2部分重叠，以获得音频信号102。

图6示出了根据进一步实施例的用于处理音频信号的子带表示以获得音频信号102的音频处理器200的示意框图。换言之，图6示出了合成滤波器组的示意图。因此，假设适当的窗函数。观察到，为了简单起见，图6中(仅)示出子带帧的前半部分(y[m]，0<＝m<N/2)(即，仅等式(6)的第一行)的处理。

如上所述，音频处理器200包括逆时域混叠消减级202和级联的逆重叠临界采样级204，其包括第一逆重叠临界采样级208和第二逆重叠临界采样级212。

逆时域削减级104被配置为执行第一和第二经混叠消减的子带表示y_1，i-1[_m1]和y_1，i[_m1]的第一加权和移位组合220_1，以获得第一经混叠的子带表示110_1，其中经混叠的子带表示是子带样本集合，以及执行第三和第四经混叠消减的子带表示y_2，i-1[_m1]和y_2，i[_m1]的第二加权和移位组合220_2，以获得第二经混叠的子带表示110_2，其中经混叠的子带表示是子带样本集合。

第一逆重叠临界采样变换级208被配置为对第一子带样本集合110_1，执行第一逆重叠临界采样变换222_1，以获得与音频信号/>的给定子带相关联的二进制位的集合128_1，1，并对第二子带样本集合110_2，/>执行第二逆重叠临界采样变换222_2，以获得与音频信号/>的给定子带相关联的二进制位的集合128_2，1。

第二逆重叠临界采样变换级212被配置为对通过对由第一逆重叠临界采样变换级208提供的二进制位的集合128_1，1和128_21进行重叠和相加获得的经重叠和相加的二进制位的集合执行逆重叠临界采样变换，以获得样本块108_2。

随后，描述了图1至图6中所示的音频处理器的实施例，其中示例性地假设级联的重叠临界采样变换级104是MDCT级，即第一和第二重叠临界采样变换级120和126是MDCT级，并且逆级联的重叠临界采样变换级204是逆级联MDCT级，即第一和第二逆重叠临界采样变换级120和126是逆MDCT级。自然地，以下描述也适用于级联的重叠临界采样变换级104和逆重叠临界采样变换级204的其他实施例，诸如级联的MDST或MLT级或逆级联的MDST或MLT级。

因此，所描述的实施例可以在有限长度的MDCT频谱序列上工作并且使用MDCT和时域混叠消减(TDAR)作为子带合并操作。由此产生的非均匀滤波器组是重叠的、正交的，并允许子带宽度k＝2n，其中n∈N。由于TDAR，可以实现时间和频谱上更紧凑的子带脉冲响应。

随后，描述滤波器组的实施例。

滤波器组实施方式直接建立在公共的重叠MDCT变换方案上：具有重叠和加窗的原始变换保持不变。

不失一般性，以下符号假设正交MDCT变换，例如其中分析和综合窗口是相同的。

x_i(n)＝x(n+iM)0≤n≤2M (1)

其中k(k，n，M)是MDCT变换核，h(n)是合适的分析窗口

然后，将此变换X_i(k)的输出分段为各个宽度N_v的υ个子带，并再次使用MDCT进行变换。这导致滤波器组在时间和频谱方向上都有重叠。

此处为了更简单的表示法，对所有子带使用了一个公共合并因子N，但是任何有效的MDCT窗口切换/排序都可以用于实现所需的时间-频率分辨率。有关分辨率设计的更多信息，请参见下文。

X_v，_i(k)＝X_i(k+vN)0≤k<2N (4)

其中w(k)是合适的分析窗口，通常与h(n)的大小不同，窗口类型也可能不同。由于实施例在频域中应用了窗口，所以尽管窗口的时间和频率选择性被交换了，还是值得注意的。

为了正确处理边界，可以在等式(4)中引入N/2的附加偏移，并结合边界处的矩形开始/停止窗口。再次为了更简单的符号表示，这里没有考虑此偏移。

输出是具有对应带宽/>和与所述带宽成比例的时间分辨率的系数的单个长度N_v的v向量列表。

然而，这些向量包含来自原始MDCT变换的混叠，因此显示出较差的时间紧凑性。为了补偿此混叠，可以促进TDAR。

用于TDAR的样本取自当前和先前MDCT帧i和i-1中的两个相邻子带样本块ν。

结果是减少了先前帧的后半部分和第二帧的前半部分的混叠。

对于0≤m<N/2，其中

TDAR系数a_ν(m)，b_ν(m)，c_ν(m)和d_v(m)可以设计为最小化残余混叠。下面介绍一种基于合成窗口g(n)的简单估计方法。

另请注意，如果A是非奇异的，则运算(6)和(8)对应于双正交系统。此外，如果g(n)＝h(n)以及v(k)＝w(k)，例如两个MDCT都是正交的，矩阵A是正交的，整个流水线构成了正交变换。

为了计算逆变换，首先执行逆TDAR，

必须执行逆MDCT和时域混叠消除(TDAC，尽管此处的混叠消除是沿频率轴完成的)以消除等式5中产生的混叠

X_i(k+vN)＝X_v，i(k) (11)

最后，等式2中的初始MDCT被反转，并再次执行TDAC

x(n+iM)＝x_i(n) (14)

随后，描述了时频分辨率设计限制。虽然任何所需的时频分辨率都是可能的，但必须遵守设计结果窗函数的一些限制以确保可逆性。特别地，两个相邻子带的斜率可以是对称的，以便等式(6)满足普林森布拉德利条件[J.Princen、A.Johnson和A.Bradley，“使用基于时域混叠消除的滤波器组设计的子带/变换编码”(Subband/transform coding usingfilter bank designs based on time domain aliasing cancellation)，载于声学、语音和信号处理(Acoustics，Speech，and Signal Processing)，IEEE国际会议ICASSP'87.，1987年4月，第12卷，第2161-2164页]。[B.Edler，“Codierung von Audiosignalen mitüberlappender Transformation und adaptiven Fensterfunktionen(基于重叠变换和自适应窗函数的音频信号编码)”，Frequenz，第43卷，第252–256页，1989年9月]中介绍的窗口切换方案，最初设计用于对抗预回声效果，可以在此处应用。参见[Olivier Derrien、Thibaud Necciari和Peter Balazs，“用于音频编码的准正交、可逆和感知相关的时频变换”(Aquasi-orthogonal，invertible，and perceptually relevant time-frequencytransform for audio coding)，EUSIPCO，法国尼斯，2015年8月]。

其次，所有第二MDCT变换长度的总和必须等于提供的MDCT系数的总长度。可以使用在所需系数处为零的单位步长窗口来选择不进行变换的频带。尽管[B.Edler，“Codierung von Audiosignalen mitüberlappender Transformation und adaptivenFensterfunktionen(基于重叠变换和自适应窗函数的音频信号编码)”，Frequenz，第43卷，第252-256页，1989年9月]，必须考虑相邻窗口的对称性。结果变换将在这些频带中产生零，因此可以直接使用原始系数。

由于可以直接使用来自大多数现代音频编码器的可能的时频分辨率比例因子带。

随后，描述了时域混叠消减(TDAR)系数计算。

遵循上述时间分辨率，每个子带样本对应于M/N_v个原始样本，或者是大小为原始样本之一的N_ν倍的间隔。

此外，每个子带样本中的混叠量取决于它所代表的间隔中的混叠量。由于在每个子带样本间隔使用合成窗口的近似值通过分析窗口h(n)对混叠进行加权，因此假设这是对于TDAR系数的第一次良好估计。

实验表明，两个非常简单的系数计算方案允许具有改进的时间和频谱紧凑性的良好初始值。两种方法基于长度为2N_ν的假设合成窗口g_ν(m)。

1)对于如正弦或凯塞-贝塞尔(Kaiser Bessel)导出这样的参数窗口，可以定义一个简单的、较短的相同类型的窗口。

2)对于没有封闭表示的参数窗口和表格窗口，窗口可以简单地切成2N_v个相同大小的节，允许使用每节的平均值获得系数：

将MDCT边界条件和混叠镜像考虑在内，然后产生TDA系数

a_v(m)＝g_v(N/2+m) (16)

b_v(m)＝-g_v(N/2-1-m) (17)

c_v(m)＝g_v(3N/2+m) (18)

d_v(m)＝g_v(3N/2-1-m) (19)

或者在正交变换的情况下

a_v(m)＝d_v(m)＝g_v(N/2+m) (20)

无论选择什么系数近似解，只要A是整个滤波器组的非奇异完美重建就可以保留。否则，次优系数选择将仅影响子带信号y_v，i(m)中的残余混叠量，但不会影响由逆滤波器组合成的信号x(n)中的残留混叠量。

图7以图表形式示出了子带样本(上图)及其样本随时间和频率的扩展(下图)的示例。与底部样本相比，带注释的样本具有更宽的带宽，但时间扩展更短。分析窗口(下图)具有每个原始时间样本一个系数的完整分辨率。因此，必须为每个子带样本的时间区域(m＝256:::384)近似(用点注释)TDAR系数。

随后，描述(模拟)结果。

图8示出了通过几种不同的变换获得的频谱和时间不确定性，如[FredericBimbot，Ewen Camberlein和Pierrick Philippe，“使用固定大小mdct和子带合并的自适应滤波器组与mpeg aac滤波器进行音频编码比较”，2006年10月音频工程学会第121号公约(Audio Engineering Society Convention 121)中所示。

可以看出，基于阿达玛矩阵的变换提供了非常有限的时频权衡能力。对于不断增长的合并大小，附加的时间分辨率会在谱不确定性方面带来不成比例的高成本。

换句话说，图8示出了不同变换的频谱和时间能量压缩的比较。内联标签表示MDCT的帧长，分裂因子表示海森堡分裂，合并因子表示所有其他。

然而，与TDAR的子带合并在时间和谱不确定性之间具有线性权衡，与普通均匀MDCT平行。两者的乘积是恒定的，尽管比普通的均匀MDCT高一点。对于此分析，正弦分析窗口和凯塞-贝塞尔导出的子带合并窗口显示出最紧凑的结果，因此被选中。

然而，将TDAR用于合并因子N_v＝2似乎会降低时间和频谱的紧凑性。我们将此归因于第II-B节中介绍的系数计算方案过于简单，并且不能适当地近似陡峭窗函数斜率的值。数值优化方案将在后续出版物中介绍。

这些紧凑度值是使用重心齿轮和脉冲响应x[n]的平方有效长度计算得出的，定义为[Athanasios Papoulis，信号分析，电气和电子工程系列。McGraw-Hill，纽约，旧金山，巴黎，1977年。]

显示的是每个单独滤波器组的所有脉冲响应的平均值。

图9示出了如在[O.A.Niamut和R.Heusdens，“余弦调制滤波器组的灵活频率分解”，刊载于声学、语音和信号处理，2003年，会议录，(ICASSP’03)，2003年IEEE国际会议，2003年4月，第5卷，第V-449-52页卷5]中提出的，通过具有或不具有TDAR的子带合并、简单MDCT短块和阿达玛矩阵子带合并产生的两个示例性脉冲响应的比较。

阿达玛矩阵合并变换的较差的时间紧凑性是清晰可见的。还可以清楚地看到，TDAR显着减少了子带中的大多数混叠伪影。

换句话说，图9示出了合并的子带滤波器的示例性脉冲响应，所述合并的子带滤波器由1024个原始二进制位中的8个组成，使用这里提出的具有TDAR或不具有TDAR的方法，方法在[O.A.Niamut和R.Heusdens，“余弦调制滤波器组中的子带合并”，信号处理快报，IEEE，第10卷，第4号，第111-114页，2003年4月]中提出，并使用256个样本的较短的MDCT帧长。

图10示出了用于处理音频信号以获得音频信号的子带表示的方法300的流程图。方法300包括步骤302，对音频信号的至少两个部分重叠的样本块执行级联的重叠临界采样变换，以获得以音频信号的第一样本块为基础的子带样本集合，以及获得以音频信号的第二样本块为基础的对应的子带样本集合。此外，方法300包括步骤304，执行两个对应的子带样本集合的加权组合，一个子带样本集合是以音频信号的第一样本块为基础获得的，另一个子带样本集合是以音频信号的第二样本块为基础获得的，以获得音频信号的经混叠消减的子带表示。

图11示出了用于处理音频信号的子带表示以获得音频信号的方法400的流程图。方法400包括步骤402，执行音频信号的(部分重叠的不同样本块的)两个对应的经混叠消减的子带表示的加权(和移位)组合，以获得经混叠的子带表示，其中经混叠的子带表示是子带样本集合。此外，方法400包括步骤404，对子带样本集合执行级联的逆重叠临界采样变换，以获得与音频信号的样本块相关联的样本的集合。

图12示出了根据实施例的音频编码器150的示意框图。音频编码器150包括如上所述的音频处理器100、编码器152和位流形成器154，编码器152被配置为对音频信号的经混叠消减的子带表示进行编码以获得音频信号的经编码的经混叠消减的子带表示，位流形成器154被配置为从音频信号的经编码的经混叠消减的子带表示形成位流156。

图13示出了根据实施例的音频解码器250的示意框图。音频解码器250包括位流解析器252、解码器254以及如上所述的音频处理器200，位流解析器252被配置为对位流154进行解析，以获得经编码的经混叠消减的子带表示，解码器254被配置为对经编码的经混叠消减的子带表示进行解码，以获得音频信号的经混叠消减的子带表示。

图14示出了根据实施例的音频分析器180的示意框图。音频分析器180包括如上所述的音频处理器100，以及信息提取器182，信息提取器182被配置为对经混叠消减的子带表示进行分析，以提供描述音频信号的信息。

实施例在非均匀正交修正的离散余弦变换(MDCT)滤波器组的子带中提供时域混叠消减(TDAR)。

实施例向广泛使用的MDCT变换流水线添加了附加的后处理步骤，所述步骤本身仅包括沿频率轴的其他重叠MDCT变换、以及沿每个子带时间轴的时域混叠消减(TDAR)，从而允许从具有改进的脉冲响应的时间紧凑性的MDCT频谱图提取任意频率标度(frequencyscale)，同时不引入额外的冗余，并且仅引入一个MDCT帧延迟。

2.使用子带合并和时域混叠的自适应非均匀时间/频率平铺(tiling)的感知音频编码

图15示出了根据本发明的实施例的图2和3中所示的音频处理器100的第二重叠临界采样变换级126的重叠临界采样变换子级132_1，1，132_1，2，132_2，1和132_2，2的示意框图。

由此，重叠临界采样变换子级132_1，1，132_1，2，132_2，1和132_2，2中的至少一个可以被配置为针对对应的二进制位的的集合128_1，1，128_1，2，128_2，1和128_2，2执行具有相同帧长度(例如，合并因子)的重叠临界采样变换。

在实施例中，第一重叠临界变换子级132_1，1可以被配置为对以与第一样本块108_1对应的经分段的二进制位的集合124_1为基础获得的第一二进制位的集合128_1，1的相等长度的N_1，1个子集执行N_1，1个重叠临界采样变换，其中N_1，1个重叠临界采样变换包括相同的帧长度(例如，合并因子)，其中N_1，1是大于或等于2的自然数。

例如，假设第一二进制位的集合128_1，1包括128个二进制位(或系数)，则第一重叠临界变换子级132_1，1可以被配置为例如对N_1，1＝2个子集执行N_1，1＝2个重叠临界采样变换，每个子集由64个二进制位构成(即，128个二进制位除以N_1，1)，其中N_1，1＝2个重叠临界采样变换包括相同的帧长度(例如，合并因子)，例如64。自然地，第一重叠临界变换子级132_1，1也可以被配置为例如对N_1，1＝4(或8)个子集执行N_1，1＝4(或8)个重叠临界采样变换，每个子集由32(或16)个二进制位构成(即，128个二进制位除以N_1，1)，其中N_1，1＝4(或8)个重叠临界采样变换包括相同的帧长度(例如，合并因子)，例如32(或16)。

在实施例中，第二重叠临界变换子级132_1，2可以被配置为对以与第一样本块108_1对应的经分段的二进制位的集合124_1为基础获得的第二二进制位的集合128_1，2的相等长度的N_1，2个子集执行N_1，2个重叠临界采样变换，其中N_1，2个重叠临界采样变换包括相同的帧长度(例如，合并因子)，其中N_1，2是大于或等于2的自然数。

例如，假设第二二进制位的集合128_1，2包括128个二进制位(或系数)，则第二重叠临界变换子级132_1，2可被配置为例如对N_1，2＝2个子集执行N_1，2＝2个重叠临界采样变换，每个子集由64个二进制位构成(即，128个二进制位除以N_1，2)，其中N_1，2＝2个重叠临界采样变换包括相同的帧长度(例如，合并因子)，例如64。自然地，第二重叠临界变换子级132_1，2也可以被配置为例如对N_1，2＝4(或8)个子集执行N_1，2＝4(或8)个重叠临界采样变换，每个子集由32(或16)个二进制位构成(即，128个二进制位除以N_1，2)，其中N_1，2＝4(或8)个重叠临界采样变换包括相同的帧长度(例如，合并因子)，例如32(或16)。

在实施例中，第三重叠临界变换子级132_2，1可以被配置为对以与第二样本块108_2对应的经分段的二进制位的集合124_2为基础获得的第三二进制位的集合128_2，1的相等长度的N_2，1个子集执行N_2，1个重叠临界采样变换，其中N_2，1个重叠临界采样变换包括相同的帧长度(例如，合并因子)，其中N_2，1是大于或等于2的自然数。

例如，假设第三二进制位的集合128_2，1包括128个二进制位(或系数)，则第三重叠临界变换子级132_2，1可被配置为例如对N_2，1＝2个子集执行N_2，1＝2个重叠临界采样变换，每个子集由64个二进制位构成(即，128个二进制位除以N_2，1)，其中N_2，1＝2个重叠临界采样变换包括相同的帧长度(例如，合并因子)，例如64。自然地，第三重叠临界变换子级132_2，1也可以被配置为例如对N_2，1＝4(或8)个子集上执行N_2，1＝4(或8)个重叠临界采样变换，每个子集由32(或16)个二进制位构成(即，128个二进制位除以N_2，1)，其中N_2，1＝4(或8)个重叠临界采样变换包括相同的帧长度(例如，合并因子)，例如32(或16)。

在实施例中，第四重叠临界变换子级132_2，2可以被配置为对以与第二样本块108_2对应的经分段的二进制位的集合124_2为基础获得的第四二进制位的集合128_2，2的相等长度的N_2，2个子集执行N_2，2个重叠临界采样变换，其中N_2，2个重叠临界采样变换包括相同的帧长度(例如，合并因子)，其中N_2，2是大于或等于2的自然数。

例如，假设第四子带二进制位的集合128_2，2包括128个二进制位(或系数)，则第四重叠临界变换子级132_2，2可被配置为例如对N_2，2＝2个子集执行N_2，2＝2个重叠临界采样变换，每个子集由64个二进制位构成(即，128个二进制位除以N_2，2)，其中N_2，2＝2个重叠临界采样变换包括相同的帧长度(例如，合并因子)，例如64。自然地，第四重叠临界变换子级132_2，2也可以被配置为例如对N_2，2＝4(或8)个子集执行N_2，2＝4(或8)个重叠临界采样变换，每个子集由32(或16)个二进制位构成(即，128个二进制位除以N_2，2)，其中N_2，2＝4(或8)个重叠临界采样变换包括相同的帧长度(例如，合并因子)，例如32(或16)。

在实施例中，第一二进制位的集合128_1，1和第二二进制位的集合128_1，2可以包括相同或不同的长度(即，二进制位的数量)。

在实施例中，N_1，1和N_1，2可以是相同或不同的自然数。

在实施例中，第三二进制位的集合128_2，1和第四二进制位的集合128_2，2可以包括相同或不同的长度(即二进制位的数量)。

在实施例中，N_2，1和N_2，2可以是相同或不同的自然数。

在实施例中，如果启用了TDAR，则第一二进制位的集合128_1，1和第三二进制的集合128_2，1可以包括相同长度(即，相同数量的二进制位)。而且，N_1，1和N_2，1可以是相同的自然数。类似地，第二二进制的集合128_1，2和第四二进制的集合128_2，2也可以包括相同长度(即，相同数量的二进制位)。此外，N_2，1和N_2，2可以是相同的自然数。

在实施例中，如果禁用了TDAR，则第一二进制位的集合128_1，1和第三二进制位的集合128_2，1也可以包括不同的长度(即，不同数量的二进制位)，并且N_1，1和N_2，1也可以是不同的自然数。类似地，第二二进制位的集合128_1，2和第四二进制位的集合128_2，2也可以包括不同长度(即不同数量的二进制位)，并且N_2，1和N_2，2也可以是不同的自然数。

图16根据本发明的实施例示出了图5和图6中所示的音频处理器200的第一逆重叠临界采样变换级208的逆重叠临界采样变换子级222_1和222_2的示意性框图。

由此，逆重叠临界采样变换子级222_1和222_2中的至少一个可以被配置为在子带样本的对应集合110_1，1和110_1，2上执行具有相同帧长度(例如，合并因子)的逆重叠临界采样变换样本，以获得对应的二进制位的集合128_1，1和128_1，2。

在实施例中，第一逆重叠临界变换子级222_1可被配置为对第一子带样本集合110_1的相等长度的N_1，1个子集执行N_1，1个逆重叠临界采样变换，其中N_1，1个重叠临界采样变换包括相同的帧长度(例如，合并因子)，其中N_1，1是大于或等于2的自然数。

在实施例中，第二逆重叠临界变换子级222_2可以被配置为对第二子带样本集合110_1的相等长度的N_1，2个子集执行N_1，2个逆重叠临界采样变换，其中N_1，2个重叠临界采样变换包括相同的帧长度(例如，合并因子)，其中N_1，2是大于或等于2的自然数。

随后，描述非均匀滤波器组的详细实施例。此外，评估音频编码器场景中这种非均匀滤波器组的感知质量，并将其与诸如高级音频编码(AAC)[2]的当前编码器中使用的具有窗口切换的均匀滤波器组的性能进行比较。

2.1编码系统

评估系统对简单的感知编码器进行建模，具有分析滤波器组、心理声学模型[4]、量化器、感知熵估计[5]和合成滤波器组。在两个相互竞争的系统中，滤波器组是具有窗口切换[6](WS)的均匀MDCT，或者是具有子带合并和TDAR[1](SM)的非均匀MDCT。

相关的滤波器组参数——用于均匀MDCT的窗口切换边界，或用于非均匀MDCT的合并因子和TDAR边界——被自适应和优化地选择，以最小化整体剩余熵。

可以不使用额外的后处理步骤或编码工具。

2.1.1滤波器组参数

窗口切换滤波器组可以使用具有通常AAC帧长度的MDCT：1024个样本的长帧或128个样本的8个短帧以及它们之间的适当过渡窗口。可以使用余弦窗口。子带合并滤波器组120可以使用帧长度的初始MDCT，例如1024，然后将频谱划分为8个合并因子频带(例如，128_1，1，128_1，2等)，每个合并因子频带由128个系数构成。然后每个合并因子频带可以与针对帧长度N∈{1，2，4，8，16，32}的MDCT合并，帧长度N称为合并因子。根据系统的设计，在分析过程中，合并因子的最佳选择尚不清楚，并且每个合并因子频带都不知道其任何邻居的合并因子。因此，合并因子频带边缘处的窗口可以选择为总是不对称的，并且足够陡峭以适应最陡峭的可能的邻居合并因子，见图17。

详细地，图17以示图形式示出了用于对二进制位的集合(124_1)进行分段以获得二进制位的集合(或段)(128_1，1，128_1，2)的窗函数。换句话说，图16示出了四个合并因子频带中的示例窗口选择。陡峭的合并因子频带边缘窗口以黑色突出显示。

此设计选择限制了滤波器组的整体灵活性，并为这些非对称窗口引入了不太理想的时间波纹[1]，但提供了一种有效且独立地优化每个合并因子频带的合并因子的方法。

余弦窗口可以作为变换窗口，可以选择任意选择β＝5.1的凯塞-贝塞尔导出的窗口作为合并窗口。

最后，量化步长尺寸可以使用实值失真参数q进行控制，所述参数通过常数因子q乘法降低或提高来自感知模型的估计掩蔽阈值。量化后，感知熵估计器计算理论位率r，它自然依赖于q。对于q＝1.0，心理声学模型预测没有任何可听的伪影的透明编码，对于较大的值q>1.0，量化步长尺寸增加，位率r下降，并且过程的感知质量预计会恶化。

2.1.2参数优化

为了执行最佳参数调整，使用所有可能的参数组合对每个信号进行变换和量化，并估计每个参数的每个帧的感知熵。在所有输出系数中，计算使总体感知熵最小的参数的最佳组合，然后使用这些参数合成输出信号。

为了找到最佳滤波器组参数，每个帧中的每个合并因子频带(128个系数的合并分片(merge-tile))被量化并计算其熵。一个合并因子频带中所有合并分片的所有参数的图形然后形成网格，其中每个转换概率的权重设置为等于下一个合并分片的熵[7]。

如前所述，并非所有参数组合和转换都允许在合成期间完美重建，例如当从长帧切换到短帧时，中间必须使用非对称起始窗口。类似的规则适用于在非均匀滤波器组中使用TDAR[1]。为了防止这些非法参数转换，网格中的转换概率乘以编码的所有合法和非法转换的掩码，即1代表合法转换，1代表非法转换。

然后，使用动态规划计算通过网格的最小权重路径，从而在每个单独的合并因子频带中产生总体最优参数路径，同时保证完美的重建。

此方法需要多次编码遍，非常大的预测，因此不适合实际的在线编码器，但是它保证这两种方法始终以最大可能的效率执行。对于在线编码，存在在时延约束下解码这种网格图的方法[8]。

两个系统都假设了必要侧信息的简单和非压缩的传输：对于窗口切换，为每一帧使用1位，以用信号通知长块和短块对于子带合并，每帧使用29位，以用信号通知合并因子和TDAR标志(8个合并因子频带，每个具有6个合并因子和2个TDAR值，比例因子或掩蔽阈值在解码器侧已知。

2.2一般观察

只是运行编码/解码过程，可以观察到以下属性：

在最高的两个到三个合并因子频带中，范围为15kHz至24kHz，编码器几乎总是选择合并因子1，从而禁用合并。在中段，合并因子频带2-5或3kHz-15kHz之间的频率范围，编码器主要选择合并因子1或32。在较低的合并因子频带中，范围从0kHz-3kHz，编码器主要选择合并因子1和2。合并因子4、8和16很少被选择。见图18。

详细地，图18以示图形式显示了由编码器作出的合并因子(MF)和时域混叠消减(TDAR)的选择的分布。

此观察结果与关于听觉系统的基本假设一致：由于高频在安静时具有非常高的阈值，实际上几乎所有都被量化为零，使合并因子中的选择无关。在中频，听觉系统具有较高的时间分辨率，而在较低频率中，人耳具有较高的频率分辨率。

其次，注意到对于任何选择的失真参数q，子带合并滤波器组的对应位率低于窗口切换滤波器组的位率。平均而言，非均匀系统对每个样本所需的位数减少了5-13％以编码信号，请参见图19。

详细地，图19以示图形式示出了两个系统在39个测试项目上对于不同失真参数q的平均位率。

2.3听力测试设置

考虑了不同量化器步长尺寸系数和平均位率下的三种不同质量设置：透明(HQ)、轻度受损(MQ)和中度受损(LQ)，参见图20中的表1。

详细地，图20中的表1列出了质量设置及其失真参数q和产生的平均位率。

根据感知模型的设计，对于HQ来说，应该没有可听的伪影[4]。而事实上，在小规模的ABC/HR(ITU-R BS.1116-3)[9]听力测试中，专家听众的确无法辨别两种方法和参考信号之间的显著差异。由于进行这样的听力测试不太可能显示任何有意义的结果，因此跳过它而更着重于其余的两个质量设置MQ和LQ。

对于MQ和LQ，选择窗口切换滤波器组系统的失真参数q，使其输出位率与子带合并滤波器组的输出位率匹配，这意味着子带合并滤波器组的失真参数q低于窗口切换滤波器组。因此，使用非均匀滤波器组可以获得更高的感知质量，同时允许与窗口切换滤波器组相同的位率。为了对此进行测试，我们进行了使用带有隐藏参考和锚点方法的多刺激测试(MUSHRA，ITU-R BS.1534–3)[10]进行的听力测试。

2.4测试信号语料库

此评估的测试信号取自通常用于音频编码器开发和调谐的测试集。它包含男性和女性的演讲，以及一些包含和声和打击乐声音的音乐录音。所有条件都使用ITU-RBS.1770-4[11]进行响度标准化。参见图21中的表2。详细地，图21中的表2列出了不同的测试项目。

2.5听力测试结果

共有N＝16位专家听众参加了测试。

首先，使用夏皮罗-威尔克检验来测试两种方法之间的成对MUSHRA分数差是否为正态性。对于LQ和MQ，差异明显是非正常的，请参见图22中的表3和图23中的表4。

详细地，图22中的表3列出了针对在轻度受损的(MQ)和中度受损的(LQ)质量设置下在窗口切换滤波器组(WS)与子带合并滤波器组(SM)之间的成对MUSHRA分数差的正态性的夏皮罗-威尔克检验的结果。W表示W统计量，p表示p值。

因此，在所有条件下都使用基于参数的威尔科克森符号秩检验代替参数配对t检验。所有检验的摘要可以在图24中的表4中看到。

详细地，图24中的表4列出了针对在轻度受损的(MQ)和中度受损的(LQ)质量设置下对窗口切换滤波器组(WS)和子带合并滤波器组(SM)进行比较的MUSHRA分数的均值、标准差(SD)和威尔科克森符号秩检验结果。W表示sW统计量，p表示p值。

进行了威尔科克森符号秩检验以比较MQ中两个系统的感知质量。窗口切换滤波器组和子带合并滤波器组的MUSHRA分数存在显著差异，p＝.000。

其次，进行了威尔科克森符号秩检验，以比较质量设置LQ下两个系统的感知质量。窗口切换滤波器组和子带合并滤波器组的MUSHRA分数存在显著差异，p＝.000。

图25以图表形式示出针对单个项目、窗口切换滤波器组和子带合并滤波器组在轻度受损(MQ)和中度受损(LQ)质量设置下的MUSHRA分数差的均值和95％置信区间。正值更有利于子带合并而不是窗口切换。

2.6进一步的实施例

实施例提供了一种在简单音频编码器中使用基于MDCT分析/合成和TDAR的非均匀正交滤波器组的方法。上面，将其编码效率与均匀窗口切换MDCT滤波器组进行了比较。平均而言，非均匀编码需要每个样本位数减少5-13％以编码测试信号。此附加的编码效率可用于在相同的输出位率下提高编码器的感知质量。

在上述测试中，使用MUSHRA听力测试和随后的统计分析确定了6到7个MUSHRA点的改进的感知质量。发现感知质量的差具有统计学意义。

图26示出了根据本发明的实施例的用于处理音频信号以获得音频信号的子带表示的方法500的流程图。方法500包括步骤502，对音频信号的至少两个部分重叠的样本块执行级联的重叠临界采样变换，以音频信号的第一样本块为基础获得子带样本集合，以及以音频信号的第二样本块为基础获得对应的子带样本集合。方法500进一步包括步骤504，执行两个对应的子带样本集合的加权组合，一个子带样本集合是以音频信号的第一样本块为基础获得的，另一个子带样本集合是以音频信号的第二样本块为基础获得的，以获得音频信号的经混叠消减的子带表示；其中执行级联的重叠临界采样变换包括使用至少两个窗函数对以第一样本块为基础获得的二进制位的集合进行分段，并且基于经分段的与第一样本块对应的二进制位的集合获得至少两个经分段的二进制位的集合；其中执行级联的重叠临界采样变换包括使用至少两个窗函数对以第二样本块为基础获得的二进制位的集合进行分段，并且基于经分段的与第二样本块对应的二进制位的集合获得至少两个二进制位的集合；并且其中使用级联的重叠临界采样变换的第二重叠临界采样变换对二进制位的集合进行处理，其中第二重叠临界采样变换包括针对至少一个二进制位的集合执行具有相同帧长度的重叠临界采样变换。

图27示出了根据本发明的实施例的用于处理音频信号的子带表示以获得音频信号的方法的方法600的流程图。方法600包括步骤602，执行音频信号的两个对应的经混叠消减的子带表示的加权组合，以获得经混叠的子带表示，其中经混叠的子带表示是子带样本集合。此外，方法600包括步骤604，对子带样本集合执行级联的逆重叠临界采样变换，以获得与音频信号的样本块相关联的样本的集合，其中执行级联的逆重叠临界采样变换包括对子带样本集合执行第一逆重叠临界采样变换，以获得与音频信号的给定子带相关联的二进制位的集合，其中执行第一逆重叠临界采样变换包括针对子带样本集合执行具有相同帧长度的逆重叠临界采样变换。

随后，描述进一步的实施例。从而，下面的实施例可以与上面的实施例组合。

实施例1：一种音频处理器(100)，用于处理音频信号(102)以获得音频信号(102)的子带表示，所述音频处理器(100)包括：级联的重叠临界采样变换级(104)，被配置为对音频信号(102)的至少两个部分重叠的样本块(108_1；108_2)执行级联的重叠临界采样变换，以音频信号(102)的第一样本块(108_1)为基础获得子带样本集合(110_1，1)，以及以音频信号(102)的第二样本块(108_2)为基础获得对应的子带样本集合(110_2，1)；以及时域混叠消减级(106)，被配置为执行两个对应的子带样本集合(110_1，1；110_1，2)的加权组合，一个子带样本集合是以音频信号(102)的第一样本块(108_1)为基础获得的，且一个子带样本集合是以音频信号的第二样本块(108_2)为基础获得的，以获得音频信号(102)的经混叠消减的子带表示(112_1)。

实施例2：根据实施例1所述的音频处理器(100)，其中级联的重叠临界采样变换级(104)包括：第一重叠临界采样变换级(120)，被配置为对音频信号(102)的至少两个部分重叠的样本块(108_1；108_2)的第一样本块(108_1)和第二样本块(108_2)执行重叠临界采样变换，以获得第一样本块(124_1)的第一二进制位的集合(124_1)和第二样本块(108_2)的第二二进制位的集合(124_2)。

实施例3：根据实施例2所述的音频处理器(100)，其中级联的重叠临界采样变换级(104)进一步包括：第二重叠临界采样变换级(126)，被配置为对第一二进制位的集合(124_1)的段(128_1，1)执行重叠临界采样变换以及对第二二进制位的集合(124_2)的段(128_2，1)执行重叠临界采样变换，每个段与音频信号(102)的子带相关联，以获得第一二进制位的集合的子带样本集合(110_1，1)和第二二进制位的集合的子带样本集合(110_2，1)。

实施例4：根据实施例3的音频处理器(100)，其中第一子带样本集合(110_1，1)可以是以第一二进制位的集合(124_1)的第一段(128_1，1)为基础的第一重叠临界采样变换(132_1，1)的结果，其中第二子带样本集合(110_1，2)可以是以第一二进制位的集合(124_1)的第二段(128_1，2)为基础的第二重叠临界采样变换(132_1，2)的结果，其中第三子带样本集合(110_2，1)可以是以第二二进制位的集合(128_2，1)的第一段(128_2，1)为基础的第三重叠临界采样变换(132_2，1)的结果，其中第四子带样本集合(110_2，2)可以是以第二二进制位的集合(128_2，1)的第二段(128_2，2)为基础的第四重叠临界采样变换(132_2，2)的结果；并且其中时域混叠消减级(106)被配置为执行第一子带样本集合(110_1，1)和第三子带样本集合(110_2，1)的加权组合，以获得音频信号的第一经混叠消减的子带表示(112_1)，其中时域混叠消减级(106)可以被配置为执行第二子带样本集合(110_1，2)的和第四子带样本集合(110_2，2)的加权组合，以获得音频信号的第二经混叠消减的子带表示(112_2)。

实施例5：根据实施例1至4中的一项的音频处理器(100)，其中级联的重叠临界采样变换级(104)被配置为使用至少两个窗函数对以第一样本块(108_1)为基础获得的二进制位的集合(124_1)进行分段，并基于经分段的与第一样本块(108_1)对应的二进制位的集合获得至少两个经分段的二进制位的集合(128_1，1；128_1，2)；其中级联的重叠临界采样变换级(104)被配置为使用至少两个窗函数对以第二样本块(108_2)为基础获得的二进制位的集合(124_2)进行分段，并基于经分段的与第二样本块(108_2)对应的二进制位的集合获得至少两个经分段的子带样本集合(128_2，1；128_2，2)；并且其中至少两个窗函数包括不同的窗宽。

实施例6：根据实施例1至5中的项的音频处理器(100)，其中级联的重叠临界采样变换级(104)被配置为使用至少两个窗函数对以第一样本块(108_1)为基础获得的二进制位的集合(124_1)进行分段，并基于经分段的与第一样本块(108_1)对应的二进制位的集合获得至少两个经分段的二进制位的集合(128_1，1；128_1，2)；其中级联的重叠临界采样变换级(104)被配置为使用至少两个窗函数对以第二样本块(108_2)为基础获得的二进制位的集合(124_2)进行分段，并基于经分段的与第二样本块(108_2)对应的二进制位的集合获得至少两个二进制位的集合(128_2，1；128_2，2)；并且其中对应于相邻子带样本集合的窗函数的滤波器斜率是对称的。

实施例7：根据实施例1至6中的一项的音频处理器(100)，其中级联的重叠临界采样变换级(104)被配置为使用第一窗函数将音频信号的样本分段成第一样本块(108_1)和第二样本块(108_2)；其中重叠的临界采样变换级(104)被配置为使用第二窗函数对以第一样本块(108_1)为基础获得的二进制位的集合(124_1)和以第二样本块(108_2)为基础获得的二进制位的集合(124_2)进行分段，以获得对应的子带样本；并且其中第一窗函数和第二窗函数包括不同的窗口宽度。

实施例8：根据实施例1至6中的一项的音频处理器(100)，其中级联的重叠临界采样变换级(104)被配置为使用第一窗函数将音频信号的样本分段成第一样本块(108_1)和第二样本块(108_2)；其中重叠的临界采样变换级(104)被配置为使用第二窗函数对以第一样本块(108_1)为基础获得的二进制位的集合(124_1)和以第二样本块(108_2)为基础获得的二进制位的集合(124_2)进行分段，以获得对应的子带样本；并且其中第一窗函数的窗宽和第二窗函数的窗宽彼此不同，其中第一窗函数的窗宽和第二窗函数的窗宽彼此相差的因数不同于二的幂。

实施例9：根据实施例1至8中的一项的音频处理器(100)，其中时域混叠消减级(106)被配置为根据以下等式执行两个对应的子带样本集合的加权组合

对于0≤m<N/2其中

获得音频信号的经混叠消减的子带表示，其中y_v，i(m)是音频信号的第一经混叠消减的子带表示，y_v，i-1(N-1-m)是音频信号的第二经混叠消减的子带表示，是以音频信号的第二样本块为基础的子带样本集合，/>是以音频信号的第一样本块为基础的子带样本集合，a_v(m)是...，b_v(m)是...，c_v(m)是...，而d_v(m)是...。

实施例10：一种音频处理器(200)，用于处理音频信号的子带表示以获得音频信号(102)，所述音频处理器(200)包括：逆时域混叠消减级(202)，被配置为执行音频信号(102)的两个对应的经混叠消减的子带表示的加权组合，以获得经混叠的子带表示，其中经混叠的子带表示是子带样本集合(110_1，1)；级联的逆重叠临界采样变换级(204)被配置为对子带样本集合(110_1，1)执行级联的逆重叠临界采样变换，以获得与音频信号(102)的样本块相关联的样本的集合(206_1，1)。

实施例11：根据实施例10的音频处理器(200)，其中级联的逆重叠临界采样变换级(204)包括第一逆重叠临界采样变换级(208)，其被配置为对子带样本集合(110_1，1)执行逆重叠临界采样变换，以获得与音频信号的给定子带相关联的二进制位的集合(128_1，1)；以及第一重叠和相加级(210)，其被配置为执行与音频信号的多个子带相关联的二进制位的集合的级联，其包括与给定音频信号(102)的子带相关联的二进制位的集合(128_1，1)的加权组合，其中具有与音频信号(102)的另一个子带相关联的二进制位的集合(128_1，2)，以获得与音频信号(102)的样本块相关联的二进制位的集合(124_1)。

实施例12：根据实施例11的音频处理器(200)，其中，级联的逆重叠临界采样变换级(204)包括第二逆重叠临界采样变换级(212)，其被配置为对与音频信号(102)的样本块相关联的二进制位的集合(124_1)执行逆重叠临界采样变换，以获得与音频信号(102)的样本块相关联的样本集合。

实施例13：根据实施例12的音频处理器(200)，其中级联的逆重叠临界采样变换级(204)包括第二重叠和相加级(214)，被配置为对与音频信号(102)的样本块相关联的样本的集合(206_1，1)和另一个与音频信号(102)的样本块相关联的样本的集合(206_2，1)进行重叠和相加，音频信号(102)的所述样本块与的所述另一样本块部分地重叠，以获得音频信号(102)。

实施例14：根据实施例10至13中的一项的音频处理器(200)，其中逆时域混叠消减级(202)被配置为执行音频信号(102)的两个对应的经混叠消减的子带表示的加权组合，基于以下等式

对于0≤m<N/2其中

获得经混叠的子带表示，其中y_v，i(m)是音频信号的第一经混叠消减的子带表示，y_v，_i-1(N-1-m)是音频信号的第二经混叠消减的子带表示，是以音频信号的第二样本块为基础的子带样本集合，/>是以音频信号的第一样本块为基础的子带样本集合，a_v(m)是...，b_v(m)是...，c_v(m)is是...，d_v(m)是...。

实施例15：一种音频编码器，包括：根据实施例1至9中的一项所述的音频处理器(100)；编码器，被配置为对音频信号的经混叠消减的子带表示进行编码，以获得音频信号的经编码的经混叠消减的子带表示；位流形成器被配置为从音频信号的编码经混叠消减的子带表示形成位流。

实施例16：一种音频解码器，包括：位流解析器，被配置为解析位流，以获得经编码的经混叠消减的子带表示；解码器，被配置为对经编码的经混叠消减的子带表示进行解码，以获得音频信号的经混叠消减的子带表示；以及根据实施例10至14中的一项的音频处理器(200)。

实施例17：一种音频分析器，包括：根据实施例1至9中的一项的所述的音频处理器(100)；信息提取器，被配置为分析经混叠消减的子带表示，以提供描述音频信号的信息。

实施例18：一种用于处理音频信号以获得音频信号的子带表示的方法(300)，所述方法包括：对音频信号的至少两个部分重叠的样本块执行(302)级联的重叠临界采样变换，以音频信号的第一样本块为基础获得子带样本集合，以及以音频信号的第二样本块为基础获得对应的子带样本集合；并且执行(304)两个对应的子带样本集合的加权组合，一个子带样本集合是以音频信号的第一样本块为基础获得的，且一个子带样本集合是以音频信号的第二样本块为基础获得的，以获得音频信号的经混叠消减的子带表示。

实施例19：一种用于处理音频信号的子带表示以获得音频信号的方法(400)，所述方法包括：执行(402)音频信号的两个对应的经混叠消减的子带表示的加权组合，以获得经混叠的子带表示，其中经混叠的子带表示是子带样本集合；以及对子带样本集合执行(404)级联的逆重叠临界采样变换，以获得与音频信号的样本块相关联的样本的集合。

实施例20：用于执行根据实施例18和19中的一项的方法的计算机程序。

尽管已经在装置的上下文中描述了一些方面，但很明显，这些方面也代表了对应方法的描述，其中块或设备对应于方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中描述的方面也表示对应装置的对应块或项目或特征的描述。一些或所有方法步骤可以通过(或使用)硬件装置来执行，例如微处理器、可编程计算机或电子电路。在一些实施例中，一个或多个最重要的方法步骤可以由这样的装置执行。

根据某些实施方式要求，本发明的实施例可以以硬件或软件来实施。所述实施方式可以使用数字存储介质来执行，例如软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存，具有存储的电子可读控制信号在其上，它们与可编程计算机系统协作(或能够协作)从而执行对应的方法。因此，数字存储介质可以是计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，所述控制信号能够与可编程计算机系统协作，从而执行本文所述的方法之一。

通常，本发明的实施例可以为具有程序代码的计算机程序产品实施，当计算机程序产品在计算机上运行时，程序代码可操作用于执行方法之一。程序代码可以例如存储在机器可读载体上。

其他实施例包括存储在机器可读载体上的用于执行本文描述的方法之一的计算机程序。

换句话说，本发明方法的实施例因此是具有程序代码的计算机程序，当所述计算机程序在计算机上运行时，所述程序代码用于执行这里描述的方法之一。

因此，本发明方法的进一步实施例是一种数据载体(或数字存储介质，或计算机可读介质)，其包括记录在其上的用于执行本文所述方法之一的计算机程序。数据载体、数字存储介质或记录介质通常是有形的和/或非过渡性的。

因此，本发明方法的进一步实施例是数据流或信号序列，其表示用于执行本文描述的方法之一的计算机程序。数据流或信号序列可以例如被配置为经由数据通信连接、例如经由因特网来传送。

进一步实施例包括处理装置，例如计算机或可编程逻辑器件，其被配置为或适于执行本文描述的方法之一。

进一步实施例包括其上安装有用于执行本文所述方法之一的计算机程序的计算机。

根据本发明的进一步实施例包括被配置为向接收器传送(例如，电子地或光学地)用于执行本文描述的方法之一的计算机程序的装置或系统。例如，接收器可以是计算机、移动设备、存储设备等。例如，所述装置或系统可以包括用于将计算机程序传送到接收器的文件服务器。

在一些实施例中，可编程逻辑器件(例如现场可编程门阵列)可用于执行本文所述方法的一些或全部功能。在一些实施例中，现场可编程门阵列可与微处理器协作以执行本文所述的方法之一。通常，这些方法优选地由任何硬件装置执行。

这里描述的装置可以通过硬件装置实现，也可以通过计算机实现，也可以通过硬件装置和计算机的组合实现。

本文描述的装置或本文描述的装置的任何组件可以至少部分地以硬件和/或软件来实现。

可以使用硬件装置，或使用计算机，或使用硬件装置和计算机的组合来执行本文描述的方法。

在此描述的方法或在此描述的装置的任何组件可以至少部分地由硬件和/或软件来执行。

上述实施例仅用于说明本发明的原理。应当理解，对本领域技术人员而言，这里描述的布置和细节的修正和变化将是显而易见的。因此，其意图是仅受限于即将到来的专利权利要求的范围，而不是受限于通过本文实施例的描述和解释呈现的具体细节。

参考文献

[1]Nils Werner and Bernd Edler，“Nonuniform orthogonal filterbanksbased on MDCT analysis/synthesis and time-domain aliasing reduction，”IEEESignal Processing Letters，vol.24，no.5，pp.589-593，May 2017.

[2]Fernando C.Pereira and Touradj Ebrahimi，The MPEG-4 Book，PrenticeHall PTR，Upper Saddle River，NJ，USA，2002.

[3]B.C.Moore and B.R.Glasberg，“Suggested formulae for calculatingauditory-filter bandwidths and excitation patterns，”J.Acoust.Soc.Am.，vol.74，no.3，pp.750-753，Sep 1983.

[4]A.Taghipour，M.C.Jaikumar，and B.Edler，“A psychoacoustic model withpartial spectral flatness measure for tonality estimation，”in Proc.22ndEur.Signal Process.Conf.(EUSIPCO)，2014，pp.646-650.

[5]J.D.Johnston，“Estimation of perceptual entropy using noise maskingcriteria，”in ICASSP-88.，International Conference on Acoustics，Speech，andSignal Processing，April 1988，pp.2524-2527 vol.5.

[6]B.Edler，“Codierung von Audiosignalen mitüberlappenderTransformation und adaptiven Fensterfunktionen，”Frequenz，vol.43，pp.252-256，Sept.1989.

[7]V.Melkote and K.Rose，“Trellis-based approaches to rate-distortionoptimized audio encoding，”IEEE Transactions on Audio，Speech，and LanguageProcessing，vol.18，no.2，pp.330-341，Feb 2010.

[8]Mukund Narasimhan，Paul Viola，and Michael Shilman，“Online decodingof markov models under latency constraints，”in Proceedings of the 23rdInternational Conference on Machine Learning，New York，NY，USA，2006，ICML’06，pp.657-664，ACM.

[9]ITU Radiocommunication Bureau，“BS.1116-3:methods for thesubjective assessment of small impairments in audio systems，”RecommendationITU-R BS.1116，2015.

[10]ITU Radiocommunication Bureau，“BS.1534-3:method for thesubjective assessment of intermediate quality level of coding systems，”Recommendation ITUR BS.1534，2015.

[11]ITU Radiocommunication Bureau，“BS.1770-3:algorithms to measureaudio programme loudness and truepeak audio level，”Recommendation ITU-RBS.1770，2015.

[12]F.Schuh，S.Dick，R.Füg，C.R.Helmrich，N.Rettelbach，and T.Schwegler，\Efficient Multichannel Audio Transform Coding with Low Delay and Complexity."Audio Engineering Society，Sep.2016.[Online].Available:http://www.aes.org/e-lib/browse.cfm？elib＝18464

[13]WO 2018 019 909 A1

[14]EP 3 276 620 A1

Claims

1.一种用于处理音频信号(102)以获得所述音频信号(102)的子带表示的音频处理器(100)，所述音频处理器(100)包括：

级联的重叠临界采样变换级(104)，被配置为对所述音频信号(102)的至少两个部分重叠的样本块执行级联的重叠临界采样变换，以所述音频信号(102)的第一样本块(108_1)为基础获得子带样本集合，以及以所述音频信号(102)的第二样本块(108_2)为基础获得对应的子带样本集合；以及

时域混叠消减级(106)，被配置为执行两个对应的子带样本集合的加权组合，一个子带样本集合是以所述音频信号(102)的所述第一样本块(108_1)为基础获得的，且一个子带样本集合是以所述音频信号的所述第二样本块(108_2)为基础获得的，以获得所述音频信号(102)的经混叠消减的子带表示；

其中所述级联的重叠临界采样变换级(104)被配置为使用至少两个窗函数对以所述第一样本块(108_1)为基础获得的二进制位的集合进行分段，并且基于与第一样本块(108_1)对应的经分段的二进制位的集合获得至少两个二进制位的集合；

其中级联的重叠临界采样变换级(104)被配置为使用至少两个窗函数对以所述第二样本块(108_2)为基础获得的二进制位的集合进行分段，并且基于与所述第二样本块(108_2)对应的经分段的二进制位的集合获得至少两个二进制位的集合；以及

其中使用所述级联的重叠临界采样变换级的第二重叠临界采样变换级对所述二进制位的集合进行处理，其中所述第二重叠临界采样变换级被配置为针对至少一个二进制位的集合执行具有相同帧长度的重叠临界采样变换；

其中所述音频处理器(100)被配置为，如果为两个相继块使用相同的帧长度，则激活所述时域混叠消减级(106)或者保持所述时域混叠消减级(106)激活，

和/或，其中所述音频处理器(100)被配置为，如果为两个相继块使用不同的帧长度，则停用所述时域混叠消减级(106)或者保持所述时域混叠消减级(106)停用。

2.根据权利要求1所述的音频处理器(100)，

其中第二重叠临界变换级(126)被配置为对以与所述第一样本块(108_1)对应的经分段的二进制位的集合为基础获得的至少两个二进制位的集合中的第一集合的N_1，1个子集执行N_1，1个重叠临界采样变换，其中所述N_1，1个重叠临界采样变换包括相同的帧长度，其中N_1，1是大于或等于二的自然数，

其中所述第二重叠临界变换级(126)被配置为对以与所述第二样本块(108_2)对应的经分段的二进制位的集合为基础获得的至少两个二进制位的集合中的对应的第一集合的N_2,1个子集执行N_2,1个重叠临界采样变换，其中所述N_2，1个重叠临界采样变换包括相同的帧长度，其中N_2，1是大于或等于二的自然数。

3.根据权利要求1所述的音频处理器(100)，

其中所述音频处理器(100)被配置为针对每个二进制位的集合或者针对每个对应的二进制位的集合单独地选择帧长度。

4.根据权利要求1所述的音频处理器(100)，

其中所述音频处理器被配置为针对每个样本块单独地选择帧长度。

5.根据权利要求1所述的音频处理器(100)，

其中处理器(100)被配置为执行公共/联合优化，以对帧长度进行适配。

6.根据权利要求1所述的音频处理器(100)，

其中所述至少两个窗函数包括相同的窗宽。

7.根据权利要求1所述的音频处理器(100)，

其中所述至少两个窗函数包括不同的窗宽。

8.根据权利要求1所述的音频处理器(100)，

其中所述至少两个窗函数包括基本上矩形的窗口。

9.根据权利要求6所述的音频处理器(100)，

其中使用所述第二重叠临界采样变换级对基于所述至少两个窗函数获得的二进制位的集合进行处理，

其中所述第二重叠临界采样变换级被配置为针对基于所述至少两个窗函数获得的二进制位的集合中的至少一个，执行具有相同帧长度的至少两个重叠临界采样变换。

10.根据权利要求1所述的音频处理器(100)，

其中，所述音频处理器(100)被配置为执行联合信道编码。

11.根据权利要求10所述的音频处理器，

其中，所述音频处理器(100)被配置为执行M/S或多信道编码工具MCT作为联合信道处理。

12.根据权利要求10所述的音频处理器(100)，

其中，所述音频处理器(100)被配置为针对所述至少两个经分段的二进制位的集合中的每一个，单独地激活或停用联合信道处理。

13.根据权利要求1所述的音频处理器(100)，

其中所述音频处理器(100)被配置为从所述音频信号的经编码的经混叠消减的子带表示形成位流，

其中，所述音频处理器(100)被配置为提供包括至少一个合并因子MF参数的位流，所述合并因子MF参数用信号通知所述位流中的对应的二进制位的集合的至少一个帧长度。

14.根据权利要求13所述的音频处理器(100)，

其中所述音频处理器(100)被配置为对所述至少一个合并因子MF参数进行熵编码。

15.一种用于处理音频信号(102)以获得所述音频信号(102)的子带表示的音频处理器(100)，所述音频处理器(100)包括：

其中所述级联的重叠临界采样变换级(104)被配置为使用至少两个窗函数对以所述第一样本块(108_1)为基础获得的二进制位的集合进行分段，并且基于与第一样本块(108_1)对应的经分段的二进制位的集合获得至少两个经分段的二进制位的集合；

其中所述音频处理器(100)被配置为提供包括至少一个合并因子MF参数的位流，所述合并因子MF参数用信号通知所述位流中的对应的二进制位的集合的至少一个帧长度；

其中，其中所述音频处理器(100)被配置为提供仅包括合并因子MF参数的子集的位流，用信号通知所述位流中的对应的二进制位的集合的帧长度。

16.一种用于处理音频信号(102)以获得所述音频信号(102)的子带表示的音频处理器(100)，所述音频处理器(100)包括：

其中，其中所述音频处理器(100)被配置为提供包括用于每个对应的二进制位的集合的时域混叠消减TDAR参数的位流。

17.根据权利要求16所述的音频处理器(100)，

其中所述音频处理器(100)被配置为执行所述合并因子MF和时域混叠消减TDAR参数的联合熵编码。

18.一种用于处理音频信号(102)以获得所述音频信号(102)的子带表示的音频处理器(100)，所述音频处理器(100)包括：

其中，所述音频处理器(100)被配置为提供包括至少一个合并因子MF参数的位流，所述合并因子MF参数用信号通知所述位流中的对应的二进制位的集合的至少一个帧长度；

其中，所述音频处理器(100)被配置为提供包括所述至少一个合并因子MF参数的位流，使得时域混叠消减TDAR参数是从所述至少一个合并因子MF参数可导出的。

19.一种用于处理音频信号(102)以获得所述音频信号(102)的子带表示的音频处理器(100)，所述音频处理器(100)包括：

其中，所述音频处理器(100)被配置为针对每个子带样本集合使用一个网格，来执行公共/联合优化，以对帧长度进行适配。

20.一种音频编码器，包括：

根据权利要求1、15、16、18、或19所述的音频处理器(100)；

编码器，被配置为对音频信号的经混叠消减的子带表示进行编码，以获得所述音频信号的经编码的经混叠消减的子带表示；以及

位流形成器，被配置为从所述音频信号的所述经编码的经混叠消减的子带表示形成位流。

21.一种用于处理音频信号(102)以获得所述音频信号(102)的子带表示的方法，所述方法包括：

对所述音频信号(102)的至少两个部分重叠的样本块执行级联的重叠临界采样变换，以所述音频信号(102)的第一样本块(108_1)为基础获得子带样本集合，以及以所述音频信号(102)的第二样本块(108_2)为基础获得对应的子带样本集合；以及

执行两个对应的子带样本集合的加权组合，一个子带样本集合是以所述音频信号(102)的所述第一样本块(108_1)为基础获得的，且一个子带样本集合是以所述音频信号的所述第二样本块(108_2)为基础获得的，以获得所述音频信号(102)的经混叠消减的子带表示；

其中执行级联的重叠临界采样变换包括使用至少两个窗函数对以所述第一样本块(108_1)为基础获得的二进制位的集合进行分段，并且基于经分段的与所述第一样本块(108_1)对应的二进制位的集合获得至少两个经分段的二进制位的集合；

其中执行级联的重叠临界采样变换包括使用所述至少两个窗函数对以所述第二样本块(108_2)为基础获得的二进制位的集合进行分段，并且基于经分段的与所述第二样本块(108_2)对应的二进制位的集合获得至少两个二进制位的集合；以及

其中使用所述级联的重叠临界采样变换的第二重叠临界采样变换对所述二进制位的集合进行处理，其中所述第二重叠临界采样变换包括针对至少一个二进制位的集合执行具有相同帧长度的重叠临界采样变换；

其中，如果为两个相继块使用相同的帧长度，则执行两个对应的子带样本集合的加权组合，

和/或

如果为两个相继块使用不同的帧长度，则不执行两个对应的子带样本集合的加权组合。

22.一种用于处理音频信号(102)以获得所述音频信号(102)的子带表示的方法，所述方法包括：

从所述音频信号的经编码的经混叠消减的子带表示形成位流，

提供包括至少一个合并因子MF参数的位流，所述合并因子MF参数用信号通知所述位流中的对应的二进制位的集合的至少一个帧长度；

其中，提供位流包括提供仅包括合并因子MF参数的子集的位流，用信号通知所述位流中的对应的二进制位的集合的帧长度。

23.一种用于处理音频信号(102)以获得所述音频信号(102)的子带表示的方法，所述方法包括：

其中，提供所述位流包括提供包括用于每个对应的二进制位的集合的时域混叠消减TDAR参数的位流。

24.一种用于处理音频信号(102)以获得所述音频信号(102)的子带表示的方法，所述方法包括：

其中，提供位流包括提供包括所述至少一个合并因子MF参数的位流，使得时域混叠消减TDAR参数是从所述至少一个合并因子MF参数可导出的。

25.一种用于处理音频信号(102)以获得所述音频信号(102)的子带表示的方法，所述方法包括：

针对每个子带样本集合使用一个网格，来执行公共/联合优化，以对帧长度进行适配。

26.一种数字存储介质，存储有用于执行根据权利要求21至25中任一项所述的方法的计算机程序。