CN103594090B

CN103594090B - 使用时间分辨率能选择的低复杂性频谱分析/合成

Info

Publication number: CN103594090B
Application number: CN201310553487.1A
Authority: CN
Inventors: A.塔莱布
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2007-08-27
Filing date: 2008-08-25
Publication date: 2017-10-10
Anticipated expiration: 2028-08-25
Also published as: US20100250265A1; EP2186088A2; WO2009029032A3; US8392202B2; US20130246074A1; CA2698039A1; EP3288028B1; EP3288028A1; US8706511B2; ES2658942T3; CN101878504B; CN103594090A; EP3550564B1; EP2186088A4; CA2698039C; ES2823560T3; EP2186088B1; WO2009029032A2; BRPI0816136A2; DK2186088T3

Abstract

信号处理是基于这样的构思：将时域混叠(12，TDA)帧用作时间分段(14)和频谱分析(16)的基础，基于时域混叠帧来在时间上执行分段并且基于所得到的时间段来执行频谱分析。因此可以通过基于应用哪个频谱分析而简单地适配时间分段以获得合适数目的时间段，从而改变整体“分段的”时间到频率的变换的时间分辨率。为所有段获得的整个频谱系数集提供原始信号帧的能选择的时间‑频率平铺。

Description

使用时间分辨率能选择的低复杂性频谱分析/合成

技术领域

本发明总体上涉及诸如信号压缩和音频编码之类的信号处理，更特别地涉及音频编码和音频解码以及相应的设备。

背景技术

编码器是一种能够分析诸如音频信号之类的信号并以编码的形式输出信号的设备、电路或计算机程序。所得到的信号通常用于传输、存储和/加密的目的。另一方面，解码器是一种能够反转编码器操作的设备、电路或计算机程序，因为其接收编码的信号并且输出解码的信号。

在大多数现有技术的编码器(例如音频编码器)中，在频域中分析输入信号的每个帧。该分析的结果被量化和编码，并且然后根据应用进行传输或存储。在接收侧(或者当使用所存储的编码信号时)，后面是合成过程的相应解码过程使得有可能在时域中恢复信号。

编解码器通常用于压缩/解压缩诸如音频和视频数据之类的信息以便通过带宽受限的通信信道进行高效的传输。

特别地，市场高度需要以低比特率传输和存储音频信号，同时保持高的音频质量。例如，在传输资源或存储受限的情况下，低比特率操作是必要的成本因素。例如在移动通信系统中的流式传输和消息接发应用中通常是这种情况。

在图1中示意性地示出使用音频编码和解码的音频传输系统的一般实例。整个系统基本上包括在发射侧的音频编码器10和发射模块(TX)20以及在接收侧的接收模块(RX)30和音频解码器40。

公认的是，为了处理特别用于音频编码应用以及一般用于信号压缩的非稳态信号，必须格外小心。在音频编码中，被称为前回声失真的赝象(artifact)会出现在所谓的变换编码器中。

变换编码器或更一般而言变换编解码器(编码器-解码器)通常基于时域到频域的变换，例如DCT(离散余弦变换)、改进的离散余弦变换(MDCT)或另一重叠变换。变换编解码器的共同特性是，它们对重叠采样块(即重叠帧)进行操作。由每个帧的变换分析或等效子带分析所产生的编码系数通常被量化和存储或者作为比特流传输到接收侧。解码器一接收到比特流就执行解量化和逆变换以便重构信号帧。

前回声通常在具有尖锐上升(attack)的信号开始在紧接在低能量区域后的变换块的末端附近时出现。

这种情况例如在编码打击乐器(例如响板、钟琴)的声音时出现。在基于块的算法中，当量化变换系数时，在解码器侧的逆变换将在时间上均匀地扩展量化噪声失真。这导致在时间上信号上升之前的低能量区域上的无掩蔽失真，如在图2A和2B所示，其中图2A示出原始的打击声音，以及图2B示出变换编码的信号，其显示出导致前回声失真的编码噪声的时间扩展。

时间超前掩蔽(pre-mask)是人类听觉的心理声学特性，其具有掩蔽这一失真的潜力；然而这仅在变换块尺寸足够小以至于出现超前掩蔽时才有可能。

前回声赝象减轻(现有技术)

为了避免这种不期望的赝象，几种方法已经被提出并且被成功地应用。这些技术的一些已经被标准化并且在商业应用上很普遍。

比特储存(bit reservoir)技术

比特储存技术背后的思想是保存来自“容易”在频域中编码的帧的一些比特。此后使用所保存的比特以便适应要求高的帧，比如瞬态帧。这导致可变的瞬时比特率，通过某种调整可以使得平均比特率恒定。然而主要的缺点是，实际上需要非常大的储存以便处理某些瞬态，并且这导致非常大的延迟，从而使得该技术对会话式应用没有多大兴趣。另外，该方法仅稍微减轻了前回声赝象。

增益修正以及时间噪声整形

在频谱分析和编码之前，增益修正方法在时域中应用瞬态峰值的平滑。增益修正包络被作为辅助信息进行发送，并且被反向应用于逆变换信号，从而整形时间编码噪声。增益修正技术的主要缺点在于其对滤波器组(例如MDCT)分析窗的修正，因此引入滤波器组的频率响应的加宽。这可能在低频下尤其是在带宽超过临界频带的带宽的情况下导致问题。

时间噪声整形(TNS)受到增益修正技术的启发。增益修正被应用于频域中并且对频谱系数进行操作。仅在对前回声敏感的输入上升期间应用TNS。该思想是在频率上而不是在时间上应用线性预测(LP)。这受如下事实的推动：在瞬态以及一般而言脉冲信号期间，通过使用LP技术来最大化频域编码增益。在AAC中TNS被标准化并且被证实提供对前回声赝象的良好减轻。然而，TNS的使用涉及LP分析和滤波，这显著增加编码器和解码器的复杂性。另外，LP系数必须被量化并且作为辅助信息而发送，这涉及进一步的复杂性和比特率开销。

窗切换

图3示出窗切换(MPEG-1，层III“mp3”)，其中在长窗和短窗之间需要过渡窗“开始”和“停止”以保留PR(完全重构)特性。该技术首先由Ed1er[1]引入，并且广泛用于特别是在基于MDCT的变换编码算法的情况下的前回声抑制。窗切换是基于一检测到瞬态就改变变换的时间分辨率的思想。通常，这涉及将分析块长度从稳态信号期间的长持续时间改变到当检测到瞬态时的短持续时间。该思想是基于下面两种考虑：

●应用于包含瞬态的短帧的短窗将最小化编码噪声的时间扩展，并且允许时间超前掩蔽生效和致使听不见失真。

●向包含瞬态的短时间区域分配较高的比特率。

尽管窗切换已经非常成功，但是它带来相当多的缺点。例如，编解码器的感知模型和无损编码模块必须支持不同的时间分辨率，这通常转化成增加的复杂性。另外，当使用重叠变换(例如MDCT)时，并且为了满足完全重构约束，窗切换需要在短块和长块之间插入过渡窗，如图3所示。对过渡窗的需要产生进一步的缺点，即由于切换窗不能瞬时完成这一事实而引起的增加的延迟，以及还有过渡窗的差的频率局部化特性，其导致编码增益的大大减小。

发明内容

本发明克服了现有技术方案的这些和其他缺点。

因此，通常需要改进的信号处理技术和设备，更特别地，特别需要用于处理前回声失真的新的音频编解码器策略。

本发明的一般目的是提供一种对时域输入信号的重叠帧进行操作的改进的信号处理的方法和设备。

特别地，期望提供一种改进的音频编码器。

本发明的另一个目的是提供一种基于表示时域信号的频谱系数进行操作的改进的信号处理的方法和设备。

特别地，期望提供一种改进的音频解码器。

这些和其他目的由所附的专利权利要求所限定的本发明来满足。

本发明的第一方面涉及一种用于对输入信号的重叠帧进行操作的信号处理的方法和设备。

本发明是基于如下构思：将时域混叠帧用作时间分段和频谱分析的基础，基于时域混叠帧来在时间上执行分段，并且基于所得到的时间段来执行频谱分析。

因此可以通过基于应用哪个频谱分析而简单地适配时间分段以获得合适数目的时间段，从而改变整体“分段的”时间到频率的变换的时间分辨率。

更具体地，基本的思想是基于重叠帧来执行时域混叠(TDA)以生成相应的时域混叠帧，并且基于时域混叠帧来在时间上执行分段以生成至少两段，所述段也被称为子帧。基于这些段，然后执行频谱分析以便为每段获得表示该段的频率内容的系数。

用于所有段的整体系数(也被称为频谱系数)集提供原始信号帧的能选择的时间-频率平铺(tiling)。

瞬时分解成段例如可以被用来减轻前回声效应(例如在瞬态的情况下)，或者通常用来提供高效信号表示，其允许所讨论的帧的比特率高效编码。

本发明的第一方面特别涉及一种被配置成根据上述基本原理来操作的音频编码器。

本发明的第二方面涉及一种基于表示时域信号的频谱系数进行操作的信号处理的方法和设备。本发明的该方面基本上涉及本发明的第一方面的信号处理的自然逆操作。简言之，基于频谱系数的不同子集来执行逆分段频谱分析，以便为每个子集的频谱系数生成逆变换子帧，所述逆变换子帧也被称为段。然后基于重叠的逆变换子帧来执行逆时间分段以将这些子帧组合成时域混叠帧。基于所述时域混叠帧来执行逆时域混叠以实现时域信号的重构。

本发明的第二方面特别涉及一种被配置成根据上述基本原理来操作的音频解码器。

当阅读下面对本发明的实施例的描述时将会认识到由本发明提供的进一步优点。

附图说明

通过参考与附图一起得到的下面的描述，将会最好地理解本发明连同其进一步的目的和优点，其中：

图1是示出使用音频编码和解码的音频传输系统的一般实例的示意性框图。

图2A示出原始打击声音，以及图2B示出变换编码的信号，其显示出导致前回声失真的编码噪声的时间扩展。

图3示出用于基于变换的编码的常规窗切换技术。

图4A示意性地示出一般MDCT(改进的离散余弦变换)正变换。

图4B示意性地示出一般MDCT(改进的离散余弦变换)逆变换。

图5是示出将MDCT(改进的离散余弦变换)变换分解成两个级联的级的示意图。

图6是示出根据本发明一个优选示例性实施例的用于信号处理的方法的实例的示意性流程图。

图7是根据本发明一个优选示例性实施例的一般信号处理设备的示意性框图。

图8是根据本发明另一个优选示例性实施例的设备的示意性框图。

图9是根据本发明又一个示例性实施例的设备的示意性框图。

图10是根据本发明一个示例性实施例的时域混叠重新排序的实例的示意图。

图11是根据本发明一个示例性实施例的分段成包括零填充的两个时间段的实例的示意图。

图12示出与0.25的归一化频率有关的图11的分段的两个基本函数的图以及相应的频率响应图。

图13示出与0.25的归一化频率有关的原始MDCT基本函数的图以及相应的频率响应图。

图14是示出根据本发明一个示例性实施例的分段成包括零填充的四个时间段的实例的示意图。

图15是示出根据本发明一个示例性实施例的分段成包括零填充的八个时间段的实例的示意图。

图16示出根据本发明一个示例性实施例的针对四段的情况所得到的总变换的实现。

图17示出借助于分级方法获得非均匀分段的示例性方式。

图18示出一检测到瞬态就瞬时切换到更精细的时间分辨率的实例。

图19是示出基于表示时域信号的频谱系数进行操作的信号处理设备的基本实例的框图。

图20是适合于全带扩展的示例性编码器的框图。

图21是适合于全带扩展的示例性解码器的框图。

图22是根据本发明一个优选实施例的逆变换器以及相关联的用于逆时间分段和可选重新排序的实施方式的特定实例的示意性框图。

具体实施方式

在全部附图中，相同的附图标记将被用于相应的或类似的元素。

为了更好地理解本发明，以对变换编码以及尤其是基于所谓的重叠变换的变换编码的简短介绍来开始可能是有用的。

如先前所述，变换编解码器通常是基于时域到频域的变换，例如DCT(离散余弦变换)、重叠变换(例如改进的离散余弦变换(MDCT))或调制重叠变换(MLT)。

例如，改进的离散余弦变换(MDCT)是基于IV类型离散余弦变换(DCT-IV)的傅里叶相关的变换，其附加特性是被重叠：其被设计成在较大数据集的连续块上执行，其中重叠后续块(所谓的重叠帧)，以使一个块的后一半与下一个块的前一半重合，如图4A中示意性所示。除了DCT的能量集中品质之外，该重叠使得MDCT对于信号压缩应用尤其具有吸引力，因为它有助于避免源于块边界的赝象。因此，MDCT例如被用于MP3、AC-3、Ogg Vorbis以及AAC中进行音频压缩。

作为一种重叠变换，MDCT在与其他的傅里叶相关的变换相比时略有不同。事实上，MDCT的输出是输入的一半。形式上，MDCT是从R^2N到R^N的线性映射(其中R表示实数集)。

在数学上，根据下面的公式将实数x₀，x₁，…，x_2N变换成实数X₀，X₁，…，X_N：

根据惯例，上面的这个公式可以包含附加的归一化系数。

逆MDCT被称为IMDCT。因为输出和输入的维数不同，所以乍一看似乎MDCT应该不是可逆的。然而，通过添加后续重叠块(即重叠帧)的重叠IMDCT来实现完全可逆性，从而使得消除误差并且重新得到原始数据；该技术被称为时域混叠消除(TDAC)，并且在图4B中示意性示出。

总之，对于正变换来说，(重叠帧之一的)2N个采样被映射到N个频谱系数，而对于逆变换来说，N个频谱系数被映射到(重构重叠帧之一的)2N个时域采样，所述2N个时域采样被重叠相加以形成输出时域信号。

IMDCT根据下面的公式将N个实数Y₀，Y₁，…，Y_N变换成y₀，y₁，…，y_2N：

在典型的信号压缩应用中，使用乘以直接变换的输入信号x_n和逆变换的输出信号y_n的窗函数w_n来进一步增强变换特性。原则上，x_n和y_n可以使用不同的窗，但是为了简单起见仅考虑相同窗的情况。

存在几种通用正交和双正交窗。在正交的情况下，一般化的完全重构(PR)条件可以被减少到对窗的奈奎斯特约束和线性相位，即：

w(2N-1-n)＝w(n)

w²(n)+w²(n+N)＝1，

n＝0...N-1

满足完全重构(PR)条件的任何窗都可以被用来生成滤波器组。然而，为了获得高编码增益，所得到的滤波器组的频率响应应该尽可能选择性的。

参考文献[2]通过MLT(调制重叠变换)来表示利用正弦窗的MDCT滤波器组，该正弦窗被定义为：

该特定窗(即所谓的正弦窗)在音频编码中最流行。例如，它出现在MPEG-1层III(MP3)混合滤波器组以及MPEG-2/4AAC中。

促成广泛使用MDCT进行音频编码的有吸引力特性之一是基于FFT的快速算法的可用性。这使得MDCT成为用于实时实施的可行滤波器组。

公知的是，窗长度为2N的MDCT可以被分解成两个级联的级。第一级包括时域混叠操作(TDA)，后面是基于IV类型DCT的第二级，如图5所示。

由下面的矩阵运算明确地给出TDA操作：

其中x_w表示加窗的时域输入帧：

x_w(n)＝w(n).x(n)，

矩阵I_N和J_N表示N阶单位矩阵和时间反转矩阵：

本发明的第一方面涉及对输入信号的重叠帧进行操作的信号处理。关键的构思是，将时域混叠帧用作时间分段和频谱分析的基础，以及基于时域混叠帧在时间上执行分段并基于所得到的时间段执行频谱分析。时间段或者简而言之段还被称为子帧。这是很自然的，因为帧的段可以被称为子帧。措词“段”和“子帧”一般而言将在整个公开中被可互换地使用。

图6是示出根据本发明一个优选示例性实施例的用于信号处理的方法的实例的示意性流程图。如在步骤S1中所示，该过程可以包括可选的预处理步骤，这稍后将进行解释和例示。在步骤S2中，基于所选择的一个重叠帧执行时域混叠(TDA)操作以生成相应的所谓的TDA帧，在执行时间分段之前，所述TDA帧可以可选地在一个或多个级中处理，如在步骤S3中所示。无论任何，基于时域混叠帧(其可能已被处理)执行时间分段以在时间上生成至少两段，如在步骤S4中所示。在步骤S5中，基于所述段执行所谓的分段频谱分析，以便为每段获得表示该段的频率内容的系数。优选地，频谱分析是基于对每段应用变换以便为每段产生相应的频谱系数集。还有可能应用可选的后处理步骤(未示出)。

频谱分析可以是基于多个不同变换的任何一个，优选地是重叠变换。不同类型的变换的实例包括重叠变换(LT)、离散余弦变换(DCT)、改进的离散余弦变换(MDCT)、以及调制重叠变换(MLT)。

因此可以通过基于应用哪个频谱分析而简单地适配时间分段以获得合适数目的时间段，从而改变整体分段的时间到频率的变换的时间分辨率。分段过程可以适于产生非重叠段、重叠段、非均匀长度段和/或均匀长度段。以这种方式，可以获得原始信号帧的任何任意的时间-频率平铺。

整个信号处理过程通常在逐帧的基础上对时域输入信号的重叠帧进行操作，并且优选地对于多个重叠帧的每一个重复上面的时间混叠、分段、频谱分析以及可选的预、中和后处理步骤。

优选地，本发明提出的信号处理包括信号分析、信号压缩和/或音频编码。在音频编码器中，例如，频谱系数通常将被量化成比特流以用于存储和/或传输。

图7是根据本发明一个优选示例性实施例的一般信号处理设备的示意性框图。该设备基本上包括时域混叠(TDA)单元12、时间分段单元14以及频谱分析仪16。在图7的基本实例中，多个重叠帧中的所考虑的帧在TDA单元12中进行时域混叠以生成时域混叠帧，并且时间分段单元14对时域混叠帧进行操作以生成多个时间段，所述时间段也被称为子帧。频谱分析仪16被配置用于基于这些段的分段频谱分析以便为每段生成频谱系数集。所有段的集体频谱系数表示所处理的具有比通常更高的时间分辨率的时域帧的时间-频率平铺。

因为本发明将时域混叠帧用作频谱分析的基础，所以存在在基于时域混叠帧的不分段频谱分析(所谓的全频率分辨率处理)与基于相对较短段的分段频谱分析(所谓的增加的时间分辨率处理)之间进行瞬时切换的可能性。

优选地，这样的瞬时切换由切换功能17根据对输入信号中的信号瞬态的检测来执行。可以在时域、时间混叠域或甚至在频域中检测瞬态。典型地，利用比稳态帧更高的时间分辨率来处理瞬态帧，然后可以使用通常的全频率处理来处理所述瞬态帧。

还存在通过将更多或更少数目的时间段用于频谱分析来瞬时切换时间分辨率的可能性。

优选地，对多个连续重叠帧的每一个重复时域混叠、时间分段以及频谱分析。

在本发明的一个优选实施例中，图7的信号处理设备是使用变换编码进行频谱分析的音频编码器(例如图1或图20的音频编码器10)的一部分。

基于上面的“正向”过程，将频谱系数集映射到时域帧的逆操作链对本领域技术人员来说是容易且自然显而易见的。

简言之，在本发明的第二方面中，基于频谱系数的不同子集执行逆频谱分析以便为每个子集的频谱系数生成逆变换子帧，所述逆变换子帧也被称为段。然后基于重叠的逆变换子帧来执行逆时间分段以将这些子帧组合成时域混叠帧，并且基于所述时域混叠帧来执行逆时域混叠以实现时域信号的重构。

通常执行逆时域混叠以重构第一时域帧，并且然后整个过程基于第一时域帧与随后的第二重构时域帧的重叠相加来合成时域信号。例如可以参考图4B的一般重叠相加操作。

优选地，逆信号处理包括信号合成和音频解码中的至少一个。逆频谱分析可以是基于多个不同的逆变换中的任何一个，优选地是重叠变换。例如，在音频解码应用中，使用逆MDCT变换是有益的。

稍后将讨论逆操作链以及优选实施方式的更详细的概述和解释。

图8是根据本发明另一个优选示例性实施例的设备的示意性框图。除了图7的基本块之外，图8的设备还包括一个或多个可选的处理单元，例如加窗单元11和重新排序单元13。

在图8的实例中，可选的加窗单元11基于重叠帧之一来执行加窗以生成加窗帧，该加窗帧被转发到TDA单元12进行时域混叠。基本上，可以执行加窗以增强变换的频率选择性特性。窗形状可以被优化以满足特定频率选择性标准，几种优化技术可以被使用并且对于本领域技术人员来说是公知的。

为了维持输入信号的全时间相干性，应用时域混叠重新排序是有益的。为此，可选的重新排序单元13可以被提供用于重新排序时域混叠帧以生成重新排序的时域混叠帧，其被转发到分段单元14。以这种方式，基于经重新排序的时域混叠帧来执行分段。频谱分析仪16优选地对从时间分段单元14生成的段进行操作以获得具有比通常更高的时间分辨率的分段频谱分析。

图9是根据本发明又一个示例性实施例的设备的示意性框图。图9的实例类似于图8的实例，除了在图9中明确地指示时间分段是基于合适的窗函数集，以及频谱分析是基于对(经重新排序的)时域混叠帧的段应用变换。

在一个特定实例中，分段包括将零填充添加到(经重新排序的)时域混叠帧并将所得到的信号分成相对较短的且优选重叠的段。

优选地，频谱分析是基于对每个所述重叠段应用重叠变换，例如MDCT或MLT。

在下文中将参考进一步的示例性且非限制性实施例来描述本发明。

如所提到的那样，本发明是基于使用时间混叠信号(时域混叠操作的输出)作为对其应用频谱分析的新的信号帧的构思。通过改变在时间混叠之后应用的变换的时间分辨率以便获得(例如MDCT)系数(例如DCT_IV)，本发明允许利用很小的复杂性开销且瞬时地(即没有附加的延迟)获得对任意时间段的频谱分析。

为了获得具有预定时间分辨率的信号分析，对时间混叠的加窗输入信号的优选重叠段直接应用适当长度的正交变换就足够了。

这些较短长度变换的每个的输出将产生表示所讨论的每段的频率内容的系数集。所有段的系数集将瞬时提供原始信号帧的任意时间-频率平铺。

可以使用该瞬时分解以便例如在瞬态的情况下减轻前回声效应，以及提供信号的高效表示，其允许对所讨论的帧进行比特率高效编码。

时间混叠的加窗信号的重叠段的长度没必要相等。因为在时间混叠域和通常时域中的段之间在时间上的对应性，所以期望水平的时间分辨率分析将确定段数以及对其执行频率分析的每段的长度。

本发明最好和瞬态检测器一起应用和/或在通过测量为给定的时间分段集获得的编码增益来编码的情况下应用，其包括每个时间分段试验的开环和闭环二者的编码增益估计。

如稍后将例示的那样，对于编码和解码二者来说，本发明例如与ITU-T G…722.1标准一起很有用，并且尤其是对于“ITU-T G.722.1 fullband extension for20kHz full-band audio”标准(现在被重新命名为ITU-T G.719标准)很有用。

本发明允许(例如基于MDCT的)整个变换的时间分辨率的瞬时切换。因此，与窗切换相反，本发明不要求任何延迟。

本发明具有很低的复杂性，并且不需要附加的滤波器组。本发明优选地使用与MDCT相同的变换，即IV类型DCT。

本发明通过瞬时切换到更高的时间分辨率来高效地处理前回声赝象抑制。

本发明还将允许基于信号自适应时间分段来建立闭环/开环编码方案。

为了更好地理解本发明，现在将描述各个(可能可选的)信号处理操作的更详细实例以及整个实施方式的进一步实例。下面将主要参考MDCT变换来描述频谱分析，但是应该理解本发明不限于此，尽管使用重叠变换是有益的。

如果存在对时间相干性的严格要求，则推荐所谓的重新排序。

TDA重新排序

为了保持输入信号的时间相干性，时域混叠操作的输出需要在进一步的处理之前被重新排序。排序操作是必要的，在没有排序的情况下所得到的滤波器组的基本函数将具有不相干的时间和频率响应。重新排序操作的实例在图10中示出，并且涉及混排TDA输出信号的上半部分和下半部分。该重新排序仅是概念性的并且实际上不涉及计算。本发明不限于图10中示出的实例。当然，可以实施其他类型的重新排序。

简单实施例-改进时间分辨率

第一简单实施例示出根据本发明如何加倍时间分辨率。因此，为了加倍时间分辨率，对v(n)应用时间频率分析，v(n)被分成两个优选重叠段。因为v(n)是时间受限的信号，所以在v(n)的开始和结束处添加一定量的零填充。优选地，输入信号是长度为N的重新排序的时间混叠的加窗信号。零填充的长度取决于信号v(n)的长度以及期望的段数，在这种情况下由于期望两个重叠段，所以零填充的长度等于v(n)的长度的四分之一并且附加在v(n)的开始和结束处。使用这样的零填充导致具有与v(n)的长度相同的长度的两个50％重叠的段。

优选地，所得到的重叠段被加窗，如在图11中例示的那样。应该注意，尽管在一定程度上窗形状可以针对期望的应用进行优化，但是它必须服从完全重构约束。这可以在图11中看到，其中第二段的窗的右半部对于应用于信号v(n)的部分具有值1而对于所附加的零填充具有值0。

所获得的每段都具有恰好N的长度。对每段应用MDCT导致N/2个系数；即总共N个系数，因此主要采样所得到的滤波器组，参见图11。因为对窗形状的约束，所以操作是可逆的，并且对两个MDCT系数(段1和2的MDCT系数)集应用逆操作将重新产生信号v(n)。

对于该实施例来说，所得到的滤波器组基本函数具有改进的时间局部化，而在频率局部化方面是松弛的，根据时间-频率的不确定性原理，这是公知效应。

图12示出与归一化频率0.25有关的两个基本函数。显然，时间扩展是很有限的，然而还看到在时间扩展上存在由于重叠时间混叠信号的两个部分而引起的溢出。在时域中的该溢出是时域混叠消除的效应并且将总是存在。然而，这可以通过加窗函数的适当选择(数值优化)而得以减轻。图12还示出频率响应。作为比较，在图13中示出原始MDCT基本函数，这些基本函数对应于窄得多的频域采样，然而它们的时间跨度宽得多。图13示出对应于MLT滤波器组的原始基本函数(MDCT+正弦窗)。

更高的时间分辨率

可以通过将经重新排序的时间混叠信号分成更多段来获得更高的时间分辨率。图14和图15分别示出对于四段和八段如何实现更高的时间分辨率。图14示出通过分成四段的更高时间分辨率，以及图15示出通过分成八段的更高时间分辨率。如应该理解的那样，可以根据期望的时间分辨率来使用任何合适数目的时间段。

一般来说，时间分段单元被配置成基于时域混叠帧生成数目能选择的N段，其中N是等于或大于2的整数。

对于四段的情况，图16示出所得到的整个变换的实现。在加窗单元11中执行输入帧的加窗，在时域混叠单元12中执行时间混叠，并且在重新排序单元13中执行可选的重新排序。然后，通过使用后加窗单元14对四段应用后加窗并由变换单元16进行分段变换来执行分段频谱分析。优选地，整个分段变换是基于分段的MDCT，对每段使用时间混叠和DCT_IV。

非均匀的时域平铺

利用本发明，根据相同的构思还有可能获得非均匀时间分段。存在至少两种可能的方式来执行这样的操作。第一种方法是基于经重新排序的时间混叠信号的非均匀时间分段。因此，用来对信号进行分段的窗具有不同的长度。

第二种方法是基于分级方法。该思想是首先应用粗的时间分段，并且然后对所得到的粗段进一步再应用本发明，直到获得期望的平铺。

图17示出可以如何实施该第二种方法的实例。对于该实例，首先根据本发明将信号分成两个时间段；然后所述段中的一个被进一步分成两段。合适的变换的实例是MDCT变换，对每个所考虑的段使用时间混叠和DCT_IV。

具有瞬态检测的操作

为了减轻前回声赝象可以使用本发明，并且在这种情况下本发明最好与瞬态检测相关联，如在图18中例示的那样。一检测到瞬态，瞬态检测器就将设置标志(IsTransient)。然后该瞬态检测器标志将使用切换机构17从通常的全频率分辨率处理(不分段频谱分析)瞬时切换到更高的时间分辨率(分段频谱分析)，如图18中所描绘的那样。利用该实施例，然后有可能以精细得多的时间分辨率来分析瞬态信号，从而消除讨厌的前回声赝象。

闭合环路/闭环编码操作

本发明还可以被用作一种找出在编码前对分析信号而言最佳的时间-频率平铺的手段。可以使用两个示例性的操作模式：闭环和开环。在开环操作中，外部设备将为给定的信号帧决定(就编码效率而言)最好的时间-频率平铺，并且使用本发明以便根据最佳的平铺来分析信号。在闭环操作中，使用预定义的平铺集，对于这些平铺中的每一个，根据所述平铺来分析并编码所述信号。对于每个平铺，计算保真度的量度。选择导致最好保真度的平铺。所选择的平铺连同对应于该平铺的编码系数一起被传输到解码器。

如所提到的那样，用于正向过程的上述原理和构思允许本领域技术人员以逆过程实现逆操作链。

图19是示出基于表示时域信号的频谱系数进行操作的信号处理设备的基本实例的框图。该设备包括逆变换器42、用于逆时间分段的单元44、逆TDA单元46、以及可选的重叠加法器48。

基本上，期望从量化的、编码的比特流中合成时域信号。一旦重新得到频谱系数，就在逆变换器42中基于频谱系数的不同子集来执行逆频谱分析以便为每个子集的频谱系数来生成逆变换子帧，所述逆变换子帧也被称为段。用于逆时间分段的单元44基于重叠的逆变换子帧进行操作以将这些子帧组合成时域混叠帧。逆TDA单元46然后基于时域混叠帧来执行逆时域混叠以实现时域信号的重构。

逆时域混叠通常被执行以重构第一时域帧，并且然后整个过程可以通过使用重叠加法器48基于第一时域帧与随后的第二重构时域帧的重叠相加来合成时域信号。

可选的预、中以及后处理阶段可以被包括在图19的设备中。

逆频谱分析可以是基于多个不同的逆变换中的任何一个逆变换，优选地是重叠变换。例如在音频解码应用中，使用逆MDCT变换(IMDCT)是有益的。

优选地，信号处理设备被配置成用于信号合成和/或音频解码以重构时域音频信号。在本发明的一个优选实施例中，图19的信号处理设备是音频解码器(例如图1或图21的音频解码器40)的一部分。

在下文中，将关于适合于ITU-T G.722.1全带编解码器扩展(即ITU-T G.719编解码器)的特定示例性且非限制性编解码器实现来描述本发明。在该特定实例中，编解码器被呈现为低复杂性基于变换的音频编解码器，其优选地以48kHz的采样率操作，并且提供范围从20Hz一直到20kHz的全音频带宽。编码器以20ms的帧处理输入16比特线性PCM信号，并且编解码器具有40ms的总延迟。编码算法优选地是基于具有自适应时间分辨率、自适应比特分配以及低复杂性格型矢量量化的变换编码。另外，解码器可以通过信号自适应噪声填充或带宽扩展来代替非编码的频谱分量。

图20是适合于全带扩展的示例性编码器的框图。通过瞬态检测器来处理以48kHz采样的输入信号。根据对瞬态的检测，对输入信号帧应用高频率分辨率或低频率分辨率(高时间分辨率)变换。在稳态帧的情况下，自适应变换优选地是基于改进的离散余弦变换(MDCT)。对于非稳态帧，使用更高的时间分辨率变换，而不需要附加延迟并且在复杂性方面具有非常小的开销。非稳态帧优选地具有等同于5ms帧的时间分辨率(尽管可以选择任一任意的分辨率)。

将所获得的频谱系数分组成不等长度的频带会是有益的。估计每个频带的范数(norm)，并且所得到的包括所有频带的范数的频谱包络被量化和编码。然后通过量化的范数来归一化(normalize)所述系数。量化的范数被进一步基于自适应频谱加权而调整并且被用作比特分配的输入。基于为每个频带分配的比特来对归一化的频谱系数进行格型矢量量化和编码。非编码的频谱系数的大小被估计、编码并且传输到解码器。优选地，对编码的频谱系数以及编码的范数二者的量化指数应用霍夫曼编码。

图21是适合于全带扩展的示例性解码器的框图。用于指示帧配置(即稳态或瞬态)的瞬态标志被首先解码。频谱包络被解码，并且在解码器处使用相同的比特精确的范数调整和比特分配算法以便重新计算比特分配，这对解码归一化变换系数的量化指数来说是必需的。

在解量化之后，优选地通过使用根据所接收的频谱系数(具有非零比特分配的频谱系数)而建立的频谱填充码本来重新生成低频非编码的频谱系数(分配的零比特)。

噪声级调整指数可以被用来调整重新生成的系数的大小。优选地使用带宽扩展来重新生成高频非编码的频谱系数。

解码的频谱系数和重新生成的频谱系数被混合并且产生归一化的频谱。应用解码的频谱包络，从而产生解码的全带频谱。

最后，应用逆变换以恢复时域解码信号。这优选地通过对于稳态模式应用改进的离散余弦逆变换(IMDCT)或者对于瞬态模式应用更高时间分辨率变换的逆变换来执行。

适于全带扩展的算法是基于自适应变换编码技术。它对输入和输出音频的20ms帧进行操作。因为变换窗(基本函数长度)是40ms，并且在连续输入帧和输出帧之间使用50％的重叠，所以有效先行缓冲器大小是20ms。因此，整个算法延迟是40ms，其是帧大小加上先行大小的和。在使用G.722.1全带编解码器中经历的所有其他附加延迟归因于计算和/或网络传输延迟。

图22是根据本发明一个优选实施例的逆变换器以及相关联的用于逆时间分段和可选重新排序的实施方式的特定实例的示意性框图。逆变换器是基于与逆时间混叠级联的DCT_IV。四个所谓的子频谱由逆变换器处理，其中l＝0，1，2，3，并且首先借助于各自的DCT_IV将每个子频谱逆变换成时域混叠域，并且然后进行逆时间混叠(即逆时域混叠)，以便为每个子频谱提供整体MDCT类型逆变换。针对每个子帧索引l所得到的信号的长度等于输入频谱的长度(即L/2)的两倍。

使用与编码器中的那些窗相同的配置来加窗针对每个子帧l所得到的逆时域混叠信号。所得到的加窗信号被重叠相加。注意，用于第一m＝0和最后m＝3的子帧的窗等于零。这是由于在编码器中使用的零填充。

这两个帧边缘确实需要被计算并且被有效地丢弃。使用在编码器中执行的逆操作来重新排序所有子帧v^q(n)的重叠相加操作的所得到的信号，这产生信号n＝0，…，L-1。

处于稳态或瞬态模式的逆变换的输出具有长度L。在加窗(在图22中未示出)之前，所述信号首先根据下式进行逆时域混叠(ITDA)，从而产生长度为2L的信号：

根据下式为每个帧r对所得到的信号进行加窗：

其中h例是窗函数。

最后，通过重叠相加用于两个连续帧的信号来构造输出全带信号：

上述实施例仅作为实例而给出，并且应该理解本发明不限于此。保留此处所公开并且请求保护的基本潜在原理的进一步的修改、变化和改进都在本发明的范围内。

[1]B.Edler，“Codietong von Audiosignalen mit überlappenderTransformation und adaptiven Fensteffunktionen“Frequenz，pp.252-256，1989.

[2]H.Malvar，“Lapped Transforms for efficient transform/subbandcoding”.IEEE Trans.Acous.，Speech，and Sig.Process.，vol.38，no.6，pp.969-978，June1990.

[3]J.Herre and J.D.Johnston，“Enhancing the performance of perceptualaudio coders by using temporal noise shaping(TNS)”，inProc.101^stConv.Aud.Eng.Soc.，preprint#4384，Nov.1996.

Claims

1.一种用于对时域输入音频信号的重叠帧进行操作的信号处理的方法，所述方法包括以下步骤：

- 基于重叠帧来执行时域混叠（TDA）以生成相应的时域混叠帧；

- 基于所述时域混叠帧来在时间上执行分段以生成至少两段；以及

- 基于所述至少两段来执行频谱分析以便为每段获得表示该段的频率内容的系数。

2.根据权利要求1所述的方法，其中，所述信号处理包括信号分析、信号压缩和音频编码中的至少一个。

3.根据权利要求1所述的方法，其中，执行频谱分析的所述步骤涉及变换编码，并且包括对所述至少两段的每段应用变换的步骤。

4.根据权利要求3所述的方法，其中，所述变换包括重叠变换（LT）、离散余弦变换（DCT）、改进的离散余弦变换（MDCT）、以及调制重叠变换（MLT）中的至少一个。

5.根据权利要求1所述的方法，包括根据对所述输入信号中的信号瞬态的检测而在以下之间进行切换的步骤：

- 基于所述时域混叠帧的不分段频谱分析，即所谓的全频率分辨率处理；以及

- 基于所述至少两段的分段频谱分析，即所谓的增加的时间分辨率处理。

6.根据权利要求1所述的方法，包括切换所述分段频谱分析的时间分辨率的步骤。

7.根据权利要求1所述的方法，其中，执行分段的所述步骤被执行以生成以下类型的段中的至少一种类型：非重叠段、重叠段、非均匀长度段、以及均匀长度段。

8.根据权利要求1所述的方法，其中，执行分段的所述步骤包括基于所述时域混叠帧在时间上执行分段以生成数目能选择的重叠段的步骤，并且执行频谱分析的所述步骤包括对每一个所述重叠段应用重叠变换的步骤。

9.根据权利要求1所述的方法，包括重新排序所述时域混叠帧以生成经重新排序的时域混叠帧的步骤，并且执行分段的所述步骤是基于所述经重新排序的时域混叠帧。

10.根据权利要求9所述的方法，其中，执行分段的所述步骤包括将零填充添加到所述经重新排序的时域混叠帧并将所得到的信号分成相对较短的重叠段的步骤。

11.根据权利要求1所述的方法，包括基于所述重叠帧来执行加窗以生成重叠的加窗帧的步骤，并且执行时域混叠的所述步骤是基于所述重叠的加窗帧。

12.根据权利要求1所述的方法，其中，执行分段的所述步骤包括执行非均匀分段的步骤。

13.根据权利要求12所述的方法，其中，执行非均匀分段的所述步骤通过使用不同长度的窗以用于所述分段而被执行。

14.根据权利要求12所述的方法，其中，执行非均匀分段的所述步骤包括分成至少两段的第一分段、以及将所述至少两段中的至少一个分成更多段的第二分段。

15.根据权利要求1所述的方法，其中，至少在时间上执行分段以及执行频谱分析的所述步骤是响应于对所述输入信号中的瞬态的检测而执行的。

16.根据权利要求1所述的方法，其中，所述信号处理被用于编码，并且对于不同的分段来分析关于编码效率的保真度，以及基于所述分析来选择合适的分段。

17.根据权利要求1所述的方法，其中，对多个连续重叠帧中的每一个重复执行时域混叠、在时间上执行分段以及执行频谱分析的所述步骤。

18.一种用于对输入音频信号的重叠帧进行操作的信号处理的设备，所述设备包括：

- 用于基于重叠帧来执行时域混叠（TDA）以生成时域混叠帧的装置；

- 用于基于所述时域混叠帧来在时间上执行分段以生成至少两段的装置；以及

- 频谱分析仪，其被配置成基于所述至少两段来执行分段频谱分析以便为每段获得表示该段的频率内容的系数。

19.根据权利要求18所述的设备，其中，所述信号处理设备被配置成用于信号分析、信号压缩和音频编码中的至少一个。

20.根据权利要求18所述的设备，其中，用于执行分段频谱分析的所述频谱分析仪被配置成用于变换编码，并且包括用于对所述至少两段的每段应用变换的装置。

21.根据权利要求20所述的设备，其中，用于应用变换的所述装置被配置成基于重叠变换（LT）、离散余弦变换（DCT）、改进的离散余弦变换（MDCT）、以及调制重叠变换（MLT）中的至少一个来操作。

22.根据权利要求18所述的设备，包括用于根据对所述输入信号中的信号瞬态的检测而在基于所述时域混叠帧的不分段频谱分析与基于所述至少两段的分段频谱分析之间进行切换的装置。

23.根据权利要求18所述的设备，包括用于切换所述频谱分析仪的时间分辨率的装置。

24.根据权利要求18所述的设备，其中，用于执行分段的所述装置被配置成生成以下类型的段的至少一种类型：非重叠段、重叠段、非均匀长度段、以及均匀长度段。

25.根据权利要求18所述的设备，其中，用于执行分段的所述装置在操作中用于生成数目能选择的重叠段，并且用于执行分段频谱分析的所述频谱分析仪包括用于对每一个所述重叠段应用重叠变换的装置。

26.根据权利要求18所述的设备，包括用于重新排序所述时域混叠帧以生成经重新排序的时域混叠帧的装置，并且用于执行分段的所述装置被配置成基于所述经重新排序的时域混叠帧进行操作。

27.根据权利要求26所述的设备，其中，用于执行分段的所述装置包括用于将零填充添加到所述经重新排序的时域混叠帧的装置、以及用于将所得到的信号分成相对较短的重叠段的装置。

28.根据权利要求18所述的设备，包括用于基于所述重叠帧来执行加窗以生成重叠的加窗帧的装置，以及用于执行时域混叠的所述装置被配置成基于所述重叠的加窗帧进行操作。

29.根据权利要求18所述的设备，其中，用于执行分段的所述装置包括用于执行非均匀分段的装置。

30.根据权利要求29所述的设备，其中，用于执行非均匀分段的所述装置在操作中用于使用不同长度的窗以用于所述分段。

31.根据权利要求29所述的设备，其中，用于执行非均匀分段的所述装置包括用于执行分成至少两段的第一分段的装置、以及用于执行将所述至少两段中的至少一个分成更多段的第二分段的装置。

32.根据权利要求18所述的设备，其中，响应于对所述输入信号中的瞬态的检测来触发分段以及分段频谱分析的设备操作。

33.一种对音频信号的重叠帧进行操作的音频编码器，所述音频编码器包括：

- 时域混叠（TDA）单元，其被配置成基于重叠帧来生成时域混叠帧；

- 时间分段单元，其被配置成基于所述时域混叠帧来生成数目能选择的N段，其中N等于或大于2；以及

- 变换编码器，其被配置成基于所述N段来执行分段频谱分析以便为每段获得表示该段的频率内容的频谱系数。

34.根据权利要求33所述的音频编码器，包括用于根据对所述音频信号中的信号瞬态的检测而在基于所述时域混叠帧的不分段频谱分析与基于所述N段的分段频谱分析之间进行切换的装置。

35.根据权利要求33所述的音频编码器，其中，所述变换编码器被配置成对每段应用变换。

36.根据权利要求35所述的音频编码器，其中，所述段是重叠段，并且所述变换是使用了IV类型的离散余弦变换（DCT）的改进的离散余弦变换（MDCT）。

37.根据权利要求33所述的音频编码器，其中，所述音频编码器包括加窗单元，所述加窗单元被配置成基于所述重叠帧来执行加窗以生成重叠的加窗帧，并且所述时域混叠单元被配置成基于所述重叠的加窗帧来执行时域混叠，以及所述音频编码器还包括被配置成重新排序所述时域混叠帧以生成经重新排序的时域混叠帧的重新排序单元，并且所述时间分段单元被配置成基于所述经重新排序的时域混叠帧进行操作。

38.一种基于表示时域音频信号的频谱系数进行操作的信号处理的方法，所述方法包括以下步骤：

- 基于所述频谱系数的不同子集来执行逆频谱分析以便为每个子集的频谱系数生成逆变换子帧；

- 基于重叠的逆变换子帧来执行逆时间分段以将所述逆变换子帧组合成时域混叠帧；以及

- 基于所述时域混叠帧来执行逆时域混叠以实现所述时域信号的重构。

39.根据权利要求38所述的信号处理的方法，其中，所述信号处理包括信号合成和音频解码中的至少一个。

40.根据权利要求38所述的方法，其中，基于所述时域混叠帧来执行逆时域混叠的所述步骤被执行以重构第一时域帧，并且所述方法还包括基于所述第一时域帧与随后的第二重构时域帧的重叠相加来合成所述时域信号的步骤。

41.一种基于表示时域信号的频谱系数进行操作的音频解码器，所述音频解码器包括：

- 逆变换器，其基于所述频谱系数的不同子集进行操作以便为每个子集的频谱系数生成逆变换子帧；

- 用于基于重叠的逆变换子帧来执行逆时间分段并组合所述逆变换子帧以生成时域混叠帧的装置；以及

- 用于基于所述时域混叠帧来执行逆时域混叠以实现所述时域信号的重构的装置。

42.根据权利要求41所述的音频解码器，其中，用于基于所述时域混叠帧来执行逆时域混叠的所述装置被配置成重构第一时域帧，并且所述音频解码器还包括用于基于所述第一时域帧与随后的第二重构时域帧的重叠相加来合成所述时域信号的装置。

43.根据权利要求42所述的音频解码器，其中，所述逆变换器被配置成对频谱系数的所述子集的每个子集应用逆变换以生成相应的逆变换子帧。

44.根据权利要求43所述的音频解码器，其中，所述逆变换是改进的离散余弦逆变换（MDCT）。