CN108028046A

CN108028046A - 缩减解码

Info

Publication number: CN108028046A
Application number: CN201680047160.9A
Authority: CN
Inventors: 马库斯·施内尔; 曼弗雷德·卢茨基; 埃伦尼·福托普楼; 康斯坦丁·施密特; 康拉德·本多夫; 阿德里安·托马舍克; 托比亚斯·艾伯特; 蒂蒙·塞德尔
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2015-06-16
Filing date: 2016-06-10
Publication date: 2018-05-11
Anticipated expiration: 2036-06-10
Also published as: JP7322249B2; CA3150683A1; EP4231287A1; EP3311380B1; JP2018524631A; JP7089079B2; CA3150637C; US10431230B2; ES2950408T3; KR20220095247A; MX2017016171A; EP4365895A2; FI3311380T3; KR20230145252A; CA3150666C; US11341979B2; EP4239633A3; KR102412485B1; JP2020064312A; EP4239632A2

Abstract

如果用于缩减音频解码的合成窗口是在非缩减音频解码过程中涉及的参考合成窗口的如下下采样版本，则可以更有效地和/或以改善的兼容性维护实现音频解码过程的缩减版本，其中所述下采样版本是按照下采样因子进行下采样并且使用以帧长的1/4为分段的分段内插获得的，以及所述下采样因子表示下采样的采样率和原始采样率的偏离。

Description

缩减解码

技术领域

本申请涉及缩减(downscaled)解码构思。

背景技术

MPEG-4增强型低延迟AAC(AAC-ELD)通常以高达48kHz的采样率操作，导致15ms的算法延迟。对于某些应用，例如音频的唇音同步(lip-sync)传输，期望更低的延迟。AAC-ELD已经通过以更高的采样率(例如，96kHz)操作来提供这样的选择，从而提供具有更低延迟(例如，7.5毫秒)的操作模式。但是，这种操作模式由于采样率高而带来不必要的高复杂度。

该问题的解决方案是应用滤波器组的缩减版本，并且从而以较低的采样率(例如，48kHz，而不是96kHz)来渲染音频信号。缩减操作已经是AAC-ELD的一部分，因为它是从作为AAC-ELD基础的MPEG-4AAC-LD编解码器继承而来的。

但是，仍然存在的问题是如何找到特定滤波器组的缩减版本。也就是说，唯一的不确定因素是在支持对AAC-ELD解码器的缩减操作模式的清楚的一致性测试的同时推导窗系数的方式。

在下文中，描述AAC-(E)LD编解码器的缩减操作模式的原理。

在ISO/IEC 14496-3：2009的第4.6.17.2.7节“对采用较低采样率的系统的适配”中描述了针对AAC-LD的缩减操作模式或AAC-LD，描述如下：

“在某些应用中，可能有必要将低延迟解码器集成到以较低采样率(例如16kHz)运行但比特流有效载荷的标称采样率要高得多(例如48kHz，对应于算法编解码器延迟约20毫秒)的音频系统中。在这种情况下，有利的是直接以目标采样率解码低延迟编解码器的输出，而不是在解码之后使用附加采样率转换操作。

这可以通过将帧尺寸和采样率两者适当地按照整数因子(例如2、3)缩减来近似，从而得到编解码器的相同的时间/频率分辨率。例如，通过在合成滤波器组之前仅保留频谱系数的最低三分之一(即480/3＝160)，并且将逆变换大小减小到三分之一(即窗口大小为960/3＝320)，可以以16kHz采样率而不是标称48kHz来生成编解码器输出。

因此，较低采样率的解码降低了对存储器的要求和对计算的要求，但是可能不能产生与通过全带宽解码再接着进行频带限制和采样率转换得到的输出完全相同的输出。

请注意，如上所述，以较低采样率进行解码不会影响对等级的解释，所述等级是指AAC低延迟比特流有效载荷的标称采样率。”

请注意，AAC-LD使用标准的MDCT框架和两个窗口形状，即正弦窗口和低重叠窗口。这两个窗口都完全用公式来描述，因此可以确定任意变换长度的窗系数。

与AAC-LD相比，AAC-ELD编解码器显示出两个主要区别：

●低延迟MDCT窗口(LD-MDCT)

●利用低延迟SBR工具的可能性

在[1]中的4.6.20.2中描述了使用低延迟MDCT窗口的IMDCT算法，这与使用例如正弦窗口的标准IMDCT版本的非常类似。低延迟MDCT窗口(480和512个采样的帧大小)的系数在[1]中的表4.A.15和4.A.16中给出。请注意，由于系数是优化算法的结果，系数不能由公式确定。图9示出了帧大小为512的窗口形状的图。

在低延迟SBR(LD-SBR)工具与AAC-ELD编码器结合使用的情况下，LD-SBR模块的滤波器组也被缩减。这确保了SBR模块以相同的频率分辨率工作，因此不需要更多的适配。

因此，上面的描述揭示了需要对解码操作进行缩减，例如对AAC-ELD处的解码进行缩减。重新找出缩减的合成窗口函数的系数是可行的，但是这是一个繁琐的任务，需要额外的存储空间来存储缩减版本，并且在非缩减的解码与缩减的解码之间的一致性检查更为复杂，或者从另一个角度来看，例如不符合AAC-ELD所要求的缩减方式。取决于缩减比率，即原始采样率和缩减的采样率之间的比率，可以简单地通过下采样(即，从原始合成窗口函数的每两个、三个...窗系数中抽取出一个)来导出缩减的合成窗口函数，但是这个过程不会相应产生非缩减解码和缩减解码之间的充分一致性。使用应用于合成窗口函数的更复杂的抽取过程，导致不可接受的与原始合成窗口函数形状的偏离。因此，本领域需要一种改进的缩减解码构思。

发明内容

因此，本发明的一个目的在于提供一种实现这种改进的缩减解码的音频解码方案。

该目的是通过独立权利要求的主题来实现的。

本发明基于下述发现：如果用于缩减音频解码的合成窗口是在非缩减音频解码过程中涉及的参考合成窗口的下述下采样版本，则可以更有效地和/或以改善的兼容性维护实现音频解码过程的缩减版本，其中所述下采样版本是按照下采样因子进行下采样并且使用以帧长的1/4为分段的分段内插获得的，以及所述下采样因子表示下采样的采样率和原始采样率的偏离。

附图说明

本申请的有利方面是从属权利要求的主题。以下参照附图描述本申请的优选实施例，其中：

图1是示出了为了保持完美重建在缩减解码时需要遵循的完美重建要求的示意图；

图2示出了根据实施例的用于缩减解码的音频解码器的框图；

图3示出了如下示意图，其在上半部分中示出了音频信号已经以原始采样率编码进数据流的方式，在通过水平虚线与上半部分分开的下半部分中示出了用于以降低或缩减的采样率从数据流重建音频信号的缩减解码操作，以便说明图2的音频解码器的操作模式；

图4示出了图2的加窗器和时域混叠消除器的协作的示意图；

图5示出了使用对经频谱-时间调制的时间部分的零加权部分的特殊处理来实现根据图4的重建的可能实现；

图6示出了用于获得下采样的合成窗口的下采样的示意图；

图7示出了包括低延迟SBR工具的AAC-ELD的缩减操作的框图；

图8示出了根据实施例的用于缩减解码的音频解码器的框图，其中调制器、加窗器和消除器是根据提升实现来实现的；以及

图9示出了作为要被下采样的参考合成窗口的示例的针对512个采样的帧大小且根据AAC-ELD的低延迟窗口的窗系数的曲线图。

具体实施方式

以下描述开始于对关于AAC-ELD编解码器的缩减解码的实施例的示意说明。即，以下描述开始于可以形成AAC-ELD的缩减模式的实施例。该描述同时形成对本申请的实施例的动机的一种解释。之后，对该描述进行概括，由此实现对根据本申请实施例的音频解码器和音频解码方法的描述。

如本申请说明书的前言部分所述，AAC-ELD使用低延迟MDCT窗口。为了生成其缩减版本，即缩减的低延迟窗口，随后解释的用于形成AAC-ELD的缩减模式的提案使用分段样条内插算法，其保持LD-MDCT窗口的完美重建属性(PR)，且精度非常高。因此，该算法允许以兼容的方式，以如ISO/IEC 14496-3：2009中描述的直接形式以及如[2]中描述的提升形式来生成窗系数。这意味着这两种实现都会生成符合16位的输出。

低延迟MDCT窗口的内插如下进行。

一般来说，样条内插将用于生成缩减的窗系数，以保持频率响应以及大部分完美的重建属性(大约170dB SNR)。内插需要被约束在某些分段中以保持完美重建属性。对于覆盖变换的DCT内核的窗系数c(也参见图1，c(1024)...c(2048))，需要以下约束，

1＝|(sgn·c(i)·c(2N-1-i)+c(N+i)·c(N-1-i))|，

其中i＝0...N/2-1 (1)

其中N表示帧大小。一些实现可以使用不同的符号来优化复杂性，这里用sgn表示。(1)中的要求可以用图1来说明。应该记得，即使在F＝2(即，采样率的一半)的情况下，为了获得缩减的合成窗口而每参考合成窗口的两个窗系数中省略一个也不能满足要求。

系数c(0)...c(2N-1)是沿着钻石形状列出的。使用粗体箭头来标记窗系数中的N/4个零点，这些零点负责滤波器组的延迟减小。图1示出了由MDCT中涉及的折叠而引起的系数之间的依赖性，并且示出了为了避免任何不希望的依赖性而需要对内插进行约束的点。

每个N/2个系数，内插需要停止以保持(1)

此外，由于插入的零，内插算法需要每N/4个就停止。这确保了零被保持，并且内插误差不会扩散，从而保持PR。

第二个约束不仅对于包含零的分段是必需的，对于其他分段也是必需的。知道了为了实现PR，DCT内核中的一些系数不是通过优化算法确定的，而是由公式(1)确定的，因此可以解释在图1中围绕c(1536+128)的窗口形状中的几个不连续。为了最小化PR误差，在出现在N/4网格中的这些点上需要停止内插。

由于这个原因，选择N/4的分段大小来用于分段样条内插以生成缩减的窗系数。源窗系数始终由用于N＝512的系数给出，所述系数还用于导致帧大小为N＝240或N＝120的缩减操作。以下将基本算法简要地概述为MATLAB代码：

由于样条函数可能不是完全确定性的，因此在以下部分中详细说明完整的算法，该算法可被包括在ISO/IEC 14496-3：2009中，以便形成AAC-ELD中的改进的缩减模式。

换句话说，以下部分提供了关于如何将上述想法应用于ER AAC ELD的提案，即关于低复杂度解码器如何能够以比第一数据率低的第二数据率对以第一数据率编码的ERAAC ELD比特流进行解码。但是，需要强调的是，下面使用的N的定义符合标准。这里，N对应于DCT内核的长度，而在上文中、在权利要求中和在随后描述的一般化实施例中，N对应于帧长度，也就是说DCT内核的相互重叠长度，即DCT内核长度的一半。因此，例如，在上文中N被指示为512的情况下，在下文中其被指示为1024。

提议将下列段落通过修正案纳入14496-3：2009。

A.0对使用较低采样率的系统的适配

对于某些应用，ER AAC LD可以改变播出采样率，以避免额外的重采样步骤(见4.6.17.2.7)。ER AAC ELD可以应用使用低延迟MDCT窗口和LD-SBR工具的类似缩减步骤。在AAC-ELD与LD-SBR工具一起操作的情况下，缩减因子被限制为2的倍数。在没有LD-SBR的情况下，缩减的帧大小需要是整数。

A.1低延迟MDCT窗口的缩减

N＝1024的LD-MDCT窗口w_LD通过使用分段样条内插按因子F缩减。窗系数中靠前的零的数目(即N/8)确定分段大小。缩减的窗系数w_{LD_d}被用于逆MDCT(如4.6.20.2中所述)，但是缩减的窗口长度N_d＝N/F。请注意，该算法还能够生成LD-MDCT的缩减提升系数。

A.2低延迟SBR工具的缩减

在低延迟SBR工具与ELD结合使用的情况下，可以将该工具缩减至较低的采样率，至少针对作为2的倍数的缩减因子。缩减因子F控制用于CLDFB分析和合成滤波器组的频带的数目。以下两段描述了缩减的CLDFB分析和合成滤波器组，也请参见4.6.19.4。

4.6.20.5.2.1 CLDFB滤波器的缩减分析

●定义缩减的CLDFB频带的数目B＝32/F.

●将阵列x中的采样移动B个位置。丢弃最老的B个采样，并且将B个新采样存储在位置0至B-1中。

●将阵列x的采样乘以窗系数ci以得到阵列z。窗系数ci通过对系数c的线性内插而获得，即，通过以下方程式而获得

窗系数c可以在表4.A.90中找到。

●对采样求和以创建2B-元素阵列u：

u(n)＝z(n)+z(n+2B)+z(n+4B)+z(n+6B)+z(n+8B)，0≤n＜(2B)。

●通过矩阵运算Mu来计算B个新子带采样，其中

在方程式中，exp()表示复指数函数，j是虚数单位。

4.6.20.5.2.2 CLDFB滤波器组的缩减分析

●定义缩减的CLDFB频带的数目B＝64/F。

●将阵列v中的采样移动2B个位置。丢弃最老的2B个采样。

●将B个新的复值子带采样乘以矩阵N，其中

在方程式中，exp()表示复指数函数，j是虚数单位。从该运算

输出的实部被存储在阵列v的位置0至2B-1中。

●从v提取采样以创建10B-元素阵列g。

●将阵列g的采样乘以窗系数ci以产生阵列w。窗系数ci通过对系数c的线性内插而获得，即，通过以下方程式而获得

窗系数c可以在表4.A.90中找到。

●根据下式，通过对来自阵列w的采样进行求和来计算B个新输出采样：

请注意，设置F＝2提供了根据4.6.19.4.3的经下采样的合成滤波器组。因此，为了用附加缩减因子F来处理经下采样的LD-SBR比特流，需要将F乘以2。

4.6.20.5.2.3经下采样的实数值CLDFB滤波器组

CLDFB的下采样也可以用于低功率SBR模式的实数值版本。出于说明目的，还请考虑4.6.19.5。

对于缩减的实数值分析和合成滤波器组，按照4.6.20.5.2.1和4.6.20.2.2中的描述，并由cos()调制器来交换M中的exp()调制器。

A.3低延迟MDCT分析

本小节描述了AAC ELD编码器中使用的低延迟MDCT滤波器组。核心MDCT算法大部分是不变的，但窗口较长，使得n现在从-N运行到N-1(而不是从0到N-1)，

频谱系数X_i，k定义如下：

其中0≤k＜N/2

其中：

z_in＝经加窗的输入序列

N＝采样索引

K＝频率系数索引

I＝块索引

N＝窗口长度

n₀＝(-N/2+1)/2

窗口长度N(基于正弦窗口)是1024或960。

低延迟窗口的窗口长度是2×N。加窗以下述方式延伸到过去：

z_i，n＝w_LD(N-1-n)·x′_i，n

对于n＝-N，...，N-1，通过颠倒顺序将合成窗口w用作分析窗口。

A.4低延迟MDCT合成

与使用正弦窗口的标准IMDCT算法相比，合成滤波器组被修改以采用低延迟滤波器组。核心IMDCT算法大部分是不变的，但窗口较长，使得n现在运行高到2N-1(而不是N-1)。

其中0≤n＜2N

其中：

n＝采样索引

i＝窗口索引

k＝频谱系数索引

N＝窗口长度/帧长度的两倍

n₀＝(-N/2+1)/2

其中N＝960或1024。

加窗和重叠相加按以下方式进行：

长度为N的窗口被长度为2N的窗口替换，该长度为2N的窗口较多与过去重叠而较少与未来重叠(N/8值实际上为零)。

为低延迟窗口加窗：

z_i，n＝W_LD(n)·x_i，n

窗口现在的长度为2N，因此n＝0，...，2N-1。

重叠并相加：

其中0＜＝n＜N/2

这里，提议通过修正案将这些段落纳入14496-3：2009。

当然，以上对于AAC-ELD的可能缩减模式的描述仅仅代表本申请的一个实施例，并且一些修改是可行的。通常，本申请的实施例不限于执行AAC-ELD解码的缩减版本的音频解码器。换句话说，本申请的实施例例如可以通过形成能够仅以缩减方式执行逆变换处理的音频解码器来得到，而不需要支持或使用各种AAC-ELD特定的进一步的任务，例如频谱包络的基于缩放因子的传输、TNS(时间噪声整形)滤波、频谱带复制(SBR)等。

随后，描述用于音频解码器的更一般的实施例。支持所述缩减模式的AAC-ELD音频解码器的上述示例因此可以代表随后描述的音频解码器的一个实现。具体地，随后解释的解码器在图2中示出，而图3示出由图2的解码器执行的步骤。

图2的音频解码器(用附图标记10概括表示)包括接收器12、抓取器14、频谱-时间调制器16、加窗器18和时域混叠消除器20，所有这些都按照所提及的顺序相互串联连接。下面参照图3描述音频解码器10的块12到20的交互和功能。如在本申请的描述的结尾所描述的，块12至20可以以软件、可编程硬件或硬件(例如计算机程序、FPGA或适当编程的计算机的形式)、编程的微处理器或专用集成电路(其中块12至20表示相应的子例程、电路路径等)来实现。

以下面更详细地概述的方式，图2的音频解码器10被配置为(并且音频解码器10的元件被配置为适当协作)：从数据流24解码音频信号22，需要注意的是，音频解码器10解码信号22所使用的采样率是音频信号22在编码侧被变换编码到数据流24中时使用的采样率的1/F。例如，F可以是任何大于1的合理的数。音频解码器可以被配置为以不同的或可变的缩减因子F进行操作或以固定的缩减因子F进行操作。下面更详细地描述备选方案。

在图3的上半部分中示出了音频信号22以编码或原始采样率被变换编码到数据流中的方式。在26处，图3示出了使用分别沿着时间轴30和频率轴32以频谱-时间方式布置的小框或方块28示出了频谱系数，其中时间轴30在图3中水平延伸，频率轴32在图3中垂直延伸。频谱系数28在数据流24内传输。在图3中的34处示出了已经获得频谱系数28的方式以及因此获得频谱系数28表示音频信号22的方式，图3中的34处针对时间轴30的一部分示出了如何从音频信号获得属于或者代表相应时间部分的频谱系数28。

特别地，在数据流24内传输的系数28是音频信号22的重叠变换的系数，使得以原始或编码采样率采样的音频信号22被分割为在时间上紧接连续且无重叠的预定长度N的帧，其中对于每个帧36在数据流24中发送N个频谱系数。也就是说，变换系数28是使用临界采样的重叠变换从音频信号22获得的。在频谱-时间谱图表示26中，频谱系数28的列中的时间序列的每个列对应于帧序列的帧36中的相应一帧。针对相应的帧36，通过频谱分解变换或时间-频谱调制获得N个频谱系数28，然而所述频谱分解变换或时间-频谱调制的调制函数在时间上不仅在所得频谱系数28所属的帧36上延伸，而且还跨越E+1个先前帧，其中E可以是大于零的任意整数或任意偶数整数。即，通过将变换应用于变换窗口来获得位于26处的谱图中属于某个帧36的一列的频谱系数28，所述变换窗口除包括相应帧之外还包括位于当前帧过去的E+1个帧。使用低延迟单峰分析窗口函数40实现在该变换窗口38内的音频信号的采样的频谱分解(其在图3中是针对属于在34处示出的部分的中间帧36的变换系数28的列示出的)，其中利用所述低延迟单峰分析窗口函数40，在变换窗口38内的频谱采样在经过MDCT或MDST或其他频谱分解变换之前先被加权。为了降低编码器侧延迟，分析窗口40在其时间前端包括零-间隔42，使得编码器不需要等待当前帧36内的最新采样的相应部分以计算该当前帧36的频谱系数28。也就是说，在零-间隔42内，低延迟窗口函数40是零或者具有零窗系数，使得当前帧36的共位音频采样由于窗口加权40而不会对针对该帧发送的变换系数28和数据流24做出贡献。也就是说，总结上述内容，属于当前帧36的变换系数28是通过加窗和对变换窗口38内的音频信号采样的频谱分解而获得的，所述变换窗口38包括当前帧以及时间上在先的帧，并且所述变换窗口38与用于确定属于时间上相邻的帧的频谱系数28的相应变换窗口在时间上有重叠。

在重新开始对音频解码器10的描述之前，应该注意的是，至今提供的对数据流24内的频谱系数28的传输的描述已经相对于频谱系数28被量化或编码成数据流24的方式和/或在将音频信号进行重叠变换之前对音频信号22进行预处理的方式进行了简化。例如，将音频信号22变换编码到数据流24中的音频编码器可以经由心理声学模型来控制，或者可以使用心理声学模型来保持量化噪声和频谱系数28的量化对于听众是不可感知的和/或低于掩蔽阈值函数，从而确定用于频谱带的缩放因子，该缩放因子被用于对量化和传输的频谱系数28进行缩放。缩放因子也将在数据流24中用信号通知。备选地，音频编码器可以是TCX(变换编码激励)类型的编码器。然后，在通过将重叠变换应用于激励信号(即线性预测残差信号)来形成频谱系数28的频谱时间表示26之前，音频信号将已经经过线性预测分析滤波。例如，线性预测系数也可以在数据流24中用信号通知，并且可以应用频谱均匀量化以获得频谱系数28。

此外，至今提出的描述也相对于帧36的帧长度和/或相对于低延迟窗口函数40进行了简化。实际上，音频信号22可能已经以使用变化的帧大小和/或不同的窗口40的方式编码到数据流24中。然而，下面的描述集中在一个窗口40和一个帧长度上，尽管随后的描述可以容易地扩展到下述情况，其中在将音频信号编码到数据流期间熵编码器改变这些参数。

返回到图2的音频解码器10及其描述，接收器12接收数据流24并由此针对每个帧36接收N个频谱系数28，即图3所示的相应的系数28的列。应该记得，在原始或编码采样率的采样中测量的帧36的时间长度是N，如图3中的34所示，但是图2的音频解码器10被配置为以降低的采样率来解码音频信号22。音频解码器10例如仅支持下文中描述的缩减解码功能。备选地，音频解码器10将能够以原始或编码采样率重建音频信号，但是可以在缩减解码模式和非缩减解码模式之间切换，其中缩减解码模式与如下所述的音频解码器10的操作模式一致。例如，在低电池电量、降低的再现环境能力等的情况下，音频编码器10可以切换到缩减解码模式。每当情况改变时，音频解码器10可例如从缩减解码模式切换回非缩减解码模式。在任何情况下，根据如下所述的解码器10的缩减解码处理，音频信号22以一采样率被重建，以该采样率，在降低的采样率下帧36具有按该降低的采样率的采样测量的较短长度，即在降低的采样率下采样程度为的N/F。

接收器12的输出是每个帧36的N个频谱系数的序列，即由N个频谱系数构成的一个集合，即图3中的一列。从用于形成数据流24的变换编码处理的以上简要描述中已经得出，接收器12在针对每个帧36获得N个频谱系数时可以应用各种任务。例如，接收器12可使用熵解码以从数据流24读取频谱系数28。接收器12还可以利用在数据流中提供的缩放因子和/或通过在数据流24内传送的线性预测系数导出的缩放因子对从数据流读取的频谱系数进行频谱整形。例如，接收器12可以从数据流24(即在每帧和每子带的基础上)获取缩放因子，并且使用这些缩放因子以对在数据流24内传送的缩放因子进行缩放。备选地，接收器12可以针对每个帧36从数据流24内传送的线性预测系数导出缩放因子，并且使用这些缩放因子来缩放发送的频谱系数28。可选地，接收器12可以执行间隙填充以便合成地填充每帧N个频谱系数18的集合内的零-量化部分。另外地或备选地，接收器12可以针对每个帧将TNS合成滤波器应用于所发送的TNS滤波器系数，以利用也在数据流24内发送的TNS系数来辅助从数据流重建频谱系数28。仅是概述的接收器12的可能任务应当被理解为可能的措施的非排他性列表，并且接收器12可以执行与从数据流24读取频谱系数28相关的进一步或其他任务。

因此，抓取器14从接收器12接收频谱系数28的频谱图26，并且针对每个帧36抓取相应帧36的N个频谱系数中的低频率分量44，即N/F个最低频谱系数。

也就是说，频谱-时间调制器16从抓取器14接收每个帧36的N/F个频谱系数28的流或序列46，所述N/F个频谱系数28的流或序列46与频谱图26中的低频切片(其在频谱上配准到图3中的使用索引“0”表示的最低频谱系数)相对应，并延伸到索引为N/F-1的频谱系数。

频谱-时间调制器16针对每个帧36使频谱系数28的相应低频分量44经过具有长度为(E+2)·N/F的调制函数的逆变换48，所述调制函数在时间上在相应帧以及E+1个先前帧上延伸(如图3中的50所示)，从而获得长度为(E+2)·N/F的时间部分，即尚未加窗的时间分段52。也就是说，频谱-时间调制器可以通过使用例如如上文指示的所提出的替换章节A.4的第一公式对相同长度的调制函数进行加权以及求和，来获得采样率降低的(E+2)·N/F个采样的时间分段。时间分段52的最新的N/F个采样属于当前帧36。例如，如所指示的，调制函数在逆变换是逆MDCT的情况下可以是余弦函数，或者在逆变换是逆MDCT的情况下可以是正弦函数。

因此，开窗器52针对每个帧接收时间部分52，所述时间部分52的前端处的N/F个采样在时间上对应于相应帧，而相应时间部分52的其他采样属于相应的时间上在前的帧。对于每个帧36，加窗器18使用长度为(E+2)·N/F的单峰合成窗口54对时间部分52进行加窗，所述单峰合成窗口54包括在其前端的长度为1/4·N/F的零部分56(即1/F·N/F零值窗系数)，并且在其时间上在零部分56之后的时间间隔(即时间部分52的未被零部分52覆盖的时间间隔)内具有峰值58。后面的时间间隔可以被称为窗口58的非零部分，并且具有以采样率降低的采样测量的长度7/4·N/F，即7/4·N/F个窗系数。加窗器18例如使用窗口58对时间部分52加权。用窗口54对每个时间部分52的加权或相乘58得到经加窗的时间部分60(每个帧36一个)，并且只要考虑到时间上覆盖，就与相应的时间部分52一致。在以上提出的章节A.4中，可以由窗口18使用的加窗处理由将z_i，n与x_i，n关联的公式来描述，其中x_i，n对应于尚未加窗的上述时间部分52，而z_i，n对应于经加窗的时间部分60，其中i对帧/窗口的序列进行索引，n在每个时间部分52/60内根据降低的采样率对相应部分52/60的采样或值进行索引。

因此，时域混叠消除器20从加窗器18接收一系列经加窗的时间部分60，即每个帧36一个。消除器20通过将每个经加窗的时间部分60与其前端的N/F值配准以与对应帧36一致，来使帧36的经加窗的时间部分60经过重叠相加处理62。通过该措施，当前帧的经加窗的时间部分60的长度为(E+1)/(E+2)的尾端分量(即长度为(E+1)·N/F的剩余部分)与紧接着的前一帧的时间部分的对应等长的前端重叠。在公式方面，时域混叠消除器20可以如上面提出的章节A.4的版本的最后一个公式中所示地操作，其中，out_i，n对应于以降低的采样率重建的音频信号22的音频采样。

以下参考图4更详细地示出由加窗器18和时域混叠消除器20执行的加窗58和重叠相加62的处理。图4使用在上面提出的章节A.4中应用的命名和在图3和4中应用的附图标记。x_0，0到x_{0，(E+2)·N/F-1}表示由空间-时间调制器16针对第0帧36获得的第0时间部分52。x的第一索引沿时间顺序对帧36进行索引，x的第二索引沿时间顺序对时间采样进行排序，采样间节距(pitch)属于降低的采样率。然后，在图4中，w₀到w_(E+2)·N/F-1指示窗口54的窗系数。类似于x的第二索引，即由调制器16输出的时间部分52，当窗口54被应用于相应的时间部分52时，w的索引使得索引0对应于最老的采样值，(E+2)·N/F-1对应于最新的采样值。加窗器18使用窗口54对时间部分52进行加窗以获得加窗的时间部分60，使得根据z_0，0＝x_0，0·w₀，...，z_{0，(E+2)·N/F-1}＝x_{0，(E+2)·N/F-1}·w_(E+2)·N/F-1来获得表示针对第0帧的加窗的时间部分60的z_0，0到z_{0，(E+2)·N/F-1}。z的索引与x的索引具有相同含义。以这种方式，调制器16和加窗器18对由x和z的第一索引索引的每个帧起作用。消除器20将E+2个紧接在一起的帧的E+2个加窗的时间部分60相加，其中各加窗的时间部分60的采样相对于彼此偏移一帧(即每个帧36的采样的数量，即N/F)，从而获得一个当前帧的采样u，这里为u_-(E+1)，0...u_{-(E+1)，N/F-1)}。在这里，u的第一索引再次表示帧号，第二索引沿着时间顺序对该帧的采样进行排序。消除器连接如此获得的重建帧，使得连续帧36内的重建音频信号22的采样根据u_-(E+1)，0...u_{-(E+1)，N/F-1}，u_-E，0，...u_-E，N/F-1，u_-(E-1)，0，...而彼此相随。消除器根据u_-(E+1)，0＝z_0，0+z_-1，N/F+...z_{-(E+1)，(E+1)·N/F}，...，u_{-(E+1)·N/F-1}＝z_0，N/F-1+z_{-1，2·N/F-1}+...+z_{-(E+1)，(E+2)·N/F-1}(即针对当前帧的每个采样u对(e+2)个加数进行求和)，计算第(E+1)帧内的音频信号22的每个采样。

图5示出了一种可能的开发，即，在对帧(E+1)的音频采样u有贡献的刚加窗的采样之中，与窗口54的零部分56(即z_{-(E+1)，(E+7/4)·N/F}...z_{-(E+1)，(E+2)·N/F-1})相对应或者使用这些零部分56加窗的采样是零值。因此，消除器20可以根据u_{-(E+1)，(E+7/4)·N/F}＝z_0，3/4·N/F+z_{-1，7/4·N/F}+...+z_{-E，(E+3/4)·N/F}，...，u_{-(E+1)，(E+2)·N/F-1}＝z_0，N/F-1+z_{-1，2·N/F-1}+...+z_{-E，(E+1)·N/F-1}，来仅使用E+1个加数计算音频信号u的第(E+1)帧36内的N/F个采样的前端的四分之一(即u_{-(E+1)，(E+7/4)·N/F}...u_{-(E+1)，(E+2)·N/F-1})，而不是使用E+2个加数获得音频信号u的第(E+1)帧36内的全部N/F个采样。以这种方式，开窗器甚至可以有效地省略权重58相对于零部分56的性能。因此当前第(E+1)帧的采样u_{-(E+1)，(E+7/4)·N/F}...u_{-(E+1)，(E+2)·N/F-1}可以通过仅使用E+1个加数来获得，而u_{-(E+1)，(E+1)·N/F}…u_{-(E+1)，(E+7/4)·N/F-1}将使用E+2个加数来获得。

因此，以上述方式，图2的音频解码器10以缩减的方式再现编码到数据流24中的音频信号。为此，音频解码器10使用窗口函数54，其本身是长度为(E+2)·N的参考合成窗口的下采样版本。如参考图6所解释的，该下采样版本(即窗口54)通过下述方式获得：以因子F(即下采样因子)对参考合成窗口进行下采样，使用分段内插(即以当尚未下采样的版本中测量的长度1/4·N进行分段，以下采样的版本中的长度1/4·N/F进行分段，以帧36的帧长度的四分之一进行分段，其在时间上表示并与采样率相独立地测量)。因此，在4·(E+2)中执行内插，从而产生4·(E+2)乘以1/4·N/F长的分段，它们级联起来表示长度为(E+2)·N的参考合成窗的下采样版本。参照图6进行说明。图6在长度为(E+2)·N的参考合成窗口70下方示出了合成窗口54，该合成窗口54是单峰的并且由音频解码器10根据下采样音频解码过程来使用。也就是说，通过从参考合成窗口70通向音频解码器10实际用于下采样解码的合成窗口54的下采样过程72，窗系数的数量按照因子F减少。在图6中，可以应用图5和图6的命名法，即，w用于表示下采样版本窗口54，而w′用于表示参考合成窗口70的窗系数。

如刚提到的，为了执行下采样72，参考合成窗口70按等长的分段74进行处理。在数量上，存在(E+2)·4个这样的分段74。以原始采样率(即参考合成窗70的窗系数的数量)来测量的话，每个分段74的长度为1/4·N个窗系数w′，而以降低或下采样的采样率来测量的话，每个分段74的长度是1/4·N/F个窗系数w。

自然地，通过简单地设置w_i＝w′_j(其中w_i的采样时间与w′_j的采样时间相一致)，和/或通过线性内插在时间上位于两个窗系数w′_j和w′_j+2之间的位置线性地内插任意窗系数w_i，可以针对与参考合成窗口70的任意窗系数w′_j偶然一致的的每个下采样的窗系数w_i执行下采样72，但是该过程会造成参考合成窗口70的差的近似，即，由音频解码器10用于下采样解码的合成窗口54会呈现出与参考合成窗口70的差的近似，从而不能满足保证缩减解码与从数据流24对音频信号进行非缩减解码相比的一致性测试的要求。因此，下采样72涉及内插过程，根据该内插过程，通过下采样过程72，下采样窗口54的大部分窗系数w_i(即位置与分段74的边界偏离的窗系数)取决于参考窗口70的多于两个的窗系数w’。具体地，虽然下采样窗口54的大部分窗系数w_i取决于参考窗口70的多于两个窗系数w′_j，以便针对下采样版本54的每个窗系数w_i提高内插/下采样结果的质量(即近似质量)，但是事实是，所述窗系数不取决于属于不同分段74的窗系数w′_j。相反，下采样过程72是分段内插过程。

例如，合成窗口54可以是长度为1/4·N/F的样条函数的级联。三次样条函数可被使用。上面在章节A.1中概述了这样的示例，其中外部for-next(针对下一个)循环顺序地围绕分段74循环，其中在每个分段74中，下采样或内插72涉及当前分段74内的连续窗系数w′的数学组合，例如在“计算系数c所需的矢量r”部分中的第一个for next语句。然而，也可以用不同的方式选择应用于分段的内插。也就是说，内插不限于样条或三次样条。相反，也可以使用线性内插或任何其他内插方法。在任何情况下，内插的分段实现将导致缩减的合成窗口的采样(即，与缩减的合成窗口的分段的与另一分段相邻的最外侧采样)的计算不取决于参考合成窗口的位于不同的分段中的窗系数。

可能的情况是，加窗器18从存储了下采样合成窗口54的窗系数w_i(其是在已经使用下采样72获得之后存储的)的存储器中获得下采样合成窗口54。备选地，如图2所示，音频解码器10可以包括基于参考合成窗口70执行图6的下采样72的分段下采样器76。

应该注意的是，图2的音频解码器10可以被配置为仅支持一个固定的下采样因子F或者可以支持不同的值。在此情况下，音频解码器10可以响应于图2的78处所示的针对F的输入值。例如，抓取器14可以响应于该值F，以便如上所述抓取每个帧频谱的N/F个频谱值。以类似的方式，可选的分段下采样器76也可以如上所述的响应于该值F的操作。S/T调制器16可以响应于F，以便例如计算导出调制函数的缩减/下采样版本，其与未缩减操作模式(其中重建导致全音频采样率)中使用的版本相比被缩减/下采样。

自然地，调制器16也将响应于F输入78，因为调制器16将使用调制函数的适当的下采样版本，并且其也适用于加窗器18和消除器20相对于降低或下采样的采样率中的帧的实际长度的适配。

例如，F可以介于1.5和10之间(包括1.5和10)。

应该注意的是，图2和图3的解码器或其在此概述的其任何修改可以被实现，使得使用低延迟MDCT的提升实现来执行频谱-时间变换，如例如EP2378516B1中教导的那样。

图8示出了使用提升构思的解码器的实现。S/T调制器16示例性地执行逆DCT-IV，并且被示出为后接表示加窗器18和时域混叠消除器20的级联的块。在图8的示例中，E是2，即E＝2。

调制器16包括逆类型-iv离散余弦变换频率/时间转换器。不是输出(E+2)N/F个的长的时间部分52的序列，而仅输出长度为2·N/F的时间部分52，其都是从N/F长的谱46的序列导出的，这些缩短的部分52对应于DCT内核，即先前描述的部分中的2·N/F个最新采样。

加窗器18如先前所述的那样操作，并且为每个时间部分52生成加窗的时间部分60，但是其仅仅对DCT内核进行操作。为此，加窗器18使用具有内核大小的加窗函数ω_i，其中i＝0...2N/F-1。其与w_i(其中i＝0...(E+2)·N/F-1)之间的关系将在后面描述，正如随后提到的提升系数与w_i(其中，i＝0...(E+2)·N/F-1)的关系一样。

使用上面应用的命名法，到目前为止描述的处理产生：

z_k，n＝ω_n·x_k，n其中n＝0，...，2M-1，

重新定义M＝N/F，使得M对应于在缩减域中表示的帧大小，并使用图2至图6的命名法，然而其中，z_k，n和x_k，n应仅包含大小为2·M的DCT内核中的加窗的时间部分以及尚未加窗的时间部分的采样，并且在时间上对应于图4中的采样E·N/F...(E+2)·N/F-1。即，n是指示采样索引的整数，并且ω_n是与采样索引n相对应的实数窗函数系数。

与上面的描述相比，消除器20的重叠/相加处理以不同的方式进行操作。其基于以下方程式或表达式来生成中间时间部分m_k(0)，...m_k(M-1)：

m_k，n＝z_k，n+z_k-1，n+M其中n＝0，...，M-1。

在图8的实现中，该装置还包括提升器80，其可以被解释为调制器16和加窗器18的一部分，因为提升器80补偿了下述事实：调制器和加窗器将其处理限制在DCT内核，而不是处理调制函数和合成窗口的超出该内核朝着过去扩展的扩展范围，该扩展范围是为了补偿零部分56引入的。提升器80使用由延迟器和乘法器82以及加法器84构成的框架，基于以下方程式或表达式产生以紧接的连续帧构成的帧对的形式的长度为M的最终重建的时间部分或帧：

u_k，n＝m_k，n+l_n-M/2·m_k-1，M-1-n其中n＝M/2，...，M-1，

以及

u_k，n＝m_k，n+l_M-1-n·out_k-1，M-1-n其中n＝0，...，M/2-1，

其中l_n(其中，n＝0...M-1)是以将在下面更详细描述的方式与缩减合成窗口相关的实数值提升系数。

换句话说，对于扩展重叠到过去的E个帧，只需要M个附加乘法器加法运算，如在提升器80的框架中可以看到的那样。这些附加的运算有时也被称为“零延迟矩阵”。有时这些操作也被称为“提升步骤”。图8所示的有效实现在某些情况下作为直接的实现可能会更有效。更具体地说，取决于具体的实现，这种更高效的实现可能使得节省M个操作，因为在针对M个操作的直接实现的情况下，建议(如在图19中示出的实现那样)原则上需要模块820的框架中的2M个操作以及提升器830的框架中的M个操作。

至于合成窗口w_i(其中i＝0...(E+2)M-1，(请回忆起这里E＝2))上的ω_n(其中，n＝0...2M-1)与l_n(其中n＝0...M-1)的依赖性，下面的公式描述了它们与位移之间的关系，然而，至今使用的下标放入相应变量后跟着的括号中：

w(M/2+i)＝l(n)·l(M/2+n)·ω(3M/2+n)

w(3M/2+i)＝-l(n)·ω(3M/2+n)

w(2M+i)＝-ω(M+n)-l(M-1-n)·ω(n)

w(5M/2+i)＝-ω(3M/2+n)-l(M/2+n)·ω(M/2+n)

w(3M+i)＝-ω(n)

w(7M/2+i)＝ω(M+n)

其中，

请注意，窗口w_i在此公式中的右侧(即在索引2M和4M-1之间)包括峰值。上述公式将系数l_n(n＝0...M-1)和ω_n(n＝0，...，2M-1)与缩减的合成窗口的系数w_n(n＝0...(E+2)M-1)相关联。可以看出，l_n(n＝0...M-1)实际上仅取决于下采样的合成窗口的系数的3/4，即取决于w_n(n＝0...(E+1)M-1)，而ω_n(n＝0，...，2M-1)取决于所有的w_n(n＝0...(E+2)M-1)。

如上所述，可能的情况是，加窗器18从存储器获得下采样的合成窗口54w_n(n＝0...(E+2)M-1)，其中该下采样的合成窗口54的窗系数w_i是在使用下采样72获得后存储在存储器中的，且从所述存储器读取该窗系数以使用以上关系式来计算系数l_n(n＝0...M-1)和ω_n(n＝0，...，2M-1)，但是备选地，加窗器18可以直接从所述存储器检索系数l_n(n＝0...M-1)和ω_n(n＝0，...，2M-1)，从而计算预先下采样的合成窗口。备选地，如上所述，音频解码器10可以包括基于参考合成窗口70执行图6的下采样72的分段下采样器76，从而基于加窗器18使用上述关系式/公式计算系数l_n(n＝0...M-1)和ω_n(n＝0，...，2M-1)而得到w_n(n＝0...(E+2)M-1)。即使使用提升实现，也可以支持多于一个的F值。

简要地总结提升实现，音频解码器10中的相同结果被配置为：以第一采样率从数据流24解码以第二采样率变换编码到所述数据流中的音频信号22，所述第一采样率是所述第二采样率的1/F，所述音频解码器10包括：接收器12，其接收所述音频信号的每个帧的长度为N的N个频谱系数28；抓取器14，其针对每个帧从所述N个频谱系数28中抓取长度为N/F的低频分量；频谱-时间调制器16，被配置为针对每个帧36，使所述低频分量经过逆变换以获得长度为(E+2)·N/F的时间部分，其中所述逆变换具有在时间上在相应帧以及先前帧上延伸的长度为2·N/F的调制函数；以及加窗器18，其针对每个帧36，根据z_k，n＝ω_n·x_k，n(n＝0，...，2M-1)对时间部分x_k，n加窗，从而获得加窗的时间部分x_k，n(n＝0...2M-1)。所述时域混叠消除器20根据m_k，n＝z_k，n+z_k-1，n+M(n＝0，...，M-1)生成中间时间部分m_k(0)，...m_k(M-1)。最后，提升器80根据u_k，n＝m_k，n+l_n-M/2·m_k-1，M-1-n(n＝M/2，...，M-1)和u_k，n＝m_k，n+l_M-1-n·out_k-1，M-1-n(n＝0，...，M/2-1)计算音频信号的帧u_k，n(n＝0...M-1)，其中所述逆变换是逆MDCT或逆MDST，并且其中l_n(n＝0...M-1)和ω_n(n＝0，...，2M-1)取决于合成窗口的系数w_n(n＝0...(E+2)M-1)，并且合成窗口是对长度为4·N的参考合成窗口按照因子F进行下采样且按照长度为1/4·N的分段进行分段内插获得的下采样版本。

从上述对关于缩减的解码模式的AAC-ELD的扩展的提案的讨论中已经得出，图2的音频解码器可以与低延迟的SBR工具一起使用。下面概述了例如扩展为支持上文提案的缩减操作模式的AAC-ELD编码器在使用低延迟SBR工具时如何操作。如在本申请的说明书的介绍部分中已经提到的那样，在低延迟SBR工具与AAC-ELD编码器结合使用的情况下，低延迟SBR模块的滤波器组也被缩减。这确保了SBR模块以相同的频率分辨率工作，因此不需要另外的适配。图7概括了在96kHz工作的AAC-ELD解码器的信号路径，其在下采样SBR模式中的帧大小为480个采样，且缩减因子F为2。

在图7中，由一系列块(即AAC解码器、逆LD-MDCT块、CLDFB分析块、SBR解码器和CLDFB合成块(CLDFB＝复杂低延迟滤波器组))处理到达的比特流。比特流等价于先前参考图3至图6讨论的数据流24，但是附加地附带有参数化SBR数据，该参数化SBR数据用于协助对频谱扩展频带的频谱复制的频谱整形，该扩展频谱扩展频带扩展在逆低延迟MDCT块的输出处通过缩减音频解码获得的音频信号的频谱频率，所述频谱整形由SBR解码器执行。特别地，AAC解码器通过适当的解析和熵解码来检索所有必要的语法元素。AAC解码器可以与音频解码器10的接收器12部分重合，在图7中，音频解码器10由逆低延迟MDCT块实现。在图7中，F示例性地等于2。也就是说，作为图2的重建音频信号22的一个示例，图7的逆低延迟MDCT块输出48kHz时间信号，该信号以音频信号最初被编码到该到达的比特流中所用的采样率的一半被下采样。CLDFB分析块将该48kHz时间信号(即通过缩减音频解码获得的音频信号)细分成N个频带(这里N＝16)，并且SBR解码器计算这些频带的重新整形系数，相应地对N个频带重新整形(这由到达AAC解码器的输入端的输入比特流中的SBR数据来控制)，并且CLDFB合成块从频谱域重新转换到时域，由此获得要被添加到由逆低延迟MDCT块输出的原始解码出的音频信号的高频扩展信号。

请注意，SBR的标准操作采用了32频带CLDFB。32频带CLDFB窗系数ci₃₂的内插算法已在[1]的第4.6.19.4.1节中给出，

其中c₆₄是[1]中的表4.A.90中给出的64频带窗口的窗系数。该公式可以被进一步推广为还定义较少数量的频带B的窗系数，

其中F表示缩减因子F＝32/B。利用窗系数的该定义，CLDFB分析和合成滤波器组可以被完整地描述，如上面章节A.2的示例所概述的那样。

因此，上面的示例为AAC-ELD编解码器提供了一些缺失的定义，以使编解码器适配于具有较低采样率的系统。这些定义可被包括在ISO/IEC 14496-3：2009标准中。

因此，在上面的讨论中，已经描述了：

一种音频解码器可被配置为以第一采样率从数据流解码以第二采样率变换编码到所述数据流中的音频信号，所述第一采样率是所述第二采样率的1/F，所述音频解码器包括：接收器，被配置为接收所述音频信号的每帧的N个频谱系数，其中帧的长度为N；抓取器，被配置为针对每个帧抓取所述N个频谱系数中的长度为N/F的低频分量；频谱-时间调制器，被配置为针对每个帧，使所述低频分量经过逆变换以获得长度(E+2)·N/F的时间部分，其中所述逆变换具有在时间上在相应帧以及E+1个先前帧上延伸的长度为(E+2)·N/F的调制函数；加窗器，被配置为针对每个帧使用长度为(E2)·N/F的单峰合成窗口为所述时间部分加窗，所述单峰合成窗口包括在其前端的长度为1/4·N/F的的零部分，并且在所述单峰合成窗口的一时间间隔内具有峰值，所述时间间隔在所述零部分之后并且具有长度7/4·N/F，使得所述加窗器获得长度为(E+2)·N/F的经加窗的时间部分；以及时域混叠消除器，被配置为使所述帧的经加窗的时间部分经过重叠相加处理，使得当前帧的经加窗的时间部分的长度为(E+1)/(E+2)的尾端分量与前一帧的经加窗的时间部分的长度为(E+1)/(E+2)的前端重叠，其中所述逆变换是逆MDCT或逆MDST，以及其中所述单峰合成窗口是长度为(E+2)·N的参考单峰合成窗口按照因子F进行下采样且按照长度为1/4·N/F的分段进行分段内插获得的下采样版本。

根据实施例的音频解码器，其中所述单峰合成窗口是长度为1/4·N/F的样条函数的级联。

根据实施例的音频解码器，其中所述单峰合成窗口是长度为1/4·N/F的三次样条函数的级联。

根据前述实施例中任一项所述的音频解码器，其中E＝2。

根据前述实施例中任一项所述的音频解码器，其中所述逆变换是逆MDCT。

根据前述实施例中任一项所述的音频解码器，其中，所述单峰合成窗口的大小的80％以上被包括在所述零部分之后并且具有长度7/4·N/F的时间间隔内。

根据前述实施例中任一项所述的音频解码器，其中，所述音频解码器被配置为执行所述内插或者从存储器导出所述单峰合成窗口。

根据前述实施例中任一项所述的音频解码器，其中，所述音频解码器被配置为支持F的不同值。

根据前述实施例中任一项所述的音频解码器，其中F在1.5和10之间，且包括1.5和10。

一种由根据前述实施例中任一项所述的音频解码器执行的方法。

一种具有程序代码的计算机程序，所述程序代码用于当在计算机上运行时执行根据实施例所述的方法。

就“长度”这一术语而言，应该注意的是，该术语被解释为按采样测量的长度。就零部分和分段的长度而言，应该注意的是，该长度可以是整数值。备选地，该长度可以是非整数值。

关于峰值所处的时间间隔，应注意图1作为示意说明针对E＝2和N＝512的参考单峰合成窗口的示例示出了该峰值以及时间间隔：峰值在大约第1408号采样处具有最大值，且该时间间隔从第1024号采样延伸到第1920号采样。因此，时间间隔的长度为DCT内核长度的7/8。

关于术语“下采样版本”，应注意在上面的说明书中，“缩减版本”可被同义地使用，作为该术语的替代。

关于术语“在一定的时间间隔内的函数的大小”，应注意该大小应该表示相应函数在相应间隔内的定积分。

在音频解码器支持F的不同值的情况下，该音频解码器可以包括具有参考单峰合成窗口的相应的分段内插版本的存储器，或者可以对当前激活的F值执行分段内插。不同的分段内插版本的共同之处在于内插不会对分段边界处的不连续性产生不利影响。如上所述，它们可以是样条函数。

通过从如上图1所示的参考单峰合成窗口出发经分段内插得到单峰合成窗口，可以通过样条近似(例如三次样条)来形成4·(E+2)个分段，并且不管是否内插，由于合成引入的作为降低延迟的手段的零部分，所以保留了单峰合成窗口要在1/4·N/F的节距处呈现的不连续性。

参考文献

[1]ISO/IEC 14496-3：2009

[2]M13958，“Proposal for an Enhanced Low Delay Coding Mode”，October2006，Hangzhou，China

Claims

1.一种音频解码器(10)，被配置为以第一采样率从数据流(24)解码音频信号(22)，所述音频信号(22)是以第二采样率变换编码到所述数据流中的，所述第一采样率是所述第二采样率的1/F，所述音频解码器(10)包括：

接收器(12)，被配置为接收所述音频信号的每帧的N个频谱系数(28)，其中帧的长度为N；

抓取器(14)，被配置为针对每个帧从所述N个频谱系数(28)中抓取长度为N/F的低频分量；

频谱-时间调制器(16)，被配置为针对每个帧(36)，使所述低频分量经过逆变换以获得长度为(E+2)·N/F的时间部分，其中所述逆变换具有在时间上在相应帧以及E+1个先前帧上延伸的长度为(E+2)·N/F的调制函数；

加窗器(18)，被配置为针对每个帧(36)使用长度为(E+2)·N/F的合成窗口为所述时间部分加窗，所述合成窗口包括在其前端的长度为1/4·N/F的零部分，并且在所述合成窗口的一时间间隔内具有峰值，所述时间间隔在所述零部分之后并且具有长度7/4·N/F，使得所述加窗器获得长度为(E+2)·N/F的经加窗的时间部分；以及

时域混叠消除器(20)，被配置为使所述帧的经加窗的时间部分经过重叠相加处理，使得当前帧的经加窗的时间部分的长度为(E+1)/(E+2)的尾端分量与前一帧的经加窗的时间部分的长度为(E+1)/(E+2)的前端重叠，

其中所述逆变换是逆MDCT或逆MDST，以及

其中所述合成窗口是对长度为(E+2)·N的参考合成窗口按照因子F进行下采样且按照长度为1/4·N的分段进行分段内插获得的下采样版本。

2.根据权利要求1所述的音频解码器(10)，其中，所述合成窗口是长度为1/4·N/F的样条函数的级联。

3.根据权利要求1或2所述的音频解码器(10)，其中，所述合成窗口是长度为1/4·N/F的三次样条函数的级联。

4.根据前述权利要求中任一项所述的音频解码器(10)，其中E＝2。

5.根据前述权利要求中任一项所述的音频解码器(10)，其中所述逆变换是逆MDCT。

6.根据前述权利要求中任一项所述的音频解码器(10)，其中，所述合成窗口的大小的80％以上被包括在所述零部分之后并且具有长度7/4·N/F的所述时间间隔内。

7.根据前述权利要求中任一项所述的音频解码器(10)，其中，所述音频解码器(10)被配置为执行所述内插或者从存储器导出所述合成窗口。

8.根据前述权利要求中任一项所述的音频解码器(10)，其中，所述音频解码器(10)被配置为支持F的不同值。

9.根据前述权利要求中任一项所述的音频解码器(10)，其中F在1.5和10之间，且包括1.5和10。

10.根据前述权利要求中任一项所述的音频解码器(10)，其中，所述参考合成窗口是单峰的。

11.根据前述权利要求中任一项所述的音频解码器(10)，其中，所述音频解码器(10)被配置为以如下方式执行所述内插：所述合成窗口的系数中的大部分取决于所述参考合成窗口的系数中的多于两个。

12.根据前述权利要求中任一项所述的音频解码器(10)，其中，所述音频解码器(10)被配置为以如下方式执行所述内插：所述合成窗口的被多于来自分段边界的两个系数所分隔的每个系数取决于所述参考合成窗口的系数中的两个。

13.根据前述权利要求中任一项所述的音频解码器(10)，其中，所述加窗器(18)和所述时域混叠消除器进行协作，使得所述加窗器在使用所述合成窗口对所述时间部分进行加权时跳过所述零部分，并且所述时域混叠消除器(20)在重叠相加处理中不考虑经加窗的时间部分的相应非加权部分，于是仅E+1个经加窗的时间部分被求和，从而导致相应帧的相应非加权部分和E+2个经加窗的部分在相应帧的剩余部分内被求和。

14.一种用于生成根据前述权利要求中任一项所述的音频解码器(10)的合成窗口的缩减版本的音频解码器，其中E＝2，使得所述合成窗口函数包括长度为2·N/F的与内核相关的一半，该与内核相关的一半之前是长度为2·N/F的另一半，并且其中所述频谱-时间调制器(16)、所述加窗器(18)和所述时域混叠消除器(20)被实现为在提升实现中进行协作，根据所述提升实现：

所述频谱-时间调制器(16)将针对每个帧(36)使低频分量经过逆变换限制在与相应帧和一个先前帧一致的变换内核，从而获得时间部分x_k，n，其中n＝0...2M-1，且M＝N/F是采样索引，k是帧索引，其中所述逆变换具有时间上在相应帧以及E+1个先前帧上延伸的长度为(E+2)·N/F的调制函数；

所述加窗器(18)针对每个帧(36)根据z_k，n＝ω_n·x_k，n，n＝0，...，2M-1，对所述时间部分x_k，n进行加窗，从而获得经加窗的时间部分z_k，n，n＝0...2M-1；

所述时域混叠消除器(20)根据m_k，n＝z_k，n+z_k-1，n+M，n＝0，...，M-1，生成中间时间部分m_k(0)，...m_k(M-1)，

所述音频解码器包括提升器(80)，所述提升器(80)被配置为根据下式获得帧u_k，n，其中n＝0...M-1：

u_k，n＝m_k，n+l_n-M/2·m_k-1，M-1-n其中n＝M/2，...，M-1，

以及

u_k，n＝m_k，n+l_M-1-n·out_k-1，M-1-n其中n＝0，...，M/2-1，

其中l_n，n＝0...M-1，是提升系数，且其中l_n，n＝0...M-1和ω_n，n＝0，...，2M-1取决于所述合成窗口的系数w_n，n＝0...(E+2)M-1。

15.一种音频解码器(10)，被配置为以第一采样率从数据流(24)解码音频信号(22)，所述音频信号(22)是以第二采样率变换编码到所述数据流中的，所述第一采样率是所述第二采样率的1/F，所述音频解码器(10)包括：

频谱-时间调制器(16)，被配置为针对每个帧(36)，使所述低频分量经过逆变换以获得长度为2·N/F的时间部分，其中所述逆变换具有在时间上在相应帧以及一个先前帧上延伸的长度为2·N/F的调制函数；

加窗器(18)，被配置为针对每个帧(36)根据z_k，n＝ω_n·x_k，n，n＝0，...，2M-1，对所述时间部分x_k，n进行加窗，从而获得经加窗的时间部分z_k，n，n＝0...2M-1；

时域混叠消除器(20)，被配置为根据m_k，n＝z_k，n+z_k-1，n+M，n＝0，...，M-1，生成中间时间部分m_k(0)，...m_k(M-1)，

提升器(80)，被配置为根据下式获得音频信号的帧u_k，n，其中n＝0...M-1：

u_k，n＝m_k，n+l_n-M/2·m_k-1，M-1-n其中n＝M/2，...，M-1，

以及

u_k，n＝m_k，n+l_M-1-n·out_k-1，M-1-n其中n＝0，...，M/2-1，

其中l_n，n＝0...M-1，是提升系数，

其中，所述逆变换是逆MDCT或逆MDST，以及

其中，l_n，n＝0...M-1，和ω_n，n＝0，...，2M-1，取决于合成窗口的系数w_n，n＝0...(E+2)M-1，并且所述合成窗口是对长度为4·N的参考合成窗口按照因子F进行下采样且按照长度为1/4·N的分段进行分段内插获得的下采样版本。

16.一种用于生成根据前述权利要求中任一项所述的音频解码器(10)的合成窗口的缩减版本的装置，其中，所述装置被配置为按照因子F对长度为(E+2)·N的参考合成窗口进行下采样且在等长度的4·(E+2)个分段中进行分段内插。

17.一种用于生成根据权利要求1至16中任一项所述的音频解码器(10)的合成窗口的缩减版本的方法，其中，所述方法包括按照因子F对长度为(E+2)·N的参考合成窗口进行下采样且在等长度的4·(E+2)个分段中进行分段内插。

18.一种用于以第一采样率从数据流(24)解码音频信号(22)的方法，所述音频信号(22)是以第二采样率变换编码到所述数据流中的，所述第一采样率是所述第二采样率的1/F，所述方法包括：

接收所述音频信号的每帧的N个频谱系数(28)，其中帧的长度为N：

针对每个帧从所述N个频谱系数(28)中抓取长度为N/F的低频分量；

通过以下方式执行频谱-时间调制：针对每个帧(36)，使所述低频分量经过逆变换以获得长度为(E+2)·N/F的时间部分，其中所述逆变换具有在时间上在相应帧以及E+1个先前帧上延伸的长度为(E+2)·N/F的调制函数；

针对每个帧(36)使用长度为(E+2)·N/F的合成窗口为所述时间部分加窗，所述合成窗包括在其前端的长度为1/4·N/F的零部分，并且在所述合成窗口的一时间间隔内具有峰值，所述时间间隔在所述零部分之后并且具有长度7/4·N/F，使得所述加窗器获得长度为(E+2)·N/F的经加窗的时间部分；以及

通过以下方式执行时域混叠消除：使所述帧的经加窗的时间部分经过重叠相加处理，使得当前帧的经加窗的时间部分的长度为(E+1)/(E+2)的尾端分量与前一帧的经加窗的时间部分的长度为(E+1)/(E+2)的前端重叠，

其中所述逆变换是逆MDCT或逆MDST，以及

19.一种具有程序代码的计算机程序，所述程序代码用于当在计算机上运行时执行根据权利要求16或18所述的方法。