CN102592602B

CN102592602B - 对音频信号的时间伸缩改进变换编码

Info

Publication number: CN102592602B
Application number: CN201210037454.7A
Authority: CN
Inventors: 拉斯·维尔莫斯
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2005-11-03
Filing date: 2006-10-24
Publication date: 2015-11-25
Anticipated expiration: 2026-10-24
Also published as: US20130218579A1; HK1254427A1; EP1807825B1; HK1105159A1; JP4927088B2; DE602006001194D1; WO2007051548A1; EP1953738A1; EP3852103B1; ES2307287T3; EP4290513A3; JP2013210654A; CN101351840B; ATE395687T1; EP4290512A2; US7720677B2; EP4290512B1; ES2967257T3; PL1807825T3; ES2646814T3

Abstract

当针对任何两个相邻帧估计出共同时间伸缩时，可以更有效地推导具有连续音频帧的音频信号的频谱表示，以便后面的块变换可附加地使用伸缩信息。因此，可推导并应用在重建过程中成功应用重叠和相加方式所需的窗口函数，所述窗口函数已预计到由时间伸缩所引起的对信号的重新采样。所以，可以提高对时间伸缩信号的基于块的变换编码的效率，且不会引入可听到的不连续。

Description

对音频信号的时间伸缩改进变换编码

本申请是申请日为2006年10月24日、国际申请号“PCT/EP2006/010246”、国家申请号“200680049867.X”、发明名称为“对音频信号的时间伸缩改进变换编码”的申请的分案申请。

技术领域

本发明涉及音频源编码系统，特别涉及使用基于块的变换的音频编码方案。

背景技术

本领域内公知用于对音频和视频内容进行编码的若干方式。当然，通常目的是以比特节省的方式对内容进行编码，且不降低信号的重建质量。

最近，开发出对音频和视频内容进行编码的新方法，其中基于变换的感知音频编码实现了对于静止信号的最大编码增益，即当变换大小较大时可应用(譬如，见T.Painter和A.Spanias：“Perceptualcodingofdigitalaudio”，ProceedingsoftheIEEE，Vol.88，No.4，April2000，pages451-513)。音频的静止部分经常由固定的有限个静止正弦曲线来充分模拟。一旦变换大小足够大而能够分解这些分量，对于给定的失真目标就需要固定数量的比特。通过进一步增大变换大小，可描述音频信号的越来越大的分段，且不增加比特需求。然而对于非静止信号，必须减小变换大小，因此编码增益会很快下降。为了克服此问题，对于急剧的变化和瞬时事件，可应用变换大小开关，且不显著提高平均编码成本。即，当检测到瞬时事件时，将要一起进行编码的样本的块大小(帧大小)减小。对于持久瞬时信号，比特率自然会极大地增加。

用于持久瞬时行为的特别令人感兴趣的示例是局部谐波信号的基音(pitch)变化，这主要在语音和歌唱的声部中会遇到，但也可能源自某些乐器的颤音和滑奏。关于谐波信号，即具有沿时间轴等间隔分布的信号峰值的信号，术语基音描述信号的相邻峰值之间的时间的倒数。所以这种信号具有理想的谐波谱，其由与所述基音相等的基频和更高阶谐波组成。在更一般的情况下，基音可定义为局部谐波信号内的两个相邻的对应信号部分之间的时间的倒数。然而，如果基音和基频随时间变化，如浊音(voicedsound)中的情况，则频谱会变得越来越复杂，从而编码效率更差。

与信号基音密切相关的参数是信号的伸缩(warp)。假定时间t处的信号具有与p(t)相等的基音且此基音值随时间平滑变化，则时间t处的信号的伸缩由对数导数来定义

a (t) = \frac{p^{'} (t)}{p (t)}

对于谐波信号，就多个基音或多个部分基音而言，对伸缩的这种定义不受谐波分量和系统误差的特定选择所影响。伸缩测量对数域中频率的变化。伸缩的自然单位是赫兹[Hz]，但在音乐方面，带有恒定伸缩a(t)＝a₀的信号是带有每秒a₀/log2个八度音(octave倍频程)[oct/s]的扫描速率的扫描。语音信号表现出至多10oct/s的伸缩和大约2oct/s的平均伸缩。

由于变换编码器的典型帧长度(块长度)非常大，以至于相关基音变化在帧内显著，所以这种大小的伸缩或基音变化导致这些编码器的频率分析的不规则(scrambling)。由于对于所需的恒定比特率，这一点只可通过增加量化的粗糙度来克服，所以此效应导致量化噪声的引入，这经常被感知为混响。

用来克服此问题的一种可能的技术是时间伸缩。时间伸缩编码的概念可通过设想带有可变速度的磁带录音机来作最佳解释。当记录音频信号时，动态调节速度以便实现整个话音分段上恒定的基音。所得到的局部静止音频信号随所应用的磁带速度变化一起被编码。在解码器中，以相反的速度变化来执行重放。然而，应用以上描述的简单时间伸缩具有一些显著的缺点。首先，绝对磁带速度以不受控制的方式结束，导致违反整个被编码信号的持续时间和带宽限制。对于重建，必须发送关于磁带速度的(或等效地关于信号基音的)附加辅助信息，这引入了相当大的比特率开销，尤其在低比特率情况下。

用来克服时间伸缩信号的不可控制持续时间这个问题的现有方法的一般途径是通过时间伸缩独立地对信号的连续非重叠分段(即各个帧)进行处理，以便每分段的持续时间都被保留。譬如在Yanget.al.“Pitchsynchronousmodulatedlappedtransformofthelinearpredictionresidualofspeech”，ProceedingsofICSP’98，pages591-594中描述了这个方法。这种处理的巨大优势是：虽然所处理信号在分段内是静止的，但基音会在每个分段边界表现出跳跃。这些跳跃会明显地导致后续音频编码器的编码效率的损失，并在解码信号中引入可听到的不连续。

时间伸缩也在若干其他编码方案中实现。譬如，美国专利US-2002/0120445描述了一种方案，其中，在基于块的变换编码之前，对信号分段的持续时间进行细微修改。这将避免在块的边界处的大信号分量，接受在单个分段的持续时间中有细微变化。

在美国专利US6,169,970中描述了利用时间伸缩的另一项技术，其中应用时间伸缩以提高语音编码器的长期预测器的性能。同样，在美国专利US2005/0131681中，描述了一种用于对语音信号进行CELP编码的预处理单元，其在非重叠区间之间施加分段线性伸缩，所述非重叠区间每个都包含一个白化(whitened)基音脉冲。最后，在(R.J.SluijterandA.J.E.M.Janssen，“Atimewarperforspeechsignals”IEEEworkshoponSpeechCoding’99，June1999，pages150-152)中描述了如何通过将二次时间伸缩函数应用到语音帧来改进语音基音估计。

综上所述，现有技术的伸缩技术都存在以下问题：在帧边界引入了不连续以及需要大量的附加比特率以用于传输描述信号的基音变化的参数。

发明内容

本发明的目的是提供一种使用时间伸缩对音频信号进行更有效编码的概念。

根据本发明的第一个方面，此目的由一种用于推导音频信号表示的编码器来实现，所述音频信号具有第一帧、跟在第一帧之后的第二帧和跟在第二帧之后的第三帧，所述编码器包括：伸缩估计器，用于估计第一和第二帧的第一伸缩信息以及用于估计第二帧和第三帧的第二伸缩信息，所述伸缩信息描述音频信号的基音；频谱分析器，使用第一伸缩信息来推导第一和第二帧的第一频谱系数以及使用第二伸缩信息来推导第二和第三帧的第二频谱系数；以及输出接口，用于输出包含第一和第二频谱系数的音频信号的表示。

根据本发明的第二个方面，此目的由一种解码器实现，该解码器使用第一伸缩信息、第二伸缩信息、第一频谱系数和第二频谱系数来重建音频信号，所述音频信号具有第一帧、跟在第一帧之后的第二帧和跟在第二帧之后的第三帧，所述第一伸缩信息描述第一和第二帧的音频信号的基音，所述第二伸缩信息描述第二和第三帧的音频信号的基音，所述第一频谱系数针对第一和第二帧，所述第二频谱系数针对第二和第三帧，所述解码器包括：谱值处理器，使用第一频谱系数和第一伸缩信息来推导第一组合帧，所述第一组合帧具有关于第一和第二帧的信息，使用第二频谱系数和第二伸缩信息来推导第二组合帧，所述第二组合帧具有关于第二和第三帧的信息；以及合成器，使用第一组合帧和第二组合帧来重建第二帧。

根据本发明的第三个方面，此目的由一种推导音频信号表示的方法来实现，所述音频信号具有第一帧、跟在第一帧之后的第二帧和跟在第二帧之后的第三帧，所述方法包括：估计针对第一和第二帧的第一伸缩信息以及估计针对第二和第三帧的第二伸缩信息，所述伸缩信息描述音频信号的基音；使用第一伸缩信息来推导针对第一和第二帧的第一频谱系数以及使用第二伸缩信息来推导针对第二和第三帧的第二频谱系数；以及输出包含第一和第二频谱系数的音频信号表示。

根据本发明的第四个方面，此目的由一种方法实现，该方法使用第一伸缩信息、第二伸缩信息、第一频谱系数和第二频谱系数来重建音频信号，所述音频信号具有第一帧、跟在第一帧之后的第二帧和跟在第二帧之后的第三帧，所述第一伸缩信息描述针对第一和第二帧的音频信号的基音，所述第二伸缩信息描述针对第二和第三帧的音频信号的基音，所述第一频谱系数针对第一和第二帧，所述第二频谱系数针对第二和第三帧，所述方法包括：使用第一频谱系数和第一伸缩信息来推导第一组合帧，所述第一组合帧具有关于第一和第二帧的信息；以及使用第二频谱系数和第二伸缩信息来推导第二组合帧，所述第二组合帧具有关于第二和第三帧的信息；以及使用第一组合帧和第二组合帧来重建第二帧。

根据本发明的第五个方面，此目的由一种音频信号表示来实现，所述音频信号具有第一帧、跟在第一帧之后的第二帧和跟在第二帧之后的第三帧，所述表示包括：针对第一和第二帧的第一频谱系数，所述第一频谱系数描述第一和第二帧的伸缩表示的频谱构成；以及描述第二和第三帧的伸缩表示的频谱构成的第二频谱系数。

根据本发明的第六个方面，此目的由一种具有程序代码的计算机程序来实现，所述程序代码用于当运行在计算机上时实现任意以上方法。

本发明基于以下发现：当对于任何两个相邻帧估计出共同时间伸缩时，可更有效地推导出具有连续音频帧的音频信号的频谱表示，因此后面的块变换也可使用伸缩信息。

因此，由于已经预计到由时间伸缩会引起对信号的重新采样，可导出并应用在重建过程中成功应用重叠和相加过程所需的窗口函数。所以，可以使用效率提高的对时间伸缩信号的基于块的变换编码，且不会引入可听见的不连续。

因而，本发明提出一种对现有技术的问题的引人注意的解决方案。一方面，与音频信号分段有关的问题由特定的重叠和相加技术来克服，所述技术将时间伸缩运算与窗口运算结合起来并引入块变换的时间偏移量。所产生的连续时间变换具有理想的重建能力，它们的离散时间变换只受到重建过程中解码器所应用的重新采样技术的质量的限制。此性质导致所产生的音频编码方案具有高比特率收敛性。理论上，通过降低量化的粗糙度，即通过提高传输比特率，可以实现信号的无损传输。譬如，这不能利用纯参数编码方法来实现。

本发明的又一个优势是极大地降低了对需要发送以反转时间伸缩的附加信息的比特率需求。这可通过发送伸缩参数辅助信息而不是基音辅助信息来实现。它具有另一个优势：相对于许多基于基音参数的音频编码方法对正确基音检测的严重依赖性，本发明只表现出轻度的参数依赖性。这是因为基音参数的发送需要对局部谐波信号的基频进行检测，而这并不总是简单易行的。本发明的方案因此非常鲁棒，因为很明显，在给定以上伸缩参数的定义的情况下，对更高谐波进行的检测并不会篡改待发送的伸缩参数。

在本发明的一个实施例中，应用编码方案以对设置在连续帧中的音频信号进行编码，特别是彼此紧接的第一、第二、第三帧。关于第二帧的信号的全部信息由第一和第二帧的组合的频谱表示、针对第一和第二帧的伸缩参数序列、以及针对第二和第三帧的组合的频谱表示和针对第二和第三帧的伸缩参数序列来提供。使用本发明的时间伸缩概念可以对信号进行重叠和相加重建，而不必在帧边界处引入快速基音变化，并且不会引入附加的可听见的不连续。

在本发明的又一个实施例中，使用公知的基音跟踪算法来导出伸缩参数序列，使得可以使用这些公知算法，并因而在现有的编码方案中简单实现本发明。

在本发明的又一个实施例中，实现伸缩，以便当音频信号如伸缩系数所指示的那样形成时间伸缩时，帧内的音频信号的基音会尽可能恒定。

在本发明的又一个实施例中，当选择伸缩参数序列以便频谱系数的编码表示的大小最小化时，在编码过程中以更高计算复杂性为代价甚至可进一步降低比特率。

在本发明的又一个实施例中，本发明的编码和解码分解为对窗口函数的应用(加窗)、重新采样和块变换。所述分解具有巨大的优势：尤其对于所述变换而言，现有的软件和硬件实施方式可用于有效地实现本发明的编码概念。在解码器端，引入重叠和相加的又一个独立步骤以用于重建信号。

在本发明解码器的可替换实施例中，在变换到时域之前，将额外的频谱权重施加于信号的频谱系数。这么做具有如下优势，即进一步降低了解码器端的计算复杂性，因为可降低信号的重新采样的计算复杂性。

术语“基音(pitch)”应以一般意义进行解释。此术语也涵盖基音变化(pitchvariation)以及涉及伸缩信息的位置。在某种情况中，伸缩信息不提出绝对基音，而提出相对或归一化基音信息。所以在给定伸缩信息的情况下，当接收得到正确基音曲线形状但没有在y轴上的值时，可得到对信号基音的描述。

附图说明

通过参照附图，随后续描述本发明的优选实施例，其中：

图1示出了本发明的伸缩映射的示例；

图2-2b示出了本发明的伸缩有关窗口的应用；

图3a，3b示出了本发明的重新采样的示例；

图4a，4b示出了在解码器端本发明信号合成的示例；

图5a，5b示出了在解码器端本发明加窗的示例；

图6a，6b示出了在解码器端本发明时间伸缩的示例；

图7示出了在解码器端本发明重叠和相加过程的示例；

图8示出了本发明音频编码器的示例；

图9示出了本发明音频解码器的示例；

图10示出了本发明解码器的又一个示例；

图11示出了本发明概念的后向兼容实施方式的示例；

图12示出了本发明编码的实施方式的框图；

图13示出了本发明解码的示例的框图；

图14示出了本发明解码的又一个实施例的框图；

图15a，15b示出了实现本发明概念的可实现编码效率的图解说明。

具体实施方式

以下描述的实施例仅用于说明本发明的针对音频信号的时间伸缩变换编码的原理。需要理解，这里描述的布置和细节的修改和变化对于本领域技术人员而言是显而易见的。所以，本发明仅由所附权利要求的范围所限制，而不被通过这里对实施例的描述和解释所呈现的具体细节所限制。

在下文中，简要回顾伸缩和块变换的基本思想和概念，以促进对本概念的理解，这将在以下参考附图更详细地进行讨论。

一般地，时间伸缩变换的细节最容易在连续时间信号域中推导出。以下段落描述一般理论，并将在随后对该理论进行特别说明并转化为对离散时间信号的本发明应用。此转化中的主要步骤是用离散时间信号的非均匀重新采样替换对连续时间信号执行的坐标变化，保留平均采样密度，即不改变音频信号的持续时间。

令s＝ψ(t)描述时间坐标的变化，其由连续可微严格递增函数ψ将t轴区间I映射到s轴区间J上。

所以ψ(t)是可用于对时间有关量值的时间轴进行变换的函数，这等效于离散时间情况下的重新采样。应该注意，在以下讨论中，t轴区间I是正常时域中的区间，x轴区间J是伸缩时域中的区间。

给定区间J上的有限能量信号的标准正交基{v_α}，可根据以下法则来得到区间I上的有限能量信号的标准正交基{u_α}

u_α(t)＝ψ′(t)^1/2v_α(ψ(t)).(1)

给定无限时间区间I，时间伸缩的局部说明可通过对I分段并构造ψ来实现，构造ψ是将归一化伸缩映射的缩放片段粘合起来。

归一化伸缩映射(normalizedwarpmap)是连续可微严格递增函数，其将单位区间[0，1]映射到自身。从分段点t＝t_k(t_k+1＞t_k)的序列和归一化伸缩映射ψ_k的对应序列开始，可构造

ψ (t) = d_{k} ψ_{k} (\frac{t - t_{k}}{t_{k + 1} - t_{k}}) + s_{k}, t_{k} \leq t \leq t_{k + 1}, - - - (2)

其中调节d_k＝s_k-1-s_k和序列d_k以便ψ(t)变为连续可微。这就根据归一化伸缩映射ψ_k的序列以及类型Aψ(t)+B的缩放的仿射(affine)变化定义了ψ(t)。

令{v_k，n}为区间J上的有限能量信号的标准正交基，适配于所述分段s_k＝ψ(t_k)，以便当s＜s_k或s＞s_k+K时v_k，n(s)＝0，其中整数K是重叠因子。

本发明关注于K≥2的情况，因为K＝1的情况与无重叠的现有技术的方法相对应。应该注意，对于K≥3，并不是很多构造目前公知。以下针对K＝2的情况详述本发明概念的特定示例，所述特定示例包括局部三角基，所述局部三角基同样用于改进离散余弦变换(MDCT)和其他离散时间重叠变换。

在存在整数p的情况下，令来自所述分段的{v_k，n}的构造是局部的，以便对于l＜k-p或l＞k+K+p，v_k，n(s)不取决于s_l。最后，令所述构造使得对于As_k+B的分段的仿射变化引起对于A^-1/2v_k，n((s-B)/A)的基的变化。则

u_k，n(t)＝ψ′(t)^1/2v_k，n(ψ(t))(3)

是区间I上的有限能量信号的时间伸缩标准正交基，其由分段点t_k和归一化伸缩映射ψ_k序列充分限定，且与(2)中的参数序列s_k和d_k的初始化无关。由于当t＜t_k或t＞t_k+K时有u_k，n(t)＝0，所以所述标准正交基适配于给定分段，由于u_k，n(t)既不取决于t_l(l＜k-p或l＞k+K+p)，又不取决于归一化伸缩映射ψ_l(l＜k-p或l≥k+K+p)，所以所述标准正交基是局部定义的。

由于雅可比因子(ψ′(t))^1/2，合成波形(3)是连续的但不必须是可微的。由于这个缘故，为了在离散时间情况下减少计算负荷，也可构造导出的双正交系统。假定有常量0＜C₁＜C₂使得

C₁η_k≤ψ′(t)≤C₂η_k，t_k≤t≤t_k+K(4)

序列η_k＞0。那么

\{\begin{matrix} f_{k, n} (t) = {η_{k}}^{1 / 2} v_{k, n} (ψ (t)); \\ g_{k, n} (t) = ψ^{'} (t) {η_{k}}^{- 1 / 2} v_{k, n} (ψ (t)) . \end{matrix}\} - - - (5)

定义了用于区间I上有限能量信号空间的Riesz基的双正交对。

因此，f_k，n(t)以及g_k，n(t)可用于分析，而使用f_k，n(t)作为合成波形并使用g_k，n(t)作为分析波形是特别有优势的。

基于以上一般考虑，对于均匀分段t_k＝k和重叠因子K＝2的情况，本发明概念的示例将通过使用适配到所产生的s轴上的分段的局部余弦基在后续段落中导出。

应该注意，对处理非均匀分段而言必要的修改是明显的，以便本发明的概念也可应用于这种非均匀分段。对于由M.W.Wickerhauser提出的示例，“Adaptedwaveletanalysisfromtheorytosoftware”，A.K.Peters，1994，Chapter4，构建局部余弦基的出发点是上升截止函数ρ，以使得对于r＜-1有ρ(r)＝0，对于r＞1有ρ(r)＝0，并且在作用区-1≤r≤1中，ρ²(r)+ρ²(-r)＝1。

给定分段s_k，每个区间s_k≤s≤s_k+2上的窗口就可以根据下式来构造

w_{k} (s) = ρ (\frac{s - c_{k}}{ϵ_{k}}) ρ (\frac{c_{k + 1} - s}{ϵ_{k + 1}}), - - - (6)

其中截止中点c_k＝(s_k+s_k+1)/2，截止半径ε_k＝(s_k-s_k+1)/2。这与Wickerhauser的中点构造相对应。

在I_k＝c_k+1-c_k＝ε_k+ε_k+1的情况下，标准正交基由下式得到

v_{k, n} (s) = \sqrt{\frac{2}{l_{k}}} w_{k} (s) \cos [\frac{π (n + \frac{1}{2})}{l_{k}} (s - c_{k})], - - - (7)

其中，频率索引n＝0，1，2…。很容易验证，此构造遵循以上描述的p＝0的局部性条件以及仿射不变性。所产生的t轴上的伸缩基(3)可在此情况下以下式的形式重写

u_{k, n} (t) = \sqrt{2 φ_{k}^{'} (t - k)} b_{k} (φ_{k} (t - k)) \cos [π (n + \frac{1}{2}) (φ_{k} (t - k) - m_{k})], - - - (8)

对于k≤t≤k+2，其中φ_k通过将ψ_k与ψ_k+1粘合在一起来定义，以在其自身上形成区间[0，2]的连续可微映射，

φ_{k} (t) = \{\begin{matrix} 2 m_{k} ψ_{k} (t), & 0 \leq t \leq 1; \\ 2 (1 - m_{k}) ψ_{k + 1} (t - 1) + 2 m_{k}, & 1 \leq t \leq 2 . \end{matrix}\} - - - (9)

这可通过下式来获得

m_{k} = \frac{1}{2} φ_{k} (1) = \frac{ψ_{k + 1}^{'} (0)}{ψ_{k}^{'} (1) + ψ_{k + 1}^{'} (0)} . - - - (10)

ψ_k的构造在图1中示出了，图1示出了x轴上的归一化时间和y轴上的伸缩时间。对于k＝0的情况来特别讨论图1，即用于构建φ₀(t)并从而导出伸缩函数，对于第一帧，从归一化时间0持续到归一化时间1，对于第二帧，从归一化时间1持续到归一化时间2。进一步假定，当如伸缩函数14和16所指示那样变换时间轴时，第一帧10具有伸缩函数14并且第二帧12具有伸缩函数16，所述伸缩函数14和16是以在各自帧内实现相同基音这一目的导出的。应该注意，伸缩函数14对应于ψ₀，伸缩函数16对应于ψ₁。根据方程式9，通过将伸缩映射14与16粘合在一起来构造组合伸缩函数φ₀(t)18，以在其自身上形成区间[0，2]的连续可微映射。结果，点(1，1)变换为(1，a)，其中a对应于方程式9中的2m_k。

由于本发明的概念涉及在重叠和相加场景中应用时间伸缩，所以在图1中也给出了构建帧12和后面的帧20的下一组合伸缩函数的示例。应该注意，遵循重叠和相加法则，对于帧12的完全重建，需要伸缩函数18和22的有关知识。

应该进一步注意，将两个独立导出的伸缩函数粘合在一起不必然是导出合适的组合伸缩函数φ的唯一方法。φ的(18，22)也完全可以通过直接使合适的伸缩函数与两个连续帧相符合来导出。优选地，在两个伸缩函数的定义域的重叠上具有这两个伸缩函数的仿射一致性。

根据方程式6，方程式8中的窗口函数由下式定义

b_{k} (r) = ρ (\frac{r - m_{k}}{m_{k}}) ρ (\frac{1 + m_{k} - r}{1 - m_{k}}), - - - (11)

其在区间[0，2m_k]中从0增大到1，并在区间[2m_k，2]中从1减小到0。

如果有常量0＜C₁＜C₂，则也可导出(8)式的双正交形式，以使得对于所有k有

C₁≤φ′_k(t)≤C₂，0≤t≤2，

在(4)式中选择η_k＝l_k得出专门化的(5)式

\{\begin{matrix} f_{k, n} (t) = \sqrt{2} b_{k} (φ_{k} (t - k)) \cos [π (n + \frac{1}{2}) (φ_{k} (t - k) - m_{k})]; \\ g_{k, n} (t) = \sqrt{2} φ_{k}^{'} (t - k) b_{k} (φ_{k} (t - k)) \cos [π (n + \frac{1}{2}) (φ_{k} (t - k) - m_{k})] . \end{matrix}\} - - - (12)

因此，对于连续时间的情况，导出合成和分析函数(方程式12)，其依赖于组合伸缩函数。这种依赖性使得可以在不损失有关原始信号的信息的情况下在重叠和相加的场景中进行时间伸缩，即可以对信号进行理想重建。

要注意，对于实施目的，在方程式12内实现的运算可分解为一系列连续的单独的步骤。这么做的特别引人注意的方式是：首先执行信号的加窗，然后对加窗信号进行重新采样，最后进行变换。

照常地，音频信号作为以给定采样频率进行采样的离散采样值被数字地存储和发送，用于实现本发明概念的给定示例将在以下被进一步开发以用于离散情况中的应用。

可通过对分析积分和合成波形进行离散化，从时间局部余弦基中获得时间伸缩改进离散余弦变换(TWMDCT)。以下描述基于双正交基(见方程式12)。处理正交情况(8)所需的变化包括雅克比因子的额外时域加权。在不应用伸缩的特殊情况下，两种构造都变为普通MDCT。令L为变换大小，并假定将要分析的信号x(t)以qπL(rad/s)来限制带宽，q＜1。这允许该信号由采样周期1/L的采样来描述。

分析系数由下式给出

c_{k, n} = {&Integral;}_{k}^{k + 2} x (t) g_{k, n} (t) dt

(13)

= \sqrt{2} {&Integral;}_{k}^{k + 2} x (t) b_{k} (φ_{k} (t - k)) \cos [π (n + \frac{1}{2}) (φ_{k} (t - k) - m_{k})] φ_{k}^{'} (t - k) dt

定义加窗信号部分x_k(τ)＝x(τ+k)b_k(φ_k(τ))并在积分式(13)中执行替换τ＝t-k和r＝φ_k(τ)，从而得出

c_{k, n} = {&Integral;}_{0}^{2} x_{k} (φ_{k}^{- 1} (r)) \cos [π (n + \frac{1}{2}) ({r - m}_{k})] dr - - - (14)

对本发明所教导的此积分式进行离散化的特别引人注意的方式是选择采样点r＝r_v＝m_k+(v+1/2)/L，其中v是整数值。假定有以上描述的稍微的伸缩和带限，则给出近似值

c_{k, n} \approx \frac{\sqrt{2}}{L} \underset{v}{Σ} X_{k} (v) \cos [\frac{π}{L} (n + \frac{1}{2}) (v + \frac{1}{2})], n = 0,1, . . ., L - 1, - - - (15)

其中

X_{k} (v) = x_{k} (φ_{k}^{- 1} (r_{v})) - - - (16)

(15)式中的求和区间由0≤r_v＜2所限定。它包括v＝0，1，...，L-1并在每一端扩展到此区间之外，以便点的总数量为2L。注意，由于所述加窗，结果不受对边缘情况的处理所影响，对边缘情况的处理可在对于某整数v₀有m_k＝(v₀+1/2)/L时出现。

由于公知所述和(方程式15)可通过初等折叠运算后跟IV类DCT来进行计算，所以合适的做法是：将方程式15的运算分解为一系列后续运算和变换，以利用已存在的有效硬件和软件实施方式，特别是离散余弦变换(DCT)。根据已离散化的积分式，给定的离散时间信号可被解释为以x(t)的采样周期1/L为周期的等间距样本。因此加窗的第一步将得出：

x_{k} (\frac{p + \frac{1}{2}}{L}) = x (\frac{p + \frac{1}{2}}{L} + k) b_{k} (φ_{k} (\frac{p + \frac{1}{2}}{L})) - - - (17)

p＝0，1，2，...，2L-1。在方程式15所描述的块变换之前(引入取决于m_k的额外偏移量)，需要重新采样，映射为

重新采样运算可由用于非等间距重新采样的任何合适的方法来实现。

综上所述，本发明的时间伸缩MDCD可分解为加窗运算、重新采样和块变换。

以下将参考图2至3b来简要描述各个步骤。图2至3b示出了时间伸缩MDCT编码的步骤，所述时间伸缩MDCT编码只考虑合成地生成的基音信号的两个加窗信号块。每个帧都包含1024个采样，因此两个所考虑的组合帧24和26(原始帧30和32以及原始帧32和34)每个都由2048个采样组成，因此两个加窗组合帧具有1024个采样的重叠。图2至2b在x轴上示出了将要处理的3帧的归一化时间。在时间轴上，第一帧30的范围从0到1，第二帧32的范围从1到2，第三帧的范围从2到3。因此在归一化时域中，每个时间单元对应于具有1024个信号采样的一个完整的帧。归一化分析窗口跨越归一化时间区间[0，2]和[1，3]。以下考虑的目的是恢复信号的中间帧32。由于对外部信号帧(30，34)的重建需要来自相邻加窗信号分段的数据，所以不在这里考虑此重建。要注意，图1中所示的组合伸缩映射是从图2的信号导出的伸缩映射，图2示出了本发明将三个后续归一化伸缩映射(虚曲线)组合到两个重叠的伸缩映射(实曲线)。如以上所解释的，本发明的组合伸缩映射18和22被导出用于信号分析。此外，要注意，由于伸缩的放射不变性，此曲线表示带有与原始两个分段中相同伸缩的伸缩映射。

图2通过实线图来示出原始信号。其程式化的脉冲序列具有随时间线性变化的基音，因此，考虑到伸缩被定义为基音的对数导数，所以它具有正的且递减的伸缩。在图2中，使用方程式17推导出的本发明的分析窗口作为虚曲线叠加。应该注意，在所述伸缩最大之处，即在第一段[0，1]中，偏离标准对称窗口(如在MDCT中)也最大。窗口的数学定义只通过对方程式11的窗口进行重新采样来给出，所实现的重新采样如方程式17的右手边第二个因子所表示。

图2a和2b说明了本发明加窗的结果，即将图2的窗口应用到各个信号分段的结果。

图3a和3b说明了对图2a和2b的加窗信号块所进行的依赖于伸缩参数的重新采样的结果，所执行的重新采样如图1的实曲线给出的伸缩映射所指示。归一化时间区间[0，1]映射到伸缩时间区间[0，a]，与对加窗信号块的左半部进行的压缩是等价的。因此，执行对加窗信号块右半部的扩展，将区间[1，2]映射到[a，2]。由于伸缩映射是以导出带有恒定基音的伸缩信号的目的从信号中进行推导的，所以伸缩(根据方程式18的重新采样)的结果是具有恒定基音的加窗信号块。应该注意，伸缩映射与信号之间的失配将导致在这个点上仍然带有可变基音的信号块，这不会扰乱最终的重建。

以下块变换的偏移量由圆圈来标记，以便区间[m，m+1]对应方程式15中的离散采样v＝0，1，...，L-1，其中L＝1024。这就等价地意味着：块变换的调制波形在m处享有偶对称，在m+1处享有奇对称。另外要重点注意的是，a等于2m以使得m是0与a之间的中点且m+1是a与2之间的中点。综上所述，图3a和3b描述了由方程式18所描述的本发明重新采样之后的情况，该情况当然依赖于伸缩参数。

图3a和3b的信号的时间伸缩变换域样本而后被量化并编码，并可与描述归一化伸缩映射ψ_k的伸缩辅助信息一起被发送到解码器。由于量化是公知技术，所以在以下附图中未对使用特定量化准则的量化进行说明，而集中于解码器端上对信号所进行的重建。

在本发明的一个实施例中，解码器接收伸缩映射序列与已解码的时间伸缩变换域样本d_k，n，其中由于假定信号有带宽限制，可以假定n≥L时d_k，n＝0。如在编码器端，用于实现离散时间合成的出发点是使用方程式12的合成波形来考虑连续时间重建：

y (t) = \underset{n, k}{Σ} d_{n, k} f_{n, k} (t) = \underset{k}{Σ} y_{k} (t - k) - - - (19)

其中

y_k(u)＝z_k(φ_k(u))(20)

且有

z_{k} (r) = \sqrt{2} b_{k} (r) Σ_{n = 0}^{L - 1} d_{k, n} \cos [π (n + \frac{1}{2}) (r - m_{k})] . - - - (21)

方程式(19)是加窗变换合成的通常的重叠和相加过程。如在分析级中，在点r＝r_v＝m_k+(v+1/2)/L处对方程式(21)进行采样是有优势的，引出

z_{k} (r_{v}) = \sqrt{2} b_{k} (r_{v}) Σ_{n = 0}^{L - 1} d_{k, n} \cos [\frac{π}{L} (n + \frac{1}{2}) (v + \frac{1}{2})] - - - (22)

其通过以下步骤容易计算：首先是IV类的DCT，接着根据准则0≤r_v≤2，依赖于偏移量参数m_k，以2L对样本进行扩展。其次，执行窗口b_k(r_v)的加窗。一旦找到z_k(r_v)，重新采样

在等距采样点(p+1/2)/L处给出信号分段y_k，以为方程式(19)中所描述的重叠和相加运算作准备。

可再次很自由地选择重新采样方法，且不必与编码器中的重新采样方法相同。在本发明的一个实施例中，使用基于样条内插的方法，其中根据带限参数q的函数来调节样条函数的顺序，以实现计算复杂性与重建质量之间的折衷。参数q的常用值是q＝1/3，在这种情况下二次样条通常就足够了。

以下将通过图4a至7来说明针对图3a和3b所示的信号的解码。应再次强调，不在这里描述块变换和对变换参数的发送，因为这是公知技术。作为解码过程的起点，图4a和4b示出了一种配置，其中已执行了反块变换，得到图4a和4b中所示的信号。反块变换的一个重要的特性是增加了图3a和3b的原始信号中不存在的信号分量，这是由于以上已解释的合成函数的对称性质所导致的。特别地，合成函数具有关于m的偶对称性和关于m+1的奇对称性。所以，在区间[0，a]中，在反块变换中增加了正信号分量，而在区间[a，2]中，增加了负信号分量。另外，用于合成加窗操作的本发明的窗口函数作为图4a和4b中的虚曲线叠加。

伸缩时域中的此合成窗口的数学定义由方程式11给出，图5a和5b示出了在应用本发明的加窗之后仍在伸缩时域中的信号。

图6a和6b最终示出了对图5a和5b的信号的依赖于伸缩参数所进行的重新采样的结果。

最后，图7示出了重叠和相加运算的结果，作为信号合成中的最终步骤。(见方程式19)。重叠和相加运算是图6a和6b的波形的叠加。如以上已提到的，仅有的要完全重建的帧是中间帧32，与图2的原始情况的比较示出了中间帧32以高保真被重建。精确抵消在反块变换过程中所引入的干扰附加信号分量只是可能的，因为本发明的关键性质是：图1中的两个组合伸缩映射14和22只相差重叠归一化时间区间[1，2]内的仿射映射。其结果就是在伸缩时间分段[a，2]和[1，b]上在信号部分与窗口之间形成对应关系。当考虑图4a和4b时，分段[1，b]向[a，2]的线性延伸将使得信号图表和半窗口描述了标准MDCT的时域混淆抵消的众所周知的原理。已进行混淆抵消的信号而后可通过一般反伸缩映射简单映射到归一化时间区间[1，2]上。

要注意，根据本发明的又一个实施例，可通过在频域中应用预滤波步骤来实现计算复杂性的额外减小。这可通过对已发送采样值d_k，n进行简单预加权来实现。譬如在M.Unser，A.Aldroubi和M.Eden，“B-splinesignalprocessingpartII-efficientdesignandapplications”中描述了这种预滤波。实施方式需要在加窗操作之前向反块变换的输出应用B样条重新采样。在此实施例内，所述重新采样作用于由修改了d_k，n的方程式22所推导的信号上。同样不执行窗口函数b_k(r_v)的施加。所以，在信号分段的每一端，所述重新采样必须照顾到与由块变换的选择所引起的周期性和对称性方面有关的边缘条件。在所述重新采样之后使用窗口b_k(φ_k((p+1/2)/L))来执行所需的加窗。

综上所述，根据本发明解码器的第一实施例，反时间伸缩MDCT包括分解的以下单独步骤：

●反变换

●加窗

●重新采样

●重叠和相加

根据本发明的第二实施例，反时间伸缩MDCT包括：

●频谱加权

●反变换

●重新采样

●加窗

●重叠和相加

要注意，在不应用伸缩的情况下，即所有归一化伸缩映射都无关紧要(trivial)的情况下，(ψ_k(t)＝t)，以上详述的本发明的实施例与通常的MDCT精确吻合。

现将参照图8至15来描述包括以上所提到的特性的本发明的其它实施例。

图8示出了本发明的音频编码器的示例，所述音频编码器用于接收数字音频信号100作为输入，并生成要发送到解码器的比特流，所述解码器包括本发明的时间伸缩变换编码概念。数字音频输入信号100可以是自然音频信号或预处理音频信号，其中譬如所述预处理可以是用于对输入信号频谱进行白化的白化操作。本发明的编码器包括伸缩参数提取器101、伸缩变换器102、感知模型计算器103、伸缩编码器104、编码器105和多路复用器106。所述伸缩参数提取器101估计出伸缩参数序列，其输入到所述伸缩变换器102并输入到所述伸缩编码器104。所述伸缩变换器102推导出数字音频输入信号100的时间伸缩频谱表示。所述时间伸缩频谱表示被输入到所述编码器105，以用于量化及可能的其他编码，譬如差分编码。所述编码器105还被所述感知模型计算器103控制。譬如，当将要编码的信号分量主要由其他信号分量所遮盖时，量化的粗糙度可增大。所述伸缩编码器104对所述伸缩参数序列进行编码，以减小在发送的过程中其在比特流内的大小。这可包含譬如参数的量化，或譬如差分编码或熵编码技术以及算术编码方案。

所述多路复用器106从所述伸缩编码器104接收已编码伸缩参数序列并接收所述数字音频输入信号100的已编码时间伸缩频谱表示，以将两个数据复用成为编码器的比特流输出。

图9说明了时间伸缩变换解码器的示例，所述解码器接收兼容比特流200以用于推导重建音频信号作为输出。所述解码器包括多路信号分离器201、伸缩解码器202、解码器203和反伸缩变换器204。所述多路信号分离器将比特流分离成为已编码伸缩参数序列，该序列被输入到所述伸缩解码器202。所述多路信号分离器进一步分离音频信号的时间伸缩频谱表示的已编码表示，该表示被输入到所述解码器203，所述编码器203与图8的音频编码器的对应编码器105相反。伸缩解码器202推导出对伸缩参数序列的重建，解码器203推导出原始音频信号的时间伸缩频谱表示。伸缩参数序列的表示以及时间伸缩频谱表示都被输入到所述反伸缩变换器204，所述反伸缩变换器204推导出数字音频输出信号，所述数字音频输出信号用于实现音频信号的时间伸缩重叠变换编码这一本发明概念。

图10示出了时间伸缩变换解码器的又一个实施例，其中在解码器自身中推导出伸缩参数序列。图10中所示的可替换实施例包括解码器203、伸缩估计器301和反伸缩变换器204。解码器203和反伸缩变换器204享有与前述实施例的对应设备相同的功能，所以不同实施例内的这些设备的描述完全可互换。伸缩估计器301通过将较早的频域基音估计与当前的频域基音估计组合来推导出由解码器203输出的时间伸缩频谱表示的实际伸缩。因此，隐式地表示了伸缩参数序列，这具有如下巨大优势：由于不必在输入到解码器的比特流中发送额外的伸缩参数信息，所以可进一步节省比特率。然而，伸缩数据的隐式表示受到该变换的时间分辨率所限制。

图11说明了当使用不能利用本发明时间伸缩解码概念的现有技术解码器时本发明概念的后向兼容性。这种解码器会忽略额外的伸缩参数信息，因此将比特流解码为馈入反变换器401的频域信号，不实现任何伸缩。由于由本发明编码器中的时间伸缩变换所执行的频率分析与不包括任何时间伸缩的变换完全匹配，所以忽略伸缩数据的解码器仍会生成有意义的音频输出。这样做是以由于在现有技术解码器内不对时间伸缩进行反变换所引起的音频质量下降为代价的。

图12示出了时间伸缩变换这一本发明方法的框图。本发明的时间伸缩变换包括加窗501、重新采样502和块变换503。首先，利用依赖于伸缩参数序列的重叠窗口序列来对输入信号加窗，所述伸缩参数序列作为各编码步骤501至503中每个的额外输入。每个已加窗输入信号分段随后在所述重新采样步骤502中被重新采样，其中所述重新采样如所述伸缩参数序列所指示的那样来执行。

在块变换步骤503内，通常使用众所周知的离散三角变换来导出块变换。这样执行的变换是对加窗并重新采样过的信号分段执行的。需要注意，块变换也依赖于偏移量值，所述偏移量值是根据所述伸缩参数序列导出的。因此，所述输出由变换域的帧的序列所组成。

图13示出了反时间伸缩变换方法的流程图。该方法包括以下步骤：反块变换601、加窗602、重新采样603以及重叠和相加604。变换域信号的每个帧都被反块变换601转换为时域信号。对应于编码步骤，块变换依赖于从所接收参数序列导出的偏移量值，所接收参数序列用作所述反块变换601、所述加窗602和所述重新采样603的额外输入。随后使用伸缩参数序列在加窗步骤602中对由块变换601导出的信号分段加窗并在重新采样603中重新采样。最后，在重叠和相加604中，以通常的重叠和相加运算将加窗和重新采样的分段与之前反变换过的分段相加，得到时域输出信号的重建。

图14示出了本发明反时间伸缩变换器的可替换实施例，该反时间伸缩变换器被实现用于进一步减小计算复杂性。该解码器部分地享有与图13的解码器相同的功能。所以两实施例中相同功能方框的描述是完全可互换的。该可替换实施例与图13的实施例不同在于，它在所述反块变换601之前实现频谱预加权701。此固定频谱预加权等价于带有周期性和对称性的时域滤波，所述周期性和对称性是由对块变换的选择所引起的。这种滤波操作是基于特定样条的重新采样方法的一部分，可以减小后续改进重新采样702的计算复杂性。这种重新采样现将在带有周期性和对称性的信号域中实现，所述周期性和对称性是由对块变换的选择所引起的。所以，在重新采样702后执行改进加窗步骤703。最后，在重叠和相加604中，以通常的重叠和相加方式将加窗和重新采样的分段与之前的反变换分段相加，给出了重建的时域输出信号。

图15a和15b示出了时间伸缩编码这一本发明概念的长处，示出了应用和不应用时间伸缩时相同信号频谱表示。图15a示出了源自改进离散余弦变换的谱线的帧，所述改进离散余弦变换是对以16kHz采样的男性话音信号分段进行的大小为1024的变换。所得到的频率分辨率是7.8Hz且只有前600条线画出以用于此图示说明，对应于4.7kHz带宽。可从基频和图中看出，所述分段是具有大约155Hz平均基音的话音信号。可进一步从图15a中看出，基音频率的少数前几个谐波清晰可辨，但到高频，分析变得逐渐密集和杂乱。这是由要分析的信号分段长度内的基音变化引起的。所以，中间到高频范围的编码需要大量的比特以便不在解码时引入可听到的假象。相反地，当固定了比特率时，由于需要增大量化粗糙度将不可避免地产生大量的失真。

图15b说明了源自根据本发明的时间伸缩改进离散余弦变换的谱线的帧。很明显，使用与图15a中相同的原始的男性音频信号。变换参数与图15a中的相同，但对适配于该信号的时间伸缩变换的使用对频谱表示具有可见的戏剧性效果。时间伸缩变换域中信号的稀疏和有组织的性质产生以好得多的速率失真性能进行的编码，即使在考虑对额外伸缩数据进行编码的成本时。

如已提到的，伸缩参数的发送而不是基音或速度信息的发送具有戏剧性地降低额外需要的比特率这一巨大优势。所以，在以下段落中详述发送所需伸缩参数信息的若干本发明方案。

对于在时间t处带有伸缩a(t)的信号，局部余弦基(见(8)、(12))的归一化伸缩映射序列ψ_k的最佳选择通过解下式来获得

\frac{ψ_{k}^{''} (t - k)}{ψ_{k}^{'} (t - k)} = a (t), k \leq t \leq k + 1 - - - (24)

然而，描述此伸缩映射序列所需的信息量太大，a(t)的逐点值的定义和测量是困难的。出于实际考虑，确定伸缩更新区间Δt，并且每个伸缩映射ψ_k由N＝1/Δt参数来描述。大约10-20ms的伸缩更新区间一般对于语音信号而言是足够的。与根据ψ_k和ψ_k+1得到的φ_k的(9)式中的构造相似，连续可微的归一化伸缩映射可由N个归一化伸缩映射通过合适的仿射重新缩放操作来拼凑在一起。归一化伸缩映射的原型示例包括

其中a是伸缩参数。通过h″/h′来定义映射的伸缩h(t)，所有三个映射实现了在t＝1/2处与a相等的伸缩。指数映射在整个区间0≤t≤1中具有恒定伸缩，并且对于小值a，其他两个映射显示出与此恒定值非常小的偏离。对于在解码器中针对所述重新采样(23)式应用给定的伸缩映射而言，在编码器中对于所述重新采样(方程式18)需要其逆运算。用于求逆的作用的主要部分来自归一化伸缩映射的求逆。二次映射的求逆需要平方根运算，指数映射的求逆需要对数，有理Moebius映射是带有否定伸缩参数的Moebius映射。由于指数函数和除法花费相当大，集中于最大简化解码器中的计算会得到逐段二次伸缩映射序列ψ_k的优选。

归一化伸缩映射ψ_k由N个伸缩参数a_k(0)，a_k(1)...a_k(N-1)通过以下需求来完全定义，所述需求是它

●是归一化伸缩映射；

●由光滑的原型伸缩映射(25)式中的一个的重新缩放的拷贝拼凑在一起；

●是连续可微的；

●满足

\frac{ψ_{k}^{''} (\frac{l + \frac{1}{2}}{N})}{ψ_{k}^{'} (\frac{l + \frac{1}{2}}{N})} = a_{k} (l), l = 0,1, . . . N - 1 - - - (26)

本发明教导了：伸缩参数可被线性地量化，一般以大约0.5Hz的步长。所得整数值而后被编码。或者，导数ψ′_k可解释为归一化基音曲线，其中值

\frac{ψ_{k}^{'} (lΔt)}{ψ_{k}^{'} (0)} - 1, l = 1,2, . . ., N, - - - (27)

以一般为0.005的固定步长来量化。在这种情况下，所得整数值被顺序地或以等级方式进一步差分编码。在两种情况下，所得辅助信息比特率一般都是每秒几百比特，这只是在语音编解码器中描述基音数据所需的速率的一小部分。

带有较大计算资源的编码器可确定伸缩数据序列，所述伸缩数据序列最优地降低编码成本或最大化谱线的稀疏程度。较不昂贵的方式是使用众所周知的方法用于基音跟踪，得到测定的基音函数p(t)并在以下区间中以逐段线性函数p₀(t)来近似基音曲线，在所述这些区间中，基音跟踪存在并且并不表现出基音值中较大的跳跃。所估计的伸缩序列在基音跟踪区间内由下式给出

a_{k} (l) = \frac{2}{Δt} \frac{p_{0} ((l + 1) Δt + k) - p_{0} (lΔt + k)}{p_{0} ((l + 1) Δt + k) + p_{0} (lΔt + k)} - - - (28)

在这些区间外，伸缩设置为0。注意，诸如基音周期倍数的这种基音估计中的系统误差对伸缩估计具有非常小的影响。

如图10中所示，在本发明的可替换实施例中，伸缩参数序列可由伸缩估计器从解码变换域数据中推导出。原理是计算变换数据的每一帧的或者来自后续解码信号块的基音的频域基音估计。而后根据与公式28相似的公式推导出伸缩信息。

已主要通过在单个音频信道情形中应用本发明的时间伸缩来描述了本发明概念的应用。本发明的概念自然决不局限于这种单频道情形内的使用。此外，在多信道编码应用中使用可由本发明概念实现的高编码增益可能是非常有优势的，在所述多信道编码应用中，可使用本发明概念对必须被发送的单个或多个信号进行编码。

此外，伸缩一般可被定义为取决于x的任意函数的x轴变换。所以，本发明概念也可应用于以下情形：其中对信号的函数或表示进行不明显地依赖于时间的伸缩。譬如，也可实现信号的频率表示的伸缩。

此外，本发明的概念也可有利地应用于以下信号：所述信号以任意分段长度被分段而不是以与之前段落中描述的相等长度被分段。

此外，对之前段落中呈现的基函数和离散化的使用应被理解为应用本发明概念的一个有利示例。对于其他应用，也可使用不同基函数以及不同离散化。取决于本发明方法的特定实施方式的需要，本发明方法可在硬件或软件中实现。所述实施方式可使用数字存储媒介来实现，特别是其上存储有电子可读控制信号的磁盘、DVD或CD，其与可编程计算机系统协作以执行本发明方法。所以一般来说，本发明是带有存储在计算机可读载体上的程序代码的计算机程序产品，当计算机程序产品在计算机上运行时，所述程序代码操作用于执行本发明方法。所以换句话说，本发明方法是具有程序代码的计算机程序，该程序代码用于在所述计算机程序运行于计算机上时实现本发明方法中的至少一个。

虽然前面已参考本发明特定实施例而具体地说明和描述了本发明，但本领域技术人员应该理解：可做出形式上和细节上的各种其他变化而不背离本发明的精神和范围。需要理解，可做出各种变化以适配于不同实施例而不背离由所附权利要求在这里所公开并包含的更宽的概念。

Claims

1.一种用于推导音频信号的表示的编码器，所述音频信号具有第一帧、跟在所述第一帧之后的第二帧和跟在所述第二帧之后的第三帧，所述编码器包括：

伸缩估计器，用于估计所述第一帧和所述第二帧的第一组合伸缩信息以及用于估计所述第二帧和所述第三帧的第二组合伸缩信息，所述组合伸缩信息描述所述音频信号的基音信息；

频谱分析器，使用所述第一组合伸缩信息来推导所述第一帧和所述第二帧的第一频谱系数以及使用所述第二组合伸缩信息来推导所述第二帧和所述第三帧的第二频谱系数；

伸缩编码器，用于接收所述第一组合伸缩信息和所述第二组合伸缩信息作为输入，其中，所述伸缩编码器被配置为对所述第一组合伸缩信息和所述第二组合伸缩信息进行量化和编码以获得所述第一组合伸缩信息和所述第二组合伸缩信息的编码表示；以及

输出接口，用于输出所述第一组合伸缩信息和所述第二组合伸缩信息的编码表示和包括所述第一频谱系数和所述第二频谱系数的所述音频信号的表示。

2.根据权利要求1所述的编码器，其中所述伸缩估计器操作用于估计所述组合伸缩信息，以便帧的伸缩表示内的基音比所述帧内的基音更加恒定，所述伸缩表示是从对所述帧内的音频信号的时间轴进行由所述组合伸缩信息所指示的帧变换中推导出的。

3.根据权利要求1所述的编码器，其中所述伸缩估计器操作用于使用与所述帧内的所述基音的变化有关的信息来估计所述组合伸缩信息。

4.根据权利要求3所述的编码器，其中所述伸缩估计器操作用于估计所述组合伸缩信息，以便只在所述基音变化小于预定最大基音变化时，使用与所述基音的变化有关的信息。

5.根据权利要求1所述的编码器，其中所述伸缩估计器操作用于估计所述组合伸缩信息，以便帧的伸缩表示的频谱表示比所述帧的频谱表示更稀疏地排列，所述伸缩表示是从对所述帧内的音频信号的时间轴进行由所述组合伸缩信息所指示的帧变换中推导出的。

6.根据权利要求1所述的编码器，其中所述伸缩估计器操作用于估计所述组合伸缩信息，以便当使用相同的编码规则来推导以下两种表示时，由帧的伸缩表示的频谱系数的编码表示所耗费的比特数少于所述帧的频谱系数的编码表示，其中所述伸缩表示是从对所述帧内的音频信号的时间轴进行由所述组合伸缩信息所指示的帧变换中推导出的。

7.根据权利要求1所述的编码器，其适用于推导由离散采样值序列给定的音频信号的表示。

8.根据权利要求1所述的编码器，其中所述伸缩估计器操作用于估计所述组合伸缩信息，以便帧的伸缩表示描述与对应帧相同长度的音频信号，所述伸缩表示是从对所述帧内的音频信号的时间轴进行由所述组合伸缩信息所指示的帧变换中推导出的。

9.根据权利要求1所述的编码器，其中所述伸缩估计器操作用于估计所述组合伸缩信息，以便使用组合规则来组合第一对应帧的第一中间伸缩信息和第二对应帧的第二中间伸缩信息。

10.根据权利要求9所述的编码器，其中所述组合规则使得所述第一中间伸缩信息的重新缩放的伸缩参数序列与所述第二中间伸缩信息的重新缩放的伸缩参数序列相连接。

11.根据权利要求10所述的编码器，其中所述组合规则使得所得组合伸缩信息包括连续可微伸缩参数序列。

12.根据权利要求1所述的编码器，其中所述伸缩估计器操作用于估计所述组合伸缩信息，以便所述伸缩信息包括伸缩参数的递增序列。

13.根据权利要求1所述的编码器，其中所述频谱分析器适用于使用基于所述组合伸缩信息的余弦基来推导所述频谱系数。

14.根据权利要求1所述的编码器，其中所述频谱分析器适用于使用两个帧的加权表示来推导所述频谱系数。

15.根据权利要求14所述的编码器，其中所述频谱分析器操作用于通过将窗口函数应用到两个帧来获得两个帧的加权表示，来推导所述频谱系数，其中所述窗口函数取决于所述组合伸缩信息。

16.根据权利要求1所述的编码器，其中所述频谱分析器适用于使用所述帧的重新采样表示来推导所述频谱系数。

17.根据权利要求16所述的编码器，其中所述频谱分析器进一步适用于推导重新采样表示，所述重新采样表示对帧的时间轴进行由所述组合伸缩信息所指示的变换。

18.根据权利要求1所述的编码器，其中所推导出的组合伸缩信息描述归一化到所述音频信号的基音的音频信号的基音变化。

19.根据权利要求1所述的编码器，其中所述伸缩估计器操作用于估计所述组合伸缩信息，以便所述组合伸缩信息包括伸缩参数序列，其中每个伸缩参数描述所述音频信号的有限长度区间。

20.根据权利要求1所述的编码器，其中所述伸缩编码器被配置为执行差分编码方案或者熵编码方案或者算术编码方案。

21.根据权利要求1所述的编码器，其中所述输出接口进一步包括所述第一组合伸缩信息和所述第二组合伸缩信息的编码表示。

22.一种解码器，使用第一组合伸缩信息、第二组合伸缩信息、第一频谱系数和第二频谱系数来重建音频信号，所述音频信号具有第一帧、跟在所述第一帧之后的第二帧和跟在所述第二帧之后的第三帧，所述第一组合伸缩信息描述所述第一帧和所述第二帧的音频信号的基音信息，所述第二组合伸缩信息描述所述第二帧和所述第三帧的音频信号的基音信息，所述第一频谱系数针对所述第一帧和所述第二帧，所述第二频谱系数针对所述第二帧和所述第三帧，所述解码器包括：

伸缩解码器，用于接收已编码伸缩参数序列并对所述已编码伸缩参数序列进行解码，以获得所述第一组合伸缩信息和所述第二组合伸缩信息；

谱值处理器，使用所述第一频谱系数和所述第一组合伸缩信息来推导第一组合帧，所述第一组合帧具有关于所述第一帧和所述第二帧的信息；以及使用所述第二频谱系数和所述第二组合伸缩信息来推导第二组合帧，所述第二组合帧具有关于所述第二帧和所述第三帧的信息；以及

合成器，使用所述第一组合帧和所述第二组合帧来重建所述第二帧。

23.根据权利要求22所述的解码器，其中所述谱值处理器操作用于使用余弦基函数来推导所述组合帧，所述余弦基函数取决于所述组合伸缩信息。

24.根据权利要求23所述的解码器，其中所述谱值处理器操作用于使用余弦基函数，其中针对所述频谱系数使用余弦基函数产生了组合帧的时间伸缩非加权表示。

25.根据权利要求22所述的解码器，其中所述谱值处理器操作用于使用窗口函数以对所述组合帧的采样值应用加权，所述窗口函数取决于所述组合伸缩信息。

26.根据权利要求24所述的解码器，其中所述谱值处理器操作用于使用窗口函数，所述窗口函数在应用到组合帧的所述时间伸缩非加权表示时，产生组合帧的时间伸缩表示。

27.根据权利要求22所述的解码器，其中所述谱值处理器操作用于通过对组合帧的表示的时间轴进行由所述组合伸缩信息所指示的变换，使用组合伸缩信息，来推导组合帧。

28.根据权利要求22所述的解码器，其中所述合成器操作用于通过将所述第一组合帧与所述第二组合帧相加来重建所述第二帧。

29.根据权利要求22所述的解码器，适用于重建由离散采样值序列表示的音频信号。

30.根据权利要求22所述的解码器，进一步包括用于从所述第一频谱系数和所述第二频谱系数中推导所述第一组合伸缩信息和第二组合伸缩信息的伸缩估计器。

31.根据权利要求22所述的解码器，其中所述谱值处理器操作用于通过将预定加权因子应用到所述频谱系数，来执行对所述频谱系数的加权。

32.一种用于推导音频信号的表示的方法，所述音频信号具有第一帧、跟在所述第一帧之后的第二帧和跟在所述第二帧之后的第三帧，所述方法包括：

估计针对所述第一帧和所述第二帧的第一组合伸缩信息以及估计针对所述第二帧和所述第三帧的第二组合伸缩信息，所述组合伸缩信息描述所述音频信号的基音信息；

使用所述第一组合伸缩信息来推导针对所述第一帧和所述第二帧的第一频谱系数以及使用所述第二组合伸缩信息来推导针对所述第二帧和所述第三帧的第二频谱系数；

对所述第一组合伸缩信息和所述第二组合伸缩信息进行量化和编码以获得所述第一组合伸缩信息和所述第二组合伸缩信息的编码表示；以及

输出所述第一组合伸缩信息和所述第二组合伸缩信息的编码表示和包括所述第一频谱系数和所述第二频谱系数的音频信号的表示。

33.一种使用第一组合伸缩信息、第二组合伸缩信息、第一频谱系数和第二频谱系数来重建音频信号的方法，所述音频信号具有第一帧、跟在所述第一帧之后的第二帧和跟在所述第二帧之后的第三帧，所述第一组合伸缩信息描述所述第一帧和所述第二帧的音频信号的基音信息，所述第二组合伸缩信息描述所述第二帧和所述第三帧的音频信号的基音信息，所述第一频谱系数针对所述第一帧和所述第二帧，所述第二频谱系数针对所述第二帧和所述第三帧，所述方法包括：

接收已编码伸缩参数序列并对所述已编码伸缩参数序列进行解码，以获得所述第一组合伸缩信息和所述第二组合伸缩信息；

使用所述第一频谱系数和所述第一组合伸缩信息来推导第一组合帧，所述第一组合帧具有关于所述第一帧和所述第二帧的信息；以及

使用所述第二频谱系数和所述第二组合伸缩信息来推导第二组合帧，所述第二组合帧具有关于所述第二帧和所述第三帧的信息；以及

使用所述第一组合帧和所述第二组合帧来重建所述第二帧。