CN105378835A

CN105378835A - 使用依赖瞬态位置的重叠对音频信号编码或译码的设备及方法

Info

Publication number: CN105378835A
Application number: CN201480009744.8A
Authority: CN
Inventors: 克里斯蒂安·黑尔姆里希; 热雷米·勒孔特; 戈兰·马尔科维奇; 马库斯·施内尔; 贝恩德·埃德勒; 斯特凡·罗伊施尔
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2013-02-20
Filing date: 2014-02-20
Publication date: 2016-03-02
Anticipated expiration: 2034-02-20
Also published as: SG11201506543WA; KR20150120477A; CN105378835B; RU2015139596A; PL2959481T3; CN110047498A; US10354662B2; CN110047498B; EP2959481A1; CA2900437A1; MX2015010595A; JP6175148B2; HK1218988A1; ES2634621T3; US20230282221A1; US10832694B2; AR096576A1; MX2015010596A; KR20150126864A; MY173774A

Abstract

一种用于对音频或图像信号进行编码的设备，包括：可控窗口化装置(102)，用于将音频或图像信号窗口化，以提供窗口化样本的块的序列；转换器(104)，用于将窗口化样本的块的序列转换成频谱表示，频谱表示包括频谱值的帧的序列；瞬态位置检测器(106)，用于识别在帧的瞬态预看区域内的瞬态的位置；以及控制器(108)，用于响应于所识别出的瞬态的位置(210-213)，控制可控窗口化装置(102)，以将具有特定重叠长度的特定窗口应用至音频或图像信号，其中，控制器(108)被配置成从包括至少三个窗口的组中选择特定窗口，三个窗口包括具有第一重叠长度(203)的第一窗口(201)、具有第二重叠长度(218)的第二窗口(215)、以及具有第三重叠长度(229)或不具有重叠的第三窗口(224)，其中，第一重叠长度(203)大于第二重叠长度(218)，及其中第二重叠长度(218)大于第三重叠长度(229)或大于零重叠，其中，基于瞬态位置选择特定窗口，以使得两个时间相邻的重叠窗口中的一个具有瞬态的位置的第一窗口系数，而两个时间相邻的重叠窗口中的另一个具有瞬态的位置的第二窗口系数，其中第二系数是第一系数的至少九倍大。

Description

使用依赖瞬态位置的重叠对音频信号编码或译码的设备及方法

技术领域

本发明是有关于对音频或图像信号的处理，且更特别是有关于对存在瞬态的音频或图像信号的编码或译码。

背景技术

基于重叠FFT或改进的离散余弦变换(MDCT)的现代频域语音/音频编码机制提供某些适应度给非静态信号特征。以MPEG标准化的通用编译码器，亦即MPEG-1第三层，极著名为MP3，MPEG-4(HE-)AAC[1]，以及最近的MPEG-0xHE-AAC(USAC)和由IETF[2]规定的Opus/Celt编译码器，允许使用至少两个不同的变换长度之中一个对帧(frame)的编码-关于静态信号信道的一个长度M的长变换，或8个长度M/8(每个)的短变换。在MPEG编译码器的情况下，从长到短及从短到长变换的切换(亦称为块切换)需要使用非对称窗口化的瞬态变换，亦即分别地是起始及停止窗口。这些变换形状以及其它已知的现有技术形状描绘于图16中。应注意到，线性重叠斜率仅是说明性的并以正确的形状变化。可能的窗口形状提供于AAC标准[1]及[3]的第6条中。

假定如果即将到来的帧待由MPEG编码器利用短变换来编码，则当前帧必须利用起始瞬态变换来编码，显而易见的是一个依据其中一个上述MPEG标准来实施的编码器需要至少预看(look-ahead)的帧长度。然而，在低延迟通讯应用，理想上是可使此种额外预看最小化或甚至避免此种额外预看。为此，对于通用编码模型的两个改进方案已被提出。一个改进方案曾经被采用例如在Celt[2]中，用于将长变换的重叠减少至短变换的重叠，从而能避免不对称瞬态窗口。另一被使用于例如MPEG-4(增强)低延迟AAC编码机制的改进方案用于禁止切换至较短变换，替代地是依靠时域噪声整形(TNS)编码工具[4]，其操作于长变换数上以使围绕瞬态的编码错误的时域伸展(temporalspread)最小化。

此外此外，类似xHE-AAC，低延迟AAC允许使用双帧重叠宽度-关于静态输入是默认值50％重叠，或关于非静态信号的减少的重叠(类似于瞬态变换的短重叠)。减少的重叠在系数量化的情况下有效地限制变换的时间延伸，因而是其编码错误。

受让给三星(Samsung)电子公司的美国专利2008/0140428A1以及受让给索尼(Sony)公司的美国专利5502789及5819214揭露了信号适应性窗口或变换尺寸确定单元。然而，由所述窗口或变换尺寸确定单元所控制的变换器单元，操作于QMF或LOT子频带值(表示所说明的系统都采用串接型滤波器组或变换)，相对于如在本情况下的直接地工作于时域全频带输入信号上。此外，于2008/0140428A1中，并未详细说明关于形状或窗口重叠的控制的细节，且在5819214中，重叠形状遵循(亦即，为以下的结果)来自变换尺寸确定单元的输出，这是本发明所提出的较佳实施例的相对内容。

受让给法国电信的美国专利2010/0076754A1遵循与本发明相同的动机，亦即能用于在通讯编码方案中执行变换长度切换，以改善瞬态信号段的编码，且这样做不需要额外编码器预看。然而，所述文献显露出低延迟目标通过避免变换长度瞬态窗口以及通过在译码器(不利地通过译码的信号的部分的放大，从而是编码错误的放大)中后处理重建的信号而达成，本发明提出一种待介绍于下面的现有技术系统的瞬态窗口的简单的改进方案，以使额外编码器预看可被最小化并避免特殊(危险)的译码器后处理。

一种发明的改进方案所要应用的瞬态变换为说明于以一个稍微不同的形式的美国专利5848391及美国专利2006/0122825A1中的两个变形例的起始窗口，美国专利5848391是受让给弗劳恩霍夫协会(Fraunhofer-Gesellschafte.V.)及杜比(Dolby)实验室授权公司实验室，而美国专利2006/0122825A1是受让给三星电子公司。图16显示这些起始窗口并显露出在Fraunhofer/Dolby的窗口及Samsung的窗口的间的差异是不重叠段的存在，亦即，窗口的区域具有恒定最大值，其并不属于任何重叠斜率。Fraunhofer/Dolby窗口显现出这一种"不重叠部分具有长度"，而Samsung窗口并没有。可以断定出一种具有最少数量的额外预看但使用现有技术变换切换的编码器可通过采用Samsung的瞬态窗口方法来实现。利用这些变换，一种等于在短变换之间的重叠宽度的预看足以在信号瞬态之前的充分早期时从长到短变换完全切换。

更进一步的现有技术可在以下文献中找到：WO90/09063或“"利用重叠块变换及适应性窗口功能的音频信号编码(Codingofaudiosignalswithoverlapblocktrans格式andadaptivewindowfunctions)",Frequenz,Band43,1989年9月,页2052至2056，或AESConventionPaper4929,“基于AAC编码译码的MPEG-4低延迟音频编码译码(MPEG-4LowDelayAudioCodingbasedontheAACCodec)",E.Allamanche,etal.,106Convention,1999年。

尽管如此，依据短变换的长度，预看可维持相当大而不应被避免。图17显示在最坏情况下的输入状态期间的块切换性能，亦即于预看区域的起始的急遽地瞬态的存在，其因而开始于长斜率的末端，亦即，在帧之间的重叠区域。依据现有技术的方法，两个描绘出的瞬态的至少一个到达瞬态变换。在一种利用编码器而没有额外预看的有损耗的编码统中，亦即，在一种没有"看见瞬态到来"的编码器中，此种状况导致编码错误的时域伸展上至长斜率的初期，且即使当使用TNS时，预回音噪声从而或许在译码的信号中是可听见的。

两个前述的预看变通具有它们的缺点。在一方面降低长变换重叠达到一个高达8的因子，如于Celt编码器所完成的，在静态上严格地限制效率(亦即，编码增益、频谱压缩)，特别高色调的输入材料。另一方面，如于(增强)低延迟AAC禁止短变换，在具有远小于帧长度的期间(宽度)的强大的瞬态减少了编码译码性能，即使当使用TNS时，仍常导致可听见的预回音或后回音噪声。

因此，现有技术窗口序列判定程序，相对于由于限制窗口长度的挠性是次优的，相对于由于最小需求的瞬态预看期间所需要的延迟是次优的，相对于由于预回音及后回音所致的音频质量是次优的，相对于由于潜在需要的额外预先处理(使用与利用某些窗口的窗口化程序分开的额外功能)所致的效率是次优的，或相对于由于改变一种以瞬态的形式存在的帧/块光栅的潜在的必要性所致的挠性及效率是次优的。

发明内容

本发明的一个目的提供一种音频编码/译码的改善的理念，其相对于至少一种现有技术缺点提供一种改善的性能。

此目的通过以下而达成：一种如权利要求1的用于对音频或图像信号进行编码的设备，一种如权利要求17的用于对音频或图像信号进行译码的设备，一种如权利要求32的用于对音频或图像信号进行编码的方法，一种如权利要求33的用于对音频或图像信号进行译码的方法，或一种依据如权利要求34的计算机程序。

本发明的方面依靠下述发现，为了低延迟音频或图像编码译码器能接近通用编译码器的编码质量，在静态信号输入期间的长变换之间维持高重叠百分比，并于围绕信号非恒定性的音频或图像信号部分允许瞬间切换至较短的重叠及变换是有用的。此外，理想上是可允许相对于重叠宽度以及此外或是或者相对于变换长度，比只提供二进制的选择有稍微更大的挠性，以使在一帧之内的变换的重叠宽度或长度可基于在帧的时域区域之内的可能瞬态的位置而正确地适应，以便使预回音或其它伪影(artifact)最小化。

具体而言，瞬态位置检测器被配置成用于确认在一帧的瞬态预看区域之内的瞬态的位置，以及基于在此帧之内的瞬态的位置，从包括至少三个窗口的组中选择特定窗口，在此这三个窗口相对于它们与对应的相邻窗口的重叠长度是不同的。因此，第一窗口具有大于第二窗口的重叠长度，而第二窗口具有大于第三窗口的重叠长度的重叠长度，且第三窗口或者也可具有零重叠，也即，没有重叠。特定窗口基于瞬态位置被选择，以使两个时间相邻的重叠窗口中的一个具有瞬态的位置的第一窗口系数，而两个时间相邻的重叠窗口中的另一个具有瞬态的位置的第二窗口系数，其中第二系数是第一系数的至少九倍大。因此，确定的是瞬态位置相对于第一窗口充分被抑制，而瞬态相对于第二窗口充分被捕获。换言之，且最好是，较早的窗口已经位于接近瞬态位置中的零的数值，于此瞬态已被检测且第二窗口具有接近或等于于此区域中的窗口数，从而能在瞬态的至少一部分期间，使瞬态在较早的窗口中被抑制，且未在后来的或接下来的窗口被抑制。

在一实施例中，重叠长度因整数因子而不同的，以使得第二重叠长度譬如等于第三重叠长度的一半，并使第三重叠长度等于第二重叠长度的一半，或因不同因子而与第二重叠长度不同但大于或等于至少64个样本，或大于或等于至少32个样本，或大于或等于至少甚至16个音频或图像样本。

从瞬态位置衍生出的窗口选择与音频或图像信号的帧一起被传输，以使得译码器可选择与分析窗口的编码器选择成一直线的相对应的合成窗口，从而确定编码器及译码器遍及全部编码/译码操作而同步化。

在一实施例中，可控窗口化装置、转换器、瞬态位置检测器以及控制器形成一种用于编码的设备，且转换器应用已知的混叠引入变换例如MDCT(改进的离散余弦变换、DST(变化离散正弦变换)或任何其它类似的变换中的任何一个。在译码器侧上，处理器协同可控转换器，以便依据以被译码器所接收的窗口信息表示的窗口化顺序，而通过使用重叠-相加处理将频谱值的块的序列转换成时域表示。

依据此实施例，除了变换重叠选择以外，变换长度切换可再基于此帧之内的瞬态位置被实施。通过实现至少三个窗口彼此重叠的多重叠区段，非常低的延迟编码译码器概念被实现，相对于较早的概念，其又大幅地减少需要的瞬态预看延迟。在更进一步的实施例中，较佳是首先执行重叠选择且接着执行变换长度确定，以便确定每个帧的重叠码。或者，变换长度切换确定可独立于重叠宽度确定被做成，且基于这两个，确定重叠码。基于当前帧的重叠码与较早帧的重叠码，做出特定瞬态的窗口化序列选择，基于此选择，编码器与译码器彼此同步操作。

在更进一步的实施方式中，窗口序列控制器、预处理器及光谱转换器一起构成一种用于产生编码后的信号的设备，于此三个窗口具有多重叠部分。由于即将瞬态预看所需要的延迟更进一步被减少的事实，这个多重叠部分(其中不仅如在现有技术中的两个窗口而且三个窗口彼此重叠)允许非常低的延迟概念。对应的译码器通过译码器处理器、时间转换器及后处理器而形成。后处理器与预处理器通过使用在编码器侧上及在译码器侧上的一个与相同的辅助窗口来执行额外的窗口化操作，以使得有效的实施例尤其可在移动装置或低成本装置中被获得，其中需要的ROM或RAM储存是要尽可能小的。

较佳实施例依靠特定窗口化序列及具有不同长度的窗口的特定交互作用，以使得短长度窗口被"置放"于瞬态，以便避免长预先回音或后回音。为了确定多重叠部分不导致音频或图像伪影，编码器侧上的预处理器使用辅助窗口函数执行窗口化操作并使用叠入操作执行预先处理运作，用于获得变化的多重叠部分，其接着通过使用混叠引入变换被变换成频谱范围。在译码器侧上，对应的后处理器被配置成用于在对应的变换成时间表示的后执行叠出操作，且在叠出操作之后，使用辅助窗口函数的窗口化以及利用源自利用长窗口的窗口操作的前述块的样本的最后的重叠-相加被执行。在执行变换重叠选择的实施例中，获得增加的音频或画质。

与只采用变换重叠宽度的二进制的选择(大的/最大或小的)的现有的编码系统不同，实施例提出一组三个重叠宽度，编码器可从其选择每帧(或可选择地，每一变换)基础：最大重叠、一半重叠或最小重叠。最大重叠可以等于关于AAC中的长变换的帧长度(亦即，50％重叠)，但也可等同于帧长度的一半(亦即，33％重叠或更少)，如将在较佳实施例中说明的。因此，最小重叠可表示零重叠宽度(亦即，没有重叠)，但也可表示非常小个数的时间样本或ms的大于零的重叠，像较佳实施例将证明的。最后，一半重叠可以是但不需要必须是最大重叠的一半。

更特别是，依据本发明的一实施方式，限定重叠宽度确定单元，其为每个帧(或可选择地，为在一帧之内的每个变换)选择三个可能的重叠宽度中的一个。更精确地说，所述重叠宽度确定单元具有(作为输入)瞬态检测单元的输出以利用足够精度确认在当前帧之内(或可选择地，在当前帧中的变换之内)的瞬态的位置及衍生出重叠宽度，以使两个目的的至少一个被达成：

-选择此宽度以使只有其中一个重叠变换包括瞬态。

-伪瞬态由于编码错误的时间混叠的TNS成形而强烈地受到抑制。

换言之，利用避免在设置在给定帧中的感知编码瞬态左右的预先或后回音失真的目标，来确定此重叠宽度。应注意到，关于确定瞬态的正确的位置的机制的一定的自由度是可能的。如在较佳实施例中的，指定瞬态位置的时间或子块索引可等于那个瞬态位置的起始(开始)，但其亦可以是瞬态的最大能量或振幅的位置，或能量的中心。

此外，不像从一对帧的变换长度的给定选择衍生出瞬间相互变换重叠(即，变换尺寸确定单元的重叠宽度遵循输出)的现有技术的编码机制的是，依据本发明的另一个实施方式，编码系统可在待在较佳实施例中被检验于下列某些状况之下：通过使用归因于那个帧的重叠宽度且可选择地先前帧的重叠宽度(即，变换尺寸遵循重叠宽度确定单元的数据)，来控制或衍生出待用于特定帧的变换长度。

在使用多重叠部分或应用变换长度切换的更进一步的实施例中，获得了特别低的延迟概念。

对于现有技术的块切换机制的改善为对于图16的瞬态变换的一种有利的改进方案，其允许在信号非恒定性期间稳定质量操作所需要的附加编码器预看被减少了一半。如上所述，由Fraunhofer/Dolby或由Samsung所提出的起始窗口的特征为："具有一长度的不重叠部分"的分别地存在或不存在。此实施例更进一步并允许瞬态窗口的左右重叠斜率延伸进入彼此。换言之，变化瞬态变换显现非零长度的"双重叠"区域，其中其不但与前述帧的长变换而且与下述的短变换重叠。发明的瞬态变换的所产生的形状显示于图13中。与图17所显示的Samsung的瞬态窗口比较而言，显然通过允许在变换中的"双重叠"区域，变换的右端上的短重叠斜率可被移位至左(从而可减少需要的编码器预看)达到短变换重叠宽度的一半。这种变化瞬态窗口的减少的长度拥有帮助实行的三个极重要的优点，特别在移动装置上：

由重叠时间/频率变换(最好是MDCT)所产生的变换核心(即，系数向量的长度)正好是像在两个长变换之间的重叠区域的宽度的一半一样长。给定所述长重叠宽度通常等于帧长度或帧长度的一半的事实，这表示发明的瞬态窗口与后来的短窗口完美地紧密地套入帧格点(framegrid)，且所产生的编码译码的所有变换尺寸相关于整数2的次方的因子，如图13所示。

-在图17中且又在图13中所描绘出的瞬态位置两者位于瞬态变换外部，所以编码错误的时域涂抹(temporalsmearing)由于瞬态可被限制在变换以后的前两个短窗口的延伸之内。因此，与现有技术的Fraunhofer/Dolby及Samsung机制相反，围绕瞬态的可听见的预回音噪声不可能在使用图13的发明的块切换方法时产生。

-编码器及译码器两者可为顺向及逆变换利用完全相同的窗口。在执行编码及译码两者的通信装置中，只有一组窗口数据因此需要被储存于ROM中。此外，亦可避免将需要额外程序ROM及/或RAM的信号的特殊预先或后处理。

传统上，如在本发明中的具有"双重叠"段的瞬态窗口尚未被使用于语音或音频或图像编码中，大概因为他们被认为是违反了某些原理，其在缺乏变换系数的量化中确保完美波形重建。然而，可能在使用发明的瞬态变换时正确重建此输入，且此外，没有如在法国电信提议中的特殊译码器侧后处理被需要。

更进一步的注意到，值得强调的是所述发明的瞬态窗口的用途可利用发明的重叠宽度确定单元而不是变换长度确定单元或除了变换长度确定单元以外被控制。

然后，更详细讨论及显示本发明的较佳实施例。此外，特别参考限定更进一步的实施例的附属项。

此外，本说明书详细显示一种特别相对于图1a至7的关于瞬态位置适应性重叠切换的实施方式。相对于图8a至15f显示并说明一种关于多重叠部分的更进一步的实施方式。这些个别的实施方式可独立于彼此被实施，即，重叠切换可在没有多重叠区域的情况下应用，或多重叠区域可在没有瞬态位置适应性重叠切换的情况下被应用。然而，在一实施例中，实施方式两者可具优点地被结合，从而产生具有瞬态位置适应性重叠切换及多重叠区域的编码/译码概念。这种概念此外可通过变换长度切换程序，再依据在一帧的瞬态预看区域的内的瞬态位置被增强。变换长度切换可依据重叠宽度判定或独立于重叠切换被执行。

本发明不但对音频信号有用而且对视频、图片或通常图像信号有用。举例而言，在静止图像或所谓的AVC中的I帧的编码或不太领先或更领先技术中，本发明可被应用以避免阻隔人工制品(artefacts)。图像场中的瞬态将是尖锐的边缘且帧将譬如对应宏块。接着，图像最好是通过使用混叠引入变换及对应的空间重叠而被二维编码。一方面，这减少阻隔人工制品，而一方面，通过瞬态部分(即，具有尖锐边缘的部分)减少任何其它人工制品。因此，虽然遍及本部分说明未详细表示，但随后的说明同样应用至图像信号。

附图说明

接着将相对于附图说明实施例及实施方式，其中：

图1a说明一种在重叠切换方面的上下文中用于编码的设备；

图1b说明一种重叠切换的方面的用于解码的设备；

图2a说明一种利用在邻近窗口之间完全重叠的窗口序列；

图2b说明一种利用在两个邻近窗口之间一半重叠的窗口序列；

图2c说明一种利用在邻近窗口之间四分之一重叠及在邻近窗口之间一半重叠及在邻近窗口之间后续完全重叠的窗口序列；

图3a及3c及说明关于一个具有20ms变换长度(譬如于TCX20)的实施例的不同瞬态位置的不同的重叠宽度；

图4a至4g说明关于依据瞬态位置的例如TCX10的10ms变换长度的变换重叠长度的选择；

图5a至5c说明重叠宽度的编码；

图6a说明重叠宽度的编码及基于瞬态位置的变换长度；

图6b说明变换长度确定表；

图7说明依据先前及当前重叠码的不同的窗口序列；

图8a说明一种在本发明的一实施例的多重叠部分的上下文中的编码器；

图8d说明一种供在本发明的一实施例中的多重叠部分的实施方式用的译码器；

图9a说明在编码器侧执行的较佳程序的流程图；

图9b说明在编码器侧执行的较佳程序的流程图；

图10a说明译码器侧的程序的实施例；

图10b说明于译码器侧执行的程序的更进一步的实施例；

图11a说明被执行于实施例的编码器侧的操作；

图11b说明通过在本发明的实施例中的译码器而执行的操作；

图12a及12b说明在本发明的多重叠实施方式的上下文中，待被执行于编码器/译码器侧的程序的更进一步的实施例；

图13说明不同的窗口序列，两者都具有多重叠部分；

图14a说明窗口序列，其具有依据瞬态位置的切换的变换长度；

图14b说明另外的窗口序列，其具有多重叠部分；

图15a至15f说明不同的窗口序列及对应的预看部分及预回音；

图16说明现有技术窗口形状；及

图17说明现有技术窗口序列，其通过图16的窗口形状而形成。

具体实施方式

图1a显示一种用于编码音频信号100的设备。用于编码音频信号的设备包括可控窗口化装置(windower)102，用于窗口化音频信号100以在103提供窗口化样本的块的序列。译码器还包括转换器104，用于转换此窗口化样本的块的序列103成为频谱表示，其包括频谱值的帧的序列(表示于105)。此外，提供瞬态位置检测器106。检测器被配置成用于确认在帧的瞬态预看区域之内的瞬态的位置。此外，一个用于控制可控窗口化装置的控制器108被配置成用于应用具有特定重叠长度的特定窗口至音频信号100，以响应瞬态的识别位置(显示于107)。此外，控制器108于实施例中被配置成用于提供窗口信息112不但到达可控窗口化装置102，而且到达输出接口114，输出接口114在其输出提供编码过的音频信号115。包括此频谱值的帧的序列的频谱表示105被输入至编码处理器110，其可执行任何种类的编码操作，例如预测操作、时域噪声整形操作、量化操作(最好是相对于心理声学模型或至少相对于心理声学原理)，或可包括冗余降低编码操作，例如霍夫曼(Huffman)编码操作或算数编码操作。编码处理器110的输出接着被传送至输出接口114与输出接口114，最后提供已经关联过的编码过的音频信号至每个编码过的帧、某个窗口信息112。

控制器108被配置成用于从至少三个窗口的组中选择特定窗口。此组包括：第一窗口，具有第一重叠长度；第二窗口，具有第二重叠长度；及第三窗口，具有第三重叠长度或没有重叠。第一重叠长度大于第二重叠长度，且第二重叠长度大于零重叠。特定窗口由可控窗口化装置102基于瞬态位置选择，以使两个时间相邻的重叠窗口中的一个在瞬态的位置具有第一窗口系数，而两个时间相邻的重叠窗口中的另一个在瞬态的位置具有第二窗口系数，且第二窗口系数是第一系数的至少九倍大。这确认瞬态大幅地受到具有第一(小)系数的第一窗口抑制，而瞬态相当不受具有第二窗口系数的第二窗口影响。最好是，第一窗口系数等于1，在正负5％公差之内，例如在0.95与1.05之间，而第二窗口系数系最好是等于0或至少小于0.05。窗口系数可以是负值，以及于此情况下，窗口系数的关系与数量是有关于绝对大小。

图2a显示一种只具有第一窗口的窗口序列，而第一窗口具有第一重叠长度。更明确而言，上一帧具有相关的第一窗口200，当前帧具有相关的窗口202，而第三或下一帧具有相关的窗口204。于本实施例中，相邻窗口重叠了50％，亦即，全部长度。此外，这些帧相对于窗口被安置，以便确认音频信号的哪一部分被帧处理。这是参见当前帧被说明。当前帧具有左侧部分205a及右侧部分205b。相应地，上一帧具有右侧部分204b及左侧部分204a。依此类推，下一帧具有左侧部分206a及右侧部分206b。左/右侧表示时间上较早的及时间上较晚的，如图2a所示。当频谱值的当前帧产生时，使用通过利用窗口202来窗口化所获得的音频样本。音频样本起源于部分204b至206a。

通常，如本领域已知的MDCT处理，处理使用混叠引入变换(aliasing-introducingtransform)，此种混叠引入变换可被划分成叠入步骤及使用某一个非混叠引入变换的后续变换步骤。于图2a的例子中，区段204b被折叠进入区段205a，而区段206a折叠进入区段205b。折叠操作的结果，亦即，一方面是205a，204b以及206a及205b的加权组合然后使用例如DCT变换的变换被变换进入频谱范围。在MDCT的情况下，应用DCTIV变换。

然后，参考MDCT来体现，但其它混叠引入变换可被以一种类似及相似的方式来处理。关于重叠变换，相较于其它傅立叶相关变换，MDCT有一点不平常，因为它具有和输入的一半一样多的输出(而不是相同个数)。更特别是，它是一线性函数F:R^2N→R^N：(于此R表示实数的组)。依据以下公式，2N个实数x0,...,x2N-1被变换成为N个实数X0,...,XN-1：

X_{k} = Σ_{n = 0}^{2 N - 1} x_{n} c o s [\frac{π}{N} (n + \frac{1}{2} + \frac{N}{2}) (k + \frac{1}{2})]

(在此变换之前的正规化系数(于此是1)，为任意成规并在处置之间有所不同。以下只有MDCT与IMDCT的正规化的乘积受限制。)

逆变换

逆MDCT被称为IMDCT。因为有不同个数的输入及输出，乍看MDCT似乎不应可逆。然而，完美的可逆性通过添加时间相邻的重叠块的重叠IMDCT而达成，从而导致错误被删除且原始数据被恢复；此种技术被称为时域混叠消除(TDAC)。

IMDCT依据以下公式变换N个实数X0,...,XN-1成为2N个实数y0,...,y2N-1：

y_{n} = \frac{1}{N} Σ_{k = 0}^{N - 1} X_{k} c o s [\frac{π}{N} (n + \frac{1}{2} + \frac{N}{2}) (k + \frac{1}{2})]

(就像DCT-IV，正交变换，逆变换与顺向变换具有相同的型式。)

在一个具有一般窗口正规化的窗口化的MDCT(参见以下)的情况下，在IMDCT的前方的正规化系数应乘以2(亦即，变成2/N)。

在典型的信号压缩应用中，变换特性通过使用一个窗口函数wn(n＝0,...,2N-1)而更进一步的改善，窗口函数在上述MDCT及IMDCT公式乘以xn及yn，以便通过使使得函数于那些点平稳地走到零，来避免于n＝0及2N边界中断。(亦即，我们在MDCT之前及在IMDCT之后将数据窗口化。)在原理上，x及y可具有不同的窗口函数，而窗口函数亦可从一块改变至下一个(特别关于结合具有不同尺寸的数据块的情况)，但为简化，我们考虑关于相等尺寸块的相同窗口函数的共同情况。

变换维持可逆(亦即，TDAC工作)，关于对称窗口wn＝w2N-1-n，只要w满足Princen-Bradley条件的话：

w_{n}^{2} + w_{n + N}^{2} = 1

各种窗口函数被使用。一种产生被称为调变的重叠变换[3][4]的格式的窗口由以下得到：

w_{n} = s i n [\frac{π}{2 N} (n + \frac{1}{2})]

且为MP3及MPEG-2AAC使用，及

w_{n} = s i n (\frac{π}{2} \sin^{2} [\frac{π}{2 N} (n + \frac{1}{2})])

关于Vorbis。AC-3使用Kaiser-Bessel衍生(KBD)窗口，而MPEG-4AAC亦可使用KBD窗口。

注意被应用至MDCT的窗口不同于供某些其它型式的信号分析使用的窗口，因为它们必须满足Princen-Bradley条件。此差异中的一个理由为MDCT窗口为MDCT(分析)与IMDCT(合成)两者应用两次。

如检验定义可了解到的，关于偶数N，MDCT本质上与DCT-IV相当，这里输入被移位N/2，且两个N块的数据立刻被变换。通过更谨慎地检验此种等效，可容易地衍生出就像TDAC的重要特性。

为了限定DCT-IV的精确关系，必须理解到DCT-IV相当于交替偶/奇边界条件：偶数于其左边界(在n＝-1/2左右)，奇数位于其右边界(在n＝N-1/2左右)，等等(而不是关于DFT的周期性的边界)。这是根据恒等式and(及)。因此，如果其输入是：

c o s [\frac{π}{N} (- n - 1 + \frac{1}{2}) (k + \frac{1}{2})] = c o s [\frac{π}{N} (n + \frac{1}{2}) (k + \frac{1}{2})]

及

c o s [\frac{π}{N} (2 N - n - 1 + \frac{1}{2}) (k + \frac{1}{2})] = - c o s [\frac{π}{N} (n + \frac{1}{2}) (k + \frac{1}{2})] .

因此，如果其输入是一个具有长度N的数组x，则我们可以想象延伸此数组至(x,-xR,-x,xR,...)等等，于此xR以相反的顺序表示x。

考虑一个具有2N个输入及N个输出的MDCT，这里我们将输入分割成四个块(a,b,c,d)，各具有尺寸N/2。如果我们将这些移位至右侧达N/2(在MDCT限定中从+N/2项目)，则(b,c,d)延伸通过N个DCT-IV输入的末端，所以我们必须依据上述边界条件将它们"折叠"回。

因此，2N个输入(a,b,c,d)的MDCT完全等同于N个输入的DCT-IV：(-cR-d,a-bR)，这里R表示如上所示的倒转。

这被体现用于图2a中的窗口函数202。a是部分204b，b是部分205a，c是部分205b，d是部分206a。

(依此方式，任何计算DCT-IV的算法可被一般地应用至MDCT。)

类似地，上述IMDCT公式精确地为DCT-IV(其本身的相反)的1/2，这里输出被延伸(经由边界条件)至长度2N，且被移位回到左侧达N/2。逆DCT-IV将只从以上给回输入(-cR-d,a-bR)。当这经由边界条件延伸及移位时，可获得：

IMDCT(MDCT(a,b,c,d))＝(a-bR,b-aR,c+dR,d+cR)/2.

IMDCT输出的一半因而是冗余的，因为b-aR＝-(a-bR)R，且对于最后两个项也是一样。如果我们将输入群组化成具有尺寸N的较大块A，B，这里A＝(a,b)andB＝(c,d)，则我们可以以较简单的方式写出此结果：

IMDCT(MDCT(A,B))＝(A-AR,B+BR)/2

现在可以理解到TDAC是如何工作。假设计算时间相邻的50％重叠的2N块(B，C)的MDCT。则IMDCT将产生类似于上述：(B-BR,C+CR)/2。当这与重叠一半的先前IMDCT结果相加时，相反的项目相消，且可获得只有B，从而恢复原始数据。

项"时域混叠消除"的根源现在是清晰的。延伸超过逻辑DCT-IV的边界的输入数据的使用，导致数据以使频率超过奈奎斯特(Nyquist)频率被混叠至较低频率的相同的方式(除了此种混叠产生于时域而不是频域以外)混叠：我们无法区别a及bR对于(a,b,c,d)的MDCT(或同等地对于IMDCT(MDCT(a,b,c,d))＝(a-bR,b-aR,c+dR,d+cR)/2的结果)的贡献。c-dR等等的组合具有精确地正确符号，以在它们被相加时供组合来消除。

关于奇数N(实际上很少使用)，N/2并非是整数，所以MDCT并非只是DCT-IV的移位置换。于此情况下，样本的一半的额外移位意味着MDCT/IMDCT变成与DCT-III/II相当，且此分析类似于上述。

从上我们已经看到2N个输入(a,b,c,d)的MDCT与N个输入的DCT-IV(-cR-d,a-bR)相当。DCT-IV被设计用于以下情况：这里，在右边界的函数是奇数，因此靠近右边界的数值接近0。如果输入信号是平滑的，即为以下情况：a及bR的最右边组成在输入序列(a,b,c,d)是连续的，因此它们的差异小。让我们观看间隔的中间：如果我们重写上述表达式为(-cR-d,a-bR)＝(-d,a)-(b,c)R，则第二项(b,c)R在中间给予平滑的瞬态。然而，在第一项(-d,a)中，存在有潜在的不连续性，于此-d的右端符合a的左端。这是使用一种减少靠近输入序列(a,b,c,d)的边界的组成至0的窗口函数的理由。

以上，TDAC特性被证明用于普通MDCT，显示出在它们的重叠的一半中添加时间相邻的块的IMDCT可恢复原始数据。此种窗口化的MDCT的逆特性的衍生只稍微复杂。

为具有尺寸N的块A、B、C考虑重叠连续组的2N个输入(A,B)及(B,C)。回想上述的当(A,B)与(B,C)被MDCT化、IMDCT化及在它们的重叠的一半中被相加时，我们获得(B+B_R)/2+(B-B_R)/2＝B(原始数据)。

现在我们假设我们将MDCT输入与IMDCT输出两者乘以具有长度2N的窗口函数。如上所示，我们假设一对称窗口函数，其因而具有(W,W_R)的格式，W为长度-N向量，而R表示先前的倒转。然后，Princen-Bradley条件可被写为而平方及加法是按元素执行。

因此，不是MDCT化(A,B)，现在是MDCT化(WA,WRB)，利用按元素被执行的所有乘法。当这被IMDCT化及再度被乘以(按元素)窗口函数时，最终-N的一半变成：

W R \cdot (W R B + (W R B) R) = W R \cdot (W R B + W B R) = W_{R}^{2} B + W W R B R

(注意到我们不再乘以1/2，因为IMDCT正规化在窗口化的情况下的差异是不同于2的因子。)

类似地，窗口化的(B,C)的MDCT及IMDCT产生(在其第一N个一半)：

W·(WB-W_RB_R)＝W²B-WW_RB_R

当添加这两半在一起时，可恢复原始数据。

在类似的程序中，通过使用部分205b，206a，206b与图2a的下一个到下一帧的第一部分来计算下一帧。因此，窗口200，202，204对应至具有三个窗口的第一重叠长度的窗口函数，而由图1a的可控窗口化装置102使用不同重叠长度。如所述，图2a显示一种在上一帧、当前帧与下一帧中检测不到瞬态的状态，且具体地，在由用于上一帧的项207、当用于前帧的项208及用于下一帧的项209表示的每个帧的预看区域中检测不到瞬态。图2b显示一种于瞬态位置210，211，212，213检测到瞬态的状态。由于瞬态位置譬如在210检测到的事实，以及由于210位于从供上一帧用的207起始的预看区域中的事实，控制器108确定一种从第一窗口201至更进一步的窗口215的切换是待被执行。由于更进一步的瞬态211及更明确而言是位于下一个预看区域的瞬态212/213，当前帧另外使用具有第二重叠长度的第二窗口216处理。因此，窗口215为一种起始窗口，从具有表示于201的第一重叠长度的窗口改变至具有第二重叠长度的第二窗口。如所示，第二重叠长度只延伸遍及八个时隙(slot)，因此只有与第一重叠长度的一半一样长。由于在起始于209的预看区域的事实，不再检测到任何瞬态，切换通过一种"停止窗口217"被执行回到长窗口201。再，可注意到在一方面是在当前帧中显示于218，在另一方面(表示于218)是在当前帧与下一帧之间的重叠长度，在关于具有16个显示的时隙的第一窗口的图2a中，与重叠长度的一半一样长。

因此，一半重叠窗口供在检测区域1及6中所检测到的瞬态使用。如于219所示，这一种检测区域包括两个时隙。因此，预看范围划分成最好是八个时隙。另一方面，然而，可执行更粗糙或更细微的子分割。然而，于较佳实施例中，预看区域被细分成至少四个时隙及最好是细分成八个时隙，如显示于2b及2c及其它图。

如所示，第二窗口216在两侧具有一半重叠，而窗口215于右侧具有一半重叠，于左侧具有完全重叠，而窗口217于左侧具有一半重叠，而于右侧具有完全重叠。

参考图2c。图2c显示一种状态，这里瞬态检测器于起始于上一帧的中间的预看区域中被检测到，在第二瞬态检测区域222中存在有瞬态。因此，执行到四分之一的重叠的切换，以便确定瞬态223只"涂抹"在窗口224的内，但并非包括于由窗口201所限定的区域中或于由窗口225所限定的区域中。此外，表示顺序，于此执行的切换是在上一帧与当前帧中从四分之一重叠，到在当前帧与下一帧之间的一半重叠，再回到在下一帧与下一个到下一帧之间的完全重叠。这是由于检测到的瞬态所致。于起始于208的预看区域中，被检测到的瞬态在第一部分及第六部分中，而被检测到的瞬态在第二部分及在上一帧207与当前帧208之间的第五部分中。

因此，图2c显示窗口序列，于此显示具有全部或第一重叠长度的第一窗口201，于此使用一个具有表示于218的第二重叠长度的第二窗口，于此的第二窗口可以是譬如窗口225或窗口226，且于此一个具有第三重叠长度的第三窗口被显示为窗口224或窗口225，其于左侧具有小重叠长度229。因此，显示出窗口序列，其从完全重叠切换至四分的一重叠，然后至一半重叠，然后至完全重叠。因此，具有第一重叠长度的第一窗口可以是一种于一侧具有不同于第一重叠的重叠的不对称窗口，以及于另一侧具有第一重叠长度。或者，然而，第一窗口也可是在两侧具有第一重叠长度的窗口，如于图2b以216显示。此外，具有第二重叠长度的第二窗口可以是一种对称窗口，其具有于两侧第二重叠长度，或可以是一种不对称窗口，其于一侧具有第二重叠长度，且于另一侧具有第一重叠长度或第三重叠长度，或任何其它重叠长度。最后，具有第三重叠长度的第三窗口可以是一种对称窗口，其于两侧具有第三重叠长度，或可以是一种窗口，其于一侧具有第三重叠长度，且于另一侧具有不同的重叠长度。

然后，相对于下述附图说明更进一步的实施例。通常，譬如使用一种类似于说明于美国专利6,826,525B2的瞬态检测器的方法或程序，可完成瞬态及其位置的检测，但是也可使用任何其它瞬态检测器。

瞬态检测单元确认存在及在给定的帧的新信号部分中的最强瞬态的开始(onset)的位置(如果适合的话)，亦即，除在当前与先前帧之间的重叠区域以外。索引的分辨率在以下图中说明瞬态位置是帧长度的1/8，所以索引范围是从0至7。在后来的图中，具有索引0,…,7的子块表示在当前帧中用来编码的时域信号的最新的20ms。

图3a-3c显示关于示范的ms(毫秒)变换长度(亦即，关于TCX20变换长度)的变换重叠宽度的选择。

于图3a中，在当前帧中并未出现瞬态。因此，检测到完全重叠300。

图3b，相反地显示一种状态，这里瞬态于第七子块被检测到，以使得一半重叠302被图1a的控制器108选择。此外，图3c显示的状态是于第六子块检测到瞬态，因此，控制器设定最小重叠304。因此，瞬态位置检测器106检测是否存在有瞬态，若否，则选择重叠宽度或第一重叠宽度300。然而，当于第七子块中存在有瞬态(如由图1a的瞬态位置检测器106所确定)时，则最好是第一重叠长度300的一半的第二重叠长度302被控制器设定，且当瞬态在子块6时，最小重叠被设定。图3c另外显示以下状态，这里取代瞬态于位置6或7被检测到的事实的是，还是维持变换长度。因此，窗口301a，301b或303a或303b的变换长度是相同的并等于具有最长重叠长度的第一窗口(显示于图3a，301a及301b)。如稍后所将显示的，较佳是不只控制重叠长度，而且特别是于以下状态下控制变换长度：瞬态在其它子块中被检测到。因此，在当前及接下来的变换窗口之间的重叠宽度取决于瞬态的位置。然而，在当前与先前变换窗口的间的重叠，是在处理先前帧时被确定的。

然后，参考图4a至4g，以便显示关于10ms变换长度(亦即，TCX10)的变换重叠长度的选择。举例而言，如果编码译码器受限于10ms变换长度，则在两个TCX10窗口之间的重叠被选择成能使由于编码错误的时间混叠的TNX成形所致伪瞬态强烈地受到抑制。另外，瞬态的涂抹至五个以上的先前至五个以上的后续子块被最小化。亦即，预回音与后回音受限于12.5ms。重叠的选择基于瞬态位置。

图4a显示一种状态，这里瞬态在第零或第一子块中被检测到。然后，具有最大或第一重叠长度403的"第一窗口"401、402被选择。此外，为了说明的目的，一种与先前及下一个窗口的TCX20完全重叠于404被显示做为参考基准。因此，"完全重叠"对应至窗口401、402的50％，或对应至譬如TCX20窗口301a，301b的33％。因此，在图3a的重叠长度300及在图4a的重叠长度403是相同的。

图4b显示一种状态，其中瞬态在第二子块中被检测到，而控制器接着控制窗口序列，以使得对应于显示于图2c的229的"第三重叠长度"的最小重叠404被选择。因此，于本实施例中是不对称窗口的窗口406，407被选择成具有短重叠长度，其对应于以图1a及1b的语言表示的"第二窗口"。此外，当瞬态在第三子块中被检测到时，第二重叠长度405被选择。因此，窗口408，409对应至具有第三重叠长度405的第三窗口，但是为不对称窗口。

此外，如图4d所示，当瞬态处在瞬态部分4，且因此在此状态被选择的窗口为显示于图4a的窗口401，402时，确定完全重叠长度。当选择重叠以使得其中一个重叠变换包括如所显示的瞬态时，瞬态位于第二或第三子块中的情况分别如图4f或4g所示。当瞬态位于零或第一子块时的这些情况是接着被各别处置，而当瞬态为于第四或第五子块时的这些情况也是。因此，参考阐明以下状态的图4e，于此瞬态位于零子块，获得如图4e所示的窗口序列，这里存在有一半重叠405，且其接着被切换回到完全重叠403。

这是通过窗口序列而获得，窗口序列是通过起始窗口408，停止窗口409及更进一步的正常长度窗口402而形成。

另一方面，图4f显示以下状态，这里的瞬态位于第一子块中，从而能选择短或第三重叠长度404，这通过起始窗口406与停止窗口407接着伴随着完全重叠窗口402而成为可能，因此，在图4e中的窗口408或409显示具有第二重叠长度405的第二窗口，以及对应至具有第三重叠长度404"的第三窗口的窗口406及407。

图4g显示一种状态，这里瞬态被检测到位于第四子块中。此种状态由具有完全重叠长度403的第一窗口401及具有一半重叠长度405的第二窗口409以及具有第二重叠长度405的更进一步的第二窗口414反映出。然而，窗口414的右侧取决于为下一帧确定的重叠长度，即，在起始于参考数字415表示的瞬间的下一个预看区域中。

因此，图4a-4g显示以下状态，这里重叠长度被确定以使得瞬态只位于一个窗口之内，这一个窗口由以下事实所确定：在瞬态的位置，譬如于子块4中，窗口414的窗口数等于0，而窗口409的窗口数等于1。

然后，参考较佳实施例，其中变换长度从重叠宽度衍生出。图5a，5b，5c显示三个不同的重叠长度403、405、404，于此完全重叠长度由表示于501及502的两个第一窗口所确定。此外，一半重叠长度通过具有显示于503及504的第二重叠长度的两个第二窗口所获得，而第三重叠长度404由具有第三重叠长度404的两个第三窗口505及506所获得。完全重叠最好是使用位"0"来编码，一半重叠是使用位组合"11"来编码，并且最小重叠是使用位组合"10"来编码。

因此，当TCX-20及TCX-5和TCX-10帧的组合可被使用时，当确定重叠宽度及变换长度选择时，此种编码是有用的。

不像从对于一对帧的变换长度(为重叠宽度遵循变换长度判定的输出)的给定的选择衍生出瞬间相互变换重叠(instantaneousinter-transformoverlaps)的编码机制的是，本发明的一较佳实施例是有关于一种编码系统，其可使用归因于那帧的重叠宽度且可选择地是先前帧的重叠宽度，来控制或衍生出供特定帧使用的变换长度，即，变换长度遵循重叠宽度确定单元的数据，或者，相对于图1a，是通过瞬态位置检测器106与控制器108的合作。图6a显示一编码表，而图6b显示一对应的确定表。于图5a，5b及5c中，实线表示在当前帧中的最终变换的窗口的右半部，而虚线表示在接续帧的第一变换的窗口的左半部。

图6a显示重叠的编码及基于瞬态位置的变换长度。更特别是，短/长变换确定使用如栏600所表示的1位来编码，而与接续帧的第一窗口的重叠使用具有如于栏602显示的1或2位的可变长度码来编码。在一方面是供短/长变换确定600的码，以及供栏602的重叠宽度用的二进码，被连锁以获得栏603中的所谓的重叠码。此外，与接续帧的第一窗口的重叠由控制器108依据如由瞬态检测器106所确定的栏604的瞬态位置索引所确定。与较早说明比较，瞬态位置索引具有增加的预看范围，起始于由-1及-2表示的两个较早时隙，且另外关于此种状态，完全重叠在本实施例中被发出信号。

因此，完全重叠为"无瞬态"或在-2及1的间的瞬态位置被发出信号。此外，一半重叠为了瞬态位置2及3及7被栏605发出信号，而最小重叠为了瞬态位置4，5，6而被出发信号。

因此，在图6a中的索引"-2"意味着在位置6曾经有瞬态在先前帧中，及"-1"意味着在位置7曾经有瞬态在先前帧中。如所述，"没有(none)"意味着没有瞬态曾经在瞬态预看区域中被检测到。

作为概述，短/长变换确定与重叠宽度使用重叠码来关联地编码。重叠码关于短/长变换确定是由1位所构成，而关于利用1或2位编码的重叠宽度是由二进码所构成。此码是可变长度码，这里它是自动地被检测字码在何处起始，而较早字码在何处中止。供短/长变换确定及重叠宽度用的这些码限定于图6a。举例而言，当短/长变换确定给予1而最小重叠被选择时，亦即，二进码等于10，重叠码为110。

此外，图6a显示以下状态：为在-2及5之间的所有瞬态位置采取短变换确定，并为无瞬态或在位置6或7的瞬态选择长变换。因此，图6a显示以下状态，于此瞬态位置检测器可于某一个位置检测某一个瞬态，且于此独立于彼此或平行地，短/长变换确定及与接续帧的第一窗口的重叠可被确定，即，可衍生出完全重叠码603。需强调的是本领域技术人员将理解到，可使用用于编码不同的短/长变换及不同的重叠的任何其它码。此外，两个以上，即，三个或甚至更多变换长度可被确定及被出发信号，且同时，三个以上的重叠(例如四个或五个)不同的重叠长度)亦可被确定及编码。所确定的全部这些是，譬如响应于瞬态位置检测器，其操作于每帧有至少四个不同的分割，或如于本实施例中，操作于每帧有八个分割，或关于更细微确定的是操作于甚至更多分割(例如一帧有16个分割)。

基于对当前帧及对先前帧的重叠码，为变换长度的组合作出确定，如图6b所示的使用。因此，图6b显示基于先前重叠码与当前重叠码的变换长度的确定。举例而言，如果先前重叠码与当前重叠码两者皆为"00"，则使用例如401的窗口。如果先前重叠码为10而当前重叠码为00，则选择相同的窗口。然而，如果先前码为111(意指一半重叠码)而当前重叠码为00，则选择譬如图4c的窗口409。对于110的先前重叠码与当前重叠码00而言，再次选择长变换，但具有类似于窗口407的窗口，且相同的状态供010的先前重叠码与00的当前重叠码使用，即，选择图4f的窗口407。最后，对先前重叠码011及对当前重叠码00而言，选择例如图4e中的409的窗口。

为其它组合选择其它窗口，且这是相对于图7详细被显示。因此，图7显示某些变换长度组合与当前帧中的瞬态位置一起，以及与对当前帧及对先前帧的重叠码一起。图7中的110/010–111意味着先前重叠码为110或010，而当前重叠码为111。图7因此显示不同的组合。举例而言，图7中的左上图片显示于两个TCX-5变换的序列的初期的最小重叠，及具有完全重叠的接下来的TCX-10变换。相对于此，在这张图片下方的图片显示伴随四个TCX-5窗口的最小重叠，于此TCX-5窗口的第四窗口具有一半重叠等等。因此，参考数字700、701显示两个TCX-5的序列或由中间窗口跟随的两个短窗口。类似地，参考数字702、703、704、705、706、707显示具有四个短变换长度或"TCX-5"变换的状态，而参考数字708、709、710、711显示于第一时间(亦即，于此顺序的初期)，存在有中间变换长度窗口(例如TXC10窗口)伴随两个TCX-5或短变换长度窗口的状态。图7中的顺序700至711可通过其它这种顺序或通过TCX-20或具有不同重叠(例如譬如于700、702的短重叠、于704的中间重叠或譬如于708或710的长重叠)的长变换长度窗口而被引入。同时，顺序可以伴随着更进一步的这种顺序或可以伴随着TCX-20(亦即，长变换窗口)，但具有不同的重叠长度。因此，顺序700譬如以长重叠结束，而顺序702譬如以中间重叠结束或顺序706譬如以小重叠长度结束。

如图1a所显示的，于图1a中的112所显示的窗口信息(即，图6a的重叠码603)可通过输出接口114而相关到每个编码后的帧。

此外，在转换器104所应用的变换可以是MDCT或MDST或不同的混叠引入变换，其特征为：频谱值的块中的频谱值的个数低于输入至变换中或相对于译码器侧的窗口化样本的块中的窗口化样本的个数的事实，其中，时域输出样本的个数大于输入至这种混叠降低倒退或逆变换中的频谱值的个数。

如图2至7的全部所显示的，维持恒定帧光栅。因此，控制器108确定纵使譬如图7所显示的执行切换到较短变换长度，仍然维持总是相同的恒定帧光栅。这通过只使用这种特定窗口而获得确定，在正确重叠尺寸方面来说，其总是导致每个等级的窗口类似的变换长度。因此，每个TCX-5变换长度被限定以具有这种重叠区域及一个在两个变换结果为N/4频谱值的重叠区域之间的恒定区域，于此N为在一帧之内的频谱值的个数。格式与尺寸以及详细地TCX20变换窗口的重叠长度另外以这个窗口导致随变换而来的N个频谱样本的这样的方式被配置。

图1c显示可控转换器158的译码器侧较佳实施例。更特别是，可控转换器158包括频率-时间转换器170，随后连接的合成窗口化装置172及最后的重叠-加法器174。具体言之，频率-时间转换器执行例如DCT-IV变换的变换及后来的叠出(fold-out)操作，以使得频率-时间转换器170的输出对于第一或长窗口具有2N个样本，而进入频率-时间转换器中的输入示范性地为N个频谱值。另一方面，当进入频率-时间转换器中的输入为N/8个频谱值时，接着示范性地，此输出为MDCT操作的N/4个时域值。

然后，频率-时间转换器170的输出输入至合成窗口化装置中，合成窗口化装置应用最好是正好与编码器侧窗口相同的合成窗口。因此，在执行重叠-相加之前，每个样本被两个窗口窗口化，以使得所产生的"总窗口化"为相对应的窗口数的平方，以使得如前所讨论的Princen-Bradley条件被满足。

最后，重叠-加法器174执行相对应的正确重叠-相加，以便最后于输出175获得译码的音频信号。更特别是，频率-时间转换器170、合成窗口化装置172与重叠-加法器174譬如通过图6a的上下文中所讨论的重叠码603或通过参见图6b的上下文中所讨论的状态的任何其它信息是可控的及受控制的。然而，最好是，频率-时间转换器的相对应的变换长度通过使用变换长度确定表，基于先前重叠码与当前重叠码而确定。此外，窗口尺寸/形状也基于先前重叠码及当前重叠码而确定，且对重叠-加法器而言同样是真实的，以使得重叠-加法器应用最大重叠、中间重叠或最小重叠(如所用信号通知的)。

因此，较好是，图1c的译码器中的控制器180接收重叠码(即，先前重叠码606与当前重叠码607)，并从此种信息确定频谱值的块的重叠及窗口。

因此，确定每个窗口及与窗口相关的相对应的变换尺寸。在MDCT使用作为变换而逆MDCT用于逆变换的较佳实施例中，窗口尺寸为变换长度两倍或变换长度为窗口尺寸的一半。

图1d显示以移动装置实施的本发明的更进一步的实施例，于此移动装置一方面包括编码器195，而另一方面包括译码器196。此外，依据本发明的较佳实施例，因为使用于编码器195的窗口与使用于译码器196的窗口彼此相同，所以编码器105与译码器106两者只从单一内存197取得相同的窗口信息。因此，译码器具有只读存储器197或随机存取内存或通常任何内存197，于其中只有储存单一组的窗口序列或窗口以供在编码器及译码器两者中使用。由于不同的窗口的不同的窗口数并未需要被储存两次的事实，其中一组用于编码器而一组用于译码器，这是有利的。反而是，由于依据本发明相同的窗口及窗口序列使用在编码器与译码器中的事实，仅仅单一组的窗口系数必须被储存。因此，图1d所显示的发明的移动装置的内存使用实质上相对于不同的概念(于其中编码器与译码器具有不同的窗口或于其中某个具有处理操作而非窗口化操作的后处理被执行)而被减少。

然后，参考相对于变换/变换长度切换实施例的更进一步的较佳实施例。

上面所概述的变换及重叠长度-适应性编码机制被实施在LD-USAC编码器的变换编码的激发(TCX)路径、具有20ms的帧长度的xHE-AAC[5]的低延迟变形例中，以及以48kbit/smono被测试。在这个配置点，在(伪)静态输入状况期间，LD-USAC以具有512个样本的核心帧长度及256个样本的长变换重叠(亦即，33％)的仅TCX(TCX-only)模式操作。编码器包括瞬态检测单元，其输出被输入至变换长度确定单元及输入至发明的重叠宽度确定单元。可得到三个变换长度用于编码：具有512MDCT系数的TCX-20长度，具有256MDCT系数的TCX-10长度，以及具有128MDCT系数的特殊TCX-5长度。因此，每帧可使用及传输三个重叠宽度中的一个：256个核心样本的最大重叠(10ms)、128个核心样本的一半重叠(5ms)以及16个样本(0.6ms)的最小重叠。对每个帧而言，必须选择这些变换长度，以使那个帧中的所有变换的长度的总和等于核心帧长度(亦即，512个样本)。

在发明的编码统的较佳实施例中，编码器操作如下：

1.瞬态检测单元识别存在，且如果适合的话，识别给定的帧的新信号部分中的最强瞬态的开始的位置(即，除在当前与先前帧之间的重叠区域以外)。说明瞬态位置的索引的分辨率为1/8的帧长度，所以索引范围为0,…,7。

2.如果无瞬态已被检测到的话，或如果瞬态位置索引为6或7的话，则影响的帧通过变换长度确定单元的确定使用TCX-20变换而被编码。否则，使用TCX-10及/或TCX-5变换的组合：2xTCX-10或4xTCX-5或由2xTCX-5跟随的TCX-10或由TCX-10跟随的2xTCX-5。

3.依据上面列举的目的，重叠宽度确定单元现在控制使用在当前帧(除已经选择的与上一帧的重叠以外)之内的变换的重叠形状，以使并未违反所述些目的的最长可能的重叠被选择。更特别是，如果帧为TCX-20而瞬态位置索引为6或7，则重叠单元分别恢复最小或一半重叠。如果没有信号非恒定性出现在一帧中，则使用最大重叠。

4.此外，如果TCX-10/-5组合被变换长度确定单元传回给(非静态)帧，则重叠宽度确定单元控制那个帧中的变换长度的正确组成物。更明确而言，如果最大重叠使用于先前与当前帧，则2xTCX-5伴随TCX-10应用在当前帧中，其中第一的TCX-5变换为具有双重重叠的发明的瞬态变换。如果上一帧的或当前帧的重叠宽度小于最大，则也使用混合TCX-10/-5配置中的一个。如果最终及当前帧两者小于最大重叠，则使用4xTCX-5。

5.编码器现在继续至对信号的窗口化及对此帧的实际MDCT。必须特别注意关于以发明的双重重叠瞬态窗口的形式存在的窗口化操作的顺序，以便在译码之后获得完美重建。其余的编码处理类似于xHE-AAC。TNS可选择地被应用至个别的变换，及将两个TCX-5MDCT数组分类为一个TCX-10-类似组的(交插)数可被执行以储存侧信息。对每个帧而言，指示TCX-20或非TCX-20编码的一个1-位标志与一个重叠宽度数值被传输至译码器。

像编码器一样，依据较佳实施例的适当的译码器描写解释传输重叠宽度数值以控制逆MDCT的长度及窗口化的重叠宽度确定单元的特征，以使得编码器及译码器关于所使用的变换完全同步。如在编码器中，在个别的MDCT之后的窗口化及折叠操作的顺序是重要的以获得完美的信号重建。

然后，于图8至15f的上下文中讨论并显示本发明的更进一步的实施例。又命名为"多重叠实施方式"的这个实施方式可以与相对于图1至7所讨论的重叠宽度及变换长度切换实施例结合或可以与这个实施方式分开地被实施。

本发明的编码器侧显示于图8a中，而译码器侧显示于图8b中。更特别是，用以产生编码过的信号的设备或图8a所显示的编码器包括窗口序列控制器，用以产生窗口序列信息809(被传送譬如至预处理器802、光谱转换器804或输出接口810(如图8a所显示的))。窗口序列信息表示：第一窗口函数，用以产生第一帧的频谱值；第二窗口函数；以及一个或多个第三窗口函数，用以产生第二帧的频谱值。第一窗口函数、第二窗口函数与一个或多个第三窗口函数重叠在多重叠区域之内。

这个多重叠区域譬如是显示于图13或图14b或图15e或图15f中的1300。因此，于此多重叠区域1300中，至少三个窗口函数(即，相对于图15f于1500所显示的第一窗口函数、第二窗口函数1502与第三窗口函数1503)彼此重叠在多重叠区域1300之内。也可以有更高的重叠，例如四个、五个或甚至更多窗口的重叠。或者，图15e显示与图15f的单一的第三窗口函数1503比较，一个又具有第一窗口函数1500、第二窗口函数1502但现在四个第三窗口函数1503的状态。

为了正确处理这个导致瞬态预看区域所需要的延迟的显著减少的多重叠区域，提供预处理器102。预处理器被配置成用于通过使用辅助窗口函数，来窗口化对应于第二窗口与一个或多个第三窗口函数的第二块的样本，以获得第二块的窗口化样本。此外，预处理器被配置成用于通过使用与第一块重叠的第二块的一部分的叠入操作，来将第二块的窗口样本预先处理成多重叠部分，以获得具有变化的多重叠部分的预先被处理的第二块的窗口化样本。此外，光谱转换器804被配置成用于通过使用第一窗口，将混叠引入变换应用至第一块的样本以获得第一帧的频谱值。此外，光谱转换器被配置成用于通过使用第二窗口函数，将混叠引入变换应用至预先被处理的第二块的窗口化样本的第一部分以获得第二帧的频谱样本的第一部分，及用于通过使用一个或多个第三窗口函数将混叠引入变换应用至预先被处理的第二块的窗口化样本的第二部分，以获得第二帧的频谱样本的第二部分。此外，表示为"编码处理器"的处理器806设置于图8a的编码器之内用于处理第一帧及第二帧的频谱值，以于块806的输出807获得音频信号的编码过的帧。因此，编码处理器可以是等同于或不同于图1a的编码处理器110，并可执行现有技术中的已知的MPEG或AMRr任何其它编码特征的任何一个。

接着，参考图13。图13再一次显示第一窗口函数1500的第二半部、第二窗口函数1502以及两个第三窗口函数1503(在图13的第二图片中)。相对于此，图13中的上部图示又显示第一窗口函数1500、第二窗口函数1502以及相较于如图15f且略类似于图15e的四个第三窗口函数1503。或者，第三窗口函数的个数也可以是三个、五个左右。

此外，图13另外显示一种具有不同的第一窗口函数1500'、不同的第二窗口函数1502'及相同的第三窗口函数1503的状态。在1500及1500'之间的差异为函数1500'及1502'的重叠长度为相对于窗口1500、1502的一半。因此，窗口函数1500'及1502'的状态为重叠长度为譬如在图2d中于218所显示的一半重叠，而完全重叠长度对应至一完成帧，如譬如图2a或图13中于203所显示的。因此，在这张图表所示的窗口函数1500'及1502'表示多重叠实施方式与重叠宽度确定实施方式的组合。

为了更好说明编码器侧上的预处理器802的程序，一方面参考图11a中的图例，而另一方面参考图9a、9b中的流程图。关于译码器，参考图8b、图10a、10b中的相对应的图例与图11b中的图例。此外，编码器亦显示于图12a中且译码器显示于图12b中。

更特别是，图11a再一次显示第一窗口函数1500与第二窗口函数1502的至少一部分以及四个第三窗口函数1503或单个第三窗口函数1503。更特别是，图11a另外显示辅助窗口函数1100。辅助窗口函数1100具有与第一窗口函数1500的第一上升部分1500a相符的第一部分1100a。此外，辅助窗口函数1100具有最好是具有等于一的窗口系数的第二不重叠部分1100b以及对应于一个或多个第三窗口函数的下降或降下或右侧部分的第三部分1100c。因此，辅助窗口函数1100覆盖于1102所显示的较早帧的第二半部、以1103表示的当前帧i的第一半部，以1104表示的当前帧i的第二半部以及由辅助窗口函数部分1100c所覆盖的第一小部分1105。如从图11a变成清楚的，辅助窗口函数被作为"起始窗口序列"或对应至这种"起始窗口序列"，犹如在帧i+1中，必须引入短窗口的序列。重要地，然而，短窗口的序列已经在当前帧中而非在即将来临的帧i+1中被引入。

预处理器的功能性接着显示于图11a中。预处理器通过在表示为"起始叠入混叠，帧i"的操作中使用投票来预处理第二块的窗口样本，第二块的窗口样本通过使用辅助窗口函数窗口化而获得。因此，以1110表示的第二块的窗口化样本的最左部分向内折叠。这个部分1110为与前述第一窗口函数1500重叠的第二块的窗口化样本的部分，也即，对应于时间期间1102及位于前述帧i–1中的第二块的窗口化样本的部分。由于部分1110的这个叠入操作现在影响重叠区域1300的事实，通过预处理器而执行的叠入操作导致变化的多重叠部分。现在，光谱转换器应用表示为"内叠入混叠"的图11a的线所显示的操作。更特别是，光谱转换器通过使用为帧i–1所显示的第一窗口函数而将混叠引入变换应用至第一块的样本。混叠引入变换包括于1120所显示的叠入操作与后来的于1122所表示的譬如DCT-IV变换。为此，需要第一窗口函数1500以便在帧i–1的叠入操作1120之前获得此形状。此外，光谱转换器将混叠引入变换应用至以图11a中的项目1131表示的第一部分。这通过使用第二窗口函数1502且更特别是第二窗口函数1502的右侧部分而实现。这个操作导致由变换1132所获得的第二帧的频谱样本的第一部分，于此变换1132再一次表示DCT-IV操作，其与相对应的折叠操作一起构成，但现在只在块1131的右重叠部分中的混叠引入变换。

此外，光谱转换器被配置成用于通过使用一个或多个第三窗口函数1503将混叠引入变换应用至预先被处理的第二块1130的第二部分1133以获得第二帧的频谱样本的第二部分1135。因此，为了获得频谱样本的第二部分1135，可应用四个N/8DCT-IV变换或单一N/2DCT-IV变换。变换的个数与长度取决于第三窗口函数的个数。通常，第二部分1135中的频谱样本的长度、变换或个数等于帧中频谱样本的个数减去变换1132的长度，且结果接着除以所使用的第三窗口函数的个数。

因此，预处理器802通常对于窗口化(902)(图9a)是有效的，音频信号使用辅助窗口函数1100以获得第二块的窗口化样本。接着，处理器904最好是应用于图11a中的1110所表示的折叠操作以获得具有变化的多重叠部分1300的预先被处理的第二块的窗口化样本。然后，转换器906通过使用第一、第二与第三窗口函数应用这些变换以获得第一帧的频谱值1122，第二帧的第一部分1132以及第二帧或以图11a的表示法存在的帧i的第二部分1135。

在较佳实施例中，关于图9b所显示的，辅助窗口函数通过参考第一窗口函数以及示范性地通过选择第一窗口函数的第一部分1500a作为辅助窗口函数1100的第一部分1100a而确定(910)。此外，确定不重叠部分1100b(一个的窗口系数被采取为相对应的长度)，而接着再示范性地通过采取短窗口函数的第二部分确定第三部分1100c。

然后，音频信号以与图11a所显示的前述或第一帧i–1正确关系，而利用这个辅助窗口函数来被窗口化(912)。接着，如于图9b中的914所显示的，左侧部分1110及最好是右侧部分1111被叠入。在步骤916中，执行内部区域的项目e)或f)中的阴影线所显示的重叠部分的叠入。此外，如于918所显示的，如果有更多如在图11a中的子图片e)中的第三窗口函数，则同样执行第三窗口函数的重叠部分的叠入。然而，如果只存在有如图11a所显示的子图片f)中的单第三窗口函数，则控制继续从步骤916至920(直接没有步骤918)。在步骤920中，DCT操作通过使用比第一帧的DCT核心更短的DCT核心而被执行。子图片e)的DCT核心对第二窗口函数而言是N/2，而对第三窗口函数而言是N/8。相对于此，当只存在有单个第三窗口函数时，则变换核心对第二窗口函数而言等于N/2，而对单个第三窗口函数而言等于N/2。

因此，多重叠区域1300被窗口化两次，关于这一点是很清楚的。第一窗口化通过辅助窗口的第一部分1100a而完成，而第二窗口化通过第三窗口函数1503的第二半部而执行，如图11a的子图片e)或f)所显示的。

再参考图13。如在图1a的上下文中或在图8a的上下文中所讨论的，窗口序列控制器产生特定窗口形状。在一实施例中，窗口序列控制器被配置成用于包括瞬态位置检测器106。当瞬态在瞬态检测部分0或1中被检测到时，接着，编码器被控制以进入多重叠部分模式，所以这些于1305所表示的瞬态被局限以只位于单个第三窗口之内或在两个邻近的第三窗口之内。具体而言，左瞬态1305被局限以只位于第一短窗口函数中，于此瞬态1305的右瞬态位于第一至第三窗口函数中。然而，当确定瞬态被设置在与0不同的区域中，例如在区域1、2、3左右中时，接着可在没有多重叠区域的情况下譬如类似地执行处理，如图6a、图6b、图7左右的上下文中所讨论的。

相对于此，然而，多重叠区域处理亦可在窗口切换应用的上下文中被执行，于此，当检测到瞬态时，为当前帧可切换甚至更大组的短窗口，从而能最好是在一个与相同块或帧光栅的内，使长窗口或特定个数的短窗口用来窗口化。第一窗口对应至譬如在图13中的窗口1500，第二窗口对应至窗口1502，且在不需要参考某一个瞬态位置的情况下，只有当一瞬态在当前帧中的任何地方被检测到，而不需要知道瞬态被正确设置在帧之内的哪里时，执行改变成一些第三窗口函数。

然而，为了保持第三窗口的个数尽可能小，较佳是切换成多重叠部分模式及变换重叠的附加切换，且变换长度选择依据在帧之内的瞬态的特定位置(即，在最好是帧或对应于帧的时间部分的四个或甚至八个不同部分中的一个中)被执行，于此这个时间部分接着等于长窗口(例如图13的长窗口1500)的尺寸的一半。最好是，在预看区域的起始208(一方面显示于图2中，而另一方面显示于图13)之前，如可在图13中看到的，设置此多重叠部分。

在译码器侧上，执行相似的处理。在用于译码包括编码过的第一帧及编码过的第二帧的编码过的音频信号821的设备的实施例中，图8b的译码处理器824被要求来处理第一编码过的帧及第二编码过的帧以获得第一帧的频谱值及第二帧的频谱值，第一及第二帧包括混叠部分。时间转换器826连接至译码处理器824，而时间转换器826被配置成用于通过使用第一窗口函数而将变换应用至这个第一帧以获得第一块的样本。此外，时间转换器826被配置成用于通过使用第二窗口函数而将变换应用至第二帧的第一部分，以及通过使用一个或多个第三窗口函数而将变换应用至第二帧的第二部分以获得第二块的样本。如在图1a的上下文中所讨论的，第一窗口函数1500、第二窗口函数1502与一个或多个第三窗口函数1503一起具有多重叠区域1300。

此外，译码器包括后处理器828，用以通过使用叠出操作后处理第二块的样本以获得后处理的第二块的样本，其具有与多重叠区域中的第一块的样本重叠的第二块的样本的一部分。此外，后处理器828被配置成用于通过使用在图8a及图11a的上下文中所讨论的辅助窗口函数窗口化此后处理的第二块的样本。后处理器828执行窗口化的后处理的第二块的样本与第一块的样本的重叠-相加，以获得于图8b的829或于图1c的块175所表示的译码的音频信号。因此，基本上图8b的后处理器828可具有相对于辅助窗口函数的合成窗口化装置172与重叠-加法器174的功能性。

然后，后处理器与时间转换器合作的功能性相对于图11b的图例被讨论，图11b的图例显示相对于图11a编码器图例的反向处理。第一帧的频谱值1142输入至N-尺寸逆变换1161中，而第二帧的第一部分1152输入至N/2逆变换1162中且取决于第三窗口函数的个数，第二帧的第二部分1155输入至四个N/8短变换1163或单一N/2变换1162中，类似关于第二帧的第一部分1152。

这个程序通过时间转换器而执行。时间转换器另外使用第一窗口函数用以与于图11b中的1170所显示的之前执行的叠出操作一起执行窗口化。此外，第二窗口函数在将这些程序应用至于1172所显示的第一部分1152时被使用。具体而言，具体执行第二窗口函数的最右侧部分1173及第二后来的窗口化的叠出，同时在帧的左侧上，并未执行任何内部叠出。此外，此变换执行特定叠出与后来的窗口化，以及不仅利用第二帧的第一部分1152，而且利用第二帧的第二部分1155的额外重叠-相加，如于图11b中的1172所显示的。如果只存在有于图11b的子图片f)所显示的单个第三窗口函数，则只有从两侧的单一叠出操作与使用第二窗口函数的右手部分与第三窗口函数的左手部分的窗口化一起，以及后来的在重叠范围1174内的重叠-相加会被执行。

接着，通过使用于1175所显示的叠出操作，利用1172中的程序的结果的第一部分，后处理器应用后处理，用于获得在先前帧中延伸的一部分1176a及最好是在下一帧中延伸的1176b。然后，执行通过使用辅助窗口函数，利用叠出部分1176a、1176b且当然利用在当前帧i之内的部分的窗口化，以获得于1175所显示的状态。接着，辅助窗口函数-窗口化的后处理的第二块的样本与第一块的样本的最后的重叠-相加于重叠范围1180且在其内被执行，用于获得对应于这个重叠范围1180的最后的译码的音频信号。此外，由于不存在重叠及下一个区段1182通过与帧i+1(实时在帧i以后)的窗口函数的相对应的部分重叠而获得的事实，此种程序此外导致译码的音频信号样本1181的较后部分。

因此，如于图10a所显示的，译码器侧方法包括：应用1000，通过使用第一窗口函数变换至第一帧；及应用1010，通过使用第二窗口函数变换至第二帧的第一部分；以及应用1020，通过使用第三窗口函数变换至第二帧的第二部分。然后，在步骤1030中，执行叠出操作，而在步骤1040中，执行通过使用辅助窗口函数的窗口化，最后，在步骤1050中，执行窗口化的后处理第二块与第一块的重叠-相加，以于处理结束时获得译码的音频信号，譬如在图11b中所显示的。

如图10b所显示的，较佳实施例包括为第二帧的每个部分执行逆DCT操作，即，以相对于先前帧i–1较短的长度执行数个DCT操作，在此使用长窗口1500。在步骤1070中，内部混叠部分的叠出被执行作为在1172中所显示的操作，而叠出最好是位于相对应的边缘的镜像变换，相对应的边缘在图11b中的1172表示的线中显示为垂直线。接着，在步骤1080中，执行通过使用在块1184之内的第二及第三窗口函数的窗口化，并执行在此块之内的窗口化结果的后来的重叠-相加，如显示于1090的。然后，如于192所表示的，执行重叠-相加结果的左/右(或换言之，较早的/后来的)混叠部分的叠出，以便获得在先前帧中延伸的部分1176a及在下一帧中延伸的部分1176b。然而，1175中的表现只在使用于1094所显示的辅助窗口函数的窗口化之后。接着，在步骤1906中，在使用辅助窗口函数的窗口化之后，执行与第一块的样本的重叠-相加。

然后，参考图12a及图12b。图12a中的项目a对应至图11a的第一线中的程序。子图片b)中的程序对应至在图11a的第二及第三线中被执行的程序，而于图12a的项目c)中所显示的程序对应至图11a的最后两条线中的程序。依此类推，译码器侧表现对应至图12b。更特别是，图11b的前两条线对应至图12b中的子图片f)。第三及第四线对应至图12b中的项目e)，而图12b中的最终线对应至图11b中的最终线。

图14a显示一种编码器侧上的窗口序列控制器或译码器侧的组件824、826、828被配置成用于在如在图14a中的非多重叠状态与在图14b中所显示的多重叠状态之间切换的状态。因此，当在瞬态部分0中检测到瞬态时，一个程序用以不应用多重叠部分，但用以从TCX-20窗口切换至单一重叠的短窗口TCX-10。然而，一种至多重叠部分的切换最好是通过应用窗口序列而执行，窗口序列包括第一窗口1400、第二窗口1402以及一个第三窗口1403或于图14b的本实施例中两个第三窗口1403。

图14b的窗口重叠及尺寸略不同于图13中的图例，但关于图11a中的编码器侧或图11b中的译码器侧的一般程序同样地发生，关于这一点是很清楚的。

接着，讨论图15。具体而言，图15以黑盒子(blackboxes)显示瞬态检测预看1590与所产生的预回音1595的持续时间。图15a显示传统的高-效率-AAC-型序列，包括一个长起始窗口、八个短窗口、一个长停止窗口等等。需要的预看是高的且共计N+N/2+N/16，但预回音1595是小的。依此类推，图15b显示传统的AAC低延迟型瞬态检测程序，其导致包括长顺序、长起始窗口、低重叠窗口以及长停止窗口的窗口序列。瞬态检测预看与在图15a中的相同，但预回音的持续时间比在图15a来得长。然而，另一方面，由于使用的窗口越短，位率效率越低的事实，效率是更高的。

图15c及15d显示具有减少的瞬态检测预看的N/16样本的高效率AAC或AAC低延迟程序的实施方案，且只有显示可能具有减少的瞬态检测预看的N/16样本的长顺序。如果顺序如于图15d中所显示的由长窗口、长窗口、长起始窗口、长停止窗口等等所构成，则相较于图15c只减少后回音，但预回音1595是相同的。因此，图15c、d显示类似于发明的图15e及15f的短预看。如果现在将实施如在图15c及15e中的多重叠部分，则可只使用如在那些图中的顺序，但任何切换至短窗口是不可能的。因此，多重叠部分允许切换至短窗口以减少前/后回音，或使用短预看延迟或特征两者以减少延迟及减少前/后回音。

图15e显示具有减少的瞬态检测预看的N/16样本的高效率AAC顺序与较佳的多重叠区域1300。此序列包括长窗口、更进一步的长窗口1500、更进一步的起始顺序1502、四个短顺序1503以及长停止窗口1504。如变得清楚的，预看是小的，因为是预回音。图15f获得类似的状态，图15f阐明与图15e中类似的配置，但只具有单个第三窗口函数而不是四个短顺序。

虽然已在块表示实际或逻辑硬件组件的方块图的上下文中说明本发明，但本发明也可通过计算机实施方法被实施。在后者的情况下，这些块表示对应的方法步骤，于此这些步骤代表通过对应的逻辑或物理硬件块而执行的功能。

虽然已在设备的上下文中说明某些实施方式，但显然这些实施方式亦表示相对应的方法的说明，于此块或装置对应至方法步骤或方法步骤的特征。依此类推，在方法步骤的上下文中所说明的实施方式亦表示对应的块或项目或对应的设备的特征的说明。某些或所有的方法步骤可通过(或使用)硬设备，譬如像微处理器、可程序化计算机或电子电路而被执行。在某些实施例中，某个或某些最重要的方法步骤可通过这种设备被执行。

发明的传输或编码过的信号可被储存在数字储存媒体上，或可被传输在例如无线传输媒介的传输媒介，或例如因特网的有线传输媒介上。

依据某些实施需求，本发明的实施例可被实施在硬件中或在软件中。实施例可通过使用数字储存媒体而被执行，数字储存媒体譬如是软磁盘、DVD、蓝光(Blu-Ray)、CD、ROM、PROM以及EPROM、EEPROM或闪存，具有储存于其上的电子可读取的控制信号，且与可程序化计算机统合作(或能够合作)，以使各个方法被执行。因此，数字储存媒体可以是计算机可读取的。

依据本发明的某些实施例包括具有电子可读取的控制信号的数据载体，其能够与可程序化计算机系统合作，以执行在此所说明的其中一个方法。

通常，本发明的实施例可被实施为具有程序代码的计算机程序产品，当计算机程序产品在计算机上执行时，程序代码对于执行其中一个方法是有效的。程序代码可譬如被储存在机器可读取的载体上。

其它实施例包括储存在机器可读取的载体上用于执行于此所说明的其中一个方法的计算机程序。

换言之，当计算机程序在计算机上执行时，本发明方法的实施例因此为一种具有用于执行在此所说明的其中一个方法的程序代码的计算机程序。

因此，发明方法的更进一步的实施例为数据载体(或例如数字储存媒体的非暂时性储存媒体，或计算机可读取媒体)，包括记录于其上的用于执行于此所说明的其中一个方法的计算机程序。数据载体，数字储存媒体或记录媒体一般为有形及/或非暂时性。

因此，本发明方法的更进一步的实施例为表示用于执行在此所说明的其中一个方法的计算机程序的数据流或信号的序列。数据流或信号的序列可譬如被配置成用于经由数据通信连接(譬如，经由因特网)而被传输。

更进一步的实施例包括处理手段，譬如，计算机或可程序化逻辑组件，配置成用于或适合于执行于此所说明的其中一个方法。

更进一步的实施例包括计算机，具有装设于其上的用于执行于此所说明的其中一个方法的计算机程序。

依据本发明的更进一步的实施例包括设备或系统，配置成用于将(譬如，电子地或光学地)用于执行于此所说明的其中一个方法的计算机程序传送至接收器。接收器可譬如是计算机、移动装置、内存装置等等。此设备或统可譬如包括档案服务器用以将计算机程序传送至接收器。

在某些实施例中，可使用可编程逻辑组件(譬如，现场可程序化门阵列)，以执行于此所说明的方法的某些或所有功能。在某些实施例中，现场可程序化门阵列可协同微处理器，以便执行于此所说明的其中一个方法。通常，这些方法最好是通过任何硬设备而执行。

上述实施例对于本发明的原理仅是说明性的。理解到，其它本领域技术人员将明白于此所说明的配置与细节的改进方案及变化。因此，意图仅受限于即将发生的专利权利要求的范畴而不受限于经由说明所提出的特定详细及于此的实施例的说明。

参考文献

[1]国际标准化组织，ISO/IEC14496-32009，"信息科技–音频-视觉对象的编码–部分3音频(InformationTechnology–Codingofaudio-visualobjects–Part3Audio)"，Geneva,Switzerland,Aug.20096。

[2]互联网工程任务组(IETF)，RFC6716，"作品音频编译码器的限定(DefinitionoftheOpusAudioCodec)"，提议的标准，2012年9月。从在线可得到：http://tools.ietf.org/html/rfc6716。

[3]C.R.Helmrich，"在信号窗口中正弦的总和的使用(OntheUseofSumsofSinesintheSignalWindows)"，于Proc.ofthe13thInt.ConferenceonDigitalAudioEffects(DAFx-10),Graz,Austria,2010年9月。

[4]J.Herre及J.D.Johnston，"通过使用时域噪声整形(TNS)的知觉的音频编码器的增进性能(EnhancingthePerformanceofPerceptualAudioCodersbyUsingTemporalNoiseShaping(TNS))"，于Proc.101stAESConvention,LA,USA,1996年11月。

[5]M.Neuendorf等人，"MPEG均一化语音及音频编码–所有内容型式的高效率音频的编码的ISO/MPEG标准(MPEGUnifiedSpeechandAudioCoding–TheISO/MPEGStandardforHigh-EfficiencyAudioCodingofAllContentTypes)"，于Proc132ndConventionoftheAES,Budapest,Hungary,Apr.2012.亦出现于JournaloftheAES,2013年。

Claims

1.一种用于对音频或图像信号进行编码的设备，包括：

可控窗口化装置(102)，用于将所述音频或图像信号窗口化，以提供窗口化样本的块的序列；

转换器(104)，用于将所述窗口化样本的块的序列转换成频谱表示，所述频谱表示包括频谱值的帧的序列；

瞬态位置检测器(106)，用于识别在帧的瞬态预看区域内的瞬态的位置；以及

控制器(108)，用于响应于所识别出的所述瞬态的位置(210-213)，控制所述可控窗口化装置(102)，以将具有特定重叠长度的特定窗口应用至所述音频或图像信号，

其中，所述控制器(108)被配置成从包括至少三个窗口的组中选择所述特定窗口，所述三个窗口包括具有第一重叠长度(203)的第一窗口(201)、具有第二重叠长度(218)的第二窗口(215)、以及具有第三重叠长度(229)或不具有重叠的第三窗口(224)，

其中，所述第一重叠长度(203)大于所述第二重叠长度(218)，及其中所述第二重叠长度(218)大于所述第三重叠长度(229)或大于零重叠，

其中，基于所述瞬态位置选择所述特定窗口，以使得两个时间相邻的重叠窗口中的一个具有所述瞬态的位置的第一窗口系数，而所述两个时间相邻的重叠窗口中的另一个具有所述瞬态的位置的第二窗口系数，其中所述第二系数是所述第一系数的至少九倍大。

2.如权利要求1所述的设备，其中所述控制器(108)被配置成用于选择所述特定窗口，以使得所述些第一窗口系数等于1并且所述第二窗口系数等于零。

3.如权利要求1或2所述的设备，其中所述第一重叠长度等于所述特定窗口的长度的四分之一或三分之一或一半，其中所述第二重叠长度等于所述第一重叠长度的一半或三分之一，且其中所述第三重叠长度为所述第二重叠长度的一半或四分之一或八分之一或小于或等于1.25毫秒。

4.如前述权利要求中的任一项所述的设备，还包括输出接口(114)，用于将由所述控制器(108)所提供的窗口信息(112)与包括频谱值的编码块的序列的所述频谱表示的编码表示关联。

5.如前述权利要求中的任一项所述的设备，

其中所述转换器(104)被配置成用于执行改进的离散余弦变换或改进的离散正弦变换，其中频谱值的块中的频谱值的个数低于窗口化样本的块中的窗口化样本的个数。

6.如前述权利要求中的任一项所述的设备，

其中，所述控制器(108)被配置成用于以恒定帧光栅被维持在包括至少五个帧的所述块的序列中的方式来控制所述窗口化装置(102)，其中帧具有长度，该长度等于所述第一窗口的长度或等于所述第一窗口的长度除以2的整数倍，及

其中，所述瞬态预看区域从当前帧中的位置延伸直到下一帧中的位置，所述位置在所述帧的中间或从所述帧的中间偏移小于或等于帧的样本的25％。

7.如前述权利要求中的任一项所述的设备，

其中，所述瞬态位置检测器(106)被配置成用于应用延伸遍及整个帧的所述瞬态预看区域，并且用于区别至少四个四分之一，以及其中所述控制器(108)被配置成用于当无瞬态被检测到时选择所述第一窗口，当瞬态在所述第一或第四个四分之一中被检测到时选择所述第二窗口，以及当瞬态在所述第二或所述第三个四分之一中被检测到时选择所述第三窗口。

8.如前述权利要求中的任一项所述的设备，

其中所述控制器(108)被配置成用于确定所述特定窗口，以使得重叠宽度以两个时间相邻的重叠窗口中的仅一个包括所检测到的瞬态的方式而被选择。

9.如前述权利要求中的任一项所述的设备，

其中所述瞬态位置检测器(106)被配置成用于检测在所述瞬态预看区域内的所述瞬态的位置，以使得所述瞬态位置与所述瞬态的起始或开始相一致，或与最大振幅或能量的时间位置或所述瞬态的能量的中心相一致。

10.如前述权利要求中的任一项所述的设备，

其中所述瞬态位置检测器(106)被配置成用于使用瞬态预看区域覆盖当前帧的第二部分及下一帧的第一部分，

其中所述瞬态位置检测器(106)被配置成用于识别由从0至7的索引所标识的八个不同的瞬态位置，

其中所述控制器(108)被配置成用于当所述瞬态索引为7时选择所述第二窗口，或当所述瞬态索引为6时选择所述第三窗口。

11.如前述权利要求中的任一项所述的设备，

其中所述控制器被配置成用于当无瞬态被检测到时选择所述第一窗口，用于当所述瞬态索引等于0、1、6、7时选择所述第二窗口，或用于当所述瞬态索引等于2、3、4、5时选择所述第三窗口。

12.如前述权利要求中的任一项所述的设备，

其中所述控制器(108)被配置成用于选择用于帧的特定窗口的个数，以使得通过用于帧的窗口的的个数所获得的频谱值的个数等于通过转换具有所述第一窗口尺寸的窗口函数所获得的频谱值的个数，

其中所述第一至第三窗口具有相同的第一窗口尺寸，并且其中帧由所述相同的窗口尺寸限定，并且其中所述组包括第四窗口及第五窗口，所述第四窗口和第五窗口具有相同的第二窗口尺寸，所述第二窗口尺寸为所述第一窗口尺寸的整数分数，并且其中所述第四窗口具有第四重叠长度，而所述第五窗口具有小于所述第四重叠长度的第五重叠长度。

13.如前述权利要求中的任一项所述的设备，

其中所述控制器(1085)被配置成用于基于所述瞬态位置，确定重叠宽度信息(602)及短/长变换信息(600)，

其中所述重叠宽度信息(602)被确定以具有指示最大重叠宽度的第一数值、指示中间重叠宽度的第二数值以及指示最小重叠宽度的第三数值，

其中所述短/长变换信息(600)包括对于具有一个以上的变换的帧的长窗口或短窗口的标识，以及

其中所述控制器(108)被配置成用于基于所述重叠宽度(602)信息与所述短/长变换信息(600)，确定用于帧的单一窗口或用于所述帧(608)的两个、三个或四个窗口的序列。

14.如前述权利要求中的任一项所述的设备，

其中所述控制器(108)被配置成用于响应于识别瞬态位置(605)，确定帧的变换的个数及所述变换的对应长度，

其中所述控制器(108)被配置成用于确定帧的所述变换的个数及长度，以使得通过所述帧的所述变换所获得的频谱值的个数等于通过与最大重叠窗口函数相关的最长变换长度所获得的频谱值的个数。

15.如前述权利要求中的任一项所述的设备，

其中所述控制器(108)被配置成用于确定变换的长度及个数或用于选择特定窗口，以使得延伸遍及多个样本的多重叠区域在所述帧内获得从而使所述多个样本被至少三个重叠窗口(1500、1502、1503)窗口化。

16.如前述权利要求中的任一项所述的设备，

其中所述控制器(108)被配置成用于确定变换的所述长度及个数或用于选择所述特定窗口，以使得所述多重叠区域被确定，其中瞬态位于与延伸了在所述帧的中间周围的帧的样本的30％的区域对应的所述瞬态预看区域的位置。

17.一种用于对音频或图像信号进行译码的译码器，所述音频或图像信号包括转换后的窗口化样本的块的序列及相关的窗口信息(160)，所述窗口信息(160)从至少三个不同的窗口函数中识别用于块的特定窗口函数，所述译码器包括：

处理器(156)，用于提供频谱值的块的序列；

可控转换器(158)，用于通过使用重叠-相加处理将所述频谱值的块的序列转换成时域表示，

其中所述可控转换器(158)由所述窗口信息控制，以将由所述窗口信息表示的窗口函数应用至对应的块以计算译码后的音频或图像信号，

其中所述窗口选自包括至少三个窗口的组，所述三个窗口包括具有第一重叠长度(203)的第一窗口(201)、具有第二重叠长度(218)的第二窗口(215)、以及具有第三重叠长度(229)或不具有重叠的第三窗口(224)，其中所述第一重叠长度(203)大于所述第二重叠长度(218)，并且其中所述第二重叠长度(218)大于所述第三重叠长度(229)或大于零重叠。

18.如权利要求17所述的译码器，其中所述可控转换器(158)包括：

频率-时间转换器(170)，用于将所述频谱值的块转换成时间表示；

合成窗口化装置(172)，用于将合成窗口函数应用至所述频谱值的块的时间表示；以及

重叠-加法器(174)，用于重叠及添加时间相邻的的窗口时间表示，以获得所述译码后的音频或图像信号，

其中所述合成窗口化装置(172)、所述重叠-加法器(174)或所述频率-时间转换器(170)由相关的窗口信息控制，以应用由所述窗口信息(160)表示的重叠及所述合成窗口。

19.如权利要求18所述的译码器，

其中所述窗口信息(603)包括变换长度信息(600)及重叠信息(602)，

其中控制器(180)被配置成用于基于先前窗口信息(606)及当前窗口信息(607)，确定用于频谱值的块的窗口和重叠，

其中当前窗口信息(607)或指示具有第一变换长度的第一变换或每个具有第二变换长度的两个第二变换，或指示具有所述第二变换长度的第二变换及每个具有第三变换长度的两个第三变换或具有所述第三变换长度的四个变换，

其中所述第一变换长度为所述第二变换长度的尺寸的两倍，并且其中所述第二变换长度为所述第三变换长度的尺寸的两倍。

20.如权利要求17至19中的任一项所述的译码器，

其中所述窗口信息(603)包括先前重叠信息(606)，所述先前重叠信息(606)指示先前窗口函数的较后部分的重叠，并且其中所述窗口信息包括当前重叠信息(607)，所述当前重叠信息(607)指示较后部分的重叠，其中所述控制器(180)被配置成用于依据所述先前窗口的所述较后部分的所述重叠信息，确定紧接在所述先前窗口之后的窗口的较早部分。

21.如前述权利要求中的任一项所述的译码器，

其中用于当前帧的所述窗口信息指示变换长度信息(600)，所述变换长度信息(600)要求第二变换长度小于限定所述帧的第一变换长度，

其中所述可控转换器(158)被配置成用于应用与第三变换长度相关的两个或四个窗口的序列，其中在与所述第三变换长度相关的两个时间相邻的的窗口之间的重叠为所述第三重叠长度，并且其中所述第三变换长度小于所述第二变换长度。

22.如权利要求17至21中的任一项所述的译码器，

其中所述第一窗口、所述第二窗口与所述第三窗口具有限定帧的、相关的相同变换尺寸；以及

其中所述第一重叠长度为所述第一窗口的长度的四分之一或三分之一或一半，其中所述第二重叠长度为所述第一重叠长度的一半或三分之一，并且其中所述第三重叠长度为所述第二重叠长度的一半或四分之一或八分之一或小于或等于1.25微秒。

23.如权利要求22所述的译码器，

其中所述可控转换器(158)被配置成用于响应于所述窗口信息，应用具有所述第一重叠长度的第四窗口，其中所述第四窗口具有为第一至第三窗口的所述变换尺寸的一半的相关变换尺寸，或

其中所述可控转换器(158)被配置成用于响应于所述窗口信息，应用具有所述第二重叠长度的第五窗口及具有所述第三重叠长度的第六窗口，其中所述第五窗口与所述第六窗口具有为第一至第三窗口的所述变换尺寸的四分之一的相关的相同变换尺寸。

24.如权利要求23所述的译码器，

其中所述可控转换器(158)被配置成用于响应于所述窗口信息，应用单个第四窗口及两个第六窗口的任意序列，其中所述两个第六窗口具有在重叠窗口部分中的所述第三重叠长度。

25.如权利要求23所述的译码器，

其中所述可控转换器(158)被配置成用于响应于所述窗口信息(603)，应用窗口的序列，该序列包括下述顺序的序列：

第一窗口、第四窗口、第六窗口及第五窗口(708)，

第一窗口、第四窗口及两个第六窗口(710)，

第二窗口、第五窗口、两个第六窗口及第五窗口(704)，

第三窗口及四个第六窗口(706)；

第三窗口、两个第六窗口及第四窗口(700)，

第三窗口、三个第六窗口及第五窗口(702)；

第一窗口及第二窗口，或顺序反过来，

第一窗口、第三窗口，或顺序反过来，或者

第二窗口及第三窗口，或顺序反过来。

26.如权利要求17至25中的任一项所述的译码器，

其中所述窗口指示(603)与所述编码后的音频或图像信号的每个帧相关，其中帧由与所述第一窗口相关的变换所限定，

其中所述窗口指示(603)为具有用于变换长度(600)的位及用于重叠长度(602)的单个或2个位的可变长度码，

其中所述可控转换器(158)被配置成用于应用窗口的序列，窗口的序列由先前窗口指示(606)的重叠长度所限定，以及由紧接在所述编码后的音频或图像信号中的所述先前窗口指示(606)之后的当前窗口指示(607)的重叠长度及变换长度所限定。

27.如权利要求17至26中的任一项所述的译码器，

其中所述可控转换器(158)被配置成用于利用重叠及添加功能执行逆改进的离散余弦变换或逆改进的离散正弦变换或任何其它混叠降低变换。

28.如权利要求17至27中的任一项所述的译码器，

其中所述第一重叠长度包括256个样本或大约10毫秒，其中所述第二重叠长度包括128个样本或大约5毫秒，其中所述第三重叠长度包括16个样本或大约0.6毫秒，且其中所述帧长度包括512个样本或大约20毫秒。

29.如权利要求17至28中的任一项所述的译码器，

其中第一变换长度包括512MDCT或MDST系数，其中第二变换长度包括256MDCT或MDST系数，并且其中第三变换长度包括128MDCT或MDST系数。

30.如权利要求17至26中的任一项所述的译码器，还包括：

用于对如权利要求1至16中的任一项所述的音频或图像信号进行编码的设备。

31.如权利要求30所述的译码器，

其中在用于编码的设备中使用的窗口与在所述译码器中使用的对应窗口相同，及

其中所述译码器具有只读存储器(197)，在只读存储器(197)中仅储存单一组的窗口以在用于编码的所述设备和所述译码器中使用。

32.一种用于对音频或图像信号进行编码的方法，包括：

将所述音频或图像信号窗口化(102)，以提供窗口化样本的块的序列；

将所述窗口化样本的块的序列转换(104)成频谱表示，所述频谱表示包括频谱值的帧的序列；

识别(106)在帧的瞬态预看区域内的瞬态的位置；以及

响应于所识别出的所述瞬态的位置(210-213)，控制(108)所述窗口化(102)，以将具有特定重叠长度的特定窗口应用至所述音频或图像信号，其中所述特定窗口选自包括至少三个窗口的组，所述三个窗口包括具有第一重叠长度(203)的第一窗口(201)、具有第二重叠长度(218)的第二窗口(215)以及具有第三重叠长度(229)或不具有重叠的第三窗口(224)，

其中所述第一重叠长度(203)大于所述第二重叠长度(218)，并且其中所述第二重叠长度(218)大于所述第三重叠长度(229)或大于零重叠，

33.一种用于对音频或图像信号进行译码的方法，所述音频或图像信号包括转换后的窗口化样本的块的序列及相关的窗口信息(160)，所述窗口信息(160)从至少三个不同的窗口函数中识别用于块的特定窗口函数，所述方法包括：

提供(156)频谱值的块的序列；

通过使用重叠-相加处理将所述频谱值的块的序列转换(158)成时域表示，

其中所述转换(158)由所述窗口信息控制，以将由所述窗口信息表示的窗口函数应用至对应的块以计算译码后的音频或图像信号，

34.一种计算机程序，当在计算机或处理器上运行时，所述计算机程序用于执行如权利要求32所述的方法或如权利要求33所述的方法。