CN106663442A

CN106663442A - 使用零输入响应以获得平滑过渡的音频解码器、方法及计算机程序

Info

Publication number: CN106663442A
Application number: CN201580041724.3A
Authority: CN
Inventors: 伊曼纽尔·拉维利; 纪尧姆·福斯; 萨沙·迪施; 马库斯·缪特拉斯; 格热戈日·派特拉维克; 本杰明·舒伯特
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2014-07-28
Filing date: 2015-07-23
Publication date: 2017-05-10
Anticipated expiration: 2035-07-23
Also published as: WO2016016105A1; PL3175453T3; KR101999774B1; TWI588818B; US20170133026A1; US11170797B2; EP3175453A1; MX2017001244A; EP2980797A1; MX360729B; US20240046941A1; RU2017106091A3; CN106663442B; CA2954325C; RU2017106091A; AU2015295588A1; US11922961B2; PT3175453T; JP2022174077A; JP7128151B2

Abstract

使用零输入响应以获得平滑过渡的音频解码器、方法及计算机程序。一种用于基于编码的音频信息(110；210；310)提供解码的音频信息(112；212；312)的音频解码器，该音频解码器包括：线性预测域解码器(120；220；320)，用于基于在线性预测域中编码的音频帧提供第一解码的音频信息(122；222；322；S_c(n))；频域解码器(130；230；330)，用于基于在频域中编码的音频帧提供第二解码的音频信息(132；232；332；S_M(n))，以及过渡处理器(140；240；340)。过渡处理器用于获得线性预测滤波(148；254；346)的零输入响应(150；256；348)，其中根据第一解码的音频信息及第二解码的音频信息定义线性预测滤波的初始状态(146；252；344)。过渡处理器还用于根据零输入响应修改基于跟在线性预测域中编码的音频帧之后的在频域中编码的音频帧所提供的第二解码的音频信息(132；232；332；S_M(n))。

Description

使用零输入响应以获得平滑过渡的音频解码器、方法及计算机程序

1.技术领域

根据本发明的实施例涉及一种用于基于编码的音频信息提供解码的音频信息的音频解码器。

根据本发明的另一实施例涉及一种用于基于编码的音频信息提供解码的音频信息的方法。

根据本发明的另一实施例涉及一种用于执行所述方法的计算机程序。

大体而言，根据本发明的实施例涉及在切换音频编码中处理从CELP编解码器至基于MDCT的编解码器的过渡。

2.背景技术

近年来，对于传输及储存编码的音频信息的需求日益增长。对于包括语音及一般音频(如(例如)音乐、背景噪声及类似)的音频信号的音频编码及音频解码的需求也在增长。

为了改进编码质量且为了改进比特率效率，已引入在不同写码(coding)方案之间切换的切换(或切换的)音频编解码器，使得(例如)第一帧是使用第一编码概念(例如，基于CELP的写码概念)而被编码的，并使得随后的第二音频帧是使用不同的第二写码概念(例如，基于MDCT的写码概念)而被编码的。换言之，切换可存在于在线性预测写码域中编码(例如，使用基于CELP的写码概念)与在频域中写码(例如，基于诸如(例如)FFT变换、逆FFT变换、MDCT变换或逆MDCT变换的时域至频域变换或频域至时域变换的写码)之间。例如，第一写码概念可为基于CELP的写码概念、基于ACELP的写码概念、基于变换写码激励线性预测域(transform-coded-excitation-linear-prediction-domain)的写码概念或类似。第二写码概念可(例如)为基于FFT的写码概念、基于MDCT的写码概念、基于AAC的写码概念或可被视为基于AAC的写码概念的后继概念的写码概念。

下面将描述常规音频写码器(编码器和/或解码器)的一些示例。

切换音频编解码器(如(例如)MPEG USAC)基于两个主音频写码方案。一个写码方案为(例如)针对语音信号的CELP编解码器。另一写码方案为(例如)针对所有其他音频信号(例如，音乐、背景噪声)的基于MDCT的编解码器(下文简称为MDCT)。对于混合内容信号(例如，覆于音乐上的语音)，编码器(以及因此的解码器)往往在两个编码方案之间切换。就在从一个模式(或编码方案)切换至另一模式时有必要避免任何人为现象(artifact)(例如，归因于不连续的点击)。

切换音频编解码器可(例如)包括由CELP至MDCT的过渡引起的问题。

通常，CELP至MDCT的过渡引入两个问题。由于遗失先前MDCT帧，可以引入混叠。由于以低/中等比特率操作的两个写码方案的不完美的波形写码本质，可在CELP帧与MDCT帧之间的边界处引入不连续。

已存在解决由CELP至MDCT的过渡引入的问题的若干方法，并将在下文予以论述。

在Jeremie Lecomte、Philippe Gournay、Ralf Geiger、Bruno Bessette及MaxNeuendorf的文章“Efficient cross-fade windows for transitions between LPC-based and non-LPC based audio coding”(于第126期AES Convention上提出，2009年5月，第771页)中描述一种可能的方法。此文章在4.4.2章“ACELP至non-LPD模式”中描述一种方法。也可参考(例如)所述文章的图8。首先通过增加MDCT长度(此处从1024增至1152)以使得MDCT左折叠点(folding point)在CELP帧与MDCT帧之间的边界的左侧移动，然后通过改变MDCT窗口的左侧部分以使得重叠减少，及最后通过使用CELP信号及重叠相加操作人工引入遗失混叠来解决混叠问题。通过重叠相加操作同时解决不连续问题。

此方法作用良好，但具有在CELP解码器中引入延迟的缺点，该延迟等于重叠长度(此处：128个样本)。

另一方法描述于Bruno Bessette的标注日期为2014年5月13日且标题为“Forwardtime domain aliasing cancellation with application in weighted or originalsignal domain”的US 8,725,503B2中。

在此方法中，未改变MDCT长度(也不改变MDCT窗口形状)。在此通过使用单独的基于变换的编码器对混叠修正信号进行编码来解决混叠问题。将额外旁侧信息比特发送至比特流。该解码器重构混叠修正信号并将其添加至解码的MDCT帧。另外，CELP合成滤波器的零输入响应(ZIR)用于降低混叠修正信号的幅度并提升写码效率。ZIR也有助于显著减少不连续问题。

此方法也作用良好，但缺点在于其需要大量额外旁侧信息并且所需比特数通常是可变的，这不适用于恒定比特率编解码器。

另一方法描述于Stephane Ragot、Balazs Kovesi及Pierre Berthet的标注日期为2013年10月31日且标题为“Low-delay sound-encoding alternating betweenpredictive encoding and transform encoding”的美国专利申请US 2013/0289981A1中。根据所述方法，不改变MDCT，但改变MDCT窗口的左侧部分以降低重叠长度。为解决混叠问题，使用CELP编解码器对MDCT帧的开始进行写码，且随后使用CELP信号以通过完全替换MDCT信号或通过人工引入遗失混叠分量来抵消混叠(类似于上文所提及的JeremieLecomte等人的文章)。当使用类似于Jeremie Lecomte等人的文章的方法时通过重叠相加操作解决不连续问题，否则通过CELP信号与MDCT信号之间的简单交叉渐入渐出(cross-fade)操作来解决。

类似于US 8,725,503B2，此方法通常作用良好，但缺点在于其需要由额外CELP引入的大量旁侧信息。

鉴于上面所描述的常规解决方案，需要具有包括用于在不同写码模式之间切换的改进特性(例如，在比特率开销、延迟及复杂度之间的改进权衡)的概念。

3.发明内容

根据本发明的实施例发明一种用于基于编码的音频信息提供解码的音频信息的音频解码器。该音频解码器包括：线性预测域解码器，其用于基于在线性预测域中编码的音频帧提供第一解码的音频信息；以及频域解码器，其用于基于在频域中编码的音频帧提供第二解码的音频信息。音频解码器还包括过渡处理器。过渡处理器用于获得线性预测滤波的零输入响应，其中根据第一解码的音频信息及第二解码的音频信息定义线性预测滤波的初始状态。过渡处理器还用于根据零输入响应修改第二解码的音频信息以获得在第一解码的音频信息与经修改的第二解码的音频信息之间的平滑过渡，其中第二解码的音频信息是基于跟在在线性预测域中编码的音频帧之后的在频域中编码的音频帧而被提供的。

此音频解码器基于以下发现：假如线性预测滤波的初始状态考虑第一解码的音频信息及第二解码的音频信息，可通过使用线性预测滤波器的零输入响应修改第二解码的音频信息来实现在线性预测域中编码的音频帧与在频域中编码的随后音频帧之间的平滑过渡。相应地，可调适(修改)第二解码的音频信息，以使得经修改的第二解码的音频信息的开始类似于第一解码的音频信息的结束，这有助于减少或甚至避免在第一音频帧与第二音频帧之间的实质不连续。当相比于上文所描述的音频解码器时，即使第二解码的音频信息不包括任何混叠，此概念是大体上可适用的。此外，应注意的是，术语“线性预测滤波”可表示线性预测滤波器的单一应用及线性预测滤波器的多个应用，其中应注意的是，线性预测滤波的单一应用通常等效于同一线性预测滤波器的多个应用，因为线性预测滤波器通常是线性的。

总之，上文所提及的音频解码器允许获得在线性预测域中编码的第一音频帧与在频域(或变换域)中编码的随后第二音频帧之间的平滑过渡，其中未引入延迟，且其中计算工作量相对较小。

根据本发明的另一实施例发明一种用于基于编码的音频信息提供解码的音频信息的音频解码器。音频解码器包括线性预测域解码器，用于基于在线性预测域中(或，等效地，在线性预测域表示中)编码的音频帧提供第一解码的音频信息。音频解码器还包括频域解码器，用于基于在频域中(或，等效地，在频域表示中)编码的音频帧提供第二解码的音频信息。音频解码器还包括过渡处理器。过渡处理器用于响应于由第一解码的音频信息定义的线性预测滤波器的第一初始状态获得线性预测滤波器的第一零输入响应，并响应于由第一解码的音频信息的经修改版本定义的线性预测滤波器的第二初始状态获得线性预测滤波器的第二零输入响应，该经修改版本具有人工混叠且包括第二解码的音频信息的贡献部分(a contribution of a portion)。可选地，过渡处理器用于响应于由第一解码的音频信息及第一解码的音频信息的经修改版本的组合定义的线性预测滤波器的初始状态获得线性预测滤波器的组合零输入响应，该经修改版本具有人工混叠且包括第二解码的音频信息的贡献部分。过渡处理器还用于根据第一零输入响应及第二零输入响应或根据组合零输入响应，修改基于跟在在线性预测域中编码的音频帧之后的在频域中编码的音频帧所提供的第二解码的音频信息，以获得在第一解码的音频信息与经修改的第二解码的音频信息之间的平滑过渡。

根据本发明的此实施例基于以下发现：可通过基于作为线性预测滤波器的零输入响应的信号修改第二解码的音频信息，获得在线性预测域中编码的音频帧与在频域中(或，通常，在变换域中)编码的随后音频帧之间的平滑过渡，通过第一解码的音频信息及第二解码的音频信息定义线性预测滤波器的初始状态。该线性预测滤波器的输出信号可被用于调适第二解码的音频信息(例如，紧跟在第一音频帧与第二音频帧之间的过渡之后的第二解码的音频信息的初始部分)，使得在第一解码的音频信息(与在线性预测域中编码的音频帧相关联)与经修改的第二解码的音频信息(与在频域中或在变换域中编码的音频帧相关联)之间存在平滑过渡而无需修正第一解码的音频信息。

已发现，由于线性预测滤波器的初始状态是基于第一解码的音频信息及第二解码的音频信息，线性预测滤波器的零输入响应很好地适用于提供平滑过渡，其中通过人工混叠补偿第二解码的音频信息中包含的混叠，将该人工混叠被引入至第一解码的音频信息的经修改版本中。

并且，已发现，通过基于第一零输入响应及第二零输入响应或根据组合零输入响应修改第二解码的音频信息，同时使第一解码的音频信息不变，无需解码延迟，因为第一零输入响应及第二零输入响应或组合零输入响应极其良好地适于平滑化在线性预测域中编码的音频帧与在频域(或变换域)中编码的随后音频帧之间的过渡，而不改变第一解码的音频信息，由于第一零输入响应及第二零输入响应或组合零输入响应修改第二解码的音频信息，从而第二解码的音频信息至少在线性预测域中编码的音频帧与频域中编码的随后音频帧之间的过渡处大体类似于第一解码的音频信息。

总之，根据本发明的上文所描述的实施例允许提供在线性预测写码域中编码的音频帧与在频域(或变换域)中编码的随后音频帧之间的平滑过渡，其中避免了额外延迟的引入，因为仅修改了第二解码的音频信息(与在频域中编码的随后音频帧相关联)，且其中可通过使用第一零输入响应及第二零输入响应或组合零输入响应实现过渡的良好质量(无实质的人工现象)，此导致对第一解码的音频信息及第二音频信息的考虑。

在优选的实施例中，频域解码器用于执行逆交叠变换，以使得第二解码的音频信息包括混叠。已发现，即使在频域解码器(或变换域解码器)引入混叠的情况下，以上发明概念也尤其良好地作用。已发现，可通过在第一解码的音频信息的经修改版本中提供人工混叠以适中的工作量及良好结果来抵消所述混叠。

在优选的实施例中，频域解码器用于执行逆交叠变换，使得第二解码的音频信息包括时间部分中的混叠，该时间部分在时间上与线性预测域解码器为之提供了第一解码的音频信息的时间部分重叠，且使得对于跟在线性预测域解码器为之提供了第一解码的音频信息的时间部分之后的时间部分第二解码的音频信息是无混叠的。根据本发明的本实施例基于以下想法：使用交叠变换(或逆交叠变换)及保持该时间部分(没有为该时间部分提供第一解码的音频信息)无混叠的窗口化是有利的。已发现，若无需为时间(没有为该时间提供第一解码的音频信息)提供混叠消除信息，则可以以较小计算工作量提供第一零输入响应及第二零输入响应或组合零输入响应。换言之，优选地，基于初始状态，大体上抵消混叠(例如，使用人工混叠)的初始状态，提供第一零输入响应及第二零输入响应或组合零输入响应。因此，第一零输入响应及第二零输入响应或组合零输入响应大体上是无混叠的，以使得期望在对于跟在线性预测域解码器为之提供了第一解码的音频信息的时段之后的时段，第二解码的音频信息内不具有混叠。关于此问题，应注意的是，通常为跟在线性预测域解码器为之提供了第一解码的音频信息的时段之后的所述时段提供第一零输入响应及第二零输入响应或组合零输入响应，因为考虑到第二解码的音频信息及通常考虑到补偿包含在用于“重叠”时段的第二解码的音频信息中的混叠的人工混叠，第一零输入响应及第二零输入响应或组合零输入响应大体上为第一解码的音频信息的衰落接续。

在优选的实施例中，第二解码的音频信息的用于获得第一解码的音频信息的经修改版本的部分包括混叠。通过允许第二解码的音频信息内的一些混叠，可保持窗口化简单，且可避免对在频域中编码的音频帧进行编码所需的信息的过量增加。第二解码的音频信息的用于获得第一解码的音频信息的经修改版本的部分中所包括的混叠可通过上文所提及的人工混叠得到补偿，从而音频质量不存在严重降级。

在优选的实施例中，用于获得第一解码的音频信息的经修改版本的人工混叠至少部分补偿第二解码的音频信息的用于获得第一解码的音频信息的经修改版本的部分中所包括的混叠。因此，可获得良好音频质量。

在优选的实施例中，过渡处理器用于对第一解码的音频信息施加第一窗口化，以获得第一解码的音频信息的窗口化版本，且对第一解码的音频信息的时间镜像版本施加第二窗口化，以获得第一解码的音频信息的时间镜像版本的窗口化版本。在此情况下，该过渡处理器可用于组合第一解码的音频信息的窗口化版本及第一解码的音频信息的时间镜像版本的窗口化版本，以便获得第一解码的音频信息的经修改版本。根据本发明的此实施例基于以下想法：应施加一些窗口化以便获得第一解码的音频信息的经修改版本中的混叠的适当抵消，其用作用于提供零输入响应的输入。相应地，可达成零输入响应(例如，第二零输入响应或组合零输入响应)极其良好地适用于在线性预测写码域中编码的音频信息与在频域中编码的随后音频帧之间的过渡的平滑化。

在优选的实施例中，对于线性预测域解码器并未为之提供第一解码的音频信息的时间部分，过渡处理器用于将第二解码的音频信息与第一零输入响应及第二零输入响应，或与组合零输入响应线性地组合，以便获得经修改的第二解码的音频信息。已发现，简单线性组合(例如，简单相加和/或相减，或加权线性组合，或交叉渐入渐出线性组合)很好地适用于平滑过渡的提供。

在优选的实施例中，过渡处理器用于在为在线性预测域中编码的音频帧提供解码的音频信息时，使第一解码的音频信息不被第二解码的音频信息改变，以使得独立于为在频域中编码的随后音频帧提供的解码的音频信息而提供为在线性预测域中编码的音频帧提供的解码的音频信息。已发现，根据本发明的概念不需要基于第二解码的音频信息改变第一解码的音频信息以便获得足够平滑的过渡。因此，通过使第一解码的音频信息不被第二解码的音频信息改变，可避免延迟，因为即使在完成第二解码的音频信息(与在频域中编码的随后音频帧相关联)的解码之前，第一解码的音频信息也可因此被提供用于渲染(例如，至收听者)。相反，一旦第二解码的音频信息可用，即可计算零输入响应(第一零输入响应及第二零输入响应，或组合零输入响应)。因此，可避免延迟。

在优选的实施例中，音频解码器用于在解码在频域中编码的音频帧之前(或在完成解码之前)，为在线性预测域中编码的音频帧提供完全解码的音频信息，在线性预测域中编码的音频帧之后跟着在频域中编码的音频帧。由于未基于第二解码的音频信息修改第一解码的音频信息的事实，此概念是可能的且有助于避免任何延迟。

在优选的实施例中，过渡处理器用于在根据窗口化的第一零输入响应及窗口化的第二零输入响应或根据窗口化的组合零输入响应而修改第二解码的音频信息之前，窗口化第一零输入响应及第二零输入响应或组合零输入响应。因此，可使过渡尤其平滑。并且，可避免由极长零输入响应导致的任何问题。

在优选的实施例中，过渡处理器用于使用线性窗口将第一零输入响应及第二零输入响应或组合零输入响应窗口化。已发现，线性窗口的使用是简单概念，但其仍然带来良好听觉印象。

根据本发明的实施例发明一种用于基于编码的音频信息提供解码的音频信息的方法。该方法包括执行线性预测域解码以基于在线性预测域中编码的音频帧提供第一解码的音频信息。该方法还包括执行频域解码以基于在频域中编码的音频帧提供第二解码的音频信息。该方法还包括响应于由第一解码的音频信息定义的线性预测滤波的第一初始状态获得线性预测滤波的第一零输入响应，并响应于由第一解码的音频信息的经修改版本定义的线性预测滤波的第二初始状态获得线性预测滤波的第二零输入响应，该经修改版本具备人工混叠且包括第二解码的音频信息的贡献部分。可选地，该方法包括响应于由第一解码的音频信息及第一解码的音频信息的经修改版本的组合定义的线性预测滤波的初始状态获得线性预测滤波的组合零输入响应，该经修改版本具备人工混叠，且包括第二解码的音频信息的贡献部分。该方法还包括根据第一零输入响应及第二零输入响应或根据组合零输入响应，修改基于跟在在线性预测域中编码的音频帧之后的在频域中编码的音频帧所提供的第二解码的音频信息，以获得在第一解码的音频信息与经修改的第二解码的音频信息之间的平滑过渡。此方法基于与上文所描述的音频解码器类似的考虑因素且带来相同优势。

本发明的另一实施例发明一种计算机程序，当计算机程序在计算机上运行时，该计算机程序用于执行所述方法。

根据本发明的另一实施例发明一种用于基于编码的音频信息提供解码的音频信息的方法。该方法包括基于在线性预测域中编码的音频帧提供第一解码的音频信息。该方法还包括基于在频域中编码的音频帧提供第二解码的音频信息。该方法还包括获得线性预测滤波的零输入响应，其中根据第一解码的音频信息及第二解码的音频信息定义线性预测滤波的初始状态。该方法还包含根据零输入响应，修改基于跟在在线性预测域中编码的音频帧之后的在频域中编码的音频帧所提供的第二解码的音频信息，以获得在第一解码的音频信息与经修改的第二解码的音频信息之间的平滑过渡。

此方法基于与上文所描述的音频解码器相同的考虑因素。

根据本发明的另一实施例包括一种用于执行所述方法的计算机程序。

4.附图说明

随后将参考附图论述根据本发明的实施例，其中：

图1展示根据本发明的实施例的音频解码器的示意性框图；

图2展示根据本发明的另一实施例的音频解码器的示意性框图；

图3展示根据本发明的另一实施例的音频编码器的示意性框图；

图4a展示在从MDCT编码的音频帧至另一MDCT编码的音频帧的过渡处的窗口的示意性表示；

图4b展示用于从CELP编码的音频帧至MDCT编码的音频帧的过渡的窗口的示意性表示；

图5a、图5b及图5c展示常规音频解码器中的音频信号的图形化表示；

图6a、图6b、图6c及图6d展示常规音频解码器中的音频信号的图形化表示；

图7a展示基于先前CELP帧及第一零输入响应所获得的音频信号的图形化表示；

图7b展示作为先前CELP帧及第二零输入响应的第二版本的音频信号的图形化表示；

图7c展示当从当前MDCT帧的音频信号中减去第二零输入响应时所获得的音频信号的图形化表示；

图8a展示基于先前CELP帧所获得的音频信号的图形化表示；

图8b展示作为当前MDCT帧的第二版本而获得的音频信号的图形化表示；以及

图8c展示作为基于先前CELP帧所获得的音频信号与作为MDCT帧的第二版本的音频信号的组合的音频信号的图形化表示；

图9展示根据本发明的实施例的用于提供解码的音频信息的方法的流程图；以及

图10展示根据本发明的另一实施例的用于提供解码的音频信息的方法的流程图。

5.具体实施方式

5.1.根据图1的音频解码器

图1展示根据本发明的实施例的音频解码器100的示意性框图。音频编码器100用于接收编码的音频信息110，其可(例如)包括在线性预测域中编码的第一帧及在频域中编码的随后第二帧。音频解码器100还用于基于编码的音频信息110提供解码的音频信息112。

音频解码器100包括线性预测域解码器120，其用于基于在线性预测域中编码的音频帧提供第一解码的音频信息122。音频解码器100还包括频域解码器(或变换域解码器130)，其用于基于在频域中(或在变换域中)编码的音频帧提供第二解码的音频信息132。例如，线性预测域解码器120可以是CELP解码器、ACELP解码器或基于激励信号及基于线性预测滤波器特性(或滤波器系数)的编码表示执行线性预测滤波的类似解码器。

频域解码器130可以(例如)是AAC型解码器或基于AAC型解码的任何解码器。例如，频域解码器(或变换域解码器)可接收频域参数(或变换域参数)的编码表示并基于该表示提供第二解码的音频信息。例如，频域解码器130可解码频域系数(或变换域系数)，根据缩放因子缩放频域系数(或变换域系数)(其中缩放因子可以为不同频带提供，且可以以不同形式表示)，并执行频域至时域的转换(或变换域至时域的转换)，如(例如)逆快速傅里叶变换或逆改进的离散余弦变换(逆MDCT)。

音频解码器100还包括过渡处理器140。过渡处理器140用于获得线性预测滤波的零输入响应，其中根据第一解码的音频信息及第二解码的音频信息定义线性预测滤波的初始状态。此外，过渡处理器140用于根据零输入响应，修改基于跟在在线性预测域中编码的音频帧之后的在频域中编码的音频帧所提供的第二解码的音频信息132，以获得在第一解码的音频信息与经修改的第二解码的音频信息之间的平滑过渡。

例如，过渡处理器140可包括初始状态判定144，其接收第一解码的音频信息122及第二解码的音频信息132且基于该信息提供初始状态信息146。过渡处理器140还包括线性预测滤波148，其接收初始状态信息146且基于该信息提供零输入响应150。例如，线性预测滤波可由线性预测滤波器执行，该线性预测滤波器基于初始状态信息146被初始化且具备零输入。相应地，线性预测滤波提供零输入响应150。过渡处理器140还包括修改152，其根据零输入响应150修改第二解码的音频信息132，以借此获得经修改的第二解码的音频信息142，其构成过渡处理器140的输出信息。经修改的第二解码的音频信息142通常与第一解码的音频信息122串接以获得解码的音频信息112。

关于音频解码器100的功能，应考虑以下情况：在线性预测域中编码的音频帧(第一音频帧)之后跟着在频域中编码的音频帧(第二音频帧)。在线性预测域中编码的第一音频帧将由线性预测域解码器120解码。相应地，获得第一解码的音频信息122，其与第一音频帧相关联。然而，与第一音频帧相关联的解码的音频信息122通常保持不受基于第二音频帧解码的任何音频信息的影响，该第二音频帧在频域中被编码。然而，基于在频域中编码的第二音频帧，频域解码器130提供第二解码的音频信息132。

遗憾的是，与第二音频帧相关联的第二解码的音频信息132通常不包括与关联于第一解码的音频信息的第一解码的音频信息122的平滑过渡。

然而，应注意的是，为与关联于第一音频帧的时段重叠的时段提供第二解码的音频信息。通过初始状态判定144评估为第一音频帧的时间提供的第二解码的音频信息的部分(即第二解码的音频信息132的初始部分)。此外，初始状态判定144还评估第一解码的音频信息的至少部分。相应地，初始状态判定144基于第一解码的音频信息的部分(与第一音频帧的时间相关联的那部分)及基于第二解码的音频信息的部分(第二解码的音频信息130的也与第一音频帧的时间相关联的那部分)来获得初始状态信息146。相应地，根据第一解码的信息132且还根据第二解码的音频信息提供初始状态信息146。

应注意的是，一旦第二解码的音频信息132(或初始状态判定144所需的其至少初始部分)可用，即可提供初始状态信息146。一旦初始状态信息146可用，则也可执行线性预测滤波148，因为线性预测滤波使用已从第一音频帧的解码而获知的滤波系数。相应地，一旦第二解码的音频信息132(或初始状态判定144所需的其至少初始部分)可用，即可提供零输入响应150。此外，零输入响应150可用于修改与第二音频帧的时间(而非第一音频帧的时间)相关联的第二解码的音频信息132的部分。相应地，修改通常处于与第二音频帧相关联的时间的开始处的第二解码的音频信息的部分。因此，实现在第一解码的音频信息122(其通常结束于与第一音频帧相关联的时间结尾)与经修改的第二解码的音频信息142之间的平滑过渡(其中优选地舍弃具有与第一音频帧相关联的时间的第二解码的音频信息132的时间部分，且因此该时间部分优选地仅用于提供用于线性预测滤波的初始状态信息)。相应地，整体解码的音频信息112可不具备延迟，此是由于未延迟提供第一解码的音频信息122(因为第一解码的音频信息122独立于第二解码的音频信息132)，且因为一旦第二解码的音频信息132可用，即可提供经修改的第二解码的音频信息142。相应地，即使存在从在线性预测域中编码的音频帧(第一音频帧)至在频域中编码的音频帧(第二音频帧)的切换，也可在解码的音频信息112内实现在不同音频帧之间的平滑过渡。

然而，应注意的是，可通过本文中所描述的特征及功能中的任一者对音频解码器100进行补充。

5.2.根据图2的音频解码器

图2展示根据本发明的另一实施例的音频解码器的示意性框图。音频解码器200用于接收编码的音频信息210，其可(例如)包括在线性预测域中(或等效地，在线性预测域表示中)编码的一个或多个帧，及在频域中(或等效地，在变换域中，或等效地在频域表示中，或等效地在变换域表示中)编码的一个或多个音频帧。音频解码器200用于基于编码的音频信息210提供解码的音频信息212，其中解码的音频信息212可(例如)在时域表示中。

音频解码器200包括线性预测域解码器220，其大体上等同于线性预测域解码器120，以使得上文的解释适用。因此，线性预测域解码器210接收包含于编码的音频信息210中的在线性预测域表示中编码的音频帧，且基于在线性预测域表示中编码的音频帧提供第一解码的音频信息222，其通常呈时域音频表示的形式(且其通常对应于第一解码的音频信息122)。音频解码器200还包括大体上等同于频率解码器130的频域解码器230，以使得以上解释适用。相应地，频域解码器230接收在频域表示中(或在变换域表示中)编码的音频帧且基于该帧提供通常呈时域表示的形式的第二解码的音频信息232。

音频解码器200还包括过渡处理器240，其用于修改第二解码的音频信息232，以借此得出经修改的第二解码的音频信息242。

过渡处理器240用于响应于由第一解码的音频信息222定义的线性预测滤波器的初始状态获得线性预测滤波器的第一零输入响应。过渡处理器还用于响应于由第一解码的音频信息的经修改版本定义的线性预测滤波器的第二初始状态获得线性预测滤波器的第二零输入响应，经修改版本具备人工混叠且包括第二解码的音频信息232的贡献部分。例如，过渡处理器240包括初始状态判定242，其接收第一解码的音频信息222且其基于该信息提供第一初始状态信息244。例如，第一初始状态信息244可简单地反映第一解码的音频信息222的部分，例如与关联于第一音频帧的时间部分的结尾邻近的部分。过渡处理器240还可包括(第一)线性预测滤波246，其用于接收第一初始状态信息244作为初始线性预测滤波器状态，并用于基于第一初始状态信息244提供第一零输入响应248。过渡处理器240还包括修改/混叠相加/组合250，其用于接收第一解码的音频信息222或其至少部分(例如，与关联于第一音频帧的时间部分的结尾邻近的部分)，且还接收第二解码的信息232或其至少部分(例如，在时间上布置在与第一音频帧相关联的时间部分的结尾的第二解码的音频信息232的时间部分，其中第二解码的音频信息被提供(例如)主要用于与第二音频帧相关联的时间部分，而且在某种程度上，用于与在线性预测域表示中编码的第一音频帧相关联的时间部分的结尾)。修改/混叠相加/组合可(例如)修改第一解码的音频信息的时间部分，添加基于第一解码的音频信息的时间部分的人工混叠，以及还添加第二解码的音频信息的时间部分，以借此获得第二初始状态信息252。换言之，修改/混叠相加/组合可以是第二初始状态判定的部分。第二初始状态信息确定用于基于第二初始状态信息提供第二零输入响应256的第二线性预测滤波254的初始状态。

例如，第一线性预测滤波及第二线性预测滤波可使用滤波器设置(例如，滤波器系数)，其由用于第一音频帧(其在线性预测域表示中被编码)的线性预测域解码器220提供。换言之，第一线性预测滤波246及第二线性预测滤波254可执行也由线性预测域解码器220执行以获得与第一音频帧相关联的第一解码的音频信息222的相同线性预测滤波。然而，第一线性预测滤波246可设定为通过第一初始状态判定244确定的值及第二线性预测滤波254的初始状态可设定为通过第二初始状态判定250(其包括修改/混叠相加/组合)确定的值。然而，可将线性预测滤波器246、254的输入信号设定为零。相应地，获得第一零输入响应248及第二零输入响应256，以使得第一零输入响应及第二零输入响应基于第一解码的音频信息及第二解码的音频信息，并且是使用线性预测域解码器220所使用的相同线性预测滤波器而被成形的。

过渡处理器240还包括修改258，其接收第二编码的音频信息232并根据第一零输入响应248及根据第二零输入响应256修改第二解码的音频信息232，以借此获得经修改的第二解码的音频信息242。例如，修改258可将第一零输入响应248与第二解码的音频信息232相加和/或从第二解码的音频信息232中减去第一零输入响应248，且可将第二零输入响应256与第二解码的音频信息相加或从第二解码的音频信息中减去第二零输入响应256，以获得经修改的第二解码的音频信息242。

例如，可为与第二音频帧相关联的时段提供第一零输入响应及第二零输入响应，以使得仅修改与第二音频帧的时段相关联的第二解码的音频信息的部分。此外，可在最终提供经修改的第二解码的音频信息(基于零输入响应)时舍弃与关联于第一音频帧的时间部分相关联的第二解码的音频信息232的值。

此外，音频解码器200优选地用于串接第一解码的音频信息222及经修改的第二解码的音频信息242，以借此获得整体解码的音频信息212。

关于音频解码器200的功能，参考以上对音频解码器100的解释。此外，将在下文中参考其他附图描述额外细节。

5.3.根据图3的音频解码器

图3展示根据本发明的实施例的音频解码器300的示意性框图。音频解码器300类似于音频解码器200，以便仅详细地描述差异。在其他方面，参考以上关于音频解码器200提出的解释。

音频解码器300用于接收编码的音频信息310，其可对应于编码的音频信息210。此外，音频解码器300用于提供解码的音频信息312，其可对应于解码的音频信息212。

音频解码器300包括可对应于线性预测域解码器220的线性预测域解码器320及对应于频域解码器230的频域解码器330。线性预测域解码器320(例如)基于在线性预测域中编码的第一音频帧提供第一解码的音频信息322。此外，频域音频解码器330(例如)基于在频域中(或在变换域中)编码的第二音频帧(其跟在第一音频帧之后)提供第二解码的音频信息332。第一解码的音频信息322可对应于第一解码的音频信息222，且第二解码的音频信息332可对应于第二解码的音频信息232。

音频解码器300还包括过渡处理器340，其在其整体功能方面可对应于过渡处理器340，且其可基于第二解码的音频信息332提供经修改的第二解码的音频信息342。

过渡处理器340用于响应于由第一解码的音频信息及第一解码的音频信息的经修改版本的组合定义的线性预测滤波器的(组合)初始状态获得线性预测滤波器的组合零输入响应，该经修改版本具备人工混叠且包括第二解码的音频信息的贡献部分。此外，过渡处理器用于根据组合零输入响应，修改基于跟在在线性预测域中编码的音频帧之后的在频域中编码的音频帧所提供的第二解码的音频信息，以获得在第一解码的音频信息与经修改的第二解码的音频信息之间的平滑过渡。

例如，过渡处理器340包含修改/混叠相加/组合342，其接收第一解码的音频信息322及第二解码的音频信息332，并基于该等信息提供组合初始状态信息344。例如，修改/混叠相加/组合可被视为初始状态判定。还应注意的是，修改/混叠相加/组合342可执行初始状态判定242及初始状态判定250的功能。组合初始状态信息344可(例如)，等于(或至少对应于)第一初始状态信息244及第二初始状态信息252的总和。相应地，修改/混叠相加/组合342可(例如)将第一解码的音频信息322的部分与人工混叠组合且也可将其与第二解码的音频信息332的部分组合。此外，修改/混叠相加/组合342还可修改第一解码的音频信息的部分和/或添加第一解码的音频信息322的窗口化副本，如下文将更详细地描述。相应地，获得组合初始状态信息344。

过渡处理器340还包括线性预测滤波346，其接收组合初始状态信息344及基于该信息向修改350提供组合零输入响应348。线性预测滤波346可(例如)执行大体上与由线性预测解码器320执行的以获得第一解码的音频信息322的线性预测滤波等同的线性预测滤波。然而，线性预测滤波346的初始状态可由组合初始状态信息344确定。同样，用于提供组合零输入响应348的输入信号可设定为零，使得线性预测滤波344基于组合初始状态信息344提供零输入响应，(其中滤波参数或滤波系数是(例如)等同于被线性预测域解码器320用来提供与第一音频帧相关联的第一解码的音频信息322的滤波参数或滤波系数)。此外，组合零输入响应348用于修改第二解码的音频信息332，以借此得出经修改的第二解码的音频信息342。例如，修改350可将组合零输入响应348与第二解码的音频信息332相加，或可从第二解码的音频信息中减去组合零输入响应。

然而，对于进一步的细节，参考对音频解码器100、200的解释及参考以下详细解释。

5.4.过渡概念的论述

在下文中，将描述关于从CELP帧至MDCT帧的过渡的一些细节，其可适用于音频解码器100、200、300中。

并且，将描述相较于常规概念的差异。

MDCT及窗口化-概述

在根据本发明的实施例中，通过增加MDCT长度(例如，用于跟在在线性预测域中编码的音频帧之后的在MDCT域中编码的音频帧)，以使得左折叠点(例如，使用逆MDCT变换基于MDCT系数集合重构的时域音频信号的折叠点)在CELP帧与MDCT帧之间的边界的左侧移动，从而解决混叠问题。(例如，相较于“正常”MDCT窗口)还改变MDCT窗口(例如，应用于使用逆MDCT变换基于MDCT系数集合重构的时域音频信号的窗口)的左侧部分，从而减少重叠。

作为示例，图4a及图4b展示不同窗口的图形化表示，其中图4a展示用于从第一MDCT帧(即在频域中编码的第一音频帧)至另一MDCT帧(即在频域中编码的第二音频帧)的过渡的窗口。相反，图4b展示用于从CELP帧(即在线性预测域中编码的第一音频帧)至MDCT帧(即在频域中编码的随后第二音频帧)的过渡的窗口。

换言之，图4a展示可被视为比较示例的音频帧的序列。相反，图4b展示序列，其中第一音频帧在线性预测域中被编码，且其后跟着在频域中编码的第二音频帧，其中通过本发明的实施例以尤其有利的方式处理根据图4b的情况。

现参考图4a，应注意的是，横坐标410以毫秒描述时间，且纵坐标412以任意单位描述窗口的幅度(例如，窗口的归一化幅度)。如所见，帧长度等于20ms，以使得与第一音频帧相关联的时段在t＝-20ms及t＝0之间延伸。与第二音频帧相关联的时段从时间t＝0延伸至t＝20ms。然而，可见到，用于窗口化由逆改进的离散余弦变换基于解码的MDCT系数提供的时域音频样本的第一窗口在时间t＝-20ms及t＝8.75ms之间延伸。因此，第一窗口420的长度比帧长度(20ms)长。相应地，即使在t＝-20ms及t＝0之间的时间与第一音频帧相关联，对于在t＝-20ms与t＝8.75ms之间的时间，基于第一音频帧的解码提供时域音频样本。因此，在基于第一编码的音频帧提供的时域音频样本与基于第二解码的音频帧提供的时域音频样本之间存在大约8.75ms的重叠。应注意的是，第二窗口由422表示，且在时间t＝0与t＝28.75ms之间延伸。

此外，应注意的是，为第一音频帧及为第二音频帧提供的窗口化的时域音频信号不是无混叠的，相反，为第一音频帧提供的窗口化的(第二)解码的音频信息包括在时间t＝-20ms与t＝-11.25ms之间且也在时间t＝0与t＝8.75ms之间的混叠。类似地，为第二音频帧提供的窗口化的解码的音频信息包括在时间t＝0与t＝8.75ms之间且也在时间t＝20ms与t＝28.75ms之间的混叠。然而，例如，在时间t＝0与t＝8.75ms之间的时间部分中，在为第一音频帧提供的解码的音频信息中包括的混叠抵消在为随后第二音频帧提供的解码的音频信息中包括的混叠。

此外，应注意的是，对于窗口420及422，MDCT折叠点之间的持续时间等于20ms，其等于帧长度。

现参考图4b，将描述不同情况，即可在音频解码器100、200、300中用于提供第二解码的音频信息的用于从CELP帧至MDCT帧的过渡的窗口。在图4b中，横坐标430以毫秒描述时间，且纵坐标432以任意单位描述窗口的幅度。

如图4b中可见，第一帧在时间t₁＝-20ms和时间t₂＝0ms之间延伸。因此，第一音频帧(其为CELP音频帧)的帧长度为20ms。此外，第二随后音频帧在时间t₂与t₃＝20ms之间延伸。因此，第二音频帧(其为MDCT音频帧)的长度也为20ms。

在下文中，将描述关于窗口440的一些细节。

窗口440包括在时间t₄＝-1.25ms与时间t₂＝0ms之间延伸的第一窗口倾斜(slope)442。第二窗口倾斜444在时间t₃＝20ms与时间t₅＝28.75ms之间延伸。应注意的是，提供用于第二音频帧的(或与第二音频帧相关联的)(第二)解码的音频信息的经修改的离散余弦变换提供在时间t4与t5之间的时域样本。然而，经修改的离散余弦变换(或，更精确地，逆改进的离散余弦变换)(若在频域(例如MDCT域)中编码的音频帧跟在在线性预测域中编码的音频帧之后，则其可用于频域解码器130、230、330中)基于第二音频帧的频域表示提供时域样本，其包含用于t₄与t₂之间的时间及用于时间t₃与时间t₅之间的时间的混叠。相反，逆改进型修改离散余弦变换基于第二音频帧的频域表示提供用于时间t₂与t₃之间的时段的无混叠时域样本。因此，第一窗口倾斜442与包括一些混叠的时域音频样本相关联，且第二窗口倾斜444也与包括一些混叠的时域音频样本相关联。

并且，应注意的是，对于第二音频帧，MDCT折叠点之间的时间等于25ms，其暗示经编码的MDCT系数的数目对于图4b中所展示的情况下应比对于图4a中所展示的情况的大。

总之，音频解码器100、200、300可在第一音频帧及跟在第一音频帧之后的第二音频帧在频域中(例如，在MDCT域中)被编码的情况下，应用窗口420、422(例如，用于对频域解码器中的逆改进型离散余弦变换的输出的窗口化)。相反，音频解码器100、200、300可在第二音频帧在频域中(例如，在MDCT域中)被编码的情况下切换频域解码器的操作，该第二音频帧跟在在线性预测域中编码的第一音频帧之后。例如，若第二音频帧在MDCT域中被编码且跟在在CELP域中编码的先前第一音频帧之后，则可使用使用增加数目的MDCT系数的逆改进型离散余弦变换(其暗示，在相较于跟在在频域中编码的先前音频帧之后的编码的音频帧的频域表示时，在跟在在线性预测域中编码的先前音频帧之后的音频帧的频域表示中，以编码的形式包含增加数目的MDCT系数)。此外，在于频域中编码的第二(当前)音频帧跟在在线性预测域中编码的音频帧之后的情况下(在相较于第二(当前)音频帧跟在也在频域中编码的先前音频帧之后的情况时)，应用不同的窗口(即窗口440)以窗口化逆改进型离散余弦变换的输出(即，由逆改进型离散余弦变换提供的时域音频表示)以获得第二解码的音频信息132。

总之，进一步地，在频域中编码的音频帧跟在在线性预测域中编码的音频帧之后的情况下，频域解码器130可应用具有增加长度(在相较于正常情况时)的逆改进型离散余弦变换。此外，窗口440可用于此情况(而窗口420、422可用于“正常”情况，其中在频域中编码的音频帧跟在在频域中编码的先前音频域之后)。

关于本发明概念，应注意的是，不修改CELP信号以免引入任何额外延迟，如将在下文更详细地展示。相反，根据本发明的实施例发明用于移除可在CELP与MDCT帧之间的边界处引入的任何不连续的机制。此机制使用CELP合成滤波器(其(例如)由线性预测域解码器使用)的零输入响应将不连续平滑化。在下文中给出细节。

逐步描述-概述

下面将提供简短的逐步描述。随后，将给出更多细节。

编码器侧

1.当先前帧(有时也用“第一帧”表示)为CELP(或，通常，在线性预测域中被编码)时，以不同的MDCT长度及不同的MDCT窗口对当前MDCT帧(有时也表示为“第二帧”)(其可被视为在频域中或在变换域中编码的帧的示例)进行编码。例如，在此情况下可使用窗口440(而非“正常”窗口422)。

2.增加MDCT长度(例如从20ms至25ms，参见图4a及4b)，使得左折叠点在CELP帧与MDCT帧之间的边界的左侧移动。例如，可选择MDCT长度(其可通过MDCT系数的数目定义)，使得在相较于20ms的MDCT折叠点之间的“正常”长度(如图4a中所展示)时，MDCT折叠点的(或之间的)长度等于25ms(如图4b中所展示)。亦可见，MDCT变换的“左”折叠点处于时间t₄与t₂之间(而非在时间t＝0与t＝8.75ms之间的中间)，此在图4b中可见。然而，右MDCT折叠点的位置可保持不变(例如，在时间t₃与t₅之间的中间)，此可从图4a与图4b的(或，更精确地，窗口422与440的)比较可见。

3.改变MDCT窗口的左侧部分，从而减少重叠长度(例如从8.75ms至1.25ms)。例如，在先前音频帧在线性预测域中被编码的情况下，包含混叠的部分处于时间t₄＝-1.25ms与t₂＝0之间(即在开始于t＝0处且结束于t＝20ms处的与第二音频帧相关联的时段之前)。相反，在在先音频帧在频域中(例如，在MDCT域中)被编码的情况下，包括混叠的信号部分处于时间t＝0与t＝8.75ms之间。

解码器侧

1.当先前帧(也表示为“第一音频帧”)为CELP(或，通常，在线性预测域中被编码)时，以与在编码器侧使用的相同MDCT长度及相同MDCT窗口对当前MDCT帧(也表示为“第二音频帧”)(其可被视为在频域中或在变换域中编码的帧的示例)进行解码。换言之，将图4b中所展示的窗口化应用于提供第二解码的音频信息，且也可应用上文所提及的关于逆改进型离散余弦变换的特性(其对应于在编码器侧处使用的改进型离散余弦变换的特性)。

2.为了移除可出现在CELP帧与MDCT帧之间的边界处(例如，在上文所提及的第一音频帧与第二音频帧之间的边界处)的任何不连续，使用以下机制：

a)通过使用CELP信号(例如，使用第一解码的音频信息)及重叠相加操作人工地引入MDCT信号的重叠部分(例如，由逆改进型离散余弦变换提供的时域音频信号的时间t₄与t₂之间的信号部分)的遗失混叠来构造信号的第一部分。信号的第一部分的长度(例如)等于重叠长度(例如，1.25ms)。

b)通过将信号的第一部分减至对应的CELP信号(刚好位于(例如)第一音频帧与第二音频帧之间的帧边界之前的部分)来构造信号的第二部分。

c)通过对零的帧进行滤波及使用信号的第二部分作为记忆状态(或作为初始状态)生成CELP合成滤波器的零输入响应。

d)零输入响应(例如)被窗口化，以使得其在大量样本(例如，64个)之后减小为零。

e)将窗口化的零输入响应添加至MDCT信号的开始部分(例如，起始于时间t₂＝0处的音频部分)。

逐步描述-解码器功能的详细描述

在下文中，将更详细地描述解码器的功能。

将应用以下标注：帧长度标注为N，解码的CELP信号标注为S_C(n)，解码的MDCT信号(包括窗口化的重叠信号)标注为S_M(n)，用于对MDCT信号的左侧部分进行窗口化的窗口为w(n)，以L表示窗口长度，且CELP合成滤波器标注为其中且M为滤波器阶数。

步骤1的详细描述

在解码器侧步骤1(使用用于编码器侧的相同MDCT长度及相同MDCT窗口对当前MDCT帧进行解码)之后，我们得到当前解码的MDCT帧(例如，构成上文所提及的第二解码的音频信息的“第二音频帧”的时域表示。此帧(例如，第二帧)不含有任何混叠，因为左折叠点在CELP帧与MDCT帧之间的边界的左侧移动(例如，使用如参考图4b详细描述的概念)。此意味着我们可以以足够高的比特率在当前帧(例如，在时间t₂＝0与t₃＝20ms之间)中得到完美重构。然而，在低比特率下，信号无需匹配输入信号，且因此可在CELP与MDCT之间的边界处(例如，在时间t＝0处，如图4b中所展示)引入不连续。

为了方便理解，将参考图5说明此问题。上部曲线(图5a)展示解码的CELP信号S_C(n)，中间曲线(图5b)展示解码的MDCT信号(包括窗口化的重叠信号)S_M(n)，且下部曲线(图5c)展示通过丢弃窗口化的重叠信号及串接CELP帧和MDCT帧而获得的输出信号。在输出信号中两个帧之间的边界处(例如，在时间t＝0处)明显地存在不连续(图5c中所展示)。

进一步处理的比较示例

对此问题的一个可能解决方案是在上文提及的参考文献1(J.Lecomte等人的“Efficient cross-fade windows for transitions between LPC-based and non-LPCbased audio coding”)中提出的方法，其描述用于MPEG USAC中的概念。在下文中，将提供对该参考方法的简要描述。

解码的CELP信号的第二版本首先被初始化为等于解码的CELP信号

然后将遗失混叠人工地引入重叠区域中

最后，使用重叠相加操作获得解码的CELP信号的第二版本

如图6a至图6d中可见，此比较方法移除不连续(特别地，参见图6d)。此方法的问题在于，由于在已解码了当前帧之后修改了以往帧，其引入额外延迟(等于重叠长度)。在一些应用中，如低延迟音频编码，需要(或甚至要求)具有尽可能小的延迟。

处理步骤的详细描述

与上文所提及的常规方法相反，本文中提出的移除不连续的方法并不具有任何额外延迟。其并不修改以往CELP帧(也表示为第一音频帧)，而是修改当前MDCT帧(也表示为跟在在线性预测域中编码的第一音频帧之后的在频域中编码的第二音频帧)。

步骤a)

在第一步骤中，如先前所描述地计算以往ACELP帧的“第二版本”例如，可使用以下计算：

然后将遗失混叠人工地引入重叠区域中

最后，使用重叠相加操作获得解码的CELP信号的第二版本

然而，与参考文献1(J.Lecomte等人的“Efficient cross-fade windows fortransitions betweenLPC-based and non-LPC-based audio coding”)相反，不以以往ACELP帧的此版本替换以往解码的ACELP信号，以使得不引入任何额外延迟。如接下来的步骤中所描述，其仅用作用于修改当前MDCT帧的中间信号。

换言之，初始状态判定144、修改/混叠相加/组合250或修改/混叠相加/组合342可(例如)提供信号来作为对初始状态信息146或组合初始状态信息344的贡献，或作为第二初始状态信息252。因此，初始状态判定144、修改/混叠相加/组合250或修改/混叠相加/组合342可(例如)对解码的CELP信号S_C施加窗口化(与窗口值w(-n-1)w(-n-1)相乘)、添加用窗口化(w(n+L)w(-n-1))缩放的解码的CELP信号的时间镜像版本(S_C(-n-L-1))以及添加解码的MDCT信号S_M(n)，以借此获得对初始状态信息146、344的贡献或甚至以获得第二初始状态信息252。

步骤b)

此概念还包括通过使用用于CELP合成滤波器的两个不同的记忆(也表示为初始状态)计算CELP合成滤波器(其可通常被视为线性预测滤波器)的零输入响应(ZIR)来生成两个信号通。过使用先前解码的CELP信号S_C(n)作为用于CELP合成滤波器的记忆来生成第一ZIR

其中M≤L

通过使用先前解码的CELP信号的第二版本作为用于CELP合成滤波器的记忆来生成第二ZIR

其中M≤L

应注意的是，可分别地计算第一零输入响应及第二零输入响应，其中可基于第一解码的音频信息(例如，使用初始状态判定242及线性预测滤波246)获得第一零输入响应，且其中可(例如)使用可根据第一解码的音频信息222及第二解码的音频信息232提供“以往CELP帧的第二版本”的修改/混叠相加/组合250，以及也使用第二线性预测滤波254来计算第二零输入响应。然而，可选地，可施加单一CELP合成滤波。例如，可施加线性预测滤波148、346，其中S_C(n)及的总和用作所述(组合)线性预测滤波的输入。

此是由于如此事实：线性预测滤波是线性操作，从而可在滤波之前或在滤波之后执行组合而不改变结果。然而，取决于符号(sign)，S_C(n)与之间的差异也可用作(组合)线性预测滤波的初始状态(对于n＝-L，...，-1)。

总之，第一初始状态信息(n＝-L，...，-1)及第二初始状态信息(n＝-L，...，-1)可单独地或以组合方式获得。并且，第一及第二零输入响应可通过单独初始状态信息的单独线性预测滤波或使用(组合)线性预测滤波基于组合初始状态信息来获得。

如将在下文中详细解释的图7的曲线图中所展示，S_C(n)及连续，及连续。此外，由于及S_M(n)也连续，是从非常接近0的值开始的信号。

现参考图7，将解释一些细节。

图7a展示先前CELP帧及第一零输入响应的图形化表示。横坐标710以毫秒描述时间，且纵坐标712以任意单位描述幅度。

例如，为先前CELP帧(也表示为第一音频帧)提供的音频信号展示于时间t₇₁与t₇₂之间。例如，信号S_C(n)(对于n<0)可展示于时间t₇₁与t₇₂之间。此外，第一零输入响应可展示于时间t₇₂与t₇₃之间。例如，第一零输入响应可展示于时间t₇₂与t₇₃之间。

图7b展示先前CELP帧的第二版本及第二零输入响应的图形化表示。用720表示横坐标，且以毫秒展示时间。用722表示纵坐标，且以任意单位展示幅度。先前CELP帧的第二版本展示于时间t₇₁(-20ms)与t₇₂(0ms)之间，且第二零输入响应展示于时间t₇₂与t₇₃(+20ms)之间。例如，信号(n＜0)展示于时间t₇₁与t₇₂之间。此外，信号(对于n≥0)展示于时间t₇₂与t₇₃之间。

此外，S_M(n)与之间的差异展示于图7c中，其中横坐标730以毫秒表示时间，且其中纵坐标732以任意单位表示幅度。

此外，应注意的是，第一零输入响应(对于n≥0)为信号S_C(n)(对于n＜0)的(大体上)稳定的接续。类似地，第二零输入响应(对于n≥0)为信号(对于n＜0)的(大体上)稳定的接续。

步骤c)

以当前MDCT的(即，与当前第二音频帧相关联的MDCT信号的)第二版本142、242、342替换当前MDCT信号(例如，第二解码的音频信息132、232、332)。

然后直接展示S_C(n)及为连续的：S_C(n)及为连续的，从非常接近0的值开始。

例如，可根据第二解码的音频信息132、232、323及根据第一零输入响应及第二零输入响应(例如如图2中所展示)或根据组合零输入响应(例如，组合零输入响应150、348)通过修改152、258、350确定如图8的曲线图中可见，所提出的方法移除不连续。

例如，图8a展示(例如，第一解码的音频信息的)用于先前CELP帧的信号的图形化表示，其中横坐标810以毫秒描述时间，且其中纵坐标812以任意单位描述幅度。如可见，在时间t₈₁(-20ms)与t₈₂(0ms)之间提供(例如，通过线性预测域解码)第一解码的音频信息。

此外，如图8b中可见，即使通常从时间t₄开始提供第二解码的音频信息132、232、332(如图4b中所展示)，仍仅从时间t₈₂(0ms)开始提供当前MDCT帧的第二版本(例如，经修改的第二解码的音频信息142、242、342)。应注意的是，在时间t₄与t₂之间提供的第二解码的音频信息132、232、332(如图4b中所展示)并非直接用于提供当前MDCT帧的第二版本(信号)，而是仅用于提供信号分量为清楚起见，应注意的是，横坐标820以毫秒表示时间，且纵坐标822依据任意单位表示幅度。

图8c展示先前CELP帧(如图8a中所展示)及当前MDCT帧的第二版本(如图8b中所展示)的串接。横坐标830以毫秒描述时间，且纵坐标832依据任意单位描述幅度。如可见，在先前CELP帧(在时间t₈₁与t₈₂之间与当前MDCT帧的第二版本(起始于时间t₈₂且结束于(例如)时间t₅，如图4b中所展示)之间存在大体上连续的过渡。因此，避免在从第一帧(其在线性预测域中被编码)至第二帧(其在频域中被编码)的过渡处的可听失真。

也直接展示以高速率实现完美的重构：在高速率下，S_C(n)及极其类似且二者均极其类似于输入信号，而且两个ZIR极其类似，因此两个ZIR的差异非常接近0，且最终极其类似于S_M(n)并且二者均极其类似于输入信号。

步骤d)

可选择地，可将窗口应用于两个ZIR，以便不影响整个当前MDCT帧。此(例如)对于于降低复杂度，或当ZIR在MDCT帧的结尾并未接近0时是有用的。

窗口的一个示例为长度P的简单线性窗口v(n)

其中，例如P＝64。

例如，窗口可处理零输入响应150、零输入响应248、256或组合零输入响应348。

5.8.根据图9的方法

图9展示用于基于编码的音频信息提供解码的音频信息的方法的流程图。方法900包括基于在线性预测域中编码的音频帧提供(910)第一解码的音频信息。方法900还包括基于在频域中编码的音频帧提供(920)第二解码的音频信息。方法900还包括获得(930)线性预测滤波的零输入响应，其中根据第一解码的音频信息及第二解码的音频信息定义线性预测滤波的初始状态。

方法900还包括根据零输入响应，修改(940)基于跟在在线性预测域中编码的音频帧之后的在频域中编码的音频帧所提供的第二解码的音频信息，以获得在第一解码的音频信息与经修改的第二解码的音频信息之间的平滑过渡。

可通过本文中关于音频解码器所描述的特征及功能中的任一者对方法900进行补充。

5.10.根据图10的方法

图10展示用于基于编码的音频信息提供解码的音频信息的方法1000的流程图。

方法1000包括执行(1010)线性预测域解码，以基于在线性预测域中编码的音频帧提供第一解码的音频信息。

方法1000还包括执行(1020)频域解码，以基于在频域中编码的音频帧提供第二解码的音频信息。

方法1000还包括响应于由第一解码的音频信息定义的线性预测滤波的第一初始状态获得(1030)线性预测滤波的第一零输入响应，并响应于由第一解码的音频信息的经修改版本定义的线性预测滤波的第二初始状态获得(1040)线性预测滤波的第二零输入响应，该经修改版本具备人工混叠且包括第二解码的音频信息的贡献部分。

可选地，方法1000包括响应于由第一解码的音频信息及第一解码的音频信息的经修改版本的组合定义的线性预测滤波的初始状态获得(1050)线性预测滤波的组合零输入响应，该经修改版本具备人工混叠且包括第二解码的音频信息的贡献部分。

方法1000还包括根据第一零输入响应及第二零输入响应或根据组合零输入响应，修改(1060)基于跟在在线性预测域中编码的音频帧之后的在频域中编码的音频帧所提供的第二解码的音频信息，以获得在第一解码的音频信息与经修改的第二解码的音频信息之间的平滑过渡。

应注意的是，可通过本文中关于音频解码器所描述的特征及功能中的任一者对方法1000进行补充。

6.结论

总之，根据本发明的实施例涉及CELP至MDCT过渡。所述过渡通常引入两个问题：

1.归因于遗失的先前MDCT帧的混叠；及

2.归因于在低/中等比特率下操作的两个写码方案的不完美的波形写码本质的在CELP帧与MDCT帧之间的边界处的不连续。

在根据本发明的实施例中，通过增加MDCT长度以使得左折叠点在CELP帧与MDCT帧之间的边界的左侧移动来解决混叠问题。并且改变MDCT窗口的左侧部分，以使得重叠减少。与常规解决方案相反，不修改CELP信号以免引入任何额外延迟，而是发明移除可在CELP帧与MDCT帧之间的边界处引入的任何不连续的机制。此机制使用CELP合成滤波器的零输入响应将不连续平滑化。本文中描述了额外细节。

7.实施可选方案

尽管已在装置的上下文中描述一些方面，显而易见的是，这些方面也表示对应方法的描述，其中模块或设备对应于方法步骤或方法步骤的特征。类似地，方法步骤的上下文中所描述的方面也表示对应装置的对应模块或项或特征的描述。可由(或使用)硬件装置(类似于(例如)微处理器、可编程计算机或电子电路)执行方法步骤中的一些或全部。在一些实施例中，可由此装置执行最重要的方法步骤中的一些或多个。

本发明编码的音频信号可储存于数字存储介质上或可在诸如无线传输介质或有线传输介质(如因特网)的传输介质上传输。

取决于某些实施要求，本发明的实施例可在硬件或软件中实施。可使用数字存储介质执行实施，该介质例如软盘、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM或闪存，其上存储有电子可读控制信号，该电子可读控制信号与可编程计算机系统协作(或能够协作)，以使得执行各个方法。因此，数字存储介质可为计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，电子可读控制信号能够与可编程计算机系统协作，以使得执行本文中所描述的方法中的一个。

通常，本发明的实施例可被实施为具有程序代码的计算机程序产品，当计算机程序产品在计算机上运行时，程序代码操作性地用于执行方法中的一个。程序代码可(例如)储存于机器可读载体上。

其他实施例包括储存于机器可读载体上的计算机程序，其用于执行本文中所描述的方法中的一个。

换言之，因此，本发明方法的实施例为具有程序代码的计算机程序，当计算机程序在计算机上运行时，该程序代码用于执行本文中所描述的方法中的一个。

因此，本发明方法的另一实施例为数据载体(或数字存储介质，或计算机可读介质)，该数据载体包括记录于其上的用于执行本文中所描述的方法中的一个的计算机程序。数据载体、数字存储介质或记录介质通常是有形的和/或非易失性的。

因此，本发明方法的另一实施例是表示用于执行本文中所描述的方法中的一个的计算机程序的数据流或信号序列。可(例如)用于经由数据通信连接(例如，经由因特网)传送数据流或信号序列。

另一实施例包括处理构件，例如，用于或适于执行本文中所描述的方法中的一个的计算机或可编程逻辑设备。

另一实施例包括计算机，其上安装有用于执行本文中所描述的方法中的一个的计算机程序。

根据本发明的另一实施例包括用于将用于执行本文中所描述的方法中的一个的计算机程序传送(例如，电子地或光学地)至接收器的装置或系统。接收器可(例如)为计算机、移动设备、内存设备或类似。装置或系统可(例如)包括用于将计算机程序传送至接收器的文件服务器。

在一些实施例中，可编程逻辑设备(例如，现场可编程门阵列)可用以执行本文中所描述的方法的功能中的一些或全部。在一些实施例中，现场可编程门阵列可与微处理器协作，以便执行本文中所描述方法中的一个。通常，优选地由任何硬件装置执行方法。

可使用硬件装置或使用计算机或使用硬件装置与计算机的组合实施本文中所描述的装置。

可使用硬件装置或使用计算机或使用硬件装置与计算机的组合执行本文中所描述的方法。

上文所描述的实施例仅说明本发明的原理。应理解的是，本文中所描述的配置及细节的变形及变化对本领域技术人员是显而易见的。因此，其意图在于仅由待决权利要求的范围限制，而非由通过本文中实施例的描述及解释所呈现的特定细节限制。

Claims

1.一种用于基于编码的音频信息(110；210；310)提供解码的音频信息(112；212；312)的音频解码器(100；200；300)，所述音频解码器包括：

线性预测域解码器(120；220；320)，用于基于在线性预测域中编码的音频帧提供第一解码的音频信息(122；222；322；S_c(n))；

频域解码器(130；230；330)，用于基于在频域中编码的音频帧提供第二解码的音频信息(132；232；332；S_M(n))；以及

过渡处理器(140；240；340)，

其中所述过渡处理器用于获得线性预测滤波(148；254；346)的零输入响应(150；256；348)，其中根据所述第一解码的音频信息及所述第二解码的音频信息定义所述线性预测滤波的初始状态(146；252；344)，以及

其中所述过渡处理器用于根据所述零输入响应，修改基于跟在在所述线性预测域中编码的音频帧之后的在所述频域中编码的音频帧所提供的所述第二解码的音频信息(132；232；332；S_M(n))，以获得在所述第一解码的音频信息(S_c(n))与经修改的第二解码的音频信息之间的平滑过渡。

2.根据权利要求1所述的音频解码器，

其中所述过渡处理器用于响应于由所述第一解码的音频信息(222；S_c(n))定义的线性预测滤波器的第一初始状态(244；S_c(n))获得线性预测滤波器(246)的第一零输入响应以及

其中所述过渡处理器用于响应于由所述第一解码的音频信息(222,S_c(n))的经修改版本定义的线性预测滤波器的第二初始状态(252)获得所述线性预测滤波器(254)的第二零输入响应所述经修改版本具备人工混叠且包括所述第二解码的音频信息(232,S_M(n))的贡献部分，或

其中所述过渡处理器用于响应于由所述第一解码的音频信息(122；322；S_c(n))及所述第一解码的音频信息(122；322；S_c(n))的经修改版本的组合定义的线性预测滤波器的初始状态(146；344)获得所述线性预测滤波器(148；346)的组合零输入响应(150；348)，所述经修改版本具备人工混叠且包括所述第二解码的音频信息(132；332；S_M(n))的贡献部分；

其中所述过渡处理器用于根据所述第一零输入响应及所述第二零输入响应或根据所述组合零输入响应修改基于跟在在所述线性预测域中编码的音频帧之后的在所述频域中编码的音频帧所提供的所述第二解码的音频信息(132；232；332；S_M(n))，以获得在所述第一解码的音频信息(122；222；322；S_c(n))与所述经修改的第二解码的音频信息之间的平滑过渡。

3.根据权利要求1或2所述的音频解码器(100；200；300)，其中所述频域解码器(130；230；330)用于执行逆交叠变换，以使得所述第二解码的音频信息(132；232；332)包括混叠。

4.根据权利要求1或权利要求2或权利要求3所述的音频解码器(100；200；300)，其中所述频域解码器(130；230；330)用于执行逆交叠变换，以使得所述第二解码的音频信息(132；232；332)在时间部分中包括混叠，所述时间部分在时间上与所述线性预测域解码器(120；220；320)为之提供了第一解码的音频信息(122；222；322)的时间部分重叠，且使得对于跟在所述线性预测域解码器为之提供了第一解码的音频信息的时间部分之后的时间部分，所述第二解码的音频信息是无混叠的。

5.根据权利要求1-4中任一项所述的音频解码器(100；200；300)，其中所述第二解码的音频信息(132；232；332)的用于获得所述第一解码的音频信息的经修改版本的部分包括混叠。

6.根据权利要求5所述的音频解码器(100；200；300)，其中用于获得所述第一解码的音频信息的经修改版本的人工混叠至少部分补偿所述第二解码的音频信息(132；232；332)的用于获得所述第一解码的音频信息的经修改版本的部分中包括的混叠。

7.根据权利要求1-6中任一项所述的音频解码器(100；200；300)，其中所述过渡处理器(140；240；340)用于根据

或根据

获得所述第一零输入响应或所述组合零输入响应的第一分量

其中

s_{Z}^{1} (n) = S_{C} (n), n = - L, ..., - 1

M≤L

其中n表示时间索引，

其中对于n＝0，...，N-1，表示针对时间索引n的所述第一零输入响应(248)或针对时间索引n的所述组合零输入响应(150；348)的第一分量；

其中对于n＝-L，...，-1，表示针对时间索引n的所述第一初始状态(244)或针对时间索引n的所述初始状态(146；344)的第一分量；

其中m表示运行变量，

其中M表示所述线性预测滤波器的滤波器长度；

其中a_m表示所述线性预测滤波器的滤波器系数；

其中S_c(n)表示针对时间索引n的所述第一解码的音频信息(122；222；322)的先前解码值；

其中N表示处理长度。

8.根据权利要求1-7中任一项所述的音频解码器(100；200；300)，其中所述过渡处理器(140；240；340)用于对所述第一解码的音频信息(122；222；322；S_c(n))施加第一窗口化((w(-n-1)w(-n-1))，以获得所述第一解码的音频信息的窗口化版本，以及对所述第一解码的音频信息(122；222；322；S_c(n))的时间镜像版本(S_c(-n-L-1))施加第二窗口化(w(n+L)w(-n-1))，以获得所述第一解码的音频信息的时间镜像版本的窗口化版本，以及

其中所述过渡处理器用于组合所述第一解码的音频信息的窗口化版本及所述第一解码的音频信息的时间镜像版本的窗口化版本，以便获得所述第一解码的音频信息的经修改版本

9.根据权利要求1-8中任一项所述的音频解码器，其中所述过渡处理器(140；240；340)用于根据下式获得所述第一解码的音频信息S_c(n)的经修改版本

\begin{matrix} \hat{S_{C}} (n) = S_{C} (n) w (- n - 1) w (- n - 1) + S_{C} (- n - L - 1) w (n + L) w (- n - 1) + S_{M} (n), \\ n = - L, ..., - 1, \end{matrix}

其中n表示时间索引，

其中w(-n-1)表示针对时间索引(-n-1)的窗口函数的值；

其中w(n+L)表示针对时间索引(n+L)的窗口函数的值；

其中S_c(n)表示针对时间索引(n)的所述第一解码的音频信息(122；222；322)的先前解码值；

其中S_c(-n-L-1)表示针对时间索引(-n-L-1)的所述第一解码的音频信息的先前解码值；

其中S_M(n)表示针对时间索引n的所述第二解码的音频信息(132；232；332)的解码值；以及

其中L描述窗口的长度。

10.根据权利要求1-9中任一项所述的音频解码器(100；200；300)，其中所述过渡处理器(140；240；340)用于根据

或根据

获得所述第二零输入响应或所述组合零输入响应(150；348)的第二分量

其中

s_{Z}^{2} (n) = \hat{S_{C}} (n), n = - L, ..., - 1

M≤L

其中n表示时间索引，

其中对于n＝0，...，N-1，表示针对时间索引n的所述第二零输入响应或针对时间索引n的所述组合零输入响应的第二分量；

其中对于n＝-L，...，-1，表示针对时间索引n的所述第二初始状态(252)或针对时间索引n的所述初始状态(146；344)的第二分量；

其中m表示运行变量，

其中M表示所述线性预测滤波器(148；254；346)的滤波器长度；

其中a_m表示所述线性预测滤波器的滤波器系数；

其中表示针对时间索引n的所述第一解码的音频信息的经修改版本的值；

其中N表示处理长度。

11.根据权利要求1-10中任一项所述的音频解码器(100；200；300)，其中对于所述线性预测域解码器(120；220；320)并未为之提供所述第一解码的音频信息(122；222；322)的时间部分，所述过渡处理器(140；240；340)用于将所述第二解码的音频信息(132；232；332)与所述第一零输入响应(248)及所述第二零输入响应(256)线性地组合，或将所述第二解码的音频信息(132；232；332)与所述组合零输入响应(150；348)线性地组合，以便获得所述经修改的第二解码的音频信息。

12.根据权利要求1-11中任一项所述的音频解码器(100；200；300)，其中所述过渡处理器(140；240；340)用于根据

针对n＝0，...，N-1

或根据

针对n＝0，...，N-1，获得所述经修改的第二解码的音频信息

其中

其中n表示时间索引；

其中S_M(n)表示针对时间索引n的所述第二解码的音频信息的值；

其中对于n＝0，...，N-1，表示针对时间索引n的所述第一零输入响应或针对时间索引n的所述组合零输入响应的第一分量；以及

其中v(n)表示窗口函数的值；

其中N表示处理长度。

13.根据权利要求1-12中任一项所述的音频解码器(100；200；300)，其中所述过渡处理器(140；240；340)用于在为在所述线性预测域中编码的音频帧提供解码的音频信息时使所述第一解码的音频信息(122；222；322)不被所述第二解码的音频信息(132；232；332)改变，以使得所述为在所述线性预测域中编码的音频帧提供的解码的音频信息是独立于为在所述频域中编码的随后音频帧提供的解码的音频信息而被提供的。

14.根据权利要求1-13中任一项所述的音频解码器(100；200；300)，其中所述音频解码器用于在解码在所述频域中编码的音频帧之前为在所述线性预测域中编码的音频帧提供完全解码的音频信息(122；222；322)，在所述频域中编码的音频帧跟在在所述线性预测域中编码的音频帧之后。

15.根据权利要求1-14中任一项所述的音频解码器(100；200；300)，其中所述过渡处理器(140；240；340)用于在根据窗口化的第一零输入响应及窗口化的第二零输入响应或根据窗口化的组合零输入响应而修改所述第二解码的音频信息(132；232；332)之前，窗口化所述第一零输入响应(248)及所述第二零输入响应(256)或所述组合零输入响应(150；348)。

16.根据权利要求15所述的音频解码器(100；200；300)，其中所述过渡处理器用于使用线性窗口，窗口化所述第一零输入响应及所述第二零输入响应或所述组合零输入响应。

17.一种用于基于编码的音频信息提供解码的音频信息的方法(900)，所述方法包括：

基于在线性预测域中编码的音频帧提供(910)第一解码的音频信息(S_c(n))；

基于在频域中编码的音频帧提供(920)第二解码的音频信息(S_M(n))；以及

获得(930)线性预测滤波的零输入响应，其中根据所述第一解码的音频信息及所述第二解码的音频信息定义所述线性预测滤波的初始状态，以及

根据所述零输入响应，修改(940)基于跟在在所述线性预测域中编码的音频帧之后的在所述频域中编码的音频帧所提供的所述第二解码的音频信息(S_M(n))，以获得在所述第一解码的音频信息(S_c(n))与经修改的第二解码的音频信息之间的平滑过渡。

18.一种计算机程序，当所述计算机程序在计算机上运行时，用于执行根据权利要求17所述的方法。