CN104981868A

CN104981868A - 对音频信号进行编码和解码的方法以及用于对音频信号进行编码和解码的设备

Info

Publication number: CN104981868A
Application number: CN201380072733.XA
Authority: CN
Inventors: 李男淑; 金贤郁; 文瀚吉
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2012-12-11
Filing date: 2013-12-11
Publication date: 2015-10-14
Anticipated expiration: 2033-12-11
Also published as: EP2929531B1; CN104981868B; EP2929531A4; US20140163999A1; KR20140075466A; WO2014092460A1; EP2929531A1; US9508355B2

Abstract

示例性实施例可提供一种对音频信号进行编码的方法。所述方法包括：将音频信号分割为多个帧，其中，所述多个帧中的每一个帧包括M个样点，并且M是大于1的自然数；将第一窗、第二窗和至少一个第三窗应用于所述多个帧，其中，第二窗的长度比第一窗的长度长，第三窗的长度比第一窗的长度长并且比第二窗的长度短；对已应用了第一窗、第二窗和所述至少一个第三窗的所述多个帧进行时频变换；产生包括时频变换后的所述多个帧的比特流。

Description

对音频信号进行编码和解码的方法以及用于对音频信号进行编码和解码的设备

技术领域

示例性实施例涉及一种对音频信号进行编码和解码的方法以及一种用于对音频信号进行编码和解码的设备。更具体地讲，示例性实施例涉及一种用于通过将第一窗、第二窗和第三窗应用于音频信号的多个帧来对所述多个帧进行时频变换的方法和设备。

背景技术

现有技术的用于对具有高声音质量的音频进行编码的设备使用时频变换方法。现有技术的时频变换方法是一种对通过使用诸如修正离散余弦变换(MDCT)的变换方法将输入的音频信号变换到频率空间而获得的系数进行编码的方法。

现有技术的时频变换使用比时域的信号更容易进行编码的频域的信号。由于被应用于音频信号的窗形状与频率分辨率紧密相关，因此应恰当地选择窗形状。

发明内容

技术问题

示例性实施例可提供一种对音频信号进行编码和解码的方法以及一种用于对音频信号进行编码和解码的设备，以减少由于对音频信号进行编码和解码而发生的延迟。

示例性实施例可提供一种对音频信号进行编码和解码的方法以及一种用于对音频信号进行编码和解码的设备，以提高音频信号的编码和解码效率。

解决方案

根据示例性实施例的一方面，提供一种对音频信号进行编码的方法，所述方法包括：将音频信号分割为多个帧，其中，所述多个帧中的每一个帧包括M个样点，并且M是大于1的自然数；将第一窗、第二窗和至少一个第三窗应用于所述多个帧，其中，第二窗的长度比第一窗的长度长，所述至少一个第三窗的长度比第一窗的长度长并且比第二窗的长度短；对已应用了第一窗、第二窗和所述至少一个第三窗的所述多个帧进行时频变换；产生包括时频变换后的所述多个帧的比特流。

将第一窗、第二窗和至少一个第三窗应用于所述多个帧的步骤可包括：将第一窗、第二窗或所述至少一个第三窗应用于一个变换单元。

第一窗、第二窗和所述至少一个第三窗可具有相同的除了系数为零的持续时间之外的重叠持续时间长度，其中，在所述重叠持续时间长度中，第一窗、第二窗和所述至少一个第三窗彼此重叠。

将第一窗、第二窗和至少一个第三窗应用于所述多个帧的步骤可包括：将第一窗应用于包括音频信号的瞬态信号的瞬态持续时间；将与已被应用于所述瞬态持续时间的第一窗重叠的所述至少一个第三窗应用于包括所述瞬态持续时间的变换单元。

所述至少一个第三窗的帧大小可以是根据被应用于所述瞬态持续时间的第一窗的帧大小而设置的。

将第一窗、第二窗和至少一个第三窗应用于所述多个帧的步骤可包括：将在变化持续时间中彼此重叠的第一窗和所述至少一个第三窗应用于包括所述变化持续时间的变换单元，或者将所述至少一个第三窗中的在所述变化持续时间中彼此重叠的两个第三窗应用于包括所述变化持续时间的变换单元，其中，在所述变化持续时间中，在音频信号中信号特性变化。

所述至少一个第三窗和第二窗中的每一个窗可包括系数为零的第一零持续时间和第二零持续时间，以及系数为1的第一一致持续时间和第二一致持续时间，并且，第一零持续时间、第二零持续时间、第一一致持续时间和第二一致持续时间的长度可被确定为满足理想重构条件。

第一零持续时间、第二零持续时间、第一一致持续时间和第二一致持续时间的长度可被确定为(F-L)÷2，其中，F表示相应窗的帧大小，L表示窗之间的重叠持续时间长度。

M可以是2^k，并且第一窗、第二窗和所述至少一个第三窗的长度可以是2^k个样点。

比特流可包括关于被应用于音频信号的所述多个帧的窗的信息。

根据示例性实施例的另一方面，提供一种对音频信号进行解码的方法，所述方法包括：从比特流提取时频变换后的音频信号的多个帧以及关于被应用于所述多个帧的窗的信息；对提取的所述多个帧进行时频逆变换；通过基于关于被应用的窗的信息来合成时频逆变换后的所述多个帧以产生音频信号，其中，被应用于所述多个帧的窗包括第一窗、第二窗和至少一个第三窗，其中，第二窗的长度比第一窗的长度长，所述至少一个第三窗的长度比第一窗的长度长并且比第二窗的长度短。

产生音频信号的步骤可包括：将第一窗、第二窗或所述至少一个第三窗应用于包括在时频逆变换后的所述多个帧中的一个变换单元。

根据示例性实施例的另一方面，提供一种存储有当被计算机执行时执行对音频信号进行编码的方法的程序指令的非暂时性计算机可读存储介质。

根据示例性实施例的另一方面，提供一种存储有当被计算机执行时执行对音频信号进行解码的方法的程序指令的非暂时性计算机可读存储介质。

根据示例性实施例的另一方面，提供一种用于对音频信号进行编码的设备，所述设备包括：分割单元，被配置为将音频信号分割为多个帧，其中，所述多个帧中的每一个帧包括M个样点，并且M是大于1的自然数；窗应用单元，被配置为将第一窗、第二窗和至少一个第三窗应用于所述多个帧，其中，第二窗的长度比第一窗的长度长，所述至少一个第三窗的长度比第一窗的长度长并且比第二窗的长度短；变换器，被配置为对已应用了第一窗、第二窗和所述至少一个第三窗的所述多个帧进行时频变换；复用器，被配置为产生包括时频变换后的所述多个帧的比特流。

窗应用单元可被配置为将第一窗、第二窗或所述至少一个第三窗应用于一个变换单元。

窗应用单元可被配置为将第一窗、第二窗和所述至少一个第三窗应用于所述多个帧，使得第一窗、第二窗和所述至少一个第三窗彼此重叠的除了系数为零的持续时间之外的重叠持续时间具有相同长度。

所述设备还可包括用于对音频信号的特性进行分析的分析器，其中，窗应用单元被配置为将第一窗应用于由分析器分析出的瞬态持续时间，并被配置为将与已被应用于所述瞬态持续时间的第一窗重叠的至少一个第三窗应用于包括所述瞬态持续时间的变换单元。

窗应用单元可被配置为根据被应用于所述瞬态持续时间的第一窗的帧大小来设置所述至少一个第三窗的帧大小。

窗应用单元可被配置为将在变化持续时间中彼此重叠的第一窗和所述至少一个第三窗应用于包括所述变化持续时间的变换单元，或者将所述至少一个第三窗中的在所述变化持续时间中彼此重叠的两个第三窗应用于包括所述变化持续时间的变换单元，其中，在所述变化持续时间中，由分析器分析出的音频信号的特性变化。

所述至少一个第三窗和第二窗中的每一个窗可包括系数为零的第一零持续时间和第二零持续时间，以及系数为1的第一一致持续时间和第二一致持续时间，并且，窗应用单元可被配置为将第一零持续时间、第二零持续时间、第一一致持续时间和第二一致持续时间的长度确定为满足理想重构条件。

窗应用单元可被配置为将第一零持续时间、第二零持续时间、第一一致持续时间和第二一致持续时间的长度确定为(F-L)÷2，其中，F表示相应窗的帧大小，L表示窗之间的重叠持续时间长度。

根据示例性实施例的另一方面，提供一种对音频信号进行解码的设备，所述设备包括：解复用器，被配置为从比特流提取时频变换后的音频信号的多个帧以及关于被应用于所述多个帧的窗的信息；逆变换器，被配置为对提取的所述多个帧进行时频逆变换；合成器，被配置为通过基于关于被应用的窗的信息来合成时频逆变换后的所述多个帧以产生音频信号，其中，被应用于所述多个帧的窗包括第一窗、第二窗和至少一个第三窗，其中，第二窗的长度比第一窗的长度长，所述至少一个第三窗的长度比第一窗的长度长并且比第二窗的长度短。

合成器可被配置为将第一窗、第二窗或所述至少一个第三窗应用于包括在时频逆变换后的所述多个帧中的一个变换单元。

根据示例性实施例的另一方面，提供一种将多个窗应用于音频信号的方法，所述方法包括：将第一窗应用于音频信号中的多个帧；将比第一窗的长度长的第二窗应用于所述多个帧；将至少一个第三窗应用于所述多个帧，其中，所述至少一个第三窗比第一窗的长度长并且比第二窗的长度短，其中，第一窗、第二窗和所述至少一个第三窗具有相同的重叠持续时间长度。

附图说明

通过参照附图详细地描述示例性实施例，示例性实施例的以上和其它特征和优点将变得更明显，其中：

图1示出在现有技术的高级音频编码(AAC)编解码器中将窗应用于音频信号以对音频信号执行修正离散余弦变换(MDCT)的方法；

图2A至图2C是用于描述当现有技术的AAC编解码器被使用时由于编码和解码而发生的延迟的示图；

图3是根据实施例的用于对音频信号进行编码的设备的框图；

图4A至图4C示出根据实施例的在用于对音频信号进行编码的设备中被应用于音频信号的帧的第一窗、第二窗和第三窗；

图5示出根据实施例的在用于对音频信号进行编码的设备中应用了第一窗、第二窗和第三窗的音频信号的帧；

图6A至图6C是用于描述根据实施例的在用于对音频信号进行编码的设备中由于编码和解码而发生的延迟的示图；

图7是示出根据另一实施例的对音频信号进行编码的方法的流程图；

图8是根据另一实施例的用于对音频信号进行解码的设备的框图；

图9是示出根据另一实施例的对音频信号进行解码的方法的流程图；

图10是根据示例性实施例的多媒体装置的框图；

图11是根据另一示例性实施例的多媒体装置的框图；

图12是根据另一示例性实施例的多媒体装置的框图。

具体实施方式

示例性实施例的优点和特征以及用于实现所述示例性实施例的方法参照附图将是清楚的，其中，在附图中示出了示例性实施例。然而，示例性实施例可以以多种不同形式来实现，并且不应被解释为受限于在此阐述的实施例。提供这些实施例使得本公开将是彻底和完整的，并且将使示例性实施例的构思充分传达给本领域的普通技术人员。相同的参考标号在说明书中始终表示相同的元件。

在实施例中使用的术语“…单元”指示包括软件或硬件的组件(诸如现场可编程门阵列(FPGA)或专用集成电路(ASIC))，并且“…单元”执行特定角色。然而，“…单元”不限于软件或硬件。“…单元”可被配置为包括在可寻址存储介质中，或者可被配置为模拟一个或更多个处理器。因此，例如，“…单元”包括组件(诸如软件组件、面向对象的软件组件、类组件和任务组件)、处理、函数、属性、程序、子程序、程序代码段、驱动器、固件、微码、电路、数据、数据库、数据结构、表、阵列和变量。组件和“…单元”内提供的功能可被组合成更少数量的组件和“…单元”，或可进一步被划分为另外的组件和“…单元”。

在此说明书中，表述“窗的长度或预定持续时间是a个样点(其中，a是自然数)”表示“所述窗或所述预定持续时间包括a个样点”。

另外，在此说明书中，“预定窗的帧大小”表示当应用了所述预定窗的时域的帧被时频变换时所获得的频域中的系数的数量。

图1示出在现有技术的高级音频编码(AAC)编解码器中将窗应用于音频信号10以对音频信号10执行修正离散余弦变换(MDCT)的方法。

现有技术的AAC编解码器被定义为被应用于音频信号10的帧N-2、N-1、N、N+1和N+2的窗。音频信号10包括i)长窗21、ii)短窗23、iii)长启动窗22和iv)长短窗24。

图1中示出的音频信号10的帧N-2、N-1、N、N+1、N+2中的每一个帧的长度是1024个样点。长窗21、长启动窗22和长短窗24中的每一个窗的长度是2048个样点。短窗23的长度是256个样点。

当被应用了窗的n个样点被时频变换时，获得n/2个系数。因此，长窗21、长启动窗22和长短窗24中的每一个窗的帧大小是1024，并且短窗23的帧大小是128。

长窗21、长启动窗22、长短窗24和短窗23相互重叠50％。

音频信号10可按变换单元被区分，其中，“变换单元”指示当时频变换被执行时可通过应用窗而获得相同数量的系数的持续时间。

由于由AAC编解码器定义的窗中的最长窗是长窗21、长启动窗22或长短窗24，因此可将一个长窗21、一个长启动窗22或一个长短窗24应用于一个变换单元。换句话说，用于长窗21、长启动窗22或长短窗24的变换单元的长度是2048个样点。

当期望将短窗23应用于一个变换单元时，总共8个短窗23(8×128＝1024)被应用于该变换单元，使得系数的数量是1024。由于8个短窗23彼此重叠50％，因此应用了8个短窗23的变换单元的长度小于2048个样点。换句话说，变换单元的长度可根据被应用于该变换单元的窗的类型而变化。

现有技术的AAC编解码器将短窗23应用于在时域中快速变化的信号(即，瞬态信号)以提高频率分辨率，并将长窗21应用于在时域中缓慢变化的信号以防止频带的浪费。长启动窗22被应用于帧以与短窗集开始时的第一个短窗23重叠，并且长短窗24被应用于帧以与短窗集结束时的最后一个短窗23重叠。

根据现有技术的AAC编解码器，因为发生由于每两个窗之间重叠50％而导致的延迟以及由于窗切换到长启动窗22或长短窗24而导致的延迟，因此存在编码效率下降的问题。

另外，由于现有技术的AAC编解码器实际上将8个短窗23应用于整个变换单元，因此当瞬态信号仅存在于变换单元的部分持续时间中时，同样存在编码效率下降的问题。

图2A至图2C是用于描述当现有技术的AAC编解码器被使用时由于编码和解码而发生的延迟的示图。

图2A示出被输入到编码器的音频信号，图2B示出由编码器执行的时频变换，图2C示出由解码器执行的时频逆变换。

在现有技术的AAC编解码器中，将被应用于当前帧12的窗26根据将被应用于下一帧的窗是否为短窗而被确定为长窗或长启动窗。换句话说，参照图2B，编码器确定将被应用于当前帧12的窗26以对当前帧12进行时频变换，并且窗26的确定是在编码器对下一帧中包括的预定数量的样点进行分析之后被执行的。预定样点是用于窗切换的先行(look-ahead)样点。因此，编码被延迟了所述先行样点。

参照图1和图2A至图2C，由于将被应用于当前帧12的下一帧的短窗集的长度是576个样点(128×4+128÷2)，因此需要至少576个先行样点来确定将被应用于当前帧12的窗26。编码延迟D1由于先行样点而发生。

解码器应等待与当前帧12重叠的下一帧以对当前帧12进行时频逆变换。由于在MDCT中每两个窗彼此重叠50％，因此作为2048个样点的50％的1024个样点与当前帧12重叠。因此，在解码器中，延迟由于重叠的持续时间而发生。

另外，在当前帧12是音频信号的第一帧时，解码器需要1024个样点的延迟来处理当前帧12。

总之，由于在现有技术的AAC编解码器中的编码和解码而导致的延迟D2包括由于先行样点而导致的延迟D1、由于重叠的持续时间而导致的延迟以及由于当前帧12而导致的延迟。因此，当采样率是48KHz时，由于现有技术的AAC编解码器而导致的总延迟是54.7ms。

图3是根据实施例的用于对音频信号进行编码的设备300的框图。

参照图3，设备300可包括分割单元310、窗应用单元320、变换器330和复用器340。分割单元310、窗应用单元320、变换器330和复用器340可用微处理器来形成。

分割单元310可接收音频信号，并将接收到的音频信号分割为均包括M个样点的帧，其中，M是大于1的自然数。分割单元310可从设备300中包括的存储器单元(未示出)或外部装置接收音频信号。

窗应用单元320将第一窗、第二窗和至少一个第三窗应用于音频信号的帧。第二窗可以比第一窗的长度长，第三窗可具有介于第一窗的长度与第二窗的长度之间的长度。窗应用单元320可将至少一个第一窗、至少一个第二窗或至少一个第三窗应用于一个变换单元。在此说明书中，与现有技术的AAC编解码器相比，假设第一窗的长度是256个样点，第二窗的长度是2048个样点。然而，第一窗和第二窗的长度可被不同地设置在对于本领域普通技术人员来说明显的范围内。

以下将参照图4详细地描述第一窗、第二窗和第三窗。

变换器330对应用了第一窗、第二窗和第三窗的帧进行时频变换。根据示例性实施例的时频变换可包括离散余弦变换(DCT)、修正离散余弦变换(MDCT)和快速傅里叶变换(FFT)中的任意一种。

复用器340产生并输出包括时频变换后的帧的比特流。

虽然在图3中未示出，但设备300还可包括用于对由变换器330产生的频域中的系数进行量化的量化器以及用于对量化后的系数分配比特的比特分配器。

图4A至图4C示出根据实施例的在用于对音频信号进行编码的设备300中被应用于音频信号的帧的第一窗、第二窗和第三窗。

图4A、图4B和图4C分别示出第一窗、第二窗和第三窗。

如上所述，第一窗的长度可以是256个样点，第二窗的长度可以是2048个样点。第三窗的长度比第一窗的长度长，并且比第二窗的长度短。第三窗可根据音频信号的特性而具有不同长度。

参照图4B，根据示例性实施例，第二窗可包括系数为0(零)的第一零持续时间a1和第二零持续时间a2、以及系数为1的第一一致(unity)持续时间b1和第二一致持续时间b2。另外，参照图4C，类似于第二窗，第三窗也可包括第一零持续时间c1和第二零持续时间c2以及第一一致持续时间d1和第二一致持续时间d2。相比之下，图4A中示出的第一窗可不包括零持续时间和一致持续时间。

图5示出根据实施例的在用于对音频信号10进行编码的设备300中应用了第一窗51、第二窗52和第三窗53的音频信号10的帧。

首先，除了系数为0(零)的持续时间之外，窗应用单元320可将第一窗51、第二窗52和第三窗53应用于帧，使得每两个窗之间的重叠持续时间长度都相同。

在现有技术的AAC编解码器中，长窗和另一长窗之间的重叠持续时间长度与短窗和另一短窗之间的重叠持续时间长度不同。因此，需要长启动窗和长短窗来连接长窗和短窗。然而，根据示例性实施例，由于第一窗51、第二窗52和第三窗53中的每两个窗之间的重叠持续时间长度都相同，因此既不需要长启动窗也不需要长短窗。另外，第一窗51、第二窗52和第三窗53中的每两个窗之间的重叠持续时间长度可被设置为第一窗51的长度的1/2。换句话说，每个重叠持续时间长度可以是128个样点。根据示例性实施例，由于每两个窗之间的重叠持续时间长度比现有技术的AAC编解码器中的重叠持续时间长度小得多，因此由于窗重叠而导致的延迟被减小。

如上所述，虽然当瞬态信号持续时间存在于一个变换单元的持续时间的一部分中时，在现有技术的AAC编解码器中通过将8个短窗应用于整个变换单元而使得编码效率降低，但是参照图5，窗应用单元320可将至少一个第一窗51仅应用于检测出瞬态信号的瞬态信号持续时间t1。另外，在通过从变换单元排除瞬态信号持续时间t1而剩余的持续时间中，窗应用单元320可将适当调整了长度的至少一个第三窗53-1应用于变换单元，使得所述至少一个第三窗53-1与所述至少一个第一窗51重叠。

虽然图3中未示出，但是设备300还可包括用于对音频信号的特性进行分析的分析器。分析器可通过计算音频信号的帧之间的相似度或平均能量差来确定在当前帧中是否存在瞬态持续时间。当设备300具有确定瞬态持续时间的功能时，不必单独包括分析器。例如，当设备300具有用以确定瞬态持续时间的波编码器或参数化编码器(诸如AAC、MP3等)时，可使用相应的功能。

现在将描述恰当地选择第三窗的长度的方法。

当根据现有技术的AAC编解码器的窗中的第一窗被应用于一个变换单元时，需要8个第一窗。

然而，由于窗应用单元320仅将第一窗51应用于存在瞬态信号的持续时间t1，因此第一窗51的数量可以是6个或更少。

当6个第一窗51被应用时，由于6个第一窗51的帧大小之和是768(128×6)，因此第三窗53-1的帧大小是256，第三窗53-1的长度是512个样点。由于在图5中第三窗53-1紧接着两个第一窗51被应用，因此第三窗53-1的长度是1536个样点。

另外，窗应用单元320可将在变化持续时间t2中彼此重叠的一个第一窗51和一个第三窗53应用于包括变化持续时间t2的变换单元，或者将在变化持续时间t2中彼此重叠的两个第三窗53-2和53-3应用于包括变化持续时间t2的变换单元，其中，在变化持续时间t2中，音频信号的特性变化。音频信号的特性可包括各种特性，诸如频率、音调、强度等，其中，音频信号可通过这些特性被评估。变化持续时间可包括瞬态信号持续时间。如果音频信号的特性发生变化的变化持续时间的长度非常短，则仅两个窗可彼此重叠，以提高编码效率。可按照以上描述的方法来设置图5中示出的两个第三窗53-2和53-3中的每一个窗的长度。换句话说，当两个第三窗53-2和53-3中的任意一个窗的长度被确定时，两个第三窗53-2和53-3中的另一窗的长度可被确定，使得两个第三窗53-2和53-3的帧大小之和与第二窗52的帧大小相同。

参照图3，窗应用单元320可确定第三窗的形态以满足时频变换的理想构造条件。

在普林森布拉德利(Princen-Bradley)条件下，被应用于帧的窗应满足以下的等式1：

公式计算1

[公式1]

w²(n)+w²(n+M)＝1

在等式1中，w表示窗函数，n表示样点索引，M表示帧长度。

另外，为了满足以上的等式1，窗的第一零持续时间、第二零持续时间、第一一致持续时间和第二一致持续时间的长度应满足以下的等式2：

公式计算2

[公式2]

(F-L)/2

在等式2中，F表示窗的帧大小，L表示重叠持续时间长度。

由于重叠持续时间长度是128个样点，因此第二窗的第一零持续时间、第二零持续时间、第一一致持续时间和第二一致持续时间的长度是448个样点((1024-128)/2)。

以下的表1示出根据窗的帧大小的第一零持续时间、第二零持续时间、第一一致持续时间和第二一致持续时间的长度R：

表1

F	R
		1024(128×8)	448
896(128×7)	384
		768(128×6)	320
640(128×5)	256
		512(128×4)	192
384(128×3)	128
		256(128×2)	64
128(128×1)	O

在表1中，帧大小为896的窗指示当单个第一窗被应用于变换单元时通过与所述单个第一窗重叠而将被应用于变换单元的第三窗。

根据示例性实施例，M、第一窗的长度、第二窗的长度和第三窗的长度可被设置为2^k。因此，用于编码和解码所需的计算量可被减少。

窗应用单元320可产生关于被应用于音频信号的帧的窗的信息，并将产生的信息发送到复用器340。复用器340可产生并输出包括时频变换后的帧和关于窗的信息的比特流。

图6A至图6C是用于描述根据实施例的在用于对音频信号进行编码的设备300中由于编码和解码而发生的延迟的示图。

图6A示出输入到编码器的音频信号，图6B示出由编码器执行的时频变换，图6C示出由解码器执行的时频逆变换。

如上所述，在现有技术的AAC编解码器中，编码器需要先行样点来确定将应用于当前帧12的窗。然而，根据示例性实施例，由于第一窗、第二窗和第三窗具有相同的重叠持续时间长度，因此不需要先行样点来确定将被应用于当前帧62的窗66。因此，在图6A中示出的编码中，不会发生由于先行样点而导致的延迟。

根据示例性实施例，解码器也应等待与当前帧62重叠的下一帧。由于第一窗、第二窗和第三窗中的每两个窗之间的重叠持续时间长度中的每一个是128个样点，因此在根据示例性实施例的解码器中发生128个样点的重叠延迟，这明显少于在现有技术的AAC编解码器中发生的1024个样点的延迟。

另外，如在现有技术的AAC编解码器中一样，在当前帧62是音频信号的第一帧时，根据示例性实施例的解码器需要1024个样点的延迟来处理当前帧62。

总之，根据示例性实施例，由于编码和解码而导致的延迟D2包括由于重叠持续时间而导致的延迟以及由于当前帧62而导致的延迟。当采样率是48KHz时，总延迟是24ms。

图7示出根据另一实施例的对音频信号进行编码的方法的流程图。参照图7，所述方法包括由图3中示出的设备300处理的操作。因此，虽然在下文中被省略，但是与图3中示出的设备300相关的以上描述也应用于图7的方法。

在操作S710，设备300将输入的音频信号分割为帧。每一个帧可包括M个样点，其中，M是大于1的自然数。

在操作S720，设备300将第一窗、第二窗和至少一个第三窗应用于帧。第一窗的长度最短，第二窗的长度最长，第三窗的长度介于第一窗的长度与第二窗的长度之间。

在操作S730，设备300对应用了第一窗、第二窗和所述至少一个第三窗的帧进行时频变换。时频变换可包括DCT、MDCT和FFT中的任意一种。

在操作S740，设备300输出包括时频变换后的帧的比特流。比特流还可包括关于被应用于帧的窗的信息，其中，关于窗的信息可包括被应用于帧的窗的类型或长度信息。

图8是根据另一实施例的用于对音频信号进行解码的设备800的框图。

参照图8，设备800可包括解复用器810、逆变换器820和合成器830。解复用器810、逆变换器820和合成器830可用微处理器来形成。

解复用器810可从比特流提取时频变换后的音频信号的帧以及关于被应用于帧的窗的信息。比特流可以是从外部编码设备300接收的。

逆变换器820对时频变换后的音频信号的帧进行时频逆变换。逆变换器820可按照与由设备300执行的时频变换方法相应的方法来对帧进行时频逆变换。

合成器830可通过基于已从比特流提取出的关于窗的信息来合成时频逆变换后的帧以产生音频信号。详细地，合成器830可通过基于已从比特流提取出的关于窗的信息将与在设备300中使用的窗相同的窗应用于时频逆变换后的帧并通过合成被应用了窗的帧来产生音频信号。另外，合成器830可将至少一个第一窗、至少一个第二窗和至少一个第三窗应用于一个变换单元。

比特流中包括的关于窗的信息可包括关于第一窗、第二窗和第三窗的信息，其中，第一窗的长度可最短，第二窗的长度可最长，第三窗的长度可介于第一窗的长度与第二窗的长度之间。

由于在上面已关于设备300描述了第一窗、第二窗和第三窗，因此省略其详细描述。

虽然图8中未示出，但是设备800还可包括与设备300相应的反量化器和逆比特分配器。

图9是示出根据另一实施例的对音频信号进行解码的方法的流程图。

参照图9，在操作S910，设备800从比特流提取时频变换后的音频信号的帧以及关于被应用于帧的窗的信息。关于窗的信息可包括被应用于帧的窗的形态和长度信息。

在操作S920，设备800对时频变换后的帧进行时频逆变换。设备800可相应于由设备300执行的时频变换方法来执行逆变换。

在操作S930，设备800通过基于关于窗的信息来合成时频逆变换后的帧以产生音频信号。

图10是根据示例性实施例的包括编码模块1030的多媒体装置的框图。

图10中示出的多媒体装置1000可包括通信单元1010和编码模块1030。另外，多媒体装置1000还可包括存储单元1050，其中，存储单元1050用于根据作为编码结果而获得的音频比特流的用途来存储音频比特流。另外，多媒体装置1000还可包括麦克风1070。也就是说，存储单元1050和麦克风1070是可选的。另外，多媒体装置1000还可包括任意解码模块(未示出)，例如，用于执行一般解码功能的解码模块或根据示例性实施例的解码模块。解码模块1030可与多媒体装置1000中包括的其它组件(未示出)组合为一体，并被实现为至少一个处理器(未示出)。

参照图10，通信单元1010可接收从外部提供的音频以及编码的比特流中的至少一个，或可发送作为编码结果而获得的音频比特流以及重构的音频中的至少一个。

通信单元1010可被配置为经由无线网络(诸如无线互联网、无线内联网、无线电话网络、无线局域网(WLAN)、Wi-Fi、Wi-Fi直连(WFD)、第三代(3G)、第四代(4G)、蓝牙、红外数据协会(IrDA)、射频识别(RFID)、超宽带(UWB)、Zigbee或近场通信(NFC))或有线网络(诸如有线电话网络或有线互联网)将数据发送到外部多媒体装置和从外部多媒体装置接收数据。

根据示例性实施例，编码模块1030可用图3的设备来实现。

存储单元1050可存储由编码模块1030产生的编码的比特流。另外，存储单元1050可存储操作多媒体装置1000所需的各种程序。

麦克风1070可将用户或外部的音频信号提供给编码模块1030。

图11是根据另一示例性实施例的包括解码模块的多媒体装置的框图。

图11中示出的多媒体装置1100可包括通信单元1110和解码模块1130。另外，多媒体装置1100还可包括存储单元1150，其中，存储单元1150用于根据作为解码结果而获得的重构的音频信号的用途来存储重构的音频信号。另外，多媒体装置1100还可包括扬声器1170。也就是说，存储单元1150和扬声器1170是可选的。另外，多媒体装置1100还可包括任意编码模块(未示出)，例如，用于执行一般编码功能的编码模块或根据示例性实施例的编码模块。解码模块1130可与多媒体装置1100中包括的其它组件(未示出)组合为一体，并被实现为至少一个处理器(未示出)。

参照图11，通信单元1100可接收从外部提供的编码的比特流和音频信号中的至少一个，或者可发送作为解码结果而获得的音频比特流以及重构的音频中的至少一个。通信单元1100可被实现为大体类似于图10的通信单元1010。

根据本发明的实施例，解码模块1130可用图8的设备来实现。

存储单元1150可存储由解码模块1130产生的恢复的音频信号。另外，存储单元1150可存储操作多媒体装置1100所需的各种程序。

扬声器1170可将由解码模块1130产生的重构的音频信号输出到外部。

图12是根据另一示例性实施例的包括编码模块和解码模块的多媒体装置的框图。

图12中示出的多媒体装置1200可包括通信单元1210、编码模块1220和解码模块1230。另外，多媒体装置1200还可包括存储单元1240，其中，存储单元1240用于根据作为编码结果或解码结果而获得的音频比特流或重构的音频信号的用途来存储音频比特流或恢复的音频信号。另外，多媒体装置1200还可包括麦克风1250或扬声器1260。编码模块1220或解码模块1230可与多媒体装置1200中包括的其它组件(未示出)组合为一体，并被实现为至少一个处理器(未示出)。

由于图12中示出的组件与图10中示出的多媒体装置1000的组件或图11中示出的多媒体装置1100的组件相同，因此省略其详细描述。

多媒体装置1000、1100和1200中的每一个还可包括语音通信专用终端(包括电话、移动电话等等)、广播或音乐专用装置(包括TV、MP3播放器等等)或者语音通信专用终端与广播或音乐专用装置的复合终端装置，但不限于此。另外，多媒体装置1000、1100和1200中的每一个可被用作客户端、服务器或布置在客户端与服务器之间的转换装置。

当多媒体装置1000、1100或1200是例如移动电话时，虽然未示出，但是移动电话还可包括用户输入单元(诸如键区)、用于显示由移动电话处理的信息的用户界面或显示单元、以及用于控制移动电话的一般功能的处理器。另外，移动电话还可包括具有图像捕获功能的相机单元以及用于执行移动电话所需的功能的至少一个组件。

当多媒体装置1000、1100或1200是例如TV时，虽然未示出，但是所述TV还可包括用户输入单元(诸如键区)、用于显示接收到的广播信息的显示单元以及用于控制TV的一般功能的处理器。另外，TV还可包括用于执行TV所需的功能的至少一个组件。

实施例可被编写为计算机程序，并可被实现在使用计算机可读记录介质执行程序的通用数字计算机中。计算机可读记录介质的示例包括存储介质，诸如磁存储介质(例如，ROM、软盘、硬盘等)、光学记录介质(例如，CD-ROM或DVD)和载波(例如，通过互联网进行的传输)。

虽然已参照示例性实施例具体示出并描述了示例性实施例，但是本领域的普通技术人员将理解，在不改变示例性实施例的技术精神或本质特征的情况下，可在其中做出形式和细节上的各种改变。因此，以上描述的实施例应被理解为不是限制性的，而是对示例性实施例的说明。

Claims

1.一种对音频信号进行编码的方法，所述方法包括：

将音频信号分割为多个帧，其中，所述多个帧中的每一个帧包括M个样点，并且M是大于1的自然数；

将第一窗、第二窗和至少一个第三窗应用于所述多个帧，其中，第二窗的长度比第一窗的长度长，所述至少一个第三窗的长度比第一窗的长度长并且比第二窗的长度短；

对已应用了第一窗、第二窗和所述至少一个第三窗的所述多个帧进行时频变换；

产生包括时频变换后的所述多个帧的比特流。

2.如权利要求1所述的方法，其中，将第一窗、第二窗和至少一个第三窗应用于所述多个帧的步骤包括：将第一窗、第二窗或所述至少一个第三窗应用于一个变换单元。

3.如权利要求1所述的方法，其中，第一窗、第二窗和所述至少一个第三窗具有相同的除了系数为零的持续时间之外的重叠持续时间长度，其中，在所述重叠持续时间长度中，第一窗、第二窗和所述至少一个第三窗彼此重叠。

4.如权利要求1所述的方法，其中，将第一窗、第二窗和至少一个第三窗应用于所述多个帧的步骤包括：

将第一窗应用于包括音频信号的瞬态信号的瞬态持续时间；

将与已被应用于所述瞬态持续时间的第一窗重叠的所述至少一个第三窗应用于包括所述瞬态持续时间的变换单元。

5.如权利要求4所述的方法，其中，所述至少一个第三窗的帧大小是根据被应用于所述瞬态持续时间的第一窗的帧大小而设置的。

6.如权利要求1所述的方法，其中，将第一窗、第二窗和至少一个第三窗应用于所述多个帧的步骤包括：将在变化持续时间中彼此重叠的第一窗和所述至少一个第三窗应用于包括所述变化持续时间的变换单元，或者将所述至少一个第三窗中的在所述变化持续时间中彼此重叠的两个第三窗应用于包括所述变化持续时间的变换单元，其中，在所述变化持续时间中，在音频信号中信号特性在变化。

7.如权利要求1所述的方法，其中，所述至少一个第三窗和第二窗中的每一个窗包括系数为零的第一零持续时间和第二零持续时间，以及系数为1的第一一致持续时间和第二一致持续时间，并且，第一零持续时间、第二零持续时间、第一一致持续时间和第二一致持续时间的长度被确定为满足理想重构条件。

8.如权利要求7所述的方法，其中，第一零持续时间、第二零持续时间、第一一致持续时间和第二一致持续时间的长度被确定为(F-L)÷2，

其中，F表示相应窗的帧大小，L表示窗之间的重叠持续时间长度。

9.如权利要求1所述的方法，其中，M是2^k，并且第一窗、第二窗和所述至少一个第三窗的长度是2^k个样点。

10.如权利要求1所述的方法，其中，所述比特流包括关于被应用于音频信号的所述多个帧的窗的信息。

11.一种对音频信号进行解码的方法，所述方法包括：

从比特流提取时频变换后的音频信号的多个帧以及关于被应用于所述多个帧的窗的信息；

对提取的所述多个帧进行时频逆变换；

通过基于关于被应用于所述多个帧的窗的信息来合成时频逆变换后的所述多个帧以产生音频信号，

其中，被应用于所述多个帧的窗包括第一窗、第二窗和至少一个第三窗，

其中，第二窗的长度比第一窗的长度长，所述至少一个第三窗的长度比第一窗的长度长并且比第二窗的长度短。

12.如权利要求11所述的方法，其中，产生音频信号的步骤包括：将第一窗、第二窗或所述至少一个第三窗应用于在时频逆变换后的所述多个帧中所包括的一个变换单元。

13.如权利要求11所述的方法，其中，第一窗、第二窗和所述至少一个第三窗具有相同的除了系数为零的持续时间之外的重叠持续时间长度，其中，在所述重叠持续时间长度中，第一窗、第二窗和所述至少一个第三窗彼此重叠。

14.如权利要求11所述的方法，其中，所述至少一个第三窗和第二窗中的每一个窗包括系数为零的第一零持续时间和第二零持续时间，以及系数为1的第一一致持续时间和第二一致持续时间，并且，第一零持续时间、第二零持续时间、第一一致持续时间和第二一致持续时间的长度被确定为满足理想重构条件。

15.如权利要求14所述的方法，其中，第一零持续时间、第二零持续时间、第一一致持续时间和第二一致持续时间的长度被确定为(F-L)÷2，

16.如权利要求11所述的方法，其中，M是2^k，并且第一窗、第二窗和所述至少一个第三窗的长度是2^k个样点。

17.一种存储有当被计算机执行时执行权利要求1的方法的程序指令的非暂时性计算机可读存储介质。

18.一种存储有当被计算机执行时执行权利要求11的方法的程序指令的非暂时性计算机可读存储介质。

19.一种用于对音频信号进行编码的设备，所述设备包括：

分割单元，被配置为将音频信号分割为多个帧，其中，所述多个帧中的每一个帧包括M个样点，并且M是大于1的自然数；

窗应用单元，被配置为将第一窗、第二窗和至少一个第三窗应用于所述多个帧，其中，第二窗的长度比第一窗的长度长，所述至少一个第三窗的长度比第一窗的长度长并且比第二窗的长度短；

变换器，被配置为对已应用了第一窗、第二窗和所述至少一个第三窗的所述多个帧进行时频变换；

复用器，被配置为产生包括时频变换后的所述多个帧的比特流。

20.如权利要求19所述的设备，其中，窗应用单元被配置为将第一窗、第二窗或所述至少一个第三窗应用于一个变换单元。

21.如权利要求19所述的设备，其中，窗应用单元被配置为将第一窗、第二窗和所述至少一个第三窗应用于所述多个帧，使得第一窗、第二窗和所述至少一个第三窗彼此重叠的除了系数为零的持续时间之外的重叠持续时间具有相同长度。

22.如权利要求19所述的设备，还包括用于对音频信号的特性进行分析的分析器，

其中，窗应用单元被配置为将第一窗应用于由分析器分析出的瞬态持续时间，并被配置为将与已被应用于所述瞬态持续时间的第一窗重叠的所述至少一个第三窗应用于包括所述瞬态持续时间的变换单元。

23.如权利要求22所述的设备，其中，窗应用单元被配置为根据被应用于所述瞬态持续时间的第一窗的帧大小来设置所述至少一个第三窗的帧大小。

24.如权利要求19所述的设备，其中，窗应用单元被配置为将在变化持续时间中彼此重叠的第一窗和所述至少一个第三窗应用于包括所述变化持续时间的变换单元，或者将所述至少一个第三窗中的在所述变化持续时间中彼此重叠的两个第三窗应用于包括所述变化持续时间的变换单元，其中，在所述变化持续时间中，由分析器分析出的音频信号的特性在变化。

25.如权利要求19所述的设备，其中，所述至少一个第三窗和第二窗中的每一个窗包括系数为零的第一零持续时间和第二零持续时间，以及系数为1的第一一致持续时间和第二一致持续时间，并且，窗应用单元被配置为将第一零持续时间、第二零持续时间、第一一致持续时间和第二一致持续时间的长度确定为满足理想重构条件。

26.如权利要求25所述的设备，其中，窗应用单元被配置为将第一零持续时间、第二零持续时间、第一一致持续时间和第二一致持续时间的长度确定为(F-L)÷2，

27.如权利要求19所述的设备，其中，M是2^k，并且第一窗、第二窗和所述至少一个第三窗的长度是2^k个样点。

28.如权利要求19所述的设备，其中，所述比特流包括关于被应用于音频信号的所述多个帧的窗的信息。

29.一种对音频信号进行解码的设备，所述设备包括：

解复用器，被配置为从比特流提取时频变换后的音频信号的多个帧以及关于被应用于所述多个帧的窗的信息；

逆变换器，被配置为对提取的所述多个帧进行时频逆变换；

合成器，被配置为通过基于关于被应用于所述多个帧的窗的信息来合成时频逆变换后的所述多个帧以产生音频信号，

30.如权利要求29所述的设备，其中，合成器被配置为将第一窗、第二窗或所述至少一个第三窗应用于在时频逆变换后的所述多个帧中所包括的一个变换单元。

31.如权利要求29所述的设备，其中，第一窗、第二窗和所述至少一个第三窗具有相同的除了系数为零的持续时间之外的重叠持续时间长度，其中，在所述相同的重叠持续时间长度中，第一窗、第二窗和所述至少一个第三窗彼此重叠。

32.如权利要求29所述的设备，其中，所述至少一个第三窗和第二窗中的每一个窗包括系数为零的第一零持续时间和系数为零第二零持续时间，以及系数为1的第一一致持续时间和第二一致持续时间，并且，第一零持续时间的长度、第二零持续时间的长度、第一一致持续时间的长度和第二一致持续时间的长度被确定为满足理想重构条件。

33.如权利要求32所述的设备，其中，第一零持续时间、第二零持续时间、第一一致持续时间和第二一致持续时间的长度被确定为(F-L)÷2，

34.如权利要求29所述的设备，其中，M是2^k，并且第一窗、第二窗和所述至少一个第三窗的长度是2^k个样点。

35.一种将多个窗应用于音频信号的方法，所述方法包括：

将第一窗应用于音频信号中的多个帧；

将第二窗应用于所述多个帧，其中，第二窗比第一窗的长度长；

将至少一个第三窗应用于所述多个帧，其中，所述至少一个第三窗比第一窗的长度长并且比第二窗的长度短，

其中，第一窗、第二窗和所述至少一个第三窗具有相同的重叠持续时间长度。

36.如权利要求1所述的方法，其中，第一窗、第二窗或所述至少一个第三窗被应用于一个变换单元。

37.如权利要求1所述的方法，其中，将第一窗应用于所述多个帧的步骤包括：将第一窗应用于包括音频信号的瞬态信号的瞬态持续时间，其中，将至少一个第三窗应用于所述多个帧的步骤包括：将与已被应用于所述瞬态持续时间的第一窗重叠的所述至少一个第三窗应用于包括所述瞬态持续时间的变换单元。

38.如权利要求1所述的方法，其中，所述至少一个第三窗和第二窗中的每一个窗包括系数为零的第一零持续时间和第二零持续时间，以及系数为1的第一一致持续时间和第二一致持续时间，并且，第一零持续时间、第二零持续时间、第一一致持续时间和第二一致持续时间的长度被确定为满足理想重构条件。