CN104718572A

CN104718572A - 音频编码方法和装置、音频解码方法和装置及采用该方法和装置的多媒体装置

Info

Publication number: CN104718572A
Application number: CN201380041457.0A
Authority: CN
Inventors: 文韩吉; 金贤郁; 李男淑; 吴殷美
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2012-06-04
Filing date: 2013-06-04
Publication date: 2015-06-17
Anticipated expiration: 2033-06-04
Also published as: JP2015525374A; CN104718572B; EP2860729A4; WO2013183928A1; EP2860729A1; US20140046670A1; KR20150032614A

Abstract

一种对音频信号进行编码的方法，包括：产生时域的修正信号使得以帧为单位补偿频率分辨率；通过使用被设计为具有小于50％的重叠区间的窗类型来对时域的修正信号进行分析加窗；通过对时域的经分析加窗的信号进行变换来产生频域的变换系数。一种对音频信号进行解码的方法，包括：通过针对从比特流解码的频域信号以子频带为单位分解频率槽，来恢复频率分辨率；将频域的恢复了分辨率的信号逆变换为时域信号；通过使用被设计为具有小于50％的重叠区间的窗类型，来对时域信号进行合成加窗。

Description

音频编码方法和装置、音频解码方法和装置及采用该方法和装置的多媒体装置

技术领域

与示例性实施例一致的设备和方法涉及对音频信号进行编码和解码，更具体地讲，涉及一种这样的方法和设备及采用该方法和设备的多媒体装置：所述方法和设备用于通过对时域音频信号进行变换和编码来产生频域的变换系数，并通过对频域的变换系数进行解码和逆变换来重构时域信号。

背景技术

近来，对于新的音频/视频(A/V)服务(诸如云计算以及基于互联网的语音通信服务(诸如，语音互联网协议(VOIP)或电话会议))的需求正在快速增加。同样，提供媒体与用户之间的环境(例如，服务器-客户机环境)中的交互的新的A/V服务需要减少延迟以使得用户专注。

低延迟和高声音质量是权衡关系。因此，为了适当地支持新的A/V服务，需要根据用户面对的环境实现低延迟的同时使恢复的声音质量的恶化最小化，实现低延迟的同时保持恒定的恢复的声音质量，或者实现低延迟的同时提高恢复的声音质量。

发明内容

技术问题

一个或更多个示例性实施例提供一种用于有效地将时频变换处理/逆变换处理应用于音频信号的编码和解码处理的方法和设备及采用该方法和设备的多媒体装置。

一个或更多个示例性实施例提供一种用于在执行时频变换/逆变换处理时避免不必要的延迟的方法和设备及采用该方法和设备的多媒体装置。

一个或更多个示例性实施例提供一种这样的方法和设备及采用该方法和设备的多媒体装置：所述方法和设备用于提高恢复的声音质量的同时在执行时频变换处理/逆变换处理时通过使用减少的重叠区间来减少处理延迟。

技术方案

根据一个或更多个示例性实施例的一方面，提供了一种对音频信号进行编码的方法，所述方法包括：产生时域的修正信号使得以帧为单位补偿频率分辨率；通过使用被设计为具有小于50％的重叠区间的窗来对时域的修正信号进行分析加窗；通过对时域的经分析加窗的信号进行变换来产生频域的变换系数。

所述方法还包括：针对频域的变换系数以子频带为单位朝着低频频带合并频率槽，以便提高频率分辨率。

所述方法还包括：根据频域的变换系数的特性以子频带为单位应用不同的块大小以便提高频率分辨率。

产生时域的修正信号的步骤包括以帧为单位对周期分量进行衰减。

分析加窗步骤包括应用这样的至少两种窗类型：所述至少两种窗类型被设计为除窗系数为0的区间之外具有相同的重叠区间从而在重叠区间中完美重构可行，同时具有不同长度。

根据一个或更多个示例性实施例中的一方面，提供了一种对音频信号进行解码的方法，所述方法包括：通过针对从比特流解码的频域信号以子频带为单位分解频率槽来恢复频率分辨率；将频域的恢复了分辨率的信号逆变换为时域信号；通过使用被设计为具有小于50％的重叠区间的窗类型来对时域信号进行合成加窗。

所述方法还包括：通过对时域的经合成加窗的信号执行与在编码处理中执行的前置滤波相应的后置滤波，来重构分辨率补偿之前的音频信号。

合成加窗步骤包括：应用这样的至少两种窗类型：所述至少两种窗类型被设计为除窗系数为0的区间之外具有相同的重叠区间从而在重叠区间中完美重构可行，同时具有不同长度。

根据一个或更多个示例性实施例中的一方面，提供了一种用于对音频信号进行编码的设备，所述设备包括：前置滤波单元，被配置为产生时域的修正信号使得以帧为单位补偿频率分辨率；分析加窗单元，被配置为通过使用被设计为具有小于50％的重叠区间的窗类型来对时域的修正信号执行分析加窗；变换单元，被配置为将时域的经分析加窗的信号变换为频域信号；分辨率增强单元，被配置为针对频域信号以子频带为单位朝着低频频带合并频率槽，以提高频率分辨率。

根据一个或更多个示例性实施例中的一方面，提供了一种用于对音频信号进行解码的设备，所述设备包括：频率分辨率恢复单元，被配置为通过针对从比特流解码的频域信号以子频带为单位分解频率槽，来恢复频率分辨率；逆变换单元，被配置为将频域的恢复了分辨率的信号逆变换为时域信号；合成加窗单元，被配置为通过使用被设计为具有小于50％的重叠区间的窗类型，来对时域信号执行合成加窗；后置滤波单元，被配置为通过对时域的经合成加窗的信号执行与在编码处理中执行的前置滤波相应的后置滤波，来重构分辨率补偿之前的音频信号。

根据一个或更多个示例性实施例中的一方面，提供了一种多媒体装置，包括：通信单元，被配置为接收音频信号和编码的比特流中的至少一个，或发送编码的音频信号和重构的音频信号中的至少一个；解码模块被配置为通过针对从比特流解码的频域信号以子频带为单位分解频率槽，来恢复频率分辨率，将频域的恢复了分辨率的信号逆变换为时域信号，通过使用被设计为具有小于50％的重叠区间的窗类型，来对时域信号执行合成加窗。

多媒体装置还包括：编码模块，被配置为产生时域的修正信号使得以帧为单位补偿频率分辨率，通过使用被设计为具有小于50％的重叠区间的窗类型来对时域的修正信号执行分析加窗，将时域的经分析加窗的信号变换为频域信号。

有益效果

根据示例性实施例，可将时频变换处理/逆变换处理有效地应用于音频信号的编码和解码处理。

根据示例性实施例，在执行时频变换处理/逆变换处理时，不会发生不必要的延迟。

根据示例性实施例，在执行时频变换处理/逆变换处理时，恢复的声音质量可被提高，同时减少通过使用减少的重叠区间来减少处理延迟。

根据示例性实施例，高性能音频编解码器的延迟可被减少，因此时频变换处理/逆变换处理可用于双向通信。

根据示例性实施例，时频变换处理/逆变换处理可用于高声音质量音频编解码器，而不产生额外的延迟。

根据示例性实施例，在不对现有音频编解码器中的任何组件进行校正或修改的情况下，与时频变换处理/逆变换处理相关的延迟可被减少。

附图说明

图1是示出根据示例性实施例的音频编码设备的配置的框图；

图2是示出根据示例性实施例的音频解码设备的配置的框图；

图3a和图3b是示出应用于示例性实施例的前置滤波器和后置滤波器的滤波器响应的示例的示图；

图4是示出应用于示例性实施例的窗类型的示例的示图；

图5a至图5c是示出在使用图4中示出的窗类型时通过编码和解码而产生的延迟的示图；

图6a至图6c是示出应用示例性实施例的各种窗类型的示例的示图；

图7是示出图6中示出的窗应用于每个帧的示例的示图；

图8a和图8b是示出应用于示例性实施例的增强分辨率处理的概念的示图；

图9是示出根据示例性实施例的音频编码方法的操作的流程图；

图10是示出根据示例性实施例的音频解码设备的操作的流程图；

图11是示出根据示例性实施例的多媒体装置的框图；

图12是示出根据示例性实施例的多媒体装置的框图；

图13是示出根据示例性实施例的多媒体装置的框图。

具体实施方式

现将详细描述示例性实施例，示例性实施例的示例被示出在附图中，其中，相同的标号始终表示相同的元件。

诸如“被连接的”和“被链接的”可用于指示直接被连接的状态或直接被链接的状态，但应理解另一组件可被插入在其之间。

诸如“第一”和“第二”的术语可用于描述各种组件，但组件不应限于所述术语。术语仅用于将一个组件与另一组件区分开。

在示例性实施例中描述的单元被独立地示出为指示不同的特性功能，这不意味着每个单元由一个单独的硬件组件或软件组件组成。每个单元被示出用于便于解释，多个单元可形成一个单元，一个单元可被划分为多个单元。

目前，多个编解码器技术正被用于对音频信号进行编码/解码。每个编解码器技术具有适合特定音频信号的特性并针对该特定音频信号被最优化。使用修正离散余弦变换(MDCT)的编解码器的一些示例是MPEG的高级音频编码系列、G.722.1、G.929.1、G.718、G.711.1、G.722超宽带(SWB)、G.729.1/G718SWB和G.722SWB，这些编解码器基于感知编码方案，其中，在感知编码方案中，通过心理声学模型与应用了MDCT的滤波器组的组合来执行编码处理。由于时域信号可通过使用叠加(overlap-and-add)方案被有效地重构的优点，因此MDCT正被广泛用于音频编解码器。

同样，使用MDCT的各种编解码器正被使用，但每个编解码器可具有不同的结构以获得预期效果。例如，MPEG的ACC系列通过MDCT(滤波器组)和心理声学模型的组合执行编码，ACC增强型低延迟(ACC-ELD)通过使用具有低延迟的MDCT执行编码。另外，G.722.1通过将MDCT应用于整个频带来对系数进行量化，G.718宽带(WB)将量化误差编码为分层的WB编解码器和超宽带(SWB)编解码器中基于MDCT的增强层。另外，增强型可变速率编解码器(EVRC)-WB、G.729.1、G.718、G.711.1、G.718/G.729.1SWB等将频带被划分的信号编码为分层的WB编解码器和SWB编解码器中的基于MDCT的增强型层。

图1是示出根据示例性实施例的音频编码设备100的框图。

图1的音频编码设备100可包括前置滤波单元110、分析加窗单元120、变换单元130、分辨率增强单元140和编码单元150。可通过额外的路径160将编码所需的各种参数(诸如，信号的长度、窗类型和比特分配信息)发送到编码设备100中的单元110至单元150中的每个单元。示例性实施例中示出：可通过额外的路径160发送单元110至单元150中的每个单元的操作所需的附加信息，但这是为了便于解释，因此在没有单独的额外的路径160的情况下，可根据每个示出的单元的操作顺序，依次将附加信息连同信号发送到每个单元(即，前置滤波单元110、分析加窗单元120、变换单元130、分辨率增强单元140和编码单元150)。另外，各个组件可被集成为至少一个模块，并可被实现为至少一个处理器(未示出)。这里，音频可表示音乐、语音或音乐和语音的混合信号。

参照图1，前置滤波单元110可从以帧为单位输入的音频信号检测周期分量，去除检测到的周期分量，并通过将去除的周期分量表示为单独的参数来产生修正音频信号。这里，帧可指示一般帧、作为帧的下级帧的子帧或子帧的下级帧。根据示例性实施例，周期分量可包括谐波分量(诸如，音高)。例如，当周期分量是音高时，前置滤波单元110可使用各种已知的音高检测算法来检测音高，并考虑检测到的音高的位置和幅度设计滤波器系数，并将滤波器系数应用于输入的音频信号。前置滤波处理可应用于所有帧，或者可应用于首先检测到周期分量的帧。包括与检测到的音高的位置和幅度相关的滤波器系数的单独的参数可包括在比特流中，以便被发送。

分析加窗单元120可针对从前置滤波单元110提供的修正音频信号执行分析加窗。根据示例性实施例，应用的窗类型可具有小于50％的重叠区间。另外，当具有相同长度的两种窗类型重叠或者具有不同长度的两种窗类型重叠时，除窗系数为0的区间之外，重叠区间的长度可被设置为相同，以便满足完美重构条件，稍后将参照图4至图7描述完美重构条件。

变换单元130可通过对在分析加窗单元120中执行了窗处理的时域音频信号进行变换来产生频域的变换系数。DCT、修正离散余弦变换(MDCT)或快速傅里叶变换(FFT)可用于变换处理，但一个或更多个示例性实施例不限于此。

分辨率增强单元140可针对在变换单元130中产生的频域的变换系数以子频带为单位来调整时频分辨率。例如，在音调分量、稳态分量和瞬态分量共存的帧中，相对长的块大小可应用于音调分量或稳态分量，相对短的块大小可应用于瞬态分量。作为结果，在音调分量或稳态分量中，频率分辨率会增加而时间分辨率减小，在瞬态分量中，频率分辨率会减小而时间分辨率会增加，因此可获得适合于信号特性的分辨率。关于应用的块大小的信息可包括在比特流中。另外，分辨率增强单元140可以以子频带为单位朝着低频频带或高频频带合并频率槽(bin)。秩为2ⁿ的沃尔什矩阵可用于合并每个子频带中存在的频率槽。可从秩为2ⁿ的哈达玛矩阵得到沃尔什矩阵。根据示例性实施例，分辨率增强单元140可贯穿整个帧通过以每个子频带为单位朝着低频频带合并频率槽，来增强低频频带的频率分辨率。另一已知的矩阵可用于合并每个子频带中存在的频率槽。关于在合并频率槽中使用的矩阵的信息可包括在比特流中。

编码单元150可针对在分辨率增强单元140中调整了分辨率的变换系数执行包括量化的编码处理。编码单元150中的编码结果和解码所需的编码参数可形成比特流，可将比特流存储在预定存储介质中，或可通过信道发送比特流。

根据示例性实施例，可使用前置滤波单元110和分辨率增强单元140两者，可根据实施了编码设备或解码设备的装置的用途来使用前置滤波单元110和分辨率增强单元140中的至少一个。为此，当需要用户的选择时，单独的开关单元可被提供。当选择性地被使用时，可将与是否执行前置滤波处理或分辨率增强处理相关的标志添加到比特流的头，从而可在解码设备中执行相应处理。

另外，根据另一示例性实施例，与现有AAC编解码器中的窗类型相同的窗类型应用于分析加窗单元120，前置滤波单元110和分辨率增强单元140额外地被包括，并全部地或选择性地被操作以增强恢复的声音质量。

另外，根据另一示例性实施例，单个窗类型(例如，短窗或长窗)可应用于分析加窗单元120，前置滤波单元110和分辨率增强单元140可额外地被包括，并可全部地或选择性地被操作以增强恢复的声音质量。

图2是示出根据示例性实施例的音频解码设备200的框图。

图2中示出的音频解码设备200可包括解码单元210、分辨率恢复单元220、逆变换单元230、合成加窗单元240和后置滤波单元250。解码所需的各种参数(诸如，信号的长度、窗类型和比特分配信息)可通过额外的路径260被发送到解码设备200的单元210至单元250中的每个单元。示例性实施例中示出：可通过额外的路径260发送单元210至单元250中的每个单元的操作所需的附加信息，但这是为了便于解释，因此，在没有单独的额外的路径260的情况下，可根据每个示出的单元的操作顺序，依次将附加信息连同信号发送到每个单元(即，解码单元210、分辨率恢复单元220、逆变换单元230、合成加窗单元240和后置滤波单元250)。另外，各个组件可被集成为至少一个模块，并可被实现为至少一个处理器(未示出)。这里，音频可表示音乐、语音或音乐和语音的混合信号。

参照图2，解码设备210可接收比特流并执行反量化，以获得频域的变换系数。

分辨率恢复单元220可通过针对从解码单元210提供的频域的变换系数以子频带为单位使频率槽分解，来恢复分辨率。为此，可使用在编码设备100的分辨率增强单元140中用于合并频率槽的矩阵的逆矩阵。

逆变换单元230可通过对已由分辨率恢复单元220恢复了分辨率的频域的变换系数进行逆变换来产生时域信号。为此，可执行与编码设备100的变换单元130中使用的变换处理相应的逆变换处理。例如，当MDCT应用于编码设备100的变换单元130时，逆变换单元230可通过将IMDCT应用于变换系数来将频域的变换系数变换为时域信号。

合成加窗单元240可针对从逆变换单元230提供的时域信号执行合成加窗。为此，可应用与在编码设备100的分析加窗单元中应用的窗类型相同的窗类型。合成加窗单元240可通过针对应用了合成加窗的时域信号执行叠加处理来恢复时域信号。

后置滤波单元250可对从合成加窗单元240提供的时域信号进行后置滤波以便将所述时域信号重构为在编码设备100中的前置滤波之前的信号。作为结果，可通过用于使用从编码设备100发送的单独的参数的后置滤波器来重构通过编码设备100的前置滤波单元110去除的周期分量。

根据示例性实施例，可使用分辨率恢复单元200和后置滤波单元250两者，或者可选择性地使用分辨率恢复单元200和后置滤波单元250。例如，包括在比特流的头中的与是否执行前置滤波处理或是否执行分辨率增强处理相关的标志可被参考以用于选择性的使用。

根据另一示例性实施例，与现有AAC编解码器中的窗类型相同的窗类型可应用于合成加窗单元240以相应于编码设备100，分辨率恢复单元220和后置滤波单元250可额外地被包括，并全部地或选择性地被操作以增强恢复的声音质量。

根据另一示例性实施例，单个窗类型(例如，短窗或长窗)可应用于合成加窗单元240以相应于编码设备100，分辨率恢复单元220和后置滤波单元250可额外地被包括，并可全部地或选择性地被操作以增强恢复的声音质量。

图3a和图3b是示出应用于示例性实施例的前置滤波器和后置滤波器的滤波器响应的示例的示图。图3a示出在零极点梳状滤波器中实现的前置滤波器的滤波器响应，图3b示出与图3a的前置滤波器相应的后置滤波器的滤波器响应。图3a可用于编码设备，图3b可用于解码设备。

图3a的前置滤波器的传递函数H_pre(z)，图3b的后置滤波器的传递函数H_post(z)可如下面的等式1所示。

等式1

H_{pre} (z) = \frac{1 - b z^{- p}}{1 + a z^{- p}}

H_{post} (z) = \frac{1 - a z^{- p}}{1 + b z^{- p}}

这里，a和b表示在实现每个梳状滤波器时使用的乘子。

在示例性实施例中，前置滤波器和后置滤波器已被实现为零极点梳状滤波器，但示例性实施例不限于此。

同样，在编码设备中，可使用前置滤波器去除包括在音频信号中的周期分量(例如，谐波分量(诸如，音高))，可将去除的周期分量表示为单独的参数，以便产生修正音频信号。在编码设备中，可执行修正音频信号的整个编码处理。另外，解码设备可针对比特流执行整个解码处理，随后通过使用与前置滤波器相应的后置滤波器将信号重构为在前置滤波之前的音频信号。作为结果，即使使用具有短的重叠区间的窗类型，也可提高频率分辨率，因此可避免重构的音频信号的感知质量的退化。

图4是示出应用于示例性实施例的具有小于50％的重叠区间的窗的示例的示图。

参照图4，窗类型可由第一和第二零区间(a1,a2)、第一和第二边缘区间(W₁,W₂)和窗系数为1的第一和第二单位区间(b1,b2)组成。当应用两个相同的窗类型时，窗类型410的第二边缘区间(W₂)可与窗类型430的第一边缘区间(W₁)重叠。此时，第一和第二边缘区间(W₁,W₂)可从等式2的窗函数W(n)被指示为等式3。

等式2

W (n) = \sin (\frac{π}{2} \times \sin^{2} (\frac{π}{2} \times \frac{n + 0.5}{L}))

等式3

W_{1} (n) = \sin (\frac{π}{2} \times \sin^{2} (\frac{π}{2} \times \frac{n + L + 0.5}{L})), n = 0, . . ., L - 1

W_{2} (n) = \sin (\frac{π}{2} \times \sin^{2} (\frac{π}{2} \times \frac{n + 0.5}{L})), n = 0, . . ., L - 1

这里，采样数n的值为0,…,2L-1，L是重叠区间的长度并表示例如128个采样。

窗函数W(n)是正弦波，因此当满足下面等式4的条件时，第一和第二边缘区间(W₁,W₂)可保证重叠区间的完美重构。

等式4

W_l ²(n)+W₂ ²(n)＝1

另外，为了满足上面的等式4的条件，窗类型的第一和第二零区间(a1,a2)以及第一和第二单位区间(b1,b2)可被表示为如下面的等式5所示。

等式5

(F-L)/2

这里，F表示窗类型的帧大小，L表示重叠区间的长度。

这里，当窗的帧大小是1024个采样时，重叠区间的长度是128个采样，因此，第一和第二零区间(a1,a2)以及第一和第二单位区间(b1,b2)可以是448个采样。

图5a至图5c是示出在使用图4中示出的窗类型时通过编码和解码处理而产生的延迟的示图。

图5a表示输入到编码设备的音频信号，图5b表示由编码设备执行的时频变换，图5c表示由解码设备执行的时频逆变换。

在通用AAC编解码器中，需要先行采样(look-ahead sample)来确定将被编码设备应用于当前帧510的窗类型530，但根据示例性实施例，通过将不同窗类型之间的重叠区间的长度设置为相同而不需要用于确定将被应用于当前帧510的窗类型530的先行采样。作为结果，在图5a的编码设备中的时频变换时，不产生先行采样的延迟。

另外，在解码设备中，需要等待与当前帧重叠的下一帧以进行时频逆变换。在通用AAC编解码器中，重叠区间的长度是1024个采样，因此，会发生数量为1024个采样的延迟。根据示例性实施例，当不同的窗类型之间的重叠区间的长度是128个采样时，会发生数量为128个采样的延迟。

另外，当当前帧510是音频信号的第一帧时，解码设备需要与现有AAC编解码器相同的1024个采样的延迟以处理当前帧510。

因此，根据示例性实施例，编码处理和解码处理的延迟D包括重叠区间的延迟和当前帧510的延迟，当采样率为48kHz时，总延迟是24ms。相反，现有AAC编解码器的编码处理和解码处理的延迟包括先行采样的延迟、重叠区间的延迟和当前帧510的延迟，当采样率为48kHz时，总延迟为54.7ms。

图6a至图6c是示出应用于示例性实施例的各种窗类型的示例的示图。图6a示出短窗(以下，称为“第一窗类型”)，图6b示出长窗(以下，称为“第二窗类型”)，图6c示出中等窗(以下，称为“第三窗类型”)。这里，第二窗类型可与图4中示出的窗类型相应。根据示例性实施例，第一窗类型和第二窗类型的长度可被设置为与在AAC编解码器中使用的短窗和长窗的长度相同。详细地，在AAC编解码器的情况下，例如，如果一个帧的长度是1024个采样，则短窗的长度是256个采样，长窗的长度可以是2048个采样，但在对于本领域普通技术人员而言显然的范围之内长度可被不同地改变。另外，第三窗类型可被设计为在比第一窗类型长且比第二窗类型短的长度范围内具有根据音频信号的特性的各种长度。

参照图6a，第一窗类型可被配置为不具有窗系数为0的零区间和窗系数为1的单位区间。另外，参照图6b，第二窗类型可具有小于50％的重叠区间。详细地，第二窗类型可包括如图4所示的窗系数为0的第一和第二零区间(a1,a2)和窗系数为1的第一和第二单位区间(b1,b2)。另外，参照图6c，第三窗类型像第二窗类型一样具有小于50％的重叠区间。详细地，第三窗类型可包括第一和第二零区间(b1,b2)和第一和第二单位区间(b1,b2)。

根据示例性实施例，第三窗类型可被设计为在比第一窗类型长且比第二窗类型短的长度的范围内满足上面的等式5。

下面的表1示出在第一窗类型的帧大小为128个采样并且第二窗类型的帧大小是1024个采样时的根据第三窗类型的六个不同帧大小的第一和第二零区间的长度以及第一和第二单位区间的长度。

表1

根据示例性实施例，可将以下长度均设置为2^k：帧的长度、第一窗类型的长度、第二窗类型的长度、第三窗类型的长度。作为结果，可减少编码和解码中所需的计算量。

图7是示出图6中示出的各种窗类型710、720、730、740和750应用于各个帧的示例的示图。第二窗类型720应用于帧N-1，第一窗类型710和第三窗类型应用于帧N，两个第三窗类型740和750应用于帧N+1，八个第一窗类型710应用于帧N+2。

根据示例性实施例，通过将除窗系数为0的区间之外的窗之间的重叠区间的长度设置为相同，不需要连接第一窗710和第二窗720的过渡窗(诸如，长开始窗和长停止窗)。作为结果，可减少根据窗切换的延迟。详细地，第一窗类型710、第二窗类型720和第三窗类型730、740和750之间的重叠区间的长度可被设置为第一窗类型710的长度的1/2。当第一窗类型710的长度为与ACC编解码器相同的256个采样时，第一窗类型710、第二窗类型720和第三窗类型730、740和750之间的重叠区间的长度可变成128个采样。同样，与AAC编解码器相比，窗口之间的重叠区间的长度变得非常小，因此，可减少重叠处理的延迟。

另外，根据示例性实施例，在帧中存在瞬态的情况下，如在帧N+2中，8个第一窗类型可应用于整个帧。根据另一示例性实施例，如在帧N中，第一窗类型710可应用于瞬态区间t1，调整了长度的第三窗类型730可应用于剩余区间，其中，第三窗类型730与第一窗类型710重叠。

另外，根据示例性实施例，在具有信号的特性变化的区间t2的帧的情况下，如在具有瞬态区间t1的帧中，可应用第一窗类型和第三窗类型，或者可应用第三窗类型740和750两者。这里，信号的特性可包括音频信号的频率、音调、强度等。如果信号特性变化的区间t2非常短，则可将两个第三窗类型设置为重叠以增强编码效率。如果一个第三窗类型的长度被确定，则另一第三窗类型的长度可被确定为使得第三窗类型740和750的帧大小变成与第二窗类型720的帧大小相同。与第二窗类型相同，第三窗类型也可被确定为满足时频变换的完美重构条件。

图8a和图8b是示出应用于示例性实施例的提高分辨率的概念的示图。图8a示出块大小应用于现有的整个频带的示例，图8b示出根据示例性实施例的以子频带为单位应用块大小的示例。

图9是示出根据示例性实施例的音频编码方法的操作的流程图。

参照图9，在操作910，可以以帧为单位接收时域信号。

在操作920，可针对接收到的时域信号执行前置滤波。为此，可提取包括音频信号的重要信息或感知信息的周期分量(诸如，谐波分量)，并且可强调提取的周期分量，同时通过使用前置滤波器对提取的周期分量之间的噪声分量进行衰减。可通过提取的周期分量的位置和幅度来确定前置滤波器的滤波器系数。可通过实验或仿真预先确定前置滤波器的滤波器系数，并可将该滤波器系数应用于每个帧。

在操作930，可通过前置滤波处理针对修正的时域信号执行分析加窗。图6a至图6c的一种或两种窗类型可应用于每个帧以进行分析加窗。

在操作940，可通过对执行了分析加窗处理的时域信号进行变换来产生频域的变换系数。

在操作950，可执行用于频域的变换系数的时频分辨率增强处理。此时，可通过应用适合于信号的特性的块大小，根据信号的特性来提高时间分辨率或频率分辨率，或者可通过以子频带为单位朝着低频频带合并频率槽来提高频率分辨率。

在操作960，执行了分辨率增强处理的频域的变换系数可被量化和熵编码，并可与解码处理所需的参数一起复用以便产生比特流。

这里，可全部地或选择性地执行操作920和操作950。

图10是示出根据示例性实施例的音频解码设备的操作的流程图。

参照图10，在操作1010，可接收比特流并对比特流进行解复用，可提取编码的频域的变换系数和解码处理所需的参数。

在操作1020，可针对在操作1010提供的频域的变换系数执行熵解码和反量化。此时，当以子频带为单位分配不同的块大小时，可根据相应的块大小执行熵解码和反量化。

在操作1030，可通过使用在编码设备中的分辨率增强处理期间使用的矩阵的逆矩阵，将频域的反量化的变换系数的分辨率恢复为分辨率增强处理之前的状态。

在操作1040，可通过对恢复了分辨率的频域的变换系数进行逆变换来产生时域信号。

在操作1050，可针对时域信号执行合成加窗。此时，可将与编码设备中的分析加窗中使用的窗相同的窗应用于每个帧。合成加窗处理可包括叠加处理。

在操作1060，可针对执行了合成加窗的时域信号执行后置滤波，以便将所述时域信号重构为在编码设备中的前置滤波之前的状态。

可根据编码设备中的相应处理是否被执行，来全部地或选择性地执行操作1030和操作1060。

上述示例性实施例可应用于采用运动图像专家组高级音频编码(MPEGAAC)算法、MPEG AAC-LD(低延迟)算法或MPEG AAC-ELD(增强型低延迟)算法的核心编码器，但也可应用于采用变换编码的所有编解码器。

图11是示出根据示例性实施例的包括编码模块的多媒体装置的框图。

参照图11，多媒体装置1100可包括通信单元1110和编码模块1130。另外，多媒体装置1100还可包括用于根据作为编码的结果而获得的音频比特流的用途来存储音频比特流的存储单元1150。另外，多媒体装置1100还可包括麦克风1170。也就是说，可选择性地包括存储单元1150和麦克风1170。多媒体装置1100还可包括任意的解码模块(未示出)，例如，执行一般解码功能的解码模块或根据示例性实施例的解码模块。编码模块1130可通过与包括在多媒体装置1100中的其它组件(未示出)集成为一体通过至少一个处理器(未示出)来实现。

通信单元1110可从外部接收音频信号和编码的比特流中的至少一个，或发送恢复的音频信号和作为编码模块1130的编码结果而获得的编码的比特流中的至少一个。

通信单元1110被配置为通过无线网络(诸如，无线互联网、无线内联网、无线电话网络、无线局域网(LAN)、Wi-Fi、WiFi直连(WFD)、第三代(3G)、第四代(4G)、蓝牙、红外数据协会(IrDA)、射频识别(RFID)、超宽带(UWB)、Zigbee或近场通信(NFC))或有线网络(诸如，有线电话网络或有线互联网)将数据发送到外部多媒体装置和从外部多媒体装置接收数据。

根据示例性实施例，编码模块1130可产生时域的修正信号从而以帧为单位将频率分辨率补偿给通过通信单元1110或麦克风1170提供的时域信号，通过使用被设计为具有小于50％的重叠区间的窗来对时域的修正信号进行分析加窗，并将时域的经分析加窗的信号变换为频域信号。另外，为了提高频率分辨率，可针对频域信号以子频带为单位朝着低频频带合并频率槽。另外，为了增强时频分辨率，可根据频域信号的特性以子频带为单位应用不同的块大小。可通过以帧为单位去除周期分量来将时域的修正信号表示和产生为单独的参数。另外，当执行分析加窗时，可应用被设计为具有相同的重叠区间以在重叠区间中实现完美重构且具有不同长度的至少两种窗类型。

存储单元1150可存储操作多媒体装置1100所需的各种程序。

麦克风1170可将来自用户或外部的音频信号提供给编码模块930。

图12是示出根据示例性实施例的包括解码模块的多媒体装置的框图。

图12的多媒体装置1200可包括通信单元1210和解码模块1230。另外，根据作为解码结果而获得的重构的音频信号的用途，图12的多媒体装置1200还可包括用于存储重构的音频信号的存储单元1250。另外，图12的多媒体装置1200还可包括扬声器1270。也就是说，存储单元1250和扬声器1270是可选的。图12的多媒体装置1200还可包括编码模块(未示出)，例如，用于执行一般解码功能的编码模块或根据示例性实施例的编码模块。解码模块1230可与包括在多媒体装置1200中的其它组件(未示出)集成并通过至少一个处理器来实现。

参照图12，通信单元1210可接收从外部提供的音频信号和编码的比特流中的至少一个，或者可发送作为解码模块1230的解码结果而获得的重构的音频信号和作为编码结果而获得的音频比特流中的至少一个。通信单元1210可被实现为与图11的通信单元1110大体上类似。

根据示例性实施例，解码模块1230可接收通过通信单元1210提供的比特流，通过以子频带为单位分解频率槽来恢复从比特流解码的频域信号的频率分辨率，将频域的恢复了分辨率的信号逆变换为时域信号，并通过使用被设计为具有小于50％的重叠区间的窗来对时域信号执行合成加窗。另外，可通过针对时域的经合成加窗的信号执行与编码处理中执行的前置滤波相应的后置滤波，来将时域的经合成加窗的信号重构为分辨率补偿之前的音频信号。另外，可在执行合成加窗的过程中应用这样的至少两种窗类型：所述至少两种窗类型被设计为具有相同的重叠区间从而可在重叠区间中进行完美重构，同时具有不同长度。

存储单元1250可存储由解码模块1230产生的重构的音频信号。另外，存储单元1250可存储操作多媒体装置1200所需的各种程序。

扬声器1270可将由解码模块1230产生的重构的音频信号输出到外部。

图13是示出根据示例性实施例的包括编码模块和解码模块的多媒体装置的框图。

图13中示出的多媒体装置1300可包括通信单元1310、编码模块1320和解码模块1330。另外，多媒体装置1300还可包括用于根据音频比特流或重构的音频信号的用途来存储作为编码结果而获得的音频比特流或作为解码结果而获得的重构的音频信号的存储单元1340。另外，多媒体装置1300还可包括麦克风1350和/或扬声器1360。编码模块1320和解码模块1330可通过与包括在多媒体装置1300中的其它组件(未示出)集成为一体通过至少一个处理器(未示出)来实现。

由于图13中示出的多媒体装置1300的组件与图11中示出的多媒体装置1100的组件或图12中示出的多媒体装置1200的组件相应，因此省略其详细描述。

图11、图12和图13中示出的多媒体装置1100、1200和1300中的每个可包括仅语音通信终端(诸如，电话或移动电话)、仅广播或音乐装置(诸如，TV或MP3播放器)、或仅通信终端和仅广播或音乐装置的混合型终端装置，但不限于此。另外，多媒体装置1100、1200和1300中的每个可用作客户机、服务器或布置在客户机和服务器之间的换能器。

当多媒体装置1100、1200或1300是例如移动电话时，尽管未示出，但多媒体装置1100、1200或1300还可包括用户输入单元(诸如，键区)、用于显示由用户界面或移动电话处理的信息的显示单元以及用于控制移动电话的功能的处理器。另外，移动电话还可包括具有图像拾取功能的相机单元和用于执行移动电话所需的功能的至少一个组件。

当多媒体装置1100、1200或1300是例如TV时，尽管未示出，但多媒体装置1100、1200或1300还可包括用户输入单元(诸如，键区)、用于显示接收到的广播信息的显示单元以及用于控制TV的所有功能的处理器。另外，TV还可包括用于执行TV的功能的至少一个组件。

根据示例性实施例的方法可被编写为计算机可执行程序，并可被实现在通过使用非暂时性计算机可读记录介质来执行程序的通用数字计算机中。另外，可以以各种方式将可用于实施例的数据结构、程序指令或数据文件记录在非暂时性计算机可读记录介质上。非暂时性计算机可读记录介质是可存储随后可由计算机系统读取的数据的任何数据存储装置。非暂时性计算机可读记录介质的示例包括磁存储介质(诸如，硬盘、软盘和磁带)、光学记录介质(诸如，CD-ROM和DVD)、磁光介质(诸如，光盘)以及专门地配置为存储和执行程序指令的硬件装置(诸如，ROM、RAM和闪存)。另外，非暂时性计算机可读记录介质可以是用于发送指明程序指令、数据结构等的信号的传输介质。程序指令的示例不仅可包括由编译器创建的机械语言代码，还包括由计算机使用解释器等可执行的高级语言代码。

尽管以上已具体示出和描述了示例性实施例，但是本领域的普通技术人员将理解，在不脱离由权利要求限定的本发明构思的精神和范围的情况下，可在形式和细节上进行各种改变。示例性实施例应被看作仅描述性意义，而不是出于限制的目的。因此，本发明构思的范围不由示例性实施例的详细描述限定而由权利要求来限定，在所述范围内的所有不同将被解释为包括在本发明构思内。

Claims

1.一种对音频信号进行编码的方法，所述方法包括：

产生时域的修正信号以便以帧为单位补偿频率分辨率；

通过使用被设计为具有小于50％的重叠区间的窗来对时域的修正信号进行分析加窗；

通过对时域的经分析加窗的信号进行变换来产生频域的变换系数。

2.如权利要求1所述的方法，还包括：

针对频域的变换系数以子频带为单位朝着低频频带合并频率槽，以便提高频率分辨率。

3.如权利要求1所述的方法，还包括：

根据频域的变换系数的特性以子频带为单位应用不同的块大小，以便提高频率分辨率。

4.如权利要求1所述的方法，其中，产生时域的修正信号的步骤包括以帧为单位去除周期分量。

5.如权利要求1所述的方法，其中，分析加窗步骤包括应用至少两种窗类型，其中，所述至少两种窗类型被设计为：除窗系数为0的区间之外具有相同的重叠区间使得在重叠区间中完美重构可行，且同时具有不同长度。

6.一种对音频信号进行编码的方法，所述方法包括：

通过使用被设计为具有相同的重叠区间且同时具有不同长度的至少两种窗类型，以帧为单位对时域信号进行分析加窗；

将经分析加窗的时域信号变换为频域信号；

针对频域信号以子频带为单位朝着低频频带合并频率槽以提高频率分辨率。

7.如权利要求6所述的方法，还包括：

根据频域信号的特性以子频带为单位应用不同的块大小以提高时频分辨率。

8.如权利要求7所述的方法，还包括：

通过以帧为单位去除周期分量来产生时域的修正信号，提供时域的修正信号而不是所述时域信号用于分析加窗。

9.一种对音频信号进行解码的方法，所述方法包括：

通过针对从比特流解码的频域信号以子频带为单位分解频率槽来恢复频率分辨率；

将频域的恢复了分辨率的信号逆变换为时域信号；

通过使用被设计为具有小于50％的重叠区间的窗类型来对时域信号进行合成加窗。

10.如权利要求9所述的方法，还包括：

通过对时域的经合成加窗的信号执行与在编码处理中执行的前置滤波相应的后置滤波，来重构分辨率补偿之前的音频信号。

11.如权利要求9所述的方法，其中，合成加窗步骤包括：

应用至少两种窗类型，其中，所述至少两种窗类型被设计为：除窗系数为0的区间之外具有相同的重叠区间使得在重叠区间中完美重构可行，且同时具有不同长度。

12.一种用于对音频信号进行编码的设备，所述设备包括：

前置滤波单元，被配置为产生时域的修正信号以便以帧为单位补偿频率分辨率；

分析加窗单元，被配置为通过使用被设计为具有小于50％的重叠区间的窗类型来对时域的修正信号执行分析加窗；

变换单元，被配置为将时域的经分析加窗的信号变换为频域信号；

分辨率增强单元，被配置为针对频域信号以子频带为单位朝着低频频带合并频率槽，以提高频率分辨率。

13.如权利要求12所述的设备，其中，分辨率增强单元被配置为根据频域信号的特性以子频带为单位应用不同的块大小以提高时频分辨率。

14.如权利要求12所述的设备，其中，分析加窗单元被配置为应用至少两种窗类型，其中，所述至少两种窗类型被设计为：除窗系数为0的区间之外具有相同的重叠区间使得在重叠区间中完美重构可行，且同时具有不同长度。

15.一种用于对音频信号进行解码的设备，所述设备包括：

频率分辨率恢复单元，被配置为通过针对从比特流解码的频域信号以子频带为单位分解频率槽，来恢复频率分辨率；

逆变换单元，被配置为将频域的恢复了分辨率的信号逆变换为时域信号；

合成加窗单元，被配置为通过使用被设计为具有小于50％的重叠区间的窗类型，来对时域信号执行合成加窗；

后置滤波单元，被配置为通过对时域的经合成加窗的信号执行与在编码处理中执行的前置滤波相应的后置滤波，来重构分辨率补偿之前的音频信号。

16.如权利要求15所述的设备，其中，合成加窗单元被配置为应用至少两种窗类型，其中，所述至少两种窗类型被设计为：除窗系数为0的区间之外具有相同的重叠区间使得在重叠区间中完美重构可行，且同时具有不同长度。

17.一种多媒体装置，包括：

通信单元，被配置为接收音频信号和编码的比特流中的至少一个，或发送编码的音频信号和重构的音频信号中的至少一个；

解码模块被配置为通过针对从比特流解码的频域信号以子频带为单位分解频率槽来恢复频率分辨率，将频域的恢复了分辨率的信号逆变换为时域信号，通过使用被设计为具有小于50％的重叠区间的窗类型来对时域信号执行合成加窗。

18.如权利要求17所述的多媒体装置，还包括：

编码模块，被配置为产生时域的修正信号以便以帧为单位补偿频率分辨率，通过使用被设计为具有小于50％的重叠区间的窗类型来对时域的修正信号执行分析加窗，将时域的经分析加窗的信号变换为频域信号。

19.如权利要求18所述的多媒体装置，其中，通过应用至少两种窗类型来执行分析加窗和合成加窗，其中，所述至少两种窗类型被设计为：除窗系数为0的区间之外具有相同的重叠区间使得在重叠区间中完美重构可行，且同时具有不同长度。

20.一种由可执行如权利要求1至权利要求11中的任意一项权利要求所述的方法的计算机能够读取的记录介质。