CN105719655A

CN105719655A - 用于高频带宽扩展的对信号进行编码和解码的设备和方法

Info

Publication number: CN105719655A
Application number: CN201610086624.9A
Authority: CN
Inventors: 成昊相; 朱基岘; 吴殷美
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2010-09-15
Filing date: 2011-09-15
Publication date: 2016-06-29
Anticipated expiration: 2031-09-15
Also published as: MX354288B; KR20180100294A; US20120065965A1; CN103210443B; JP2013538374A; JP6111196B2; CN103210443A; KR101826331B1; RU2639694C1; US20160064013A1; KR101896504B1; JP2018120236A; CN105719655B; KR102013242B1; WO2012036487A3; JP6306676B2; US9837090B2; CN105654958B; JP2017076133A; EP3745398A1

Abstract

提供了一种用于高频带宽扩展的对信号进行编码和解码的设备和方法。编码设备可对时域输入信号进行下采样，可对下采样的时域输入信号进行核心编码，可将核心编码的时域输入信号变换为频域输入信号，并可使用频域输入信号的基础信号来执行带宽扩展编码。

Description

用于高频带宽扩展的对信号进行编码和解码的设备和方法

本申请是申请日为2011年09月15日，申请号为“201180054965.3”，标题为“用于高频带宽扩展的对信号进行编码和解码的设备和方法”的发明专利申请的分案申请。

技术领域

以下描述的一个或多个实施例涉及一种对音频信号(诸如语音信号或音乐信号)进行编码或解码的方法和设备，更具体地，涉及一种对音频信号中与高频域对应的信号进行编码和解码的方法和设备。

背景技术

与对应于低频域的信号相比，对应于高频域的信号对于频域的精细结构较不敏感。因此，需要提高编码效率来克服在对音频信号编码时可用的比特的限制。因此，大量的比特可被分配给对应于低频域的信号，而较少数量的比特可被分配给对应于高频域的信号。

这样的方案可应用于频带复制(SBR)技术。基于人类的听觉对于高频带信号具有相对较低分辨力的事实，SBR技术可用于通过将高频带分量信号表示为包络，并在高频带分量信号的解码期间合成高频带分量信号来提高编码效率。

在SBR技术中，需要一种改进的用于扩展高频域的带宽的方法。

发明内容

通过提供一种编码设备来实现以上和/或其它方面，所述编码设备包括：下采样单元，对时域输入信号进行下采样；核心编码单元，对下采样的时域输入信号进行核心编码；频率变换单元，将核心编码的时域输入信号变换为频域输入信号；扩展编码单元，使用频域输入信号的基础信号执行带宽扩展编码。

扩展编码单元可包括：基础信号产生器，使用频域输入信号的频谱来产生频域输入信号的基础信号；因子估算器，使用基础信号来估算能量控制因子；能量提取器，从频域输入信号提取能量；能量控制器，使用能量控制因子控制提取的能量；能量量化器，对受控的能量进行量化。

基础信号产生器可包括：人工信号产生器，通过复制和折叠频域输入信号的低频部分来产生与高频部分对应的人工信号；包络估算器，使用窗口估算人工信号的包络；包络应用器，将估算的包络应用于人工信号。应用估算的包络的意思是用估算的人工信号的包络来划分人工信号。

因子估算器可包括：第一音调计算单元，计算频域输入信号的高频部分的音调；第二音调计算单元，计算基础信号的音调；因子计算单元，使用高频部分的音调和基础信号的音调来计算能量控制因子。

还可通过提供一种编码设备来实现以上和/或其它方面，所述编码设备包括：下采样单元，对时域输入信号进行下采样；核心编码单元，对下采样的时域输入信号进行核心编码；频率变换单元，将核心编码的时域输入信号变换为频域输入信号；扩展编码单元，使用频域输入信号的特征，并使用频域输入信号的基础信号来执行带宽扩展编码。

扩展编码单元可包括：基础信号产生器，使用频域输入信号的频谱，产生频域输入信号的基础信号；因子估算器，使用基础信号和频域输入信号的特征来估算能量控制因子；能量提取器，从频域输入信号提取能量；能量控制器，使用能量控制因子控制提取的能量；能量量化器，对受控的能量进行量化。

还可通过提供一种编码设备来实现以上和/或其它方面，所述编码设备包括：编码模式选择单元，使用频域输入信号和时域输入信号选择带宽扩展编码的编码模式；扩展编码单元，使用频域输入信号和选择的编码模式执行带宽扩展编码。

扩展编码单元可包括：能量提取器，基于编码模式，从频域输入信号提取能量；能量控制器，基于编码模式控制提取的能量；能量量化器，基于编码模式对受控的能量进行量化。

通过提供一种解码设备来实现以上和/或其它方面，所述解码设备包括：核心解码单元，对时域输入信号进行核心解码，其中，所述时域输入信号包括在比特流中并被核心编码；上采样单元，对核心解码的时域输入信号进行上采样；频率变换单元，将上采样的时域输入信号变换为频域输入信号；扩展解码单元，使用时域输入信号的能量并使用频域输入信号执行带宽扩展解码。

扩展解码单元可包括：反量化器，对时域输入信号的能量进行反量化；基础信号产生器，使用频域输入信号来产生基础信号；增益计算单元，使用反量化的能量和基础信号的能量来计算增益，增益被应用于基础信号；增益应用器，应用针对每个频带的计算的增益。

基础信号产生器可包括：人工信号产生器，通过复制和折叠频域输入信号的低频部分来产生与高频部分对应的人工信号；包络估算器，使用包含在比特流中的窗口来估算基础信号的包络；包络应用器，将估算的包络应用于人工信号。

通过提供一种编码方法来实现以上和/或其它方面，所述编码方法包括：对时域输入信号进行下采样；对下采样的时域输入信号进行核心编码；将时域输入信号变换为频域输入信号；使用频域输入信号的基础信号来执行带宽扩展编码。

还通过提供一种编码方法来实现以上和/或其它方面，所述编码方法包括：使用频域输入信号和时域输入信号选择带宽扩展编码的编码模式；使用频域输入信号和选择的编码模式执行带宽扩展编码。

通过提供一种解码方法来实现以上和/或其它方面，所述解码方法包括：对时域输入信号进行核心解码，其中，所述适于输入信号包含在比特流中并被核心编码；对核心解码的时域输入信号进行上采样；将上采样的时域输入信号变换为频域输入信号；使用时域输入信号的能量并使用频域输入信号来执行带宽扩展解码。

示例实施例的其它方面、特征和/或优点将部分地在以下的描述中阐述，通过描述部分将是清楚的，或者可通过本公开的实践而得知。

根据示例实施例，可提取输入信号的基础信号，并且可使用输入信号的高频域的音调并使用基础信号的音调来控制输入信号的能量，因此可以有效地扩展高频域的带宽。

附图说明

结合附图，通过以下的实施例的说明，这些和/或其它方面和优点将会变得清楚和更容易理解，其中：

图1示出根据示例实施例的编码设备和解码设备的框图；

图2示出图1的编码设备的示例的框图；

图3示出图1的编码设备的核心编码单元的框图；

图4示出图1的编码设备的扩展编码单元的示例的框图；

图5示出图1的编码设备的扩展编码单元的另一示例的框图；

图6示出扩展编码单元的基础信号产生器的框图；

图7示出扩展编码单元的因子估算器的框图；

图8示出图1的编码设备的能量量化器的操作的流程图；

图9示出根据示例实施例的量化能量的操作的示图；

图10示出根据示例实施例的产生人工信号的操作的示图；

图11A和图11B示出根据示例实施例的估计包络的窗口的示例的示图；

图12示出图1的解码设备的框图；

图13示出图12的扩展解码单元的框图；

图14示出扩展解码单元的反量化器的操作的流程图；

图15示出根据示例实施例的编码方法的流程图；

图16示出根据示例实施例的解码方法的流程图；

图17示出图1的编码设备的另一示例的框图；

图18示出图17的编码设备的能量量化器的操作的框图；

图19示出根据示例实施例的使用非均等比特分配方法量化能量的操作的示图；

图20示出根据示例实施例的使用帧内预测执行向量量化(VQ)的操作的示图；

图21示出根据示例实施例的使用频率加权方法量化能量的操作的示图；

图22示出根据示例实施例的执行多级分割VQ和使用帧内预测的VQ的操作的示图；

图23示出图13的反量化器的操作的框图；

图24示出图1的编码设备的另一示例的框图。

具体实施方式

现在将详细参照示例实施例，实施例的示例在附图中示出，其中，相同的标号始终表示相同的部件。以下通过参照附图描述示例实施例以解释本公开。

图1示出根据示例实施例的编码设备101和解码设备102的框图。

编码设备101可产生输入信号的基础信号，并可将产生的基础信号发送到解码设备102。这里，基础信号可基于低频信号被产生，并可表示低频信号的包络信息被白化的信号，因此，基础信号可以是激励信号。当接收到基础信号时，解码设备102可对从基础信号解码得到输入信号。换而言之，编码设备101和解码设备102可执行超宽频带带宽扩展(SWBBWE)。特别地，基于从0千赫兹(KHz)到6.4KHz的低频域中的解码的宽频带(WB)信号，可执行SWBBWE以产生与SWB对应的从6.4KHz到16KHz的高频域。这里，16KHz可根据情况而改变。另外，可基于以线性预测域(LPD)为基础的码激励线性预测(CELP)通过语音编解码器来产生解码的WB信号，或者可通过在频域中执行量化的方案来产生解码的WB信号。在频域中执行量化的方案可包括例如基于修改的离散余弦变换(MDCT)执行的高级音频编码(AAC)方案。

以下，将进一步描述编码设备101和解码设备102的操作。

图2示出图1的编码设备101的配置的框图。

参照图2，编码设备101可包括例如下采样单元201、核心编码单元202、频率变换单元203和扩展编码单元204。

下采样单元201可对时域输入信号进行下采样以用于WB编码。由于时域输入信号(即，SWB信号)通常具有32KHz采样率，因此需要将采样率转换为适合于WB编码的采样率。例如，下采样单元201可将时域输入信号从32KHz采样率下采样到12.8KHz的采样率。

核心编码单元202可对下采样的时域输入信号进行核心编码。换而言之，核心编码单元202可执行WB编码。例如，核心编码单元202可还行CELP型WB编码。

频率变换单元203可将时域输入信号变换为频域输入信号。例如，频率变换单元203可使用快速傅里叶变换(FFT)或MDCT来将时域输入信号变换为频域输入信号。以下，假设采用MDCT。

扩展编码单元204可使用频域输入信号的基础信号执行带宽扩展编码。特别地，扩展编码单元204可基于频域输入信号执行SWBBWE编码。

另外，扩展编码单元204可使用频域输入信号的特征以及频域输入信号的基础信号的特征执行带宽扩展编码。这里，根据频域输入信号的特征的源，扩展编码单元204可如图4或图5被配置。

将参照以下的图4和图5进一步描述扩展编码单元204的操作。

在图2中，上边的路径指示核心编码，下边的路径指示带宽扩展编码。具体地，输入信号的能量信息可通过SWBBWE编码被传递到解码设备102。

图3示出核心编码单元202的框图。

参照图3，核心编码单元202可包括例如信号分类器301和编码器302。

信号分类器301可对具有12.8KHz采样率的下采样的输入信号的特征进行分类。特别地，信号分类器301可根据频域输入信号的特征，确定将应用到频域输入信号的编码模式。例如，在国际电信联盟-电信标准(ITU-T)G.718编解码器中，信号分类器301可将语音信号确定为有声语音编模式(voicedspeechencodingmode)、无声语音编码模式(unvoicedspeechencodingmode)、瞬态编码模式(transientencodingmode)和通用编码模式(genericencodingmode)中的一个或多个。在此示例中，无声语音编码模式可被设计为对无声的语音帧和大部分的不活动帧进行编码。

编码器302可执行基于信号分类器301所分类的频域输入信号优化的编码。

图4示出图2的扩展编码单元204的示例的框图。

参照图4，扩展编码单元204可包括例如基础信号产生器401、因子估算器402、能量提取器403、能量控制器404和能量量化器405。在示例中，扩展编码单元204可在没有接收到编码模式的输入的情况下估算能量控制因子。在另一示例中，扩展编码单元204可基于从核心编码单元202接收的编码模式估算能量控制因子。

基础信号产生器401可使用频域输入信号的频谱来产生输入信号的基础信号。基础信号可表示用于基于WB信号执行SWBBWE的信号。换句话说，基础信号可表示用于形成低频域的精细结构的信号。将参照图6进一步描述产生基础信号的操作。

在示例中，因子估算器402可使用基础信号估算能量控制因子。特别地，编码设备101可将输入信号的能量信息发送到解码设备102，以便在解码设备102中产生SWB域中的信号。另外，因子估算器402可估算能量控制因子，从而控制感觉方面中的能量。将参照图7进一步描述估算能量控制因子的操作。

在另一示例中，因子估算器402可使用基础信号和频域输入信号的特征估算能量控制因子。在此示例中，可从核心编码单元202接收频域输入信号的特征。

能量提取器403可从频域输入信号提取能量。提取的能量可被发送到解码设备102。这里，可针对每个频带提取能量。

能量控制器404可使用能量控制因子控制提取的能量。特别地，能量控制器404可将能量控制因子应用到针对每个频带提取的能量，并可控制能量。

能量量化器405可量化受控的能量。能量可被转换为分贝(dB)标度，并可被量化。特别地，能量量化器405可获取全局能量(即，总能量)，并可对全局能量执行标量量化(SQ)，并对全局能量和每个频带的能量之间的差执行标量量化。另外，第一频带可直接量化能量，后面的频带可对当前频带和先前频带之间的差进行量化。此外，能量量化器405可直接针对每个频带对能量进行量化，而不使用频带之间的差值。当针对每个频带量化能量时，可使用SQ或向量量化(VQ)。下面将参照图8和图9进一步描述能量量化器405。

图5示出扩展编码单元204的另一示例的框图。

图5的扩展编码单元204还可包括信号分类器501，并且因此可与图4的扩展编码单元204不同。例如，因子估算器402可使用基础信号和频域输入信号的特征来估算能量控制因子。在此示例中，可从信号分类器501而不是核心编码单元202接收频域输入信号的特征。

信号分类器501可使用MDCT频谱，基于频域输入信号的特征对具有32KHz采样率的输入信号进行分类。特别地，信号分类器501可根据频域输入信号的特征确定将被应用于频域输入信号的编码模式。

当输入信号的特征被分类时，可从信号提取能量控制因子并可控制能量。在实施例中，可仅从适合用于估算能量控制因子的信号提取能量控制因子。例如，不包括音调分量的信号(诸如噪声信号或无声语音信号)可能不适合用于估算能量控制因子。这里，当输入信号被分类为无声语音编码模式时，扩展编码单元204可执行带宽扩展编码，而不是估算能量控制因子。

图5中示出的基础信号产生器401、因子估算器402、能量提取器403、能量控制器404和能量量化器405可执行与图4中示出的基础信号产生器401、因子估算器402、能量提取器403、能量控制器404和能量量化器405相同的功能，因此将省略对其的进一步描述。

图6示出基础信号产生器401的框图。

参照图6，基础信号产生器401可包括例如人工信号产生器601、包络估算器602和包络应用器603。

人工信号产生器601可通过复制和折叠频域输入信号的低频部分来产生与高频部分对应的人工信号。特别地，人工信号产生器601可复制频域输入信号的低频频谱，并可在SWB域中产生人工信号。将参照图10进一步描述产生人工信号的操作。

包络估算器602可使用窗口来估算基础信号的包络。基础信号的包络可用于移除SWB域中的人工信号的频谱中所包括的低频域的包络信息。可使用位于预定频率之前或之后的频谱来确定预定频率索引的包络。另外，可通过移动平均来估算包络。例如，当MDCT用于变换频率时，可使用MDCT变换后的频谱的绝对值来估算基础信号的包络。

这里，包络估算器602可形成白化频带(whiteningband)，并可将每个白化频带的频率幅度的平均值估算为每个白化频带中包含的频率的包络。包含在白化频带中的频谱的数量可被设置为少于用于提取能量的频带的数量。

当每个白化频带的频率幅度的平均值被估算为包含在每个白化频带中的频率的包络时，包络估算器602可发送包括白化频带中的频谱的数量的信息，并可调整基础信号的平滑度。特别地，包络估算器602可基于白化频带是包括八个频谱还是三个频谱来发送包括白化频带中的频谱的数量的信息。例如，当白化频带包括三个频谱时，与包括八个频谱的白化频带相比，可产生更加平坦的基础信号。

另外，包络估算器602可基于在核心编码单元202的编码期间使用的编码模式来估算包络，而不是发送包括白化频带中的频谱的数量的信息。核心编码单元202可基于输入信号的特征将输入信号分类为有声语音编码模式、无声语音编码模式、瞬态编码模式和通用编码模式，并可对输入信号进行编码。

这里，包络估算器602可基于根据输入信号的特征的编码模式来控制包含在白化频带中的频谱的数量。在一示例中，当输入信号基于有声语音编码模式被编码时，包络估算器602可形成具有三个频谱的白化频带，并可估算包络。在另一示例中，当输入信号基于除了有声语音编码模式之外的编码模式被编码时，包络估算器602可形成具有三个频谱的白化频带，并可估算包络。

包络应用器603可将估算的包络应用于人工信号。将估算的包络应用于人工信号的操作被称为“白化”，人工信号可被包络平滑。包络应用器603可将人工信号划分为每个频率索引的包络，并可产生基础信号。

图7示出因子估算器402的框图。

参照图7，因子估算器402可包括例如第一音调计算单元701、第二音调计算单元702和因子计算单元703。

第一音调计算单元701可计算频域输入信号的高频部分的音调。换而言之，第一音调计算单元701可计算SWB域(即，输入信号的高频部分)的音调。

第二音调计算单元702可计算基础信号的音调。

可通过测量频谱平坦度来计算音调。特别地，可使用如下的等式1来计算音调。可基于频谱的几何平均和算术平均之间的关系来测量频域平坦度。

[等式1]

T = m i n (10 * l o g 10 (\frac{Π_{k = 0}^{N - 1} {| S (k) |}^{\frac{1}{N}}}{\frac{1}{N} Σ_{k = 0}^{N - 1} | S (k) |}) / r, 0.999)

T：音调，S(k)：频谱，

N：频谱系数的长度，r：常数

因子计算单元703可使用高频域的音调和基础信号的音调来计算能量控制因子。这里，可使用以下的等式2来计算能量控制因子：

[等式2]

α = \frac{N_{o}}{N_{b}} = \frac{(1 - T_{o})}{(1 - T_{b})}

T_o：原始频谱的音调，T_b：基础频谱的音调，

N_o：原始频谱的噪声因子，N_b：基础频谱的噪声因子

在等式2中，α表示能量控制因子，T_o表示输入信号的音调，T_b表示基础信号的音调。另外，N_b表示噪声因子，其指示信号中包含多少噪声分量。

还可使用以下的等式3来计算能量控制因子：

[等式3]

α = \frac{T_{b}}{T_{o}}

因子计算单元703可针对每个频带计算能量控制因子。计算的能量控制因子可应用于输入信号的能量。特别地，当所述能量控制因子小于预定的能量控制因子时，所述能量控制因子可应用于输入信号的能量。

图8示出能量量化器405的操作的流程图。

在操作801，能量量化器405可使用能量控制因子预处理能量向量，并可选择预处理的能量向量的子向量。例如，能量量化器405可从每个选择的能量向量的能量值减去平均值，或可计算每个能量向量的重要性的权重。这里，可计算重要性的权重从而使复杂的声音的质量最大化。

另外，能量量化器405可基于编码效率适当地选择能量向量的子向量。为了提高插值效果，能量量化器405可按照规则的间隔选择子向量。

例如，能量量化器405可基于以下的等式4选择子向量：

[等式4]

k*n(n＝0,…,N),k>＝2，N是小于向量维度的整数。

在等式4中，当k具有值“2”时，仅偶数可被选择为N。

在操作802，能量量化器405可对选择的子向量进行量化和反量化。能量量化器405可选择用于最小化均方差(MSE)的量化索引，并可量化选择的子向量。这里，可使用以下的等式5计算MSE：

[等式5]

M S E : d [x, y] = \frac{1}{N} Σ_{k = 1}^{N} {[x_{k} - y_{k}]}^{2}

能量量化器405可基于SQ、VQ、网格编码量化(TCQ)和格状向量量化(LVQ)中的一个来量化子向量。这里，可基于多级VQ或分裂VQ来执行VQ，或可使用多级VQ和分裂VQ两者来执行VQ。量化索引可被发送到解码设备102。

当在操作801计算重要性的权重时，能量量化器405可使用加权均方差(WMSE)来获得优化的量化索引。这里，可使用以下的等式6计算WMSE：

[等式6]

W M S E : d [x, y] = \frac{1}{N} Σ_{k = 1}^{N} w_{k} {[x_{k} - y_{k}]}^{2}

在操作803，能量量化器405可使用反量化的子向量对未被选择的子向量进行插值。

在操作804，能量量化器405可计算插值误差，即，插值的未被选择的子向量和与原始能量向量匹配的子向量之间的差。

在操作805，能量量化器405可对插值误差进行量化。这里，能量量化器405可使用用于最小化MSE的量化索引对插值误差进行量化。能量量化器405可基于SQ、VQ、TCQ和LVQ中的一个对插值误差进行量化。可基于多级VQ或分裂VQ执行VQ，或者使用多级VQ和分裂VQ两者执行VQ。当在操作801计算重要性的权重时，能量量化器405可使用WMSE获得优化的量化索引。

在操作806，能量量化器405可对被选择和量化的子向量进行插值，可计算未被选择的子向量，并可加上在操作805量化的插值误差，以计算最终的量化能量。另外，能量量化器405可执行后期处理以将平均值与能量值相加，从而可获得最终的量化能量。

能量量化器405可使用K个子向量候选来执行多级VQ，以便使用相同的码书来提高量化性能。例如，当存在至少两个子向量候选时，能量量化器405可执行失真测量，并可确定最优子向量候选。这里，可基于两种方案确定失真方案。

在第一方案中，能量量化器405可针对每个候选产生用于最小化每一级的MSE或WMSE的索引集，并可选择所有级中的MSE或WMSE的总和最小的子向量候选。这里，第一方案可具有简单计算的优点。

在第二方案中，能量量化器405可针对每个候选产生用于最小化每一级中的MSE或WMSE的索引集，可通过反量化操作恢复能量向量，并可选择用于最小化恢复的能量向量和原始能量向量之间的MSE或WMSE的子向量候选。这里，即使加上了恢复的计算量，也可使用实际的量化值获得MSE。因此，第二方案可具有优异性能的优点。

图9示出根据示例实施例的量化能量的操作。

参照图9，能量向量可表示14维度。在图9的第一级，能量量化器405可从能量向量仅选择偶数，并可选择与7个维度对应的子向量。在第二级，能量量化器405可执行分为两个量化级的VQ。

在第二级，能量量化器405可使用第一级的误差信号执行量化。能量量化器405可通过反量化选择的子向量的操作来获得插值误差。在第三级，能量量化器405可通过两个分裂VQ来量化插值误差。

图10示出根据示例实施例的产生人工信号的操作的示图。

参照图10，人工信号产生器601可复制与从总频带中的f_LKHz到6.4KHz的低频域对应的频谱1001。复制的频谱1001可被移位到从6.4KHz到12.8-f_LKHz的频域。另外，可通过折叠与从6.4KHz到12.8-f_LKHz的频域对应的频谱来产生与从12.8-f_LKHz到16KHz的频域对应的频谱。换而言之，可在从6.4KHz到16KHz的频域中产生与SWB域(即，高频域)对应的人工信号。

这里，当使用MDCT来产生频谱时，可存在f_LKHz与6.4KHz之间的关系。特别地，当与6.4KHz对应的MDCT的频率索引是偶数时，f_LKHz的频率索引会必须为偶数。相反，当与6.4KHz对应的MDCT的频率索引是奇数时，f_LKHz的频率索引会必须为奇数。

例如，当MDCT被应用以提取原始输入信号的640个频谱时，第256个频率索引可对应于6.4KHz，与6.4KHz对应的MDCT的频率索引可以是偶数(6400/16000*640)。在此示例中，f_L必须被选择为偶数。换而言之，2(50Hz)、4(100Hz)等可用作f_L。图10的操作同样可应用于解码操作。

图11A和图11B示出根据示例实施例的估算包络的窗口的示例的示图。

参照图11A和图11B，窗口1101的尖峰和窗口1102的尖峰可均指示当前包络被估算的频率索引。可使用以下的等式7来估算基础信号的包络：

[等式7]

E n v (n) = Σ_{k = n - d}^{n + d} w (k - n + d) * | S (k) |

Env(n)：包络，w(k)：窗口，S(k)：频谱，n：频率索引，

2d+1：窗口长度

窗口1101和1102可被使用为总是固定的，并且不需要额外发送比特。当窗口1101和1102被选择性地使用时，指示哪个窗口被用于估算包络的信息可由比特表示，并可被额外传送到解码设备102。可针对每个频带发送比特，或可一次性将比特发送到单个帧。

将窗口1101和1102进行比较，与窗口1101相比，窗口1102可用于通过进一步将权重应用于与当前频率索引对应的频谱来估算包络。因此，通过窗口1102产生的基础信号可比通过窗口1101产生的基础信号更平滑。可通过将输入信号的频谱与通过窗口1101或窗口1102产生的基础信号的频谱相比较来选择窗口的类型。另外，可选择通过比较高频部分的音调能够达到相似音调的窗口。此外，可通过比较高频部分的相关性来选择具有高相关性的窗口。

图12示出图1的解码设备102的框图。

图12的解码设备102可执行与图2的编码设备101相反的操作。

参照图12，解码设备102可包括例如核心解码单元1201、上采样单元1202、频率变换单元1203、扩展解码单元1204和频率反变换单元1205。

核心解码单元1201可对包括在比特流中并被核心编码的时域输入信号进行核心解码。通过核心解码可提取具有12.8KHz采样率的信号。

上采样单元1202可对核心解码的时域输入信号进行上采样。通过上采样可提取具有32KHz采样率的信号。

频率变换单元1203可将上采样的时域输入信号变换为频域输入信号。可使用与编码设备101使用的频率变换方案相同的方案来对上采样的时域输入信号进行变换，例如，可使用MDCT方案。

扩展解码单元1204可使用时域输入信号的能量并使用频域输入信号来执行带宽扩展解码。将参照图13进一步描述扩展解码单元1204的操作。

频率反变换单元1205可对带宽扩展解码的结果执行频率反变换。这里，可按照与频率变换单元1203所使用的频率变换方案相反的方式来执行频率反变换。例如，频率反变换单元1205可执行反改进离散余弦变换(IMDCT)。

图13示出图12的扩展解码单元1204的框图。

参照图13，扩展解码单元1204可包括例如反量化器1301、增益计算单元1302、增益应用器1303、人工信号产生器1304、包络估算器1305和包络应用器1306。

反量化器1301可对时域输入信号的能量进行反量化。将参照图14进一步描述反量化能量的操作。

增益计算单元1302可使用反量化的能量和基础信号的能量计算将被应用于基础信号的增益。特别地，可基于反量化的能量和基础信号的能量之比来确定增益。由于通常基于每个频谱的幅度的平方和来确定能量，因此可使用能量比的根值。

增益应用器1303可针对每个频带应用计算的增益。因此，可最终确定SWB的频谱。

在示例中，如上所述，可通过将频带与用于发送能量的频带匹配来执行增益的计算和应用。在另一示例中，为了防止能量快速改变，可通过将整个频带划分为子频带来计算和应用增益。在此示例中，相邻频带的反量化的能量可被插值，频带边界中的能量可被平滑。例如，每个频带可被划分为三个子频带，当前频带的反量化的能量可被分配到三个子频带中的中间子频带。接下来，基于分配给前一频带和后一频带之间的中间频带的能量并基于插值，可使用重新平滑后的能量计算第一子频带和第三子频带的增益。换句话说，可针对每个频带计算增益。

这样的能量平滑方案可总是被固定应用。另外，扩展编码单元204可发送指示需要能量平滑方案的信息，并可将能量平滑方案仅应用于需要能量平滑方案的帧。这里，与不执行平滑时相比，当执行平滑且较少的总能量的量化误差发生时，可选择指示需要能量平滑方案的帧的信息。

可使用频域输入信号产生基础信号。可使用如下描述的部件执行产生基础信号的操作。

人工信号产生器1304可通过复制和折叠频域输入信号的低频部分来产生与高频部分对应的人工信号。这里，频域输入信号可以是具有32KHz采样率的WB解码的信号。

包络估算器1305可使用包含在比特流中的窗口来估算基础信号的包络。所述窗口可被编码设备101用于估算包络。一种窗口可以是比特类型，并且窗口可包含在比特流中并可被发送到解码设备102。

包络应用器1306可将估算的包络应用于人工信号，并可产生基础信号。

例如，当每个白化频带的频率幅度的平均值被估算为包含在每个白化频带中的频率的包络时，编码设备101的包络估算器602可将包括白化频带中的频谱的数量的信息发送到解码设备102。当信息被接收时，包络解码设备102的包络估算器1305可基于接收的信息估算包络，并且包络应用器1306可应用估算的包络。另外，包络估算器1305可基于核心解码单元1201使用的核心解码模式估算包络，而不是发送包括白化频带中的频谱的数量的信息。

核心解码单元1201可基于频域输入信号的特征，在有声语音解码模式、无声语音解码模式、瞬态解码模式和通用解码模式中确定解码模式，并可在确定的解码模式下执行解码。这里，包络估算器1305可使用基于频域输入信号的特征的解码模式，控制白化频带中的频谱的数量。在一示例中，当在有声语音解码模式下对频域输入信号进行解码时，包络估算器1305可形成具有三个频谱的白化频带，并可估算包络。在另一示例中，当在除了有声语音解码模式之外的解码模式下对频域输入信号进行解码时，包络估算器1305可形成具有三个频谱的白化频带，并可估算包络。

图14示出反量化器1301的操作的流程图。

在操作1401，反量化器1301可使用从编码设备101接收的索引1对选择的能量向量的子向量进行反量化。

在操作1402，反量化器1301可使用从编码设备101接收的索引2对与未被选择的子向量对应的插值误差进行反量化。

在操作1403，反量化器1301可对反量化的子向量进行插值，并可计算未被选择的子向量。另外，反量化器1301可将反量化的插值误差与未被选择的子向量相加。此外，反量化器1301可执行后期处理以加上在预处理操作中减去的平均值，并可计算最终的反量化的能量。

图15示出根据示例实施例的编码方法的流程图。

在操作1501，编码设备101可对时域输入信号进行下采样。

在操作1502，编码设备101可对下采样的时域输入信号进行核心编码。

在操作1503，编码设备101可将时域输入信号变换为频域输入信号。

在操作1504，编码设备101可对频域输入信号执行带宽扩展编码。例如，编码设备101可基于在操作1502确定的编码信息执行带宽扩展编码。这里，编码信息可包括基于频域输入信号的特征分类的编码模式。

例如，编码设备101可通过以下操作执行带宽扩展编码。

编码设备101可使用频域输入信号的频谱产生频域输入信号的基础信号。另外，编码设备101可使用频域输入信号的特征和频域输入信号的频谱产生频域输入信号的基础信号。这里，可通过核心编码或单独的信号分类来得到频域输入信号的特征。另外，编码设备101可使用基础信号估算能量控制因子。接下来，编码设备101可从频域输入信号提取能量。编码设备101可使用能量控制因子来控制提取的能量。编码设备101可量化受控的能量。

这里，可通过以下方案产生基础信号：

编码设备101可通过复制和折叠频域输入信号的低频部分来产生与高频部分对应的人工信号。另外，编码设备101可使用窗口来估算基础信号的包络。这里，编码设备101可基于音调或相关性的比较结果来选择窗口，并可估算基础信号的包络。例如，编码设备101可估算每个白化频带中的频率幅度的平均值作为包含在每个白化频带中的频率的包络。特别地，编码设备101可基于核心编码模式控制每个白化频带中的频谱的数量，并可估算基础信号的包络。

接下来，编码设备101可将估算的包络应用于人工信号，从而可产生基础信号。

可使用以下方案估算能量控制因子：

编码设备101可计算频域输入信号的高频部分的音调。另外，编码设备101可计算基础信号的音调。接下来，编码设备101可使用高频部分的音调和基础信号的音调计算能量控制因子。

另外，可通过以下方案量化能量：

编码设备101可选择能量向量的子向量，可量化选择的子向量，并可使用插值误差来量化未被选择的子向量。这里，编码设备101可按照规则的间隔选择子向量。

例如，编码设备100可选择子向量候选，并可执行包括至少两级的多级VQ。在此示例中，编码设备100可产生用于针对每个子向量候选最小化每一级中的MSE或WMSE的索引集，并可选择所有级中的MSE或WMSE的总和最小的子向量候选。或者，编码设备100可产生用于针对每个子向量候选最小化每一级中的MSE或WMSE的索引集，可通过反量化操作恢复能量向量，并可选择使恢复的能量向量和原始能量向量之间的MSE或WMSE最小化的子向量候选。

图16示出根据示例实施例的解码方法的流程图。

在操作1601，解码设备102可对包括在比特流中并被核心编码的时域输入信号进行核心解码。

在操作1602，解码设备102可对核心解码的时域输入信号进行上采样。

在操作1603，解码设备102可将上采样的时域输入信号变换为频域输入信号。

在操作1604，解码设备102可使用时域输入信号的能量并使用频域输入信号来执行带宽扩展解码。

特别地，可如下执行带宽扩展解码。

解码设备102可反量化时域输入信号的能量。这里，解码设备102可选择能量向量的子向量，可反量化选择的子向量，可对反量化的子向量进行插值，并可将插值误差与插值的子向量相加，以最终反量化能量。

另外，解码设备102可使用频域输入信号产生基础信号。接下来，解码设备102可使用反量化的能量和基础信号的能量，计算将应用于基础信号的增益。最后，解码设备102可针对每个频带应用计算的增益。

特别地，可如下产生基础信号。

解码设备102可通过复制和折叠频域输入信号的低频部分来产生与高频部分对应的人工信号。另外，解码设备102可使用包含在比特流中的窗口来估算基础信号的包络。这里，当窗口信息被设置为等同地使用时，窗口可不包含在比特流中。接下来，解码设备102可将估算的包络应用于人工信号。

已经参照图1到图14给出了图15和图16的其它描述。

图17示出根据示例实施例的编码设备100的另一示例的框图。

参照图17，编码设备100可包括例如编码模式选择单元1701和扩展编码单元1702。

编码模式选择单元1701可使用频域输入信号和时域输入信号来选择带宽扩展编码的编码模式。

特别地，编码模式选择单元1701可使用频域输入信号和时域输入信号来对频域输入信号分类，可确定带宽扩展编码模式的编码模式，并可基于确定的编码模式确定频带的数量。这里，为了提高扩展编码单元1702的性能，编码模式可被设置为在核心编码期间确定的编码模式和另一编码模式的集合。

编码模式可被分类为例如普通模式、谐波模式、瞬态模式和噪声模式。首先，编码模式选择单元1701可基于时域输入信号的长期能量相对于当前帧的高频带能量的比率确定当前帧是否为瞬态帧。瞬态信号间隔可表示在时域中能量迅速改变的间隔，即，高频带能量迅速改变的间隔。

可如下确定普通模式、谐波模式和噪声模式：首先，编码模式选择单元1701可获得先前帧和当前帧的频域的全局能量，可用预先定义的频带划分全局能量和频域输入信号的比率，并可使用每个频带的平均能量和尖峰能量确定普通模式、谐波模式和噪声模式。谐波模式可提供具有频域信号中的平均能量和尖峰能量之间的最大差值的信号。噪声模式可提供具有小的能量变化的信号。普通模式可提供除了谐波模式的信号和噪声模式的信号之外的信号。

另外，普通模式和谐波模式的频带的数量可被确定为“16”，瞬态模式中的频带的数量可被确定为“5”。此外，噪声模式中的频带的数量可被确定为“12”。

扩展编码单元1702可使用频域输入信号和编码模式执行带宽扩展编码。参照图17，扩展编码单元1702可包括例如基础信号产生单元1703、因子估算器1704、能量提取器1705、能量控制器1706和能量量化器1707。基础信号产生器1703和因子估算器1704可执行与图4的基础信号产生器401和因子估算器402相同的功能，因此，将省略其进一步的描述。

能量提取器1705可基于根据编码模式确定的频带的数量提取与每个频带对应的能量。能量控制器1706可基于编码模式控制提取的能量。

基于编码模式，基础信号产生器1703、因子估算器1704和能量控制器1706可被使用或可不被使用。例如，在普通模式和谐波模式中，基础信号产生器1703、因子估算器1704和能量控制器1706可被使用，然而，在瞬态模式和噪声模式中，基础信号产生器1703、因子估算器1704和能量控制器1706可不被使用。已经参照图4给出了基础信号产生器1703、因子估算器1704和能量控制器1706的进一步描述。

能量量化器1707可对基于编码模式控制的能量进行量化。换而言之，可由能量量化器1707对通过能量控制操作的频带能量进行量化。

图18示出能量量化器1707执行的操作的示图。

能量量化器1707可基于编码模式对从频域输入信号提取的能量进行量化。这里，根据编码模式，基于每个输入信号的感知特征和频带的数量，能量量化器1707可使用针对每个输入信号优化的方案对频带能量进行量化。

在一示例中，当瞬态模式用作编码模式时，能量量化器1707可使用基于感知特征的频率加权方法对五个频带能量进行量化。在另一示例中，当普通模式或谐波模式用作编码模式时，能量量化器1707可使用基于感知特征的非均等比特分配方法来量化16个频带能量。当感知特征不清楚时，无论感知特征如何，能量量化器1707都可执行典型的量化。

图19示出根据示例实施例的使用非均等比特分配方法量化能量的操作的示图。

可基于目标为扩展编码的输入信号的感知特征执行非均等比特分配方法，并且非均等比特分配方法可用于对与具有高感知重要性的低频带对应的频带能量进行更精确的量化。因此，能量量化器1707可将等于或多于频带能量的数量的多个比特分配给与低频带对应的频带能量，并可确定频带能量的感知重要性。

例如，能量量化器1707可将更多数量的比特分配给低频带0到5，从而可将相同数量的比特分配给低频带0到5。另外，随着频带增加，能量量化器1707分配给频带的比特的数量减少。因此，比特分配可使得频带0到13如图19所示被量化，并可使得频带14和15如图20所示被量化。

图20示出根据示例实施例的使用帧内预测执行VQ的操作的示图。

能量量化器1707可预测具有至少两个元素的量化目标向量的代表值，并可对预测的代表值和量化目标向量的至少两个元素之间的误差信号执行VQ。

这样的帧内预测可在图20中示出，并且可用以下的等式8表示预测量化目标向量的代表值和获得误差信号的方案：

[等式8]

p＝0.4*QEnv(12)+0.6*QEnv(13)

e(14)＝Env(14)-p

e(15)＝Env(15)-p

在等式8中，Env(n)表示未量化的频带能量，QEnv(n)表示量化的频带能量。另外，p表示量化目标向量的预测代表值，e(n)表示误差能量。这里，可对e(14)和e(15)执行VQ。

图21示出根据示例实施例的使用频率加权方法量化能量的操作的示图。

频域加权方法可用于基于目标为扩展编码的输入信号的感知特征按照与非均等比特分配方法相同的方式，来更精确地量化与具有高感知重要性的低频带对应的频带能量。因此，能量量化器1707可将等于或多于频带能量的数量的多个比特分配给与低频带对应的频带能量，并可确定感知重要性。

例如，能量量化器1707可将权重“1.0”分配给与频带0到3(即，低频带)对应的频能量，并可将权重“0.7”分配给与频带15(即，高频带)对应的频带能量。为了使用分配的权重，能量量化器1707可使用WMSE值获得最优索引。

图22示出根据示例实施例的执行多级分裂VQ和使用帧内预测的VQ的操作的示图。

能量量化器1707可对具有16个频带能量的普通模式执行VQ，如图22所示。这里，能量量化器1707可使用非均等比特分配方法、帧内预测和具有能量插值的多级分裂VQ来执行VQ。

图23示出由反量化器1301执行的操作的示图。

可按照与图18的操作相反的方式来执行图23的操作。当在扩展编码期间使用编码模式时，如图17所示，扩展解码单元1204的反量化器1301可对编码模式进行解码。

反量化器1301可使用首先接收到的索引对编码模式进行解码。接下来，反量化器1301可使用基于解码的编码模式设置的方案执行反量化。参照图23，反量化器1301可按照与量化相反的顺序对分别对应于编码模式的块进行反量化。

可按照如图14所示相同的方式对使用具有能量插值的多级分裂VQ量化的能量向量进行反量化。换而言之，反量化器1301可通过如下等式9使用帧内预测来执行反量化：

[等式9]

p＝0.4*QEnv(12)+0.6*QEnv(13)

Q E n v (14) = \hat{e} (14) + p

Q E n v (15) = \hat{e} (14) + p

在等式9中，Env(n)表示未量化的频带能量，QEnv(n)表示量化的频带能量。另外，p表示量化目标向量的预测代表值，表示量化误差能量。

图24示出编码设备101的另一示例的框图。

图24的编码设备101可包括例如下采样单元2401、核心编码单元2402、频率变换单元2403和扩展编码单元2404。

图24中的编码设备101的下采样单元2401、核心编码单元2402、频率变换单元2403和扩展编码单元2404可执行与图2的下采样单元201、核心编码单元202、频率变换单元203和扩展编码单元204相同的基本操作。然而，扩展编码单元2404不需要将信息发送到核心编码单元2402，并可直接接收时域输入信号。

根据上述的示例实施例的方法可记录在非暂时性计算机可读介质中，非暂时性计算机可读介质包括用于实现由计算机实施的各种操作的程序命令。介质还可包括单独的程序指令、数据文件、数据结构等或者它们的组合。记录在介质上的程序指令可以是专门设计和构造用于示例实施例的目的程序指令，或者它们可以是已知类型且计算机软件领域的技术人员可以得到的程序指令。非暂时性计算机可读介质的示例包括磁性介质(诸如硬盘、软盘和磁带)、光学介质(诸如CDROM盘和DVD)、磁光介质(诸如光盘)以及专门配置用于存储和执行程序指令的硬件装置(诸如只读存储器(ROM)、随机存取存储器(RAM)、闪存等)。

程序指令的示例包括诸如由编译器生成的机器码以及包含可由计算机使用解释器执行的更高级代码的文件。所述硬件装置可被配置为用作一个或多个软件模块以执行上述示例实施例的操作，反之亦然。在此描述的软件模块中的任意一个或多个可由对于该单元特有的专用处理器执行，或由对于模块中的一个或多个共用的处理器执行。所述方法可运行在通用计算机或处理器上，或者可运行在诸如在此描述的编码设备和解码设备的专用机器上。

虽然已经示出和描述了示例实施例，但是本领域的技术人员应理解，在不脱离本公开的原理和精神的情况下，可对这些示例实施例做出改变，本公开的范围由权利要求及其等同物限定。

Claims

1.一种频域的频带扩展编码方法，所述方法包括：

基于输入的频谱产生用于高频带的基础激励频谱；

基于所述基础激励频谱和输入的频谱获得能量控制因子；

从输入的频谱获得能量；

通过使用获得的能量控制因子对获得的能量进行控制；

对受控的能量进行量化，

其中，能量控制因子和能量是针对根据帧是不是非瞬态帧而不同地确定的子频带来获得的。

2.如权利要求1所述的方法，其中，获得能量控制因子的步骤基于所述基础激励频谱的音调与输入的频谱的音调之间的比率。

3.如权利要求1所述的方法，其中，对受控的能量进行量化的步骤包括：根据帧是不是非瞬态帧，基于均方差MSE或加权均方差WMSE对受控的能量进行量化。

4.如权利要求1所述的方法，其中，对受控的能量进行量化的步骤包括：基于插值处理对受控的能量进行量化。

5.如权利要求1所述的方法，其中，对受控的能量进行量化的步骤包括：通过使用多级矢量量化来对受控的能量进行量化。

6.如权利要求5所述的方法，其中，对受控的能量进行量化的步骤包括：从能量矢量之中选择多个矢量，并对所选择的矢量和通过对所选择的矢量进行插值而获得的误差进行量化。

7.一种编码设备，包括：

信号产生器，用于基于输入的频谱产生用于高频带的基础激励频谱；

能量提取器，用于从输入的频谱获得能量；

能量控制器，用于基于输入的频谱的音调与所述基础激励频谱的音调之间的比率获得能量控制因子，并基于获得的能量控制因子对所述能量进行控制；

能量量化器，用于对受控的能量进行量化。

8.如权利要求7所述的设备，其中，能量量化器被配置为基于均方差MSE对受控的能量进行量化。

9.如权利要求7所述的设备，其中，能量量化器被配置为基于加权均方差WMSE对受控的能量进行量化。

10.如权利要求9所述的设备，其中，较大的权重被分配给较低的频带以获得WMSE。

11.如权利要求7所述的设备，其中，能量量化器被配置为基于插值处理对受控的能量进行量化。

12.如权利要求7所述的设备，其中，能量量化器被配置为通过使用多级矢量量化对受控的能量进行量化。

13.如权利要求7所述的设备，其中，能量量化器被配置为从能量矢量之中选择多个矢量，并对所选择的矢量和通过对所选择的矢量进行插值而获得的误差进行量化。