CN104221081B

CN104221081B - 带宽扩展音频信号的高频带扩展的生成

Info

Publication number: CN104221081B
Application number: CN201280053336.3A
Authority: CN
Inventors: 艾力克·诺维尔; 沃洛佳·格兰恰诺夫; 托马斯·詹森·托夫特戈德
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2011-11-02
Filing date: 2012-09-04
Publication date: 2017-03-15
Anticipated expiration: 2032-09-04
Also published as: DK2791937T3; PL2791937T3; EP2791937A4; MX2014004670A; WO2013066238A2; EP2791937A2; EP2791937B1; PT2791937T; EP3089164A1; US9251800B2; WO2013066238A3; CN104221081A; US20140257827A1; ES2582475T3

Abstract

被配置为根据包络和激励生成音频信号的高频带扩展的音频解码器(200)。音频解码器包括控制装置(41、42、44)，控制装置(41、42、44)被配置为使用公共控制参数(f)来联合控制包络形状和激励噪度。

Description

带宽扩展音频信号的高频带扩展的生成

技术领域

所提出的技术涉及带宽扩展音频信号的高频带扩展的生成。

背景技术

大多数现有电信系统在有限的音频带宽上操作。由于固定电话系统的限制，大多数语音服务被限制为仅发送频谱的下端。虽然音频带宽对于大多数通话是足够的，但是期望增加带宽以改善可懂性和存在感。虽然电信网络中的容量持续增加，但是仍然非常关注针对每一个通信信道的所需带宽。在移动网络中，针对每一个呼叫的较小传输带宽在移动设备和基站二者中产生较低的功耗。这转化为针对移动运营商的能量节省和成本节省，同时终端用户将体验延长的电池寿命和增加的通话时间。此外，在针对每一个用户的消耗带宽较小的情况下，移动网络可以并行地为更大量的用户提供服务。

人类听觉系统的特性是感知与频率有关。具体地，我们的听力对于较高频率是不太准确的。这已经启发了所谓的带宽扩展(BWE)技术，在该技术中，使用有限资源根据低频带来重构高频带。

传统的BWE使用扩展高频带信号的频谱包络的表示，并且通过使用低频带信号的修改版本再现信号的频谱精细结构。如果通过滤波器来表示高频带包络，则精细结构信号通常被称作激励信号。高频带包络的准确表示在感知上比精细结构更重要。因此，比特方面的可用资源通常被花费在包络表示上并且根据经编码的低频带信号来重构精细结构，而没有使用额外边带信息。在图1中示出了BWE的基本构思。

BWE技术已经被应用于多种音频编码系统中。例如，3GPPAMR-WB+[1]使用基于低频带编码器的时域BWE，其中，低频带编码器在代码激励线性预测器(CELP)语音编码与变换编码残差(TCX)编码之间切换。另一个示例是基于3GPP eAAC变换的音频编解码器，该音频编解码器对BWE执行变换域变型，这称作频带复制(SBR)[2]。在这里，使用根据低频带激励生成的音调分量和噪声源的混合物来创建激励，以匹配输入信号的音调与噪声比。通常，例如使用频谱平坦度度量将信号的噪度描述为频谱的平坦程度的度量。还可以将噪度描述为激励的非音调性、随机性或非结构性。增加信号的噪度是通过例如将信号与来自例如随机数发生器或任何其他噪声源的噪声信号进行混合使得信号更加似噪声。这还可以通过修改信号的频谱使得它更加平坦来完成。

来自低频带的频谱精细结构可能与在高频带中找到的精细结构完全不同。具体地，根据低频带信号生成的激励与高频带包络的组合可能产生不期望的假象，这是因为可能以不可控的方式通过包络成型加强激励的存在(residing)调和性或形状。作为一种安全度量，通常平坦化高频带包络以便限制激励与包络之间的不期望交互。虽然该解决方案可以产生合理的折中，但是更平坦的包络可能被感知为具有更多噪声并且高频带包络将不那么准确。

发明内容

所提出的技术的目的是带宽扩展音频信号的高频带扩展的生成的改善控制。

根据所附权利要求实现该目的。

所提出的技术的第一方面涉及一种根据包络和激励生成音频信号的高频带扩展的方法。该方法包括以下步骤：使用公共控制参数来联合控制包络形状和激励噪度。

所提出的技术的第二方面涉及一种被配置为根据包络和激励来生成音频信号的高频带扩展的音频解码器。所述音频解码器包括控制布置，所述控制布置被配置为使用公共控制参数来联合控制包络形状和激励噪度。

所提出的技术的第三方面涉及一种用户设备(UE)，包括根据第二方面所述的音频解码器。

所提出的技术的第四方面涉及一种音频编码器，包括频谱平坦度估计器，所述频谱平坦度估计器被配置为确定高频带信号的频谱平坦度的度量以发送到解码器。

所提出的技术允许更明显的包络结构，该更明显的包络结构掩蔽了由人工生成的高频带激励所创建的感知假象。同时，对包络结构和激励噪度的联合控制改善了重构的音频信号的逼真度。

附图说明

可以通过参照结合附图给出的以下描述来最佳地理解所提出的技术及其其他目的和优点。

图1以频谱的形式示出了BWE技术的基本构思。使用高频带包络和根据低频带信号生成的激励信号利用高频带来扩展经编码的低频带信号。

图2示出了具有针对低频带的CELP编解码器的示例性BWE系统，其中，使用线性预测器(LP)包络和根据CELP解码器的经修改的输出参数生成的激励信号来重构上频带。

图3示出了具有图2中所示的相应编码器的示例性BWE解码器。经调制的激励与来自噪声发生器的噪声信号混合在一起。

图4示出了具有针对激励混合和频谱形状的联合控制布置的CELP解码器系统中提出的技术的示例性实施例。

图5示出了输入LP频谱和已经使用后置滤波器加强的LP频谱的示例。

图6示出了使用基于线性预测编码(LPC)系数的频谱平坦度分析的编码器的示例性实施例。

图7示出了与图6中的编码器相对应的使用所发送的平坦度参数进行联合频谱包络和激励结构控制的解码器的示例性实施例。

图8示出了具有针对整个频谱的联合包络编码并且采用BWE技术来获得高频带的频谱精细结构的基于变换的音频编解码器的示例。

图9示出了属于图8中所示的相应编码器的BWE解码器的示例。使用压缩器来修改经调制的激励以在高频带激励中得到更平坦的精细结构。

图10示出了具有用于激励压缩和包络扩展的联合控制器的基于变换的解码器系统中提出的技术的示例性实施例。

图11示出了具有本地解码单元和低频带误差估计器的编码器的示例性实施例。

图12示出了具有用于激励压缩和包络扩展的联合控制布置的基于变换的解码器系统中提出的技术的示例性实施例，其中，使用来自编码器的低频带误差估计来调整联合控制。

图13示出了控制布置的示例性实施例。

图14示出了配备有控制布置的解码器的用户设备(UE)。

图15示出了所提出的技术的流程图。

图16示出了所提出的技术的示例性实施例的流程图。

图17示出了所提出的技术的示例性实施例的流程图。

图18示出了所提出的技术的示例性实施例的流程图。

图19示出了所提出的技术的示例性实施例的流程图。

具体实施方式

在下面的详细描述中，已经向执行相同或类似功能的框提供了相同的附图标记。

可以在时域BWE和频域BWE中使用所提出的技术。下面将描述针对时域BWE和频域BWE的示例性实施例。

时域BWE

在图2中示出了主要用于语音应用的现有技术的BWE的示例性实施例。该示例针对输入信号的低频带使用CELP语音编码算法。使用LP滤波器来表示高频带包络。通过使用根据CELP合成提取的低频带激励信号的修改版本来创建高频带的合成。

使用分析滤波器组10将每一个输入信号帧y划分为低频带信号y_L和高频带信号y_H。可以使用任何适合的滤波器组，但是它实质上是由低通滤波器和高通滤波器组成，例如，正交镜像滤波器(QMF)滤波器组。低频带信号被馈送到在CELP编码器12中执行的CELP编码算法。在LP分析块14中对高频带信号进行LP分析，以获得高频带包络的表示A。使用LP量化器或LP编码器16来对定义A的LP系数进行编码，并且在比特流mux(复用器)18中将量化索引I_LP与CELP编码器索引I_CELP复用在一起以便存储或者发送到解码器。解码器进而在比特流demux(去复用器)20中对索引I_LP和I_CELP进行去复用，并且将它们分别转发给LP解码器22和CELP解码器24。在CELP解码中，CELP激励信号x_L被提取和处理使得频谱被调制以生成高频带激励信号x_H。

存在多种调制方案以在激励处理器26中根据低频带激励信号x_L创建高频带激励x_H。例如，反转频谱确保信号的特性在低频带与高频带之间的重叠区域中是类似的，但是高频带信号的高端可能具有不期望的特性。生成高频带激励的其他方式是执行其他类型的调制，所述其他类型的调制可以保留或可以不保留具有一系列谐波的谐波结构。可以根据低频带的仅一部分得到激励信号或者甚至通过搜索低频带以得到适合用于形成高频带激励信号的部分自适应地得到激励信号。后一种方法也可能要求对参数进行编码使得解码器可以识别在高频带激励中使用的区域。

使用高频带LP滤波器来对经调制的激励x_H进行滤波，以形成高频带合成这是在LP合成块28中完成的。在合成滤波器组30中将CELP解码器的输出与高频带合成联合在一起以形成输出信号

在图2以及下面的图中，用虚线表示分别去往和来自比特流mux18和比特流demux20的线，以指示它们传递表示经量化的量的索引而不是经量化的量的实际值。

来自低频带的激励可能具有不适合于用作高频带激励的特性。例如，低频带信号通常包含强谐波结构，当该强谐波结构被传递到高频带时，它产生令人烦恼的假象。用于控制激励结构的一种现有的解决方案是将低频带激励信号与噪声进行混合。在图3中示出了这种系统的示例性解码器。在这里，如刚刚在图2中所述的，对高频带LP滤波器系数进行解码，并且运行CELP解码器24同时提取激励信号。然而，如乘法器32、34和加法器36所示，还针对每一个子帧i使用相应的混合因子g_x(i)和g_n(i)来将经调制的激励x_H与来自噪声发生器38的高斯噪声信号n进行混合，即：

在这里，x_H，i表示子帧i的采样x_H，使得x_H＝[x_H，1x_H，2…x_H，N_sub]，其中，Nsub是子帧的数量。在该示例中，Nsub＝4。调整噪声信号n的时间形状使得它与x_H的时间形状相匹配也可能是有利的。

在该示例中，混合因子在混合控制器40中被确定并且基于CELP编解码器的每一个子帧i的调声参数v(i)：

其中，E₁和E₂分别是x_H和n的帧能量，即：

其中，使用采样k＝0，1，2，…，L-1来表示当前帧。调声参数v(i)影响噪声分量n和经调制的激励x_H的平衡，并且可能在区间v(i)∈[0，1]内。调声参数表达信号周期性(或者音调性或者调和性)，并且是根据CELP编解码器的代数码本的能量E_ACB和CELP的固定码本的能量E_FCB例如按照下式来计算的：

v(i)＝0.5(1-r_v(i)) (4)

其中

其中，E_v(i)和E_c(i)是针对子帧i的经缩放的基音代码矢量的能量和经缩放的代数代码矢量的能量。

在LP合成块28中使用高频带LP滤波器对经混合的激励进行滤波，以形成高频带合成在合成滤波器组30中将CELP解码器的输出与高频带合成联合在一起以形成输出信号

基于本文所提出的技术的时域BWE的示例性实施例集中于主要用于语音应用的音频编码器和解码器系统。该实施例存在于如图2中概述的编码和解码系统的具有图3中所述的激励噪声混合系统的解码器中。现有系统的添加是通过使用公共控制(或共享)参数f联合控制包络形状和激励噪度来对频谱包络和激励混合进行额外控制，如图4中的解码器200例证的。控制参数f在相同控制参数f用于控制包络形状和激励噪度的意义上说是“公共的”。在该示例中，使用单个控制参数f∈[0,1]。然而，应当注意的是，可以使用控制参数的任何区间，例如，针对任何适当的A和B，[-A，A]、[0，A]、[A，0]或[A，B]。然而，存在具有简单的单位区间以用于联合控制两个或更多个进程的目的的益处。

例如，可以使用具有以下形式的共振峰后置滤波器H(z)(如图4中的42处所示的)来完成对频谱包络的控制：

其中

是表示包络的线性预测滤波器，以及

γ₁、γ₂是控制参数f的函数。

该后置滤波器42通常用于清除CELP解码器中的频谱谷，并且由联合后置滤波器和激励控制器44来控制。在图5中可以看到使用这种后置滤波器获得的频谱包络增强的示例。在该示例性实施例中，通过使用控制参数f按照下式修改γ₁、γ₂来使滤波器42自适应：

其中，γ₀、Δγ是预定常数。γ₀的适合值可以是γ₀＝0.75或者在范围γ₀∈[0.5，0.9]内，并且Δγ的适合值可以是Δγ＝0.15或者在范围Δγ∈[0.1，0.3]内。然而，应当注意的是，γ₀和Δγ必须被选择为使得γ₁∈[0，1]并且γ₂∈[0，1]。利用该设置，控制值f＝1将提供对后置滤波器的最强修改，而f＝0将通过设置γ₁＝γ₂(从而产生H(z)＝1)来禁用后置滤波器。

在后置滤波器42的另一变型中，针对f＝0的滤波器的空闲状态被修改为对频谱具有平坦化效果。这对于初始频谱具有太多结构使得禁用后置滤波器不足以实现期望量的频谱谷去增强的情形可能是有用的。在该情况下，等式(7)中的表达式可以被修改为：

或者

其中，等式(9)隐式地考虑平坦化滤波器的偏移。注意，在该情况下，

f＝0产生γ₁<γ₂，这意味着后置滤波器42具有平台化效果而不是对包络的形状具有增强效果。

还可以通过将控制参数f的范围扩展到例如f∈[-1，1]或例如针对A和B的适合值的f∈[-A，A]或f∈[-A，B]来实现平坦化效果。在该情况下，可以如等式(7)中一样表达后置滤波器42使得负f向频谱包络提供平坦化效果而正f曾强频谱包络结构。还可以期望针对频谱结构增强和频谱平坦化分别使用不同的后置滤波器强度。一种此类方法将是根据控制参数f的符号使用不同的Δγ。

其中，Δγ_flat和Δγ_sharp是分别控制平坦化强度和频谱增强强度的预定常数。适合的值可以是Δγ_flat＝0.12或者在范围Δγ_flat∈[0.01，0.20]内以及Δγ_sharp＝0.08或者在范围Δγ_sharp∈[0.01，0.20]内。

激励混合进而由混合控制器41来控制，混合控制器41被配置为通过按照(1)将子帧i的高频带激励x_H,i与噪声n_i进行混合来控制激励噪度，其中，混合因子g_x(i)和g_n(i)分别由下式定义：

其中

v(i)是部分地控制激励噪度的调声参数，

α是预定调谐常数，

E₁是针对所有子帧i的高频带激励x_H,i的帧能量，以及

E₂是针对所有子帧i的噪声n_i的帧能量。

与等式(2)相比，调谐常数α决定最大修改。α的适合值可以是α＝0.3或者在范围α∈[0，1]内。当控制参数f接近1时，混合因子将被平衡以提供更多噪声，而当f接近0时，混合因子将在混合物中提供未经修改的噪声部分。

如果准许控制参数f的负值，则由混合控制器41产生的噪声混合因子的备选表达式是：

其中

v(i)是部分地控制激励噪度的调声参数，

α是预定调谐常数，

E₁是针对所有子帧i的高频带激励x_H,i的帧能量，以及

E₂是针对所有子帧i的噪声n_i的帧能量。

在这里，函数max(a,b)返回a和b中的最大值，如下面在等式(14)中所定义的。在上面的表达式中，这确保负f不会影响噪声混合值。

在一个实施例中，可以通过使用已经存在于解码器200中的参数来调整控制参数f。一个示例是使用高频带信号的频谱倾斜，这是因为后置滤波器42与强频谱倾斜相结合可能是有害的。因此，联合后置滤波器和激励控制器44可以被配置使控制参数f适应帧m的高频带频谱倾斜t_m。可以使用当前帧m的解码LP滤波器的第二系数a_1，m来近似高频带频谱倾斜，其中，P是滤波器阶数。

例如根据下式平滑自适应以避免在频谱包络中产生急剧变化通常是有利的：

t_m＝β.a_1，m+(1-β)max(0,t_m-1) (13)

其中，t_m是帧m的频谱倾斜值，t_m-1是前一帧m-1的频谱倾斜值，并且β＝0.1或者在范围β＝[0，0.5]内。max函数可以被定义为：

在这里，max函数确保来自前一帧的所使用的频谱倾斜值不为负。用于平滑频谱倾斜的其他示例是：

t_m＝β.max(0,a_1，m)+(1-β)t_m-1 (15)

以及

t_m＝β.a_1，m+(1-β)t_m-1 (16)

还可能期望考虑负频谱倾斜和正频谱倾斜。在该情况下，可以使用频谱倾斜近似的绝对值，即：

t_m＝β.|a_1，m|+(1-β)t_m-1 (17)

可以使用逐段线性函数将经平滑的频谱倾斜值映射到控制参数：

其中，C_min和C_max是预定常数。在该示例中，常数值被设置为C_max＝0.8和C_min＝0.4，但是可以从C_max∈[0.5，2.0]和C_min∈[0，C_max]中选择其他适合值。

返回图4，通过使用修改的g_x和g_n，获得了新的激励信号使用高频带LP滤波器(28处)来对该信号进行滤波，以形成第一级高频带合成y′_H。该信号被馈送到自适应后置滤波器H(z)(42处)以获得高频带合成在合成滤波器组30中将CELP解码器24的输出与高频带合成进行组合以形成输出信号

上述基于倾斜的自适应存在其他替换形式。例如，可以使用高频带的频谱平坦度的度量。基于高频带频谱的某一表示来度量频谱平坦度它可以是例如使用公知表达式根据高频带LPC系数A导出的：

(19)

其中

其中，DFT(A,M)表示LPC系数A的长度为M的离散傅里叶变换。表达式|·|表示复变换值的幅度(点表示数学表达式)，并且由于变换的对称性，仅考虑前N＝M/2个值。优选地使用FFT(快速傅里叶变换)来执行该变换，并且M将是与滤波器长度P+1最近的更高的2的幂，即，

如果P+1>M，则在执行FFT之前使用零来填充输入滤波器A。还可以使用经量化的LPC系数来计算频谱平坦度如果该操作完成，则可以在无需额外信令的情况下在解码器中计算频谱平坦度度量。在该情况下，如果在等式(20)中使用来替换A，则可以通过图4来描述该系统。

可能期望在编码器侧确定频谱平坦度度量，以减少当考虑编码器和解码器时的总复杂度。在该实施例中，编码器包括频谱平坦度估计器，该频谱平坦度估计器被配置为确定高频带信号的频谱平坦度的度量以发送到解码器。在图6中描绘了使用基于LPC系数的频谱平坦度估计器46的编码器。在该情况下，必须在比特流中信号通知平坦度度量。该信令可以由根据阈值认为频谱平坦度是高还是低的二进制决策构成。

(21)

例如，可以使用二进制决策来导出相应的控制参数f，即，

通过利用上面的定义，针对高于阈值的平坦度值，控制参数f将为1，针对低于阈值的平坦度值，控制参数f将为-1。为了限制这些值之间的急剧切换的影响，可以以针对倾斜滤波相似的方式使用例如遗忘因子β来进一步平滑控制参数：

f′_m＝β.f_m+(1-β)·f′_m-1 (22)

在图7中示出了与图6中的编码器相对应的解码器200。它与图4中的解码器类似。然而，在图7中，联合后置滤波器和激励控制器44基于接收的二进制决策而不是表示包络的线性预测滤波器来确定控制参数f。通常，控制参数f适应高频带的频谱平坦度的度量。

应当注意的是，在合成滤波器之前或者在后置滤波器H(z)之前或之后，其他处理级是可能的。一个此类处理级可以是时间整形过程，其目的是重构原始高频带信号的时间结构。可以使用表示子帧级的增益校正因子的增益形状矢量量化来对这种时间成形进行编码。还可以从部分地用作高频带激励信号的基础的低频带激励信号来得到时间整形的一部分。

后置滤波器和激励混合还可能影响信号的能量。使能量保持稳定是期望的，并且存在用于处理该情况的多种可用方法。一种可能的解决方案是测量修改之前和之后的能量，并且使能量恢复到激励混合和后置滤波之前的值。能量测量也可以限制于特定频带或者更高能量的频谱区域，从而允许频谱谷中的能量损失。在该示例性实施例中，能量补偿可以用作混合和后置滤波器功能的组成部分。

频域BWE

基于频率变换的音频编码器通常用于一般音频信号，例如，具有背景噪声或回响的音乐或语音。在低比特率时，它们通常呈现较差的性能。一种常见的现有解决方案是降低带宽以针对较窄频带获得可接受质量并且针对较高频率应用BWE。在图8中示出了这种系统的概述。

作为频率变换的准备步骤，首先将输入音频划分为时间段或帧。每一个帧y被变换到频域以形成频域频谱Y。这可以使用任何适合的变换(例如，修正离散余弦变换(MDCT)、离散余弦变换(DCT)或离散傅里叶变换(DFT))来完成。频谱被划分为更短的行矢量(表示为Y(b))。通过频率变换器50来执行这些功能。每一个矢量现在表示总数为N_b的频带之外的频带b的系数。从感知的角度来看，使用非均匀频带结构来划分频谱是有利的，其中，非均匀频带结构遵循人类听觉系统的频率分辨率。这通常意味着较窄的带宽用于低频，而较大的带宽用于高频。

接下来，在包络分析器52中计算每一个频带的范数以形成增益值序列E(b)，该增益值序列E(b)形成频谱包络。然后，使用包络编码器54对这些值进行量化，以形成经量化的包络可以使用任何量化技术(例如，差分标量量化或者任何矢量量化方案)来完成包络量化。经量化的包络系数用于在包络归一化器56中对频带矢量Y(b)进行归一化以形成相应的经归一化的形状矢量X(b)：

经归一化的形状矢量序列X(b)构成频谱的精细结构。频谱精细结构的感知重要性随着频率而改变，但是也可以取决于诸如频谱包络信号等的其他信号特性。变换编码器通常采用听觉模型来确定精细结构的重要部分，并且向最重要的部分指派可用资源。频谱包络通常用作该听觉模型的输入，并且输出通常是针对与包络系数相对应的频带中的每一个的比特指派。在这里，比特分配器58中的比特分配算法使用经量化的包络结合内部听觉模型来指派多个比特R(b)，所述多个比特R(b)进而由精细结构编码器60使用。当变换编码器以低比特率操作时，将向频带中的一些频带指派零比特，并且将不对相应的形状矢量进行量化。在比特流mux(复用器)62中分别复用来自包络的量化和经编码的精细结构矢量的索引I_E和I_X以便存储或者发送到解码器。

解码器对来自通信信道或比特流demux(去复用器)70中的存储介质的索引进行去复用并且将索引I_X转发给精细结构解码器72并将I_E转发给包络解码器74。经量化的包络被获得并且被馈送到解码器中的比特分配器76中的比特分配算法，该算法生成比特分配R(b)。通过使用R(b)，找到比特分配中具有最高非零值的频带。该频带被表示为b_max。

精细结构解码器72使用精细结构索引I_X和比特分配R(b)来产生针对b＝1，2，…，b_max所定义的经量化的精细结构矢量

在该示例性实施例中，交叉频率根据比特分配是自适应的，并且考虑到约束b_max+1≤N_b从频带b_max+1开始。

存在已经被指派零比特的频带b＜b_max。具体地，对于低比特率，这些零比特频带经常出现，并且由于频谱的变化，零比特频带的位置通常随着帧而改变。这种变化在合成中产生调制效果。通常，使用频谱填充技术来处理零比特频带，其中，将信号注入零比特频带中。填充信号可以是伪随机噪声信号或者编码频带的修改版本。填充技术不是该技术的必不可少的部分，并且假设适合的频谱填充是精细结构解码器72的一部分。在已经完成频谱填充之后，低频带精细结构被输入到低频率包络成形器78中，该低频率包络成形器78根据下式恢复合成的低频带频谱

低频带精细结构还被输入到精细结构修改器或处理器80中，该精细结构修改器或处理器80根据参数b_max来识别低频带结构的长度，并且创建针对b_max+1，b_max+2，…，N_b所定义的高频带激励信号存在用于根据低频带激励创建高频带激励的多种技术。在该示例性实施例中，低频带激励的上半部分被折叠和复制以填充高频带激励。假设表示低频带激励信号的上半部分并且函数rev(·)将矢量的元素进行反转。然后，根据需要将序列重复多次以填充高频带激励频谱b_max+1，b_max+2，…，N_b。然后，将高频带激励信号输入到高频率包络成形器82中以根据下式形成合成的高频带频谱

在频谱组合器84中组合合成的低频带频谱和合成的高频带频谱(b)以形成合成频谱(b)或(省略了频带索引)。合成频谱被输入到逆频率变换器86中以形成输出信号在该过程中，还进行与频率变换相关的必要的加窗和重叠相加操作。

与时域BWE的情况一样，来自低频带的激励可能具有不适合于用作高频带激励的特性。具体地，人们可能希望在低频带激励中平坦化精细结构的一些。在图9中示出了这种示例性系统的解码器。该现有技术的系统假设如图8中概述的编码器。作为所描述的方案的添加，存在压缩器H(88处)，压缩器H对高频带激励信号进行操作以产生经压缩的高频带激励信号一个示例性的压缩器函数是：

这意味着H是与具有相同长度的矢量。在这里，频带索引b已经被省略并且矢量表示针对所定义的频带的所有元素，即：

压缩因子η小于1，并且适合的值可以是η＝0.5或者在范围η∈[0.01，0.99]内，其中，接近0的值不产生影响而接近1的值产生最大压缩。通过将H和逐个元素相乘来获得经压缩的高频带合成。它可以被表达为矩阵相乘：

其中，产生了具有对角线上的的正方形矩阵。经压缩的高频带激励被输入到高频率包络成形器82中以根据下式形成高频带频谱

如图9中所示，在频谱组合器84中组合低频带频谱和高频带频谱以形成合成频谱该合成频谱被输入到逆频率变换器86以形成输出信号

基于所提出的技术的频域BWE的示例性实施例集中于主要用于一般音频信号的音频编码器和解码器系统。新技术主要存在于图8中概述的编码和解码系统的具有图9中所示的激励压缩系统的解码器中。在图10中示出了这种解码器200的示例性实施例。

作为现有技术的添加，提供了一种高频带激励压缩的组合控制，其中，该高频带激励压缩是与如图10中所示的频谱包络扩展器90一起被联合控制的。与在时域中一样，控制参数f∈[0，1]用于控制压缩器88和扩展器90。这是由联合扩展器和压缩器控制器92来执行的。

使用控制参数f按照下式来调整高频带激励压缩器88的强度：

其中，当f＝1时，Δη给出了最大压缩因子指数η+Δη。如果η＝0.5，则Δη的适合值可以是Δη＝0.3或者在范围Δη∈[0.01，1-η]内。注意，η+Δη≤1。通过将H和逐个元素相乘来获得经压缩的高频带激励，即：

对高频带包络使用的扩展器90具有与高频带激励压缩器类似的结构：

在这里，可以省略绝对值|·|，这是因为包络系数对于f＝0，扩展器将关于扩展系数具有最小影响。的适合值可以是这是因为这将针对f＝0提供不受影响的包络。如果最小扩展影响始终是期望的，则可以例如从范围中选择适合值。针对f＝1获得最大扩展，这提供了扩展因子指数的值可以被设置为但是适合值将极大地取决于频带结构并且可以从宽范围(例如，中选择。通过将包络和扩展函数G逐个元素相乘来获得扩展包络即：

其中，表示高频带包络的元素扩展的包络被应用于经压缩的高频带精细结构以按照下式形成高频带频谱

在频谱组合器84中组合合成的低频带频谱和合成的高频带频谱以形成合成频谱该合成频谱被输入到逆频率变换器86中以形成输出信号

可以根据在解码器200中已经可用的参数来导出联合控制参数f，或者联合控制参数f可以基于在编码器中已经完成的分析并且被发送到解码器。在这里，对于时域BWE情况，我们依赖于对高频带频谱倾斜的估计。可以通过测量高频带信号的每一半中的包络系数的总和的商数q_m来根据包络参数导出该估计，即：

其中

可以通过与在时域实施例中的方式相同的方式(例如使用下式)完成对帧m的频谱倾斜t_m的平滑：

t_m＝β.q_m+(1-β)t_m-1 (37)

还可以使用与时域实施例中相同的逐段线性函数来完成频谱倾斜到控制参数f的映射，即：

然而，因为频谱倾斜的定义不同，因此映射函数的常数C_max和C_min将不同。这些将例如取决于频带结构。

在上述频域实施例的备选方式中，联合包络和激励控制适应在编码器中估计的低频带误差信号，该编码器与图8中概述的系统中的编码器类似，但是还具有本地解码和误差测量单元。在图11中示出了这种系统的示例，其中，本地解码和误差测量单元包括本地解码器96、低频频谱提取器98、加法器100和低频误差编码器102。在该实施例中，通过使用经量化的包络和从精细结构编码器中提取的经解码的低频带精细结构来获得本地低频带合成。还可以运行整个精细结构解码器以根据索引I_X提取但是通常可以使用较低的计算复杂性从编码器中提取本地合成。通过使用经量化的包络对经解码的低频带结构进行成形来生成本地合成的低频带频谱

通过使用比特分配R(b)找到最后一个经量化的频带来从整个频谱中提取输入信号Y_L(b)的低频带频谱。低频带误差信号形成为输入信号能量与合成的低频带频谱和输入的低频带频谱之间的欧几里得距离(即，关于低频带合成的信噪比(SNR)度量D_L)的对数比，其中，D_L被定义为：

低频带SNR被量化，并且量化索引I_ERR与包络索引I_E和精细结构索引I_X复用在一起以便存储或发送到解码器。可以例如使用均匀标量量化器来完成低SNR编码。

解码器200与图9中概述的解码器类似，但是还具有高频带激励压缩的组合控制，其中，高频带激励压缩与如图10中所示的频谱包络扩展器一起被联合控制。与在时域实施例中一样，控制参数f∈[0,1]用于控制压缩器和扩展器。

通过使用控制参数f，按照下式来调整高频带激励压缩器的强度：

其中，当f＝1时，Δη给出了最大压缩因子η+Δη。如果η＝0.5，则Δη的适合值可以为Δη＝0.3或者在范围Δη∈[0.01，1-η]内。注意，η+Δη≤1。通过按下式将H和逐个元素相乘来获得经压缩的高频带激励：

对高频带包络使用的扩展器具有与高频带激励压缩器类似的结构：

在这里，可以省略绝对值|·|，这是因为包络系数对于f＝0，扩展器对于扩展系数φ将有最小影响。φ的适合值可以为φ＝0，这是因为其对于f＝0将提供不受影响的包络。如果始终期望较小的扩展影响，则可以例如从范围φ∈[0，0.5]中选择适合值。针对f＝1获得最大扩展，这提供了扩展因子指数-(φ+Δφ)。的值可以被设置为Δφ＝1，但是适合值将极大地取决于频带结构，并且可以从宽范围(例如，Δφ∈[0.5，10])中选择。可以通过将包络和扩展函数G逐个元素相乘来获得经扩展的包络即：

其中，表示高频带包络的元素经扩展的包络被应用于经压缩的高频带精细结构以按照下式形成高频带频谱

在频谱组合器中组合合成的低频带频谱和合成的高频带频谱以形成合成频谱该合成频谱被输入到逆频率变换器中以形成输出信号

在该实施例中，控制参数f基于来自编码器分析的低频带SNR。首先，根据低频带误差索引I_ERR获得重构的低频带SNR使用逐段线性函数将重构的低频带SNR映射到控制参数f：

其中，常数D_min和D_max取决于该系统的典型低频带失真值。D_min的适合值可以是D_min＝10或者范围D_min∈[5，20]中的任何值，而D_max的适合值可以是D_max＝20或者在范围D_max∈[10，50]中。该关系将针对高SNR值(其与低频带中的低失真相对应)提供较强修改。还可能期望具有相反的关系，使得强修改将用于低SNR(高失真值)。可以通过对上述关系进行反转来获得这种关系，即：

要注意的是，压缩器和扩展器函数可以改变矢量的总能量。优选地，能量应当保持稳定并且存在用于处理该情况的多种可用方法。一种可能的解决方案是测量修改之前和修改之后的能量并且将能量恢复到压缩或扩展之前的值。能量测量还可以限制于特定频带或者更高能量的频谱区域，从而允许频谱谷中的能量损失。在该示例性实施例中，假设使用某一能量补偿并且它是压缩器和扩展器函数的组成部分。

可以使用传统的技术(例如分立电路或集成电路技术，包括通用电子电路和专用电路)在硬件中实现本文所描述的步骤、功能、过程和/或框。

备选地，可以以软件实现本文所描述的步骤、功能、过程和/或框中的至少一些以供适合的处理设备执行。该设备可以包括例如一个或多个微处理器、一个或多个数字信号处理器(DSP)、一个或多个专用集成电路(ASIC)、视频加速硬件或者一个或多个适合的可编程逻辑设备(例如，现场可编程门阵列(FPGA))。此类处理元件的组合也是可行的。

还应当理解的是，可以重用已经存在于编码器/解码器中的通用处理能力。这例如可以通过对现有软件进行重新编程或者通过添加新的软件组件来完成。

图13示出了控制布置的示例性实施例。该实施例基于诸如微处理器等的处理器210，该处理器210执行用于使用公共控制参数来联合控制包络形状和激励噪度的软件220。软件被存储在存储器230中。处理器210通过系统总线与存储器进行通信。输入信号由控制I/O总线的输入/输出(I/O)控制器240接收，其中，处理器210和存储器230连接到该I/O总线。I/O控制器240通过I/O总线从存储器230输出从软件220获得的输出信号。括号内的输入信号和输出信号与时域BWE相对应，并且没有括号的输入信号和输出信号与频域BWE相对应。

可以如图13中所示的使用处理器、存储器、系统总线、I/O总线和I/O控制器在结构上配置基于频谱平坦度的度量的实施例。

上文所描述的技术旨在在音频编码器/解码器中使用，该音频编码器/解码器可以在移动设备(例如，移动电话、膝上型计算机)或固定设备(例如，个人计算机)中使用。在这里，术语用户设备(UE)将用作此类设备的通用名称。图14示出了包括配备有控制布置的解码器的UE。由无线电单元300接收的无线电信号被转换到基带，被信道解码，并且被转发给音频解码器200。音频解码器配备有如上所述的在时域或频域中操作的控制布置310。经解码和频带扩展的音频采样被转发给D/A转换和放大单元320，该D/A转换和放大单元320将最终的音频信号转发给扬声器330。

图15示出了所提出的技术的流程图。步骤S1使用公共控制参数f来联合控制包络形状和激励噪度。

图16示出了所提出的技术的示例性实施例的流程图。在该实施例中，步骤S1包括通过使用共振峰后置滤波器H(z)(例如，具有由等式(6)定义的形式)来控制包络形状的步骤S1A。例如，可以根据等式(7)至(10)之一来确定预定常数γ₁、γ₂。

图17示出了所提出的技术的实施例的流程图。在该实施例中，步骤S1包括通过根据等式(1)将子帧i的高频带激励x_H,i与噪声n_i进行混合来控制激励噪度的步骤S1B，其中，根据预定常数γ₁、γ₂的选择通过例如等式(11)或(12)来定义混合因子g_x(i)和g_n(i)。

图18示出了所提出的技术的实施例的流程图。在该实施例中，步骤S1包括例如根据等式(18)使控制参数f适应帧m的高频带频谱倾斜t_m的步骤SiC。在一个实施例中，可以使用帧m的经解码的线性预测滤波器的第二系数a_1，m来近似高频带频谱倾斜t_m，其中，P是滤波器阶数。例如根据等式(13)、(15)至(17)之一来平滑高频带频谱倾斜t_m通常也是有利的。基于频谱平坦度的度量的实施例可以使用参照等式(19)至(22)所描述的方法来执行步骤SiC。

图19示出了所提出的技术的实施例的流程图。该实施例结合所描述的步骤S1A、S1B、S1C。通常，首先确定控制参数f。然后，使用该控制参数f来执行步骤S1A和S1B。包括S1A+S1C或S1B+S1C的其他组合也是可能的。

本领域技术人员将理解的是，可以在不偏离所提出的技术的由所附权利要求限定的范围的情况下对所提出的技术进行各种修改和改变。

缩写词

ASIC 专用集成电路

BWE 带宽扩展

CELP 代码激励线性预测器

DCT 离散余弦变换

DFT 离散傅里叶变换

DSP 数字信号处理器

FFT 快速傅里叶变换

FPGA 现场可编程门阵列

HF 高频

LF 低频

LP 线性预测器

LPC 线性预测编码

MDCT 修正离散余弦变换

QMF 正交镜像滤波器

SBR 频带复制

SNR 信噪比

TCX 变换编码残差

UE 用户设备

参考文献

[1]“AMR-WB+：A new audio coding standard for3rd generation mobileaudio services”，J.B.Bessette，S.Bruhn，P Oj ala，R.Salami，A.Taleb，ICASSP2005

[2]“Enhanced aacPlus encoder Spectral Band Replication(SBR)part”，3GPPTS26.404V10.0.0(2011-03)，sections5.6.1-5.6.3，pp.22-25

Claims

1.一种根据包络和激励生成音频信号的高频带扩展的方法，其中，所述方法包括步骤(S1)：使用公共控制参数f来联合控制包络形状和激励噪度，利用具有以下形式的共振峰后置滤波器H(z)来控制(S1A)所述包络形状：

H (z) = \frac{\hat{A} (z / γ_{1})}{\hat{A} (z / γ_{2})}

其中

是表示所述包络的线性预测滤波器，以及

γ₁、γ₂是所述控制参数f的函数。

2.根据权利要求1所述的方法，其中，

\{\begin{matrix} γ_{1} = γ_{0} + f \cdot Δ γ \\ γ_{2} = γ_{0} - f \cdot Δ γ \end{matrix}

其中，γ₀、Δγ是预定常数。

3.根据权利要求1或2所述的方法，包括以下步骤：通过按照下式混合子帧i的高频带激励x_H,i和噪声n_i来控制(S1B)所述激励噪度：

{\tilde{x}}_{i} = g_{x} (i) x_{H, i} + g_{n} (i) n_{i}

其中，通过下式来定义混合因子g_x(i)和g_n(i)：

\{\begin{matrix} g_{x} (j) = \sqrt{v (j) (1 - α f)} \\ g_{n} (j) = \sqrt{E_{1} (1 - v (j) (1 - α f)) / E_{2}} \end{matrix}

其中

v(i)是部分地控制所述激励噪度的调声参数，

α是预定调谐常数，

E₁是针对所有子帧i的高频带激励x_H,i的帧能量，以及

E₂是针对所有子帧i的噪声n_i的帧能量。

4.根据权利要求1所述的方法，其中，

\{\begin{matrix} γ_{1} = γ_{0} + f \cdot {Δγ}_{s h a r p} \\ γ_{2} = γ_{0} - f \cdot {Δγ}_{s h a r p} \end{matrix}, f &GreaterEqual; 0

\{\begin{matrix} γ_{1} = γ_{0} + f \cdot {Δγ}_{f l a t} \\ γ_{2} = γ_{0} - f \cdot {Δγ}_{f l a t} \end{matrix}, f < 0

其中，γ₀、Δγ_flat和Δγ_sharp是预定常数。

5.根据权利要求4所述的方法，包括以下步骤：通过按照下式混合子帧i的高频带激励x_H,i和噪声n_i来控制(S1B)所述激励噪度：

{\tilde{x}}_{i} = g_{x} (i) x_{H, i} + g_{n} (i) n_{i}

其中，通过下式来定义混合因子g_x(i)和g_n(i)：

\{\begin{matrix} g_{x} (i) = \sqrt{v (i) (1 - m a x (0, α f))} \\ g_{n} (i) = \sqrt{E_{1} (1 - v (i) (1 - m a x (0, α f))) / E_{2}} \end{matrix}

其中

v(i)是部分地控制所述激励噪度的调声参数，

α是预定调谐常数，

E₁是针对所有子帧i的高频带激励x_H,i的帧能量，以及

E₂是针对所有子帧i的噪声n_i的帧能量。

6.根据权利要求1所述的方法，包括以下步骤：使所述控制参数f适应(S1C)帧m的高频带频谱倾斜t_m。

7.根据权利要求6所述的方法，其中，所述控制参数f按照下式取决于所述高频带频谱倾斜t_m：

f (t_{m}) = \{\begin{matrix} 0, & t_{m} &GreaterEqual; C_{m a x} \\ 1 - (t_{m} - C_{\min}) / (C_{m a x} - C_{m i n}), & C_{m i n} \leq t_{m} < C_{\max} \\ 1, & t_{m} < C_{\min} \end{matrix}

其中，C_min和C_max是预定常数。

8.根据权利要求6或7所述的方法，其中，使用帧m的经解码的线性预测滤波器的第二系数a_1,m来近似所述高频带频谱倾斜t_m，其中，P是滤波器阶数。

9.根据权利要求8所述的方法，其中，

t_m＝β·max(0,a_1,m)+(1-β)t_m-1

其中

t_m是帧m的频谱倾斜值，

t_m-1是前一帧m-1的频谱倾斜值，以及

β是范围β＝[0,0.5]中的常数。

10.根据权利要求1或2所述的方法，包括以下步骤：使所述控制参数f适应高频带的频谱平坦度的度量

11.一种被配置为根据包络和激励来生成音频信号的高频带扩展的音频解码器(200)，包括：控制装置(41、42、44；88、90、92；310)，被配置为使用公共控制参数f来联合控制包络形状和激励噪度，所述控制装置(41、42、44)包括联合后置滤波器和激励控制器(44)，所述联合后置滤波器和激励控制器(44)被配置为利用具有以下形式的共振峰后置滤波器(42)H(z)来控制所述包络形状：

H (z) = \frac{\hat{A} (z / γ_{1})}{\hat{A} (z / γ_{2})}

其中

是表示所述包络的线性预测滤波器，以及

γ₁、γ₂是所述控制参数f的函数。

12.根据权利要求11所述的解码器，其中，

\{\begin{matrix} γ_{1} = γ_{0} + f \cdot Δ γ \\ γ_{2} = γ_{0} - f \cdot Δ γ \end{matrix}

其中，γ0、Δγ是预定常数。

13.根据前述权利要求11至12中任意一项所述的解码器，包括混合控制器(41)，所述混合控制器(41)被配置为：通过按照下式混合子帧i的高频带激励x_H,i和噪声n_i来控制所述激励噪度：

{\tilde{x}}_{i} = g_{x} (i) x_{H, i} + g_{n} (i) n_{i}

其中，通过下式来定义混合因子g_x(i)和g_n(i)：

\{\begin{matrix} g_{x} (i) = \sqrt{v (i) (1 - α f)} \\ g_{n} (i) = \sqrt{E_{1} (1 - v (i) (1 - α f)) / E_{2}} \end{matrix}

其中

v(i)是部分地控制所述激励噪度的调声参数，

α是预定调谐常数，

E₁是针对所有子帧i的高频带激励x_H,i的帧能量，以及

E₂是针对所有子帧i的噪声n_i的帧能量。

14.根据权利要求11所述的解码器，其中，

\{\begin{matrix} γ_{1} = γ_{0} + f \cdot {Δγ}_{s h a r p} \\ γ_{2} = γ_{0} - f \cdot {Δγ}_{s h a r p} \end{matrix}, f &GreaterEqual; 0

\{\begin{matrix} γ_{1} = γ_{0} + f \cdot {Δγ}_{f l a t} \\ γ_{2} = γ_{0} - f \cdot {Δγ}_{f l a t} \end{matrix}, f < 0

其中，γ₀、Δγ_flat和Δγ_sharp是预定常数。

15.根据权利要求14所述的解码器，包括混合控制器(41)，所述混合控制器(41)被配置为：通过按照下式混合子帧i的高频带激励x_H,i和噪声n_i来控制所述激励噪度：

{\tilde{x}}_{i} = g_{x} (i) x_{H, i} + g_{n} (i) n_{i}

其中，通过下式来定义混合因子g_x(i)和g_n(i)：

\{\begin{matrix} g_{x} (i) = \sqrt{v (i) (1 - m a x (0, α f))} \\ g_{n} (i) = \sqrt{E_{1} (1 - v (i) (1 - m a x (0, α f))) / E_{2}} \end{matrix}

其中

v(i)是部分地控制所述激励噪度的调声参数，

α是预定调谐常数，

E₁是针对所有子帧i的高频带激励x_H,i的帧能量，以及

E₂是针对所有子帧i的噪声n_i的帧能量。

16.根据权利要求11所述的解码器，其中，所述联合后置滤波器和激励控制器(44)被配置为：使所述控制参数f适应帧m的高频带频谱倾斜t_m。

17.根据权利要求16所述的解码器，其中，所述控制参数f按照下式取决于所述高频带频谱倾斜t_m：

f (t_{m}) = \{\begin{matrix} 0, & t_{m} &GreaterEqual; C_{m a x} \\ 1 - (t_{m} - C_{\min}) / (C_{m a x} - C_{m i n}), & C_{m i n} \leq t_{m} < C_{\max} \\ 1, & t_{m} < C_{\min} \end{matrix}

其中，C_min和C_max是预定常数。

18.根据权利要求16或17所述的解码器，其中，所述联合后置滤波器和激励控制器(44)被配置为利用帧m的经解码的线性预测滤波器的第二系数a_1,m来近似所述高频带频谱倾斜t_m，其中，P是滤波器阶数。

19.根据权利要求18所述的解码器，其中，

t_m＝β·max(0,a_1,m)+(1-β)t_m-1

其中

t_m是帧m的频谱倾斜值，

t_m-1是前一帧m-1的频谱倾斜值，以及

β是范围β＝[0,0.5]中的常数。

20.根据权利要求11或12所述的解码器，其中，所述联合后置滤波器和激励控制器(44)被配置为：使所述控制参数f适应高频带的频谱平坦度的度量

21.一种用户设备UE，包括根据前述权利要求11至20中任意一项所述的音频解码器。