CN103026408B

CN103026408B - 音频信号产生装置

Info

Publication number: CN103026408B
Application number: CN201180035726.3A
Authority: CN
Inventors: 高阳
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2010-07-19
Filing date: 2011-07-19
Publication date: 2015-01-28
Anticipated expiration: 2031-07-19
Also published as: JP2013531281A; JP5662573B2; KR101428608B1; BR112013001224A2; AU2011282276B2; EP2583277A4; US9047875B2; WO2012012414A1; BR112013001224B8; JP6044035B2; AU2011282276C1; US20120016667A1; KR20130025963A; AU2011282276A1; EP3291232A1; ES2644231T3; CN103026408A; US10339938B2; US20150255073A1; JP2015092254A

Abstract

根据一项实施例，一种在解码器上对已编码音频比特流进行解码的方法包括，接收所述音频比特流、解码所述音频比特流的低频带比特流(207)以获得频域中的低频带系数(209)，以及复制多个所述低频带系数到高频带位置以生成高频带系数(213)。所述方法进一步包括，处理所述高频带系数(213)以形成处理后的高频带系数(214)。处理包括通过将修改增益相乘以使所述高频带系数(213)变平坦或平滑来修改所述高频带系数(213)的能量包络，以及将从所述接收音频比特流解码的接收频谱包络用于所述高频带系数(213)。然后，所述低频带系数(209)和所述处理后的高频带系数(214)逆变换成所述时域，以获取时域输出信号(215)。

Description

音频信号产生装置

本发明要求2011年7月18日递交的发明名称为“用于带宽扩展的频谱平坦度控制”(Spectrum Flatness Control for Bandwidth Extension)的第13/185,163号美国非临时申请案以及2010年7月19日递交的发明名称为“用于带宽扩展的频谱平坦度控制”(Spectrum Flatness Control for BandwidthExtension)的第61/365,456号美国临时申请案的在先申请优先权，该在先申请的内容以引入的方式全文并入本文本中。

技术领域

本发明涉及音频/语音处理，具体的，涉及用于带宽扩展的频谱平坦度控制。

背景技术

在现代音频/语音数字信号通信系统中，数字信号在编码器上进行压缩，压缩后的信息或比特流可以被打包，并通过通信信道逐帧发送至解码器。编码器和解码器二为一体的系统称为编解码器。语音/音频压缩可以于减小表示语音/音频信号的比特数，从而减小传输所需的带宽和/或比特率。通常，比特率越高则导致音频质量越高，而比特率越低则导致音频质量越低。

人们广泛使用基于滤波器组技术的音频编码。在信号处理过程中，滤波器组是将输入信号分成多个部分的带通滤波器的阵列，其中每个部分携载原始输入信号的单个频率子带。由滤波器组执行的分解过程称为分析，且滤波器组分析的输出为具有与滤波器组中的滤波器数量相同的子带的子带信号。重建过程称为滤波器组合成。在数字信号处理过程中，术语滤波器组也常用于一组接收器，所述接收器也可将子带下转换成可以较小比特率重新采样的低中心频率。有时也可通过对带通子带进行欠采样来实现相同的合成结果。滤波器组分析的输出可为复系数的形式；每个复系数具有实部和虚部，其分别表示滤波器组的每个子带的余弦项和正弦项。

(滤波器组分析和滤波器组合成)是将时域信号变换成频域系数并将频域系数逆变换回时域信号的一种变换对。语音/音频编码中也可使用其他受欢迎的变换对，例如(FFT和iFFT)、(DFT和iDFT)以及(MDCT和iMDCT)。

在用于信号压缩的滤波器组的应用中，一些频率在感知方面比其他频率更重要。分解后，感知方面重要的频率可使用高分辨率进行编码，因为对于使用保存这些频率的细小差异的编码方案的凭证而言，可通过感知察觉这些差异。另一方面，感知方面较不重要的频率不会被精确复制，因此即使一些比较细微的细节会在编码中丢失，也可使用较粗糙的编码方案。典型较粗糙的编码方案可基于也称为高频带扩展(HBE)的带宽扩展(BWE)的概念。一种最近流行的BWE或HBE方法称为子带复制(SBR)或频谱频带复制(SBR)。这些技术的类似之处在于，它们使用很少的比特率预算或不使用比特率预算来编码和解码一些频率子带(通常是高频带)，从而生成明显低于正常编码/解码方法的比特率。通过SBR技术，高频带中的频谱精细结构从低频带中复制，且可添加随机噪声。接着，通过使用从编码器传输到解码器的边信息，形成高频带的频谱包络。具有若干后处理模块的特定SBR技术最近被名为MPEG4USAC的国际标准采用，其中MPEG指运动图像专家组，且USAC表示联合语音音频编码。

在一些应用中，解码器上的后处理或受控制的后处理用于进一步提高由低比特率编码或SBR编码进行编码的信号的感知质量。有时，若干后处理或受控制的后处理模块被引入SBR解码器中。

发明内容

根据一个实施例，一种在解码器上对已编码音频比特流进行解码的方法包括，接收所述音频比特流、解码所述音频比特流的低频带比特流以获得频域中的低频带系数，以及复制多个所述低频带系数到高频带位置以生成高频带系数。所述方法进一步包括，处理所述高频带系数以形成处理后的高频带系数。处理包括通过乘于修改增益来修改所述高频带系数的能量包络，以使所述高频带系数变平坦或平滑，以及将从所述接收音频比特流解码的接收频谱包络用于所述高频带系数。然后，所述低频带系数和所述处理后的高频带系数逆变换成所述时域，以获取时域输出信号。

根据另一个实施例，一种在解码器上生成已解码语音/音频信号且提高已生成高频带的频谱平坦度的后处理方法包括，使用带宽扩展(BWE)高频带系数生成方法，通过频域中的低频带系数生成高频带系数。所述方法还包括，通过用平坦或平滑增益乘以所述高频带系数来使所述高频带系数的能量包络变平坦或平滑，通过使用BWE形成或确定方法来形成和确定所述高频带系数的能量，以及将所述低频带系数和所述高频带系数逆变换成所述时域以获取时域输出语音/音频信号。

根据另一个实施例，一种用于接收已编码音频信号的系统包括：低频带模块，其用于将所述已编码音频信号的低频带部分变换成所述低频带块的输出端上的频域低频带系数并通过输出端输出。；高频带块模块，与所述低频带块模块的所述输出端连接，且用于通过将多个所述低频带系数复制到高频带位置来在所述高频带块的输出端上生成高频带系数并通过所述高频带块的输出端输出。所述系统还包括连接到所述高频带模块的所述输出端的包络形成模块，其在所述包络形成块的输出端上产生已形成成形的高频带系数。所述包络形成模块用于通过将乘于修改增益来修改所述高频带系数的能量包络，相乘以使所述高频带系数变平坦或平滑来修改所述高频带系数的能量包络，以及用于将从所述已解码音频信号解码的接收频谱包络用于所述高频带系数。所述系统还包括逆变换模块，其用于产生连接到包络形成模块的所述输出端和所述低频带模块的所述输出端的时域音频输出端。

根据进一步实施例，非瞬时计算机可读媒体中存储了可执行程序。所述程序指示处理器执行对已编码音频信号进行解码以产生已解码音频信号的各步骤，以及通过频谱带宽扩展的频谱平坦度控制对所述已解码音频信号进行后处理的各步骤。在一项实施例中，所述已解码音频信号包括输出音频信号的已编码表示。

上文已相当广泛地概述了本发明实施例的特征，以便更好地理解下文对本发明的详细说明。下文将说明本发明各项实施例的其他特征和优势，这些特征和优势构成本发明的权利要求书的标的物。所属领域的技术人员应了解，可轻易地基于所揭示的概念和具体实施例，修改或设计用于实现本发明的相同目的的其他结构或过程。所属领域的技术人员还应意识到，此类等效结构并不脱离所附权利要求书中界定的本发明的精神和范围。

附图说明

为了更完整地了解本发明的各项实施例以及相应优势，现结合附图来参考以下说明，其中：

图1a至图1b所示为根据本发明的一项实施例的实施例编码器和解码器；

图2a至图2b所示为根据本发明的进一步实施例的实施例编码器和解码器；

图3所示为未采用实施例提供的频谱平坦度控制系统和方法，对语音中的清音进行SBR处理得到的高频带频谱包络；

图4所示为采用实施例提供的频谱平坦度控制系统和方法，对语音中的清音进行SBR处理得到的高频带频谱包络；

图5所示为未采用实施例提供的频谱平坦度控制系统和方法，对语音中的浊音进行SBR处理得到的高频带频谱包络；

图6所示为采用实施例提供的频谱平坦度控制系统和方法，对语音中的浊音进行SBR处理得到的高频带频谱包络；

图7所示为根据本发明的一项实施例的通信系统；以及

图8所示为可用于实施本发明的各方法的处理系统。

具体实施方式

下文将详细讨论对各项实施例的实施和使用。但应了解，本发明提供可在各种具体上下文中体现的许多适用发明概念。所述具体实施例仅仅说明用以实施和使用本发明的具体方式，而不限制本发明的范围。

将相对于具体上下文中的各种实施例、用于音频编码和解码的系统和方法来描述本发明。本发明的各项实施例也可用于其他类型的信号处理。

本发明的各项实施例使用频谱平坦度控制来提高音频解码器中的SBR性能。频谱平坦度控制可视为后处理或受控制的后处理技术中的一种，以进一步改善语音和音频信号的低比特率编码(例如SBR)。使用SBR技术的编解码器在编码低频带时比编码高频带时使用的比特多，因为SBR的一个基本特征是，高频带的精细频谱结构通过消耗极少的额外比特或者甚至不消耗额外比特来从低频带中简单复制。高频带的频谱包络用于确定高频带上的频谱能量分布，通常使用十分有限的比特数进行编码。通常，高频带大致分为若干子带，每个子带的能量被量化且从编码器发送至解码器。用于高频带的SBR进行编码的信息称为边信息，因为高频带消耗的比特数明显小于正常编码方法，或者明显不如低频带编码重要。

在一项实施例中，频谱平坦度控制实施成可用于不消耗任何比特的解码器中的后处理模块。例如，后处理可在解码器上执行，而不使用具体从编码器传输用于后处理模块的任何信息。在此类实施例中，仅使用解码器上可用的信息操作后处理模块，所述信息最初为后处理之外的目的进行传输。在控制标志用于控制频谱平坦度控制模块的实施例中，从编码器发送至解码器的控制标志的信息被视为SBR的边信息的一部分。例如，可消耗一个比特来打开或关闭频谱平坦度控制模块，或者选择不同的频谱平坦度控制模块。

图1a至图1b和图2a至图2b所示为采用SBR方法的编码器和解码器的实施例实例。这些附图也图示了频谱平坦度控制应用的可能示例性实施例位置，但是，频谱平坦度控制的准确位置取决于详细编码/解码方案，如下文所述。图3、图4、图5和图6所示为实施例系统的示例性频谱。

图1a所示为实施例滤波器组编码器。编码器上的原始音频信号或语音信号101先使用滤波器组分析或其他变换方法来变换成频域。变换的低频带滤波器组输出系数102被量化且通过比特流信道103传输至解码器。通过变换的高频带输出系数104被分析，且用于高频带的低比特率边信息通过比特流信道105传输至解码器。在一些实施例中，只传输用于高频带的低比特率边信息。

在图1b所示的实施例解码器上，通过对自传输信道的比特流106进行解码，得到量化的低频带滤波器组系数107。可选的，在执行例如滤波器组合成等逆变换之前，低频带频域系数107可以进行后处理来获得后处理系数108。通过SBR技术，使用边信息帮助生成高频带来解码高频带信号。

在一项实施例中，边信息从比特流110中解码得到，且频域高频带系数111或后处理高频带系数112通过若干步骤生成。这个过程可包括至少两个基本步骤：一个步骤是将低频带频率系数复制到高频带位置，另一个步骤是通过使用接收的边信息来形成复制的高频带系数的频谱包络。在一些实施例中，频谱平坦度控制可在应用频谱包络之前或之后用于高频带；频谱平坦度控制甚至可先用于低频带系数。然后，在应用频谱平坦度控制之后，将这些后处理低频带系数复制到高频带位置。在许多实施例中，频谱平坦度控制可置于信号链中的各个位置。频谱平坦度控制的最有效位置取决于例如解码器结构和接收频谱包络的精确度。最后，高频带和低频带系数组合在一起，并逆变换回时域，以获取输出音频信号109。

图2a和图2b所示分别为实施例编码器和解码器。在一项实施例中，低频带信号通过任一编码方案进行编码/解码，而高频带通过低比特率SBR方案进行编码/解码。在图2a所示的编码器上，低频带原始信号201由低频带编码器进行分析，以获取低频带参数202，然后，低频带参数被量化且通过比特流信道203从编码器传输到解码器。包括高频带信号的原始信号204通过使用滤波器组分析或其他变换方法来变换成频域。分析变换后的高频带的输出系数来获取边参数205，边参数表示高频带边信息。

在一些实施例中，只有高频带的低比特率边信息通过比特流信道206传输到解码器。在图2所示的解码器中，对接收比特流207进行解码得到低频带信号208，然后通过使用例如滤波器组分析等变换方法获取相应频率系数209来将低频带信号变换成频域。在一些实施例中，在进行例如滤波器组合成等逆变换之前，该低频带频域系数209可进行后处理来获得后处理系数210。通过SBR技术，使用边信息帮助生成高频带来解码高频带信号。对比特流211解码得到边信息，来获取边参数212。

在一项实施例中，通过将低频带频率系数复制到高频带位置，且通过使用边参数形成复制的高频带系数的频谱包络，来生成频域高频带系数213或后处理高频带系数214。频谱平坦度控制可在应用接收频谱包络之前或之后用于高频带；频谱平坦度控制甚至可先用于低频带系数。接着，在应用频谱平坦度控制之后，将这些后处理低频带系数复制到高频带位置。在进一步实施例中，随机噪声被添加到高频带系数。最后，高频带和低频带系数组合在一起，并逆变换回时域，以获取输出音频信号215。

图3、图4、图5和图6所示为实施例频谱平坦度控制系统和方法的频谱性能。假设低频带使用正常编码方法，以可明显高于用于编码高频带边信息的比特率的正常比特率进行编码/解码，且高频带通过使用SBR方法生成。当高频带宽于低频带时，低频带可能需要被重复复制到高频带，然后按比例扩大。

图3所示为表示语音中的清音的频谱，其中频谱从[F1，F2]被复制到[F2，F3]和[F3，F4]。在一些情况下，如果低频带301不平坦，但原始高频带303平坦，则重复复制高频带302相对于具有原始高频带303的原始信号可能产生失真信号。

图4所示为应用实施例平坦度控制的系统的频谱。如图所示，低频带401看起来类似于图3所示的低频带301，但重复复制的高频带402现在看起来明显接近原始高频带403。

图5所示为表示语音中浊音的频谱，其中原始高频带区域503有噪声且平坦，而低频带501不平坦。但是，重复复制的高频带502相对于原始高频带503也不平坦。

图6所示为表示应用实施例频谱平坦度控制方法的语音中浊音的频谱。在此，低频带601与低频带501相同，但重复复制的高频带602的频谱形状现在明显接近原始高频带603。

有许多实施例系统和方法可用于通过应用频谱平坦度控制后处理来使已生成高频带频谱更平坦。下文描述了一些可能的方法，但是下文未明确描述的其他替代性实施例也是可能的。

在一项实施例中，通过分析待复制到高频带位置的低频带系数来估算频谱平坦度控制参数。也可通过分析来自低频带系数的高频带系数来估算频谱平坦度控制参数。或者，可使用其他方法估算频谱平坦度控制参数。

在一项实施例中，频谱平坦度控制用于从低频带系数复制的高频带系数。或者，在通过应用从边信息解码的接收频谱包络形成高频带之前，频谱平坦度控制可用于高频带系数。此外，在通过应用从边信息解码的接收频谱包络形成高频带之后，频谱平坦度控制也可用于高频带系数。或者，频谱平坦度控制可以其他方式应用。

在一些实施例中，对于不同种类的信号，频谱平坦度控制具有相同参数；而在其他实施例中，频谱平坦度控制不保存用于不同种类信号的相同参数。在一些实施例中，基于来自编码器的标志和/或基于解码器上的信号种类来打开或关闭频谱平坦度控制。其他条件也可用作打开和关闭频谱平坦度控制的依据。

在一些实施例中，频谱平坦度控制无法转换，且总是保持相同的控制参数。在其他实施例中，频谱平坦度控制无法转换，但控制参数根据解码器上获得的信息自适应的调整。

在各项实施例中，可使用许多方法来实现频谱平坦度控制。例如，在一项实施例中，可通过使待复制到高频带位置的频率系数的频谱包络变平滑来实现频谱平坦度控制。也可通过使从低频带复制的高频带系数的频谱包络变平滑，或者通过在应用接收频谱包络之前使从低频带复制的高频带系数的频谱包络更接近固定平均值来实现频谱平坦度控制。此外，也可使用其他方法。

在一项实施例中，每帧用1比特用于将分类信息从编码器传输到解码器。这此该分类将通知用于指示解码器是否需要强频谱平坦度控制或弱频谱平坦度控制。在一些实施例中，分类信息也可用于打开或关闭解码器上的频谱平坦度控制。

在一项实施例中，频谱平坦度提高使用以下两个基本步骤：(1)使用SBR时，一种对识别复制的高频带频谱做平坦处理的信号帧识别的的方法，其中如果使用SBR，则应使复制高频带频谱变平坦；以及(2)用于解码器上的一种使已识别出的帧的高频带频谱变平坦的低成本的方式。在一些实施例中，并非所有的信号帧都需要对复制高频带的频谱平坦度提高。实际上对于一些帧而言，不进一步使高频带频谱变平坦更好，因为此类操作可导致声音失真。例如，语音信号可能需要频谱平坦度提高，但音乐信号可能不需要频谱平坦度提高。在一些实施例中，频谱平坦度提高适用于语音帧，在语音帧中，原始高频带频谱类似噪声或是平坦的，不包含任何强谱峰。

以下实施例算法实例识别具有噪声和平坦高频带频谱的帧。此算法可适用于例如MPEG-4USAC技术。

假设此算法实例基于图2，且通过对编码器上2048个数字样点的长帧(也称为超级帧)进行滤波器组分析输出的滤波器组复系数是：

{Sr_enc[i][k]，Si_enc[i][k]}，i＝0，1，2，....，31；k＝0，1，2，...，63.(1)

其中i是时间指数，当采样率为28800Hz时表示每拍2.22ms；且k是频率指数，当从0至14400Hz的64个小子带时表示每拍225Hz。

一个超级帧的时频能量阵列可表示为：

TF_energy_enc[i][k]＝(Sr_enc[i][k])²+(Si_enc[i][k])²，

i＝0，1，2，...，31；k＝0，1，...，63.(2)

为简洁起见，(2)中的能量表示在线性域中，且也可使用公知的等式Energy_dg＝lOlog(Energy)表示在dB域中，从而将线性域中的Energy变换成dB域中的Energy_dB。在一项实施例中，一个超级帧的平均频率方向能量分布可表示为：

F_energy_enc [k] = \frac{1}{32} Σ_{i = 0}^{31} TF_energy_enc [i] [k],

k＝0，1，...，63. (3)

在一项实施例中，称为Spectrum_Shapness的参数被估算，且用于通过以下方式检测平坦高频带。假设Start_HB是定义低频带和高频带之间边界的起点，Spectrum_Shapness是高频带的每个子带上评估的若干频谱锐度参数的平均值：

Spectrum_Sharpness = \frac{1}{K_sub} Σ_{j = 0}^{K_sub - 1} Sharpness_sub (j) - - - (4)

其中

Sharpness_sub (j) = \frac{MeanEnergy (j)}{MaxEnergy (j)}, j = 0,1, . . ., K_sub - 1 - - - (5)

其中

MeanEnergy (j) = \frac{1}{L_sub} Σ_{k = 0}^{L_sub - 1} F_energy_enc (k + Start_HB + j \cdot L_sub)

MaxEnergy(j)＝Max{F_energy_enc(k+Start_HB+j·L_sub)，k＝O，1，L_sub-1)

其中Start_HB、L_sub和K_sub是常数。在一项实施例中，示例值为Start_HB＝30、L_sub＝3和K_sub＝11。或者，可使用其他值。

用于帮助平坦高频带检测的另一个参数是表示频谱倾角的能量比：

tilt_energy_ratio = \frac{h_energy}{l_energy} - - - (6)

其中

l_energy = \frac{1}{L 1} Σ_{k = 0}^{L 1 - 1} F_energy_enc (k) - - - (7)

h_energy = \frac{1}{(L 3 - L 2)} Σ_{k = L 2}^{L 3 - 1} F_energy_enc (k) - - - (8)

L1、L2和L3是常数。在一项实施例中，它们的示例值为L1＝8、L2＝16和L3＝24。或者，可使用其他值。如果flat_flag＝1表示平坦高频带，且flat_flag＝0表示非平坦高频带，则平坦指示标志的初始设置为flat_flag＝0。然后，通过以下方式针对每个超级帧做出决策：

其中THRD0、THRD1、THRD2、THRD3和THRD4是常数。在一项实施例中，示例值为THRD0＝32、THRD1＝0.64、THRD2＝0.62、THRD3＝0.72和THRD4＝0.70。或者，可使用其他值。在一些实施例中，在编码器上确定flat_flag之后，只需要每超级帧1比特来将频谱平坦度标志传输到解码器。如果已存在音乐/语音分类，则频谱平坦度标志也可简单设置为等于音乐/语音决策。

在解码器侧，如果当前超级帧的接收flat_flag为1，则使高频带频谱更平坦。假设解码器上2048个数字样点的长帧(也称为超级帧)的滤波器组复系数是：

{Sr_dec[i][k]，Si_dec[i][k]}，i＝0，1，2，...，31；k＝0，1，2，...，63.(9)

其中i是时间指数，采样率为28800Hz时等于2.22ms每拍；且k是频率指数，从0至14400Hz的64个小子带时等于225Hz每拍。或者，时间指数和采样率可使用其他值。

与编码器类似，Start_HB是高频带的起点，定义低频带和高频带之间的边界。(9)中从k＝0至k＝Start_HB-1的低频带系数通过直接解码低频带比特流或者将已解码低频带信号变换成频域来获取。如果使用SBR技术，则(9)中从k＝Start_HB至k＝63的高频带系数先通过将(9)中的一些低频带系数复制到高频带位置来获取，然后通过应用从边信息解码的接收频谱包络来进行后处理、变平滑(变平坦)和/或形成。在一些实施例中，在应用接收频谱包络之前使高频带系数变平滑或变平坦。或者，也可在应用接收频谱包络之后完成。

与编码器类似，解码器上一个超级帧的时频能量阵列可表示为，

TF_energy_dec[i][k]＝(Sr_dec[i][k])²+(Si_dec[i][k])²，

i＝0，1，2，...，31；k＝0，1，...，63.(10)

如果在应用接收频谱包络之前使高频带系数变平滑或平坦，则(10)中从k＝Start_HB至k＝63的能量阵列表示应用接收频谱包络之前的高频带系数的能量分布。为简洁起见，(10)中的能量表示在线性域中，但也可使用公知的等式Energy_dB＝10log(Energy)表示在dB域中，从而将线性域中的Energy变换成dB域中的Energy_dB。一个超级帧的平均频率方向能量分布可表示为，

F_energy_dec [k] = \frac{1}{32} Σ_{i = 0}^{31} TF_energy_dec [i] [k], k = 0,1, . . ., 63 . - - - (11)

高频带的平均(平均值)能量参数定义为：

Mean_HB = \frac{1}{(End_HB - Start_HB)} Σ_{k = Start_HB}^{End_HB - 1} F_energy_dec [k] - - - (12)

使高频带更平坦的以下修改增益被估算，且适用于高频带滤波器组系数，其中修改增益也称为平坦(或平滑)增益，

flat_flag是打开或关闭频谱平坦度控制的分类标志。此标志可从编码器传输到解码器，且可表示基于解码器上的可用信息的语音/音乐分类或决策；Gain(k)是平坦(或平滑)增益；Start_HB、End_HB、C0和C1是常数。在一项实施例中，示例值为Start_HB＝30、End_HB＝64、C0＝0.5和C1＝0.5。或者，可使用其他值。C0和C1满足条件C0+C1＝1。C1越大则表示所用的积极频谱修改越大，且频谱能量分布越接近平均频谱能量，从而使频谱越平坦。在各项实施例中，C0和C1的值的设置取决于比特率、采样率和高频带位置。在一些实施例中，当高频带位于较大的频率范围时，可选择较大的C1，且当高频带位于相对较小的频率范围时，可选择较小的C1。

应了解，上述实例只是使复制的高频带频谱包络变平滑或平坦的一种方式。许多其他方式也是可能的，例如使用名为多项式曲线拟合的数学数据平滑算法来估算平坦(或平滑)增益。所有的低频带和高频带滤波器组系数最终输入到输出音频/声音数字信号的滤波器组合成。

在一些实施例中，使用一种用于控制已生成高频带的频谱平坦度的后处理方法。频谱平坦度控制方法可包括若干步骤，其中包括解码低频带比特流以获得低频带信号，以及将低频带信号变换成频域以获取低频带系数{Sr_dec[i][k]，Si_dec[i][k]}，k＝0，...，Start_HB-1。这些低频带系数中的一些低频带系数被复制到高频带位置，以生成高频带系数{Sr_dec[i][k]，Si_dec[i][k]}，k＝Start_HB，...End_HB-1。通过将平坦或平滑增益{Gain(k)}乘以高频带系数来使高频带系数的能量包络变平坦或平滑。

在一项实施例中，通过分析、检验、使用和使从低频带系数复制的高频带系数或待复制到高频带位置的低频带系数的能量分布{F_energy_dec[k]}变平坦或平滑来评估平坦或平滑增益。评估平坦(或平滑)增益的一个参数是平均能量值(Mean_HB)，其通过均分高频带系数的能量或待复制的低频带系数的能量来获取。根据从编码器传输到解码器的频谱平坦度分类(flat_flag)，平坦或平滑增益可转换或可变化。分类在编码器上使用多个频谱锐度参数确定，其中每个频谱锐度参数通过划分平均能量(MeanEnergy(j))由原始高频带的子带j上的最大能量(MaxEnergy(j)定义。

在一项实施例中，分类也可基于语音/音乐决策。从接收比特流解码的接收频谱包络也可适用于进一步形成高频带系数。最后，低频带系数和高频带系数逆变换回时域，以获取时域输出语音/音频信号。

在一些实施例中，通过带宽扩展(BWE)或频谱频带复制(SBR)技术来生成高频带系数；然后，频谱平坦度控制方法适用于已生成高频带系数。

在其他实施例中，直接从低频带比特流解码低频带系数；然后，频谱平坦度控制方法适用于从一些低频带系数中复制的高频带系数。

图7所示为根据本发明的一项实施例的通信系统710。通信系统710具有音频接入装置706和708，其经由通信链路738和740连接到网络736。在一项实施例中，音频接入装置706和708是IP承载语音(VOIP)装置，且网络736是广域网(WAN)、公共电话交换网(PSTN)和/或因特网。在另一项实施例中，音频接入装置706是接收音频装置，且音频接入装置708是传输广播质量、高保真度音频数据、流音频数据和/或伴随视频编程的音频的音频传输装置。通信链路738和740是有线和/或无线宽带连接。在一项替代性实施例中，音频接入装置706和708是蜂窝电话或移动电话，链路738和740是无线移动电话信道，且网络736表示移动电话网络。音频接入装置706使用麦克风712以将例如音乐或人的语音等声音转换成模拟音频输入信号728。麦克风接口716将模拟音频输入信号728转换成用于输入编解码器720的编码器722的数字音频信号732。根据本发明的各项实施例，编码器722产生已编码音频信号TX，用于经由网络接口726传输到网络726。编解码器720内的解码器724经由网络接口726从网络736接收已编码音频信号RX，并将已编码音频信号RX转换成数字音频信号734。扬声器接口718将数字音频信号734转换成适合驱动扬声器714的音频信号730。

在本发明的各项实施例中，音频接入装置706是VOIP装置，音频接入装置706内的一些或所有部件可在手机内实施。但在一些实施例中，麦克风712和扬声器714是独立单元，且麦克风接口716、扬声器接口718、编解码器720和网络接口726在个人计算机内实施。编解码器720可在计算机或专用处理器上运行的软件中实施，或者可由例如专用集成电路(ASIC)上的专用硬件实施。麦克风接口716由模拟/数字(A/D)转换器以及位于手机内和/或计算机内的其他接口电路实施。同样，扬声器接口718由数字/模拟转换器以及位于手机内和/或计算机内的其他接口电路实施。在进一步实施例中，音频接入装置706可以所属领域已知的其他方式实施和划分。

在本发明的各项实施例中，音频接入装置706是蜂窝电话或移动电话，音频接入装置706内的元件在蜂窝手机内实施。编解码器720由手机内处理器上运行的软件或专用硬件实施。在本发明的进一步实施例中，音频接入装置可在其他装置中实施，例如对等有线和无线数字通信系统，例如内部通信和无线电手机。在例如消费者音频装置等应用中，音频接入装置可包括例如在数字麦克风系统或音乐回放装置中只有编码器722或解码器724的编解码器。在本发明的其他实施例中，可在例如接入PSTN的蜂窝基站中没有麦克风712和扬声器714的情况下使用编解码器720。

图8所示为可用于实施本发明的各方法的处理系统800。在此情况下，主要处理在处理器802中执行，所述处理器可为微处理器、数字信号处理器或任何其他合适的处理装置。在一些实施例中，可使用多个处理器来实施处理器802。程序代码(例如，实施上述算法的代码)和数据可存储在存储器804中。存储器8404可为本地存储器，例如DRAM或大容量存储器，例如硬盘驱动器、光盘驱动器或其他存储器(其可为本地或远程存储器)。虽然使用单个块来说明存储器的功能，但应了解，可使用一个或多个硬件块来实施该功能。

在一项实施例中，处理器802可用于实施图1a至图1b和图2a至图2b所示各种单元中的若干(或所有)单元。例如，处理器可在不同时间用作特定功能单元，以实施执行本发明的技术所涉及的子任务。或者，可使用不同硬件块(例如，与处理器相同或不同)来执行不同功能。在其他实施例中，一些子任务由处理器802执行，而另一些子任务则使用独立电路来执行。

图8还图示了I/O端口806，其可用于从处理器提供音频和/或比特流数据，且提供音频和/或比特流数据到处理器。虚线中图示的音频源408(目的地未明确图示)表示它不是系统的必需部分。例如，所述源可通过例如因特网等网络或通过本地接口(例如USB或LAN接口)链接到系统。

各项实施例的优势包括以低成本提高低比特率情况下的主观接收声音质量。

尽管详细描述了各项实施例及其优势，但应了解，在不脱离由所附权利要求书界定的本发明的精神和范围的情况下，可对本文做各种更改、替代和变化。此外，本申请案的范围不应限于说明书所述的过程、机器、制造、物质成分、构件、方法和步骤的特定实施例。所属领域的一般技术人员将从本发明的揭示内容中容易了解到，可根据本发明利用目前存在或以后将开发的、执行与本文所述对应实施例大致相同的功能或实现与本文所述对应实施例大致相同的效果的过程、机器、制造、物质成分、构件、方法或步骤。因此，所附权利要求书应在其范围内包括此类过程、机器、制造、物质成分、构件、方法或步骤。

Claims

1.一种在解码器上对已编码音频比特流进行解码的方法，所述方法包括：

接收所述音频比特流，所述音频比特流包括低频带比特流；

解码所述低频带比特流，得到频域中的低频带系数；

将多个所述低频带系数复制到高频带位置，以生成高频带系数；

估计修改增益，估计包括，分析和修改从所述低频带系数复制的所述高频带系数，或者分析和修改待复制到所述高频带位置的所述低频带系数的能量分布；

处理所述高频带系数，以形成处理后的高频带系数，处理包括：

修改所述高频带系数的能量包络，修改包括乘于修改增益以使所述高频带系数变平坦或平滑，以及

将接收的频谱包络用于所述高频带系数，所述接收的频谱包络从所述接收音频比特流解码得到；以及

将所述低频带系数和所述处理后的高频带系数逆变换成时域，以获取时域输出信号。

2.根据权利要求1所述的方法，其中：

所述接收比特流包括高频带边比特流；且

所述方法进一步包括，解码所述高频带边比特流以获得边信息，以及使用频谱频带复制SBR技术和所述边信息来生成所述高频带。

3.根据权利要求1所述的方法，其中估计所述修改增益包括，使用均分所述高频带系数的能量得到的平均能量值进行估计。

4.根据权利要求1所述的方法，其中估计所述修改增益包括通过以下等式进行估计：

Gain (k) = (C 0 + C 1 \cdot \sqrt{Mean_HB / F_energy_dec [k]}),

k＝Start_HB,....,End_HB-1，

其中{Gain(k),k＝Start_HB,…,End_HB-1}是修改增益，F_energy_dec[k]是复制高频带的每个频率位置指数k上的能量分布，Start_HB和End_HB定义高频带范围，满足C0+C1＝1的C0和C1是预先确定的常数，且Mean_HB是通过均分所述高频带系数的能量而获取的平均能量值。

5.根据权利要求1所述的方法，其中根据所述解码器从编码器接收的频谱平坦度分类，所述修改增益可转换或可变化。

6.根据权利要求5所述的方法，其进一步包括，根据多个频谱锐度参数确定所述分类，所述多个频谱锐度参数中的每个参数由平均能量除于原始高频带的一个子带上的最大能量定义。

7.根据权利要求5所述的方法，其中所述分类基于语音/音乐决策。

8.根据权利要求1所述的方法，其中解码所述低频带比特流包括：

解码所述低频带比特流以获得低频带信号；以及

将所述低频带信号变换成所述频域以获取所述低频带系数。

9.根据权利要求1所述的方法，其中修改所述能量包络包括使所述能量包络变平坦或平滑。

10.一种在解码器上生成已解码语音/音频信号且提高已生成高频带的频谱平坦度的后处理方法，所述方法包括：

使用带宽扩展BWE高频带系数生成方法，通过频域中的低频带系数生成高频带系数；

估计平坦或平滑增益，估计包括，分析、检验、使用和平坦或平滑所述高频带系数或待复制到高频带位置的所述低频带系数；

通过将平坦或平滑增益乘以所述高频带系数来使所述高频带系数的能量包络变平坦或平滑；

通过使用BWE形成和确定方法来形成和确定所述高频带系数的能量；以及

将所述低频带系数和所述高频带系数逆变换成时域，以获取时域输出语音/音频信号。

11.根据权利要求10所述的方法，其中估计所述平坦或平滑增益包括，使用通过均分所述高频带系数的能量而获取的平均能量值。

12.根据权利要求10所述的方法，其中根据从编码器传输到所述解码器的频谱平坦度分类，所述平坦或平滑增益可转换或可变化。

13.根据权利要求12所述的方法，其中所述分类基于语音/音乐决策。

14.根据权利要求10所述的方法，其中：

所述BWE高频带系数生成方法包括频谱频带复制SBR高频带系数生成方法；且

所述BWE形成和确定方法包括SBR形成和确定方法。

15.一种用于接收已编码音频信号的系统，所述系统包括：

低频带模块，其用于在所述低频带模块的输出端上将所述已编码音频信号的低频带部分变换成频域低频带系数；

高频带模块，其与所述低频带模块的所述输出端连接，所述高频带模块用于通过将多个所述低频带系数复制到高频带位置来在所述高频带模块的输出端上生成高频带系数；

包络形成模块，连接到所述低频带模块，用于通过分析、检验、使用和修改所述高频带系数或待复制到高频带位置的所述低频带系数来评估修改增益；所述包络形成模块进一步与所述高频带模块的所述输出端连接，所述包络形成模块用于在所述包络形成模块的输出端上产生已形成的高频带系数，其中所述包络形成模块用于

通过将修改增益相乘以使所述高频带系数变平坦或平滑来修改所述高频带系数的能量包络，以及

将接收频谱包络用于所述高频带系数，所述接收频谱包络从所述已编码音频信号解码；以及

逆变换模块，其连接到包络形成模块的所述输出端以及所述低频带模块的所述输出端，所述逆变换模块用于产生时域音频输出信号。

16.根据权利要求15所述的系统，其进一步包括高频带边比特流解码器模块，其用于从所述已编码音频信号的高频带边比特流产生所述接收频谱包络。

17.根据权利要求15所述的系统，其中所述低频带模块包括：

低频带解码器模块，其用于在所述低频带解码器模块的输出端上将所述已编码音频信号的低频带比特流变换成已解码低频带信号；以及

时间/频率滤波器组分析器，其连接到所述低频带解码器模块的所述输出端，所述时间/频率滤波器组分析器用于从所述已解码低频带信号产生所述频域低频带系数。

18.根据权利要求15所述的系统，其中所述包络形成模块使用通过均分所述高频带系数的能量而获取的平均能量值来评估所述修改增益。

19.根据权利要求15所述的系统，其中所述输出音频信号用于连接到扬声器。