CN105431898A

CN105431898A - 具有带有能量调整模块的频宽扩展模块的音频解码器

Info

Publication number: CN105431898A
Application number: CN201480035519.1A
Authority: CN
Inventors: 杰雷米·勒孔特; 法比安·鲍尔; 拉尔夫·斯皮尔施内德; 亚瑟·特瑞萨特
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2013-06-21
Filing date: 2014-06-18
Publication date: 2016-03-23
Anticipated expiration: 2034-06-18
Also published as: CA2915001A1; RU2016101607A; JP2016530548A; MX2015017846A; CA2915001C; EP3011560B1; AU2014283285A1; KR20170124590A; CN105431898B; KR101991421B1; TW201513097A; WO2014202701A1; PL3011560T3; SG11201510458UA; JP6228298B2; TWI564883B; ES2697474T3; US10096322B2; US20160180854A1; KR20160024920A

Abstract

提供一种用于从包含音频帧的比特流产生音频信号的音频解码器，该音频解码器包括：核心频带解码模块，用于从比特流得到直接解码的核心频带音频信号；频宽扩展模块，用于从核心频带音频信号以及从比特流得到参数式解码的频宽扩展音频信号，其中频宽扩展音频信号基于具有至少一个频带的频域信号；以及组合器，用于组合核心频带音频信号与频宽扩展音频信号以产生音频信号；其中频宽扩展模块包括能量调整模块，以此种方式配置能量调整模块：在发生音频帧丢失的当前音频帧中，基于用于当前音频帧的当前增益因子以及基于用于至少一个频带的估计的信号能量，设定用于至少一个频带的当前音频帧的调整的信号能量，其中从来自在先音频帧或来自比特流的增益因子得到当前增益因子，从核心频带音频信号的当前音频帧的频谱得到估计的信号能量。

Description

具有带有能量调整模块的频宽扩展模块的音频解码器

背景技术

类似于其他频宽扩展技术的谱带复制(SpectralBandReplication，SBR)意在核心编码器级之上对音频信号的频谱高频带部分进行编码和解码。SBR在[ISO09]中标准化，并与MPEG-4档次HE-AAC中的AAC联合使用，AAC用于各种应用标准中，如3GPP[3GP12a]、DAB+[EBU10]和DRM[EBU12]。

在[ISO09,4.6.18节]中描述了结合AAC解码的现有技术水平的SBR。

图1说明包括分析和合成滤波器组、SBR数据解码、HF生成器以及HF调整器的现有技术水平的SBR解码器：

·在现有技术水平的SBR解码中，核心编码器的输出为原始信号的低通滤波表示。其为SBR解码器的QMF分析滤波器组的输入X_{pcm_in}。

·此滤波器组的输出X_{QMF_ana}被传递至HF生成器，在该HF生成器处发生修补。修补基本上是低频带频谱向上至高频带的复制。

·现在，将修补的频谱X_{HF_patched}与从SBR数据解码中获得的高频带(包络)的频谱信息一起提供至HF调整器。对包络信息进行哈夫曼(Huffman)解码，然后进行差分解码且最终进行解量化以获得包络数据(参见图2)。获得的包络数据为覆盖特定时间量(如，全帧或其部分)的比例因子的集合。HF调整器适当地调整修补的高频带的能量以在编码器侧针对每个频带k尽可能好地与原始高频带能量相匹配。方程式1和图2阐明此：

g_sbr[k]＝E_Ref[k]/E_EstAvg[l]

E_Adj[k]＝E_Est[k]×g_sbr[k](1)

其中

E_Ref[k]表示在SBR比特流中以编码的形式传输的针对一个频带k的能量；

E_Est[k]表示由HF生成器修补的来自一个高频带k的能量；

E_EstAvg[l]表示被定义为开始频带和停止频带之间的频带范围的一个比例因子频带l内部的平均高频带能量：

E_{E s t A v g} [1] = \frac{1}{N_{1}} Σ_{k = k_{s t a r t}^{l}}^{k_{s t o p}^{l}} E_{E s t} (k) - - - (2)

表示由HF调整器使用增益sbr调整的来自一个高频带k的能量；

表示从方程式(1)中所示出的除法产生的一个增益因子。

·合成QMF滤波器组将处理的QMF样本解码为PCM音频

如果重建的频谱缺少噪声(该噪声存在于原始高频带中而未由HF生成器修补)，则存在针对每个频带k添加具有特定噪声底限Q的某个额外噪声的可能性。

Q [k] = \frac{{Energy}_{A d d i t i o n a l_N o i s e} [k]}{{Energy}_{H F_G e n e r a t e d} [k]} - - - (3)

此外，现有技术水平的SBR允许在每个帧的特定限制和多个包络内移动SBR帧边界。

在[EBU12，5.6.2.2节]中描述了结合CELP/HVXC的SBR解码。DRM中的CELP/HVXC+SBR解码器与1.1.1节中所描述的HEAAC中的现有技术水平的SBR解码紧密相关。基本上，图1适用。

包络信息的解码适于类语音信号的频谱特性，如[EBU12，5.6.2.2.4节]中所描述。

在规则的AMR-WB解码中，通过生成白噪声u_HB1(n)获得高频带激励。设定高频带激励的功率等于低频带激励u₂(n)的功率，

意味着

u_{H B 2} (n) = u_{H B 1} (n) \sqrt{\frac{Σ_{i = 0}^{63} u_{2}^{2} (k)}{Σ_{i = 0}^{63} u_{H B 1}^{2} (k)}} - - - (4)

最后由下式发现高频带激励

u_{H B} (n) = {\hat{g}}_{H B} \cdot u_{H B 2} (n) - - - (5)

其中为增益因子。

在23.85kbit/s的模式中，从接收的增益索引(旁侧信息)中解码

在6.60、8.85、12.65、14.25、15.85、18.25、19.85和23.05kbit/s的模式中，使用边界为[0.1,1.0]的声音信息估计g_HB。首先，发现合成的倾斜e_tilt

其中为高通滤波低频带语音合成截止频率为400Hz。然后发现g_HB

g_HB＝ω_SP·g_SP+(1-ω_SP)·g_BG(7)

其中g_SP＝1-e_tilt为用于语音信号的增益，g_BG＝1.25g_SP为用于背景噪声信号的增益，w_SP为加权函数，其在声音活动检测(VAD)为ON时被设定为1，在VAD为OFF时被设定为0。g_HB边界在[0.1,1.0]之间。在较少能量存在于高频处的有声区段的情况下，e_tilt近似1，致使较低增益g_HB。此减少了在有声区段的情况下所生成的噪声的能量。

然后，从加权的低频带LP合成滤波器得到高频带LP合成滤波器A_HB(Z)

A_{HB} (z) = \hat{A} (\frac{z}{0.8}) - - - (8)

其中为内插LP合成滤波器。已经通过以12.8KHz的取样速率(但现在其用于16KHz信号)分析信号而计算这意味着12.8KHz域中的频带5.1-5.6KHz将被映射至16KHz域中的6.4-7.0KHz。

然后通过A_HB(z)对u_HB(n)进行滤波。通过带通FIR滤波器H_HB(z)对此高频带合成的输出s_HB(n)进行滤波，该带通FIR滤波器H_HB(z)具有从6至7KHz的通带。最终，s_HB被添加至合成的语音以产生合成的输出语音信号。

在AMR-WB+中，HF信号由输入信号的(fs/4)以上的频率分量构成。为了以低速率表示HF信号，应用频宽扩展(BWE)方法。在BWE中，以频谱包络和帧能量的形式将能量信息发送至解码器，但在解码器处从LF信号中所接收(解码)的激励信号对信号的精细结构外插。

可将减少取样的信号的频谱s_HF视作在减少取样之前的高频带的折叠版本(foldedversion)。对s_HF(n)执行LP分析以获得系数集合，该系数集合对此信号的频谱包络进行模型化。通常，需要比在LF信号中较少的参数。此处，使用8阶滤波器。然后将LP系数变换至ISP表示并对其量化以进行传输。

HF信号的合成实施一种频宽扩展(BWE)机制，并使用来自LF解码器的某些数据。它是在AMR-WB语音解码器(参见上文)中使用的BWE机制的演进。图3中详细地描述HF解码器。

在以下两个步骤中合成HF信号：

1.HF激励的计算；

2.来自HF激励的HF信号的计算。

通过基于64样本子帧利用比例因子(或增益)在时域中成形LF激励信号而获得HF激励。对此HF激励进行后处理以减少输出的“嗡嗡声(buzziness)”，然后通过HF线性预测性合成滤波器1/A_HF(z)进行滤波。进一步对结果进行后处理以平滑能量变化。对进一步的信息，请参考[3GP09]。

结合AAC的SBR中的封包丢失隐藏在3GPPTS26.402[3GP12a,5.2节]中被指定，并随后在DRM[EBU12,5.6.3.1节]和DAB[EBU10,A2节]中被重新使用。

在帧丢失的情况下，设定每个帧的包络的数目为1，并重新使用最后有效接收的包络数据，并针对每个隐藏帧以恒定的比降低其能量。

然后将得到的包络数据提供至正常解码过程，在该过程中HF调整器使用这些包络数据以计算增益，该增益用于调整出自HF生成器的修补的高频带。剩余的SBR解码照常发生。

此外，编码的噪声底限差量值被设定为0，其使得差量解码的噪声底限保持稳定。在解码过程的末尾，这意味着噪声底限的能量跟随HF信号的能量。

此外，将用于添加正弦的旗标清零。

现有技术水平的SBR隐藏还处理恢复。其预期在可由失配的帧边界引起的能量间隙方面从隐藏的信号平滑过渡至正确解码的信号。

[EBU12,5.6.3.2节]中描述了结合CELP/HVXC的现有技术水平的SBR隐藏，并在下文中间要概述：

每当检测到损毁的帧时，将数据值的预定集合应用至SBR解码器。此产生“在低的相对重放水平处的静态高频带频谱包络，呈现朝向较高频率的滚降”[EBU12,5.6.3.2节]。此处，SBR隐藏插入某种舒缓噪声，其在SBR域中没有专用衰落。此防止听者的耳朵受到潜在的大声音突发的影响并保持恒定频宽的印象。

在[ITU08,7.11.1.7.1]中描述了现有技术水平的G.718的BWE的隐藏，并简要概述如下：

在低延迟模式中，其仅仅在层1和2中可用，正好以与未发生帧擦除时的相同方式执行高频带6000-7000Hz的隐藏。对于层1、2和3，干净频道解码器操作如下：应用盲频道扩展。在6400-7000Hz的范围中的频谱填满在激励域(高频带的能量必须与低频带能量相匹配)中适当地按比例调整的白噪声信号。然后，与通过自和在12.8kHz域中使用的相同的LP合成滤波器的加权得到的滤波器合成。对于层4和5，不执行频宽扩展，因为这些层覆盖高达8kHz的全频带。

在默认操作中，执行低复杂性处理以在16kHz采样频率处重建合成的信号的高频带。首先，按比例调整的高频带激励u″_HB(n)在整个帧中线性地衰减如：

u_{H B}^{'''} (n) = u_{H B}^{'''} (n) \cdot g_{a t t} (n), n = | 0, ..., 319 - - - (9)

其中帧长度为320个样本，g_att(n)为衰减因子，由下式给定

g_{a t t} (n) = 1.0 - n \frac{1.0 - {\overset{&OverBar;}{g}}_{p}}{320}, n = 0, ..., 319 - - - (10)

在以上方程式中，为平均音高增益(pitchgain)，其是与在自适应码本的隐藏期间使用的相同增益。然后，使用如在方程式10中得到的g_att(n)对频率范围6000-7000Hz中的带通滤波器的存储器进行衰减，以防止任何不连续性。最终，通过合成滤波器对高频激励信号u″′(n)进行滤波。然后，将合成的信号添加至在16kHz取样频率处的隐藏的合成。

在[3GP12b,6.2.4]中概述了现有技术水平的AMR-WB中的盲频宽扩展的隐藏，并在此简要总结：

当帧丢失或部分丢失时，未接收到高频带增益参数且替代使用用于高频带增益的估计。这意味着在不良/丢失语音帧的情况下，针对所有不同模式，以相同的方式操作高频带重建。

在帧丢失的情况下，如往常一样从来自核心频带的LPC系数得到高频带LP合成滤波器。唯一的例外是，LPC系数尚未从比特流中解码，但使用规则的AMR-WB隐藏方法外插LPC系数。

在[3GP09,6.2]中概述了现有技术水平的AMR-WB+中的频宽扩展的隐藏，并在此简要总结：

在封包丢失的情况下，从不良帧指示符向量BFI＝(bfi0，bfi1，bfi2，bfi3)生成HF解码器内部的控制数据。这些数据为BFI_GAIN以及用于ISF内插的子帧的数目。在下文中更详细地定义这些数据的性质：

为指示ISF参数的丢失的二进制旗标。由于用于HF信号的ISF参数总是在HF20、40或80中任一个的第一封包(包含第一子帧)中传输，丢失旗标总是被设定为第一子帧的bfi指示符(bfi0)。对于丢失HF增益的指示同样成立。如果当前模式的第一封包/子帧(HF20、40或80)丢失，则增益丢失并需要被隐藏。

HFISF向量的隐藏非常类似于用于核心ISF的ISF隐藏。主要思想是，重新使用最后良好的ISF向量，但朝向平均ISF向量(其中离线训练该平均ISF向量)将其移位：

isf_q[i]＝0.9·isf_q[i]+0.1·mean_isf_hf[i](11)

根据以下源代码估计BWE增益(在代码中：2.807458位解码器常量)。

为了得到“与在fs/4处的幅度相匹配的增益”，执行与在干净频道解码中相同的算法，但不同在于，用于HF和/或LF部分的ISF可能已被隐藏。所有以下步骤如linear！dB内插、求和以及增益的应用均与在干净频道的情况下相同。

为得到激励，应用与正确接收的帧中相同的过程，其中在下述步骤之后使用较低频带激励：

·被随机化

·在时域中利用子帧增益而被放大

·在频域中利用LP滤波器而被成形

·随时间平滑能量

然后，根据图3执行合成。

AES会议论文6789：Schneider、Krauss和Ehret[SKE06]描述重新使用最后有效SBR包络数据的隐藏技术。如果一个以上的SBR帧丢失，应用衰落。“基本原理在于仅仅锁定最后已知有效的SBR包络值直至可利用新传输的数据继续SBR处理为止。此外，如果一个以上的SBR帧不可解码，则执行衰落”。

AES会议论文6962：Sang-UkRyu和KennethRose[RR06]描述利用来自在先帧和下一个帧的SBR数据来估计参数信息的隐藏技术。从周围帧中的能量演变自适应地估计高频带包络。

封包丢失隐藏概念可在封包丢失期间产生感观上降级的音频信号。

发明内容

本发明的目的在于提供一种音频解码器和一种具有改良的封包丢失隐藏概念的方法。

通过用于从包含音频帧的比特流产生音频信号的音频解码器可实现此目的，该音频解码器包括：

核心频带解码模块，用于从比特流得到直接解码的核心频带音频信号；

频宽扩展模块，用于从核心频带音频信号以及从比特流得到参数式解码的频宽扩展音频信号，其中频宽扩展音频信号基于具有至少一个频带的频域信号；以及

组合器，用于组合核心频带音频信号与频宽扩展音频信号以产生音频信号；

其中频宽扩展模块包括能量调整模块，以此种方式配置能量调整模块：在发生音频帧丢失的当前音频帧中，基于用于当前音频帧的当前增益因子以及基于用于至少一个频带的估计的信号能量，设定用于至少一个频带的当前音频帧的调整的信号能量，其中从来自在先音频帧或来自比特流的增益因子得到当前增益因子，从核心频带音频信号的当前音频帧的频谱得到估计的信号能量。

根据本发明的音频解码器在能量方面将频宽扩展模块链接至核心频带解码模块，或换言之，确保频宽扩展模块在隐藏期间以能量节约的方式跟随核心频带解码模块，而不管核心频带解码模块做什么。

此方法的创新在于，在隐藏的情况下，高频带生成不再严格地适于包络能量。利用增益锁定的技术，在隐藏期间高频带能量适于低频带能量，且因此不再仅依赖于在最后良好的帧中传输的数据。此进程采用使用低频带信息用于高频带重建的想法。

利用此方法，不需要将额外数据(如，衰落因子)从核心编码器发送至频宽扩展编码器。这使得该技术可简单地应用至具有频宽扩展的任何编码器(尤其是SBR)，在该编码器处已经固有地执行增益计算(方程式1)。

本发明音频解码器的隐藏考虑核心频带解码模块的衰落斜率。这整体地导致衰落的预期行为：

避免了以下情形：其中核心频带解码模块的频带的能量相比于频宽扩展模块的频带的能量衰落地较慢，其将变成可感知的且造成频带有限信号的不可爱的印象。

此外，还避免了以下情形：其中核心频带解码模块的频带的能量相比于频宽扩展模块的频带的能量衰落地较快，其将由于频宽扩展模块的频带相对于核心频带解码模块的频带被过于放大而引入伪讯(artifact)。

与具有带有预定义能量水平的频宽扩展的非衰落解码器(例如，CELP/HVXC+SBR解码器)(其仅保留特定信号类型的频谱倾斜)相比，本发明音频解码器与信号的频谱特征相独立地工作，以便避免音频信号的感观上解码的降级。

所提出的技术可供除核心频带解码模块(下文中核心编码器)之外的任何频宽扩展(BWE)方法使用。大多数频宽扩展技术基于原始能量水平与在复制核心频谱之后获得的能量水平之间的每频带增益。所提出的技术并不像现有技术水平一样对在先音频帧的能量起作用，而对在先音频帧的增益起作用。

当音频帧丢失或不可读(或换言之，如果发生音频帧丢失)时，来自最后良好帧的增益被提供至核心频带解码模块的正常解码过程，其调整频宽扩展模块的频带的能量(参见方程式1)。这形成隐藏。通过核心频带解码模块隐藏而应用在核心频带解码模块上的任何衰落，将通过锁定低频带与高频带之间的能量比率而自动地应用至频宽扩展模块的频带的能量。

具有至少一个频带的频域信号可以(例如)是代数码激励线性预测激励信号(ACELP激励信号)。

在一些实施例中，频宽扩展模块包括：增益因子提供模块，用于将至少在发生音频帧丢失的当前音频帧中的当前增益因子转发至能量调整模块。

在优选的实施例中，增益因子提供模块以此种方式配置：在发生音频帧丢失的当前音频帧中，当前增益因子为在先音频帧的增益因子。此实施例通过锁定针对最后良好帧中的最后包络而得到的增益，完全地停止频宽扩展解码模块中包含的衰落：

g_{b w e}^{[n]} [k] = g_{b w e}^{[n - 1]} [k]

E_Adj[k]＝E_Est[k]*g_bwe[k](12)

其中E_Adj[k]表示来自频宽扩展模块的一个频带k的能量，可被调整以尽可能好地表达原始的能量分布；表示当前帧的增益因子；以及表示在先帧的增益因子。

在其他优选实施例中，增益因子提供模块以此种方式配置：在发生帧丢失的当前音频帧中，从在先音频帧的增益因子和从在先音频帧的信号类别计算当前增益因子。

此实施例使用信号分类器以基于过去的增益以及还自适应地基于先前接收的帧的信号类别来计算增益：

g_{b w e}^{[n]} [k] = f (g_{b w e}^{[n - 1]} [k], c_{s i g}^{[n | - 1]})

E_Adj[k]＝E_Est[k]*g_bwe[k](13)

其中表示取决于在先音频帧的增益因子和在先音频帧的信号类别的函数。信号类别可以指语音声的类别，如：阻塞音(具有子类别：塞音、塞擦音、擦音)、响音(此子类别：鼻音、闪音、近音、元音)、边音、颤音。

在优选的实施例中，增益因子提供模块用于计算发生音频帧丢失的随后音频帧的数目，且用于在发生音频帧丢失的随后音频帧的数目超出预定义数目的情况下，执行增益因子降低过程。

如果擦音直接发生在突发帧丢失(随后音频帧中的多个帧丢失)之前，则核心频带解码模块的固有默认衰落可能太慢而不能结合增益锁定以确保令人愉快且自然的声音。此问题的感知结果可以是在频宽扩展模块的频带中具有太多能量的延长的擦音。为此，对多个帧丢失执行检查。如果此检查为肯定的，则执行增益因子降低过程。

在优选的实施例中，增益因子降低过程包括：在当前增益因子超出第一阈值的情况下，通过将当前增益因子除以第一数字而降低当前增益因子的步骤。通过这些特征，超出第一阈值(可根据经验确定)的增益被降低。

在优选的实施例中，增益因子降低过程包括：在当前增益因子超出大于第一阈值的第二阈值的情况下，通过将当前增益因子除以大于第一数字的第二数字而降低当前增益因子的步骤。这些特征保证极高的增益降低地甚至更快。所有超出第二阈值的增益将降低地更快。

在一些实施例中，增益因子降低过程包括：在降低后的当前阈值低于第一阈值的情况下，将当前增益因子设定为第一阈值的步骤。通过这些特征，防止降低的增益降至第一阈值之下。

在伪代码1内可看见示例：

其中previousFrameErrorFlag为旗标，指示是否存在多个帧丢失，BWE_GAINDEC表示第一阈值，50*BWE_GAINDEC表示第二阈值，以及gain[k]表示用于频带k的当前增益因子。

在一些实施例中，频宽扩展模块包括：噪声生成器模块，用于将噪声添加至至少一个频带，其中在发生音频帧丢失的当前音频帧中，使用信号能量对在先音频帧的至少一个频带的噪声能量的比率来计算当前音频帧的噪声能量。

在存在实施于频宽扩展的噪声底限特征(即，用于保留原始信号的噪度的额外噪声分量)的情况下，有必要采用也朝向噪声底限的增益锁定的想法。为实现此，考虑频宽扩展模块的频带的能量，将非隐藏帧的噪声底限能量水平转换为噪声比率。该比率被保存至缓冲器且将作为用于隐藏情况下的噪声水平的基数。主要优点在于，归因于比率prev_noise[k]的计算，较佳地将噪声底限耦合至核心编码器能量。

伪代码2示出此：

其中frameErrorFlag为指示是否存在帧丢失的旗标，以及prev_noise[k]为频带k的能量nrgHighband[k]与频带k的噪声水平noiseLevel[k]之间的比率。

在优选的实施例中，音频解码器包括：频谱分析模块，用于建立核心频带音频信号的当前音频帧的频谱，并从核心频带音频信号的当前音频帧的频谱得到用于至少一个频带的当前帧的估计的信号能量。

在一些实施例中，增益因子提供模块以此种方式配置：在未发生音频帧丢失的当前音频帧随后地紧跟着发生音频帧丢失的在先音频帧的情况下，如果频宽扩展模块的音频帧相对于核心频带解码模块的音频帧之间的延迟小于延迟阈值，则针对当前音频帧接收的增益因子用于当前帧；而如果频宽扩展模块的音频帧相对于核心频带解码模块的音频帧之间的延迟大于延迟阈值，则来自在先音频帧的增益因子用于当前帧。

除了隐藏之外，在频宽扩展模块中，需要特别关注成帧。频宽扩展模块的音频帧和核心频带解码模块的音频帧常常未能准确地对准，而具有特定延迟。因此，可能发生以下情形：一个丢失封包包含有相对于同一封包中包含的核心信号延迟的频宽扩展数据。

此情况下的结果为，丢失之后的第一良好封包可包含扩展数据以创建在先核心频带解码模块音频帧的频宽扩展模块的频带的部分，该部分已在解码器中隐藏。

为此，在恢复期间需要取决于核心和解码模块以及频宽扩展模块的各个属性考虑成帧。这可以意味着，将频宽扩展模块中的第一音频帧或其部分视为错误的，且对于一个额外帧不立刻应用最新增益而是保持来自第一音频帧的锁定增益。

是否保持用于第一良好帧的锁定增益取决于延迟。对于具有不同延迟的编解码器的实验应用示出针对具有不同延迟的编解码器的不同益处。对于具有相当小延迟(如，1ms)的编解码器，较佳使用用于第一良好音频帧的最新增益。

在优选的实施例中，频宽扩展模块包括：信号生成器模块，用于基于核心频带音频信号和比特流创建具有至少一个频带的未经加工的频域信号，该信号被转发至能量调整模块。

在优选的实施例中，频宽扩展模块包括：信号合成模块，用于从频域信号产生频宽扩展音频信号。

可以通过用于从包含音频帧的比特流产生音频信号的方法实现本发明的目的。该方法包括步骤：

从比特流得到直接解码的核心频带音频信号；

从核心频带音频信号以及从比特流得到参数式解码的频宽扩展音频信号，其中频宽扩展音频信号基于具有至少一个频带的频域信号；以及

组合核心频带音频信号和频宽扩展音频信号以产生音频信号；

其中在发生音频帧丢失的当前音频帧中，基于用于当前音频帧的当前增益因子以及基于用于至少一个频带的估计的信号能量，设定用于至少一个频带的当前音频帧的调整的信号能量，其中从来自在先音频帧或来自比特流的增益因子得到当前增益因子，从核心频带音频信号的当前音频帧的频谱得到估计的信号能量。

可通过计算机程序进一步实现本发明的目的，该计算机程序，当其在计算机或处理器上运行时，用于执行上述的方法。

附图说明

随后，关于附图论述本发明的优选实施例，其中：

图4在示意图中说明根据本发明的音频解码器的实施例；以及

图5说明根据本发明的音频解码器的实施例的成帧。

具体实施方式

图4在示意图中说明根据本发明的音频解码器1的实施例。音频解码器1用于从包含音频帧AF的比特流BS产生音频信号AS。音频解码器1包括：

核心频带解码模块，用于从比特流BS得到直接解码的核心频带音频信号CBS；

频宽扩展模块2，用于从核心频带音频信号CBS以及从比特流BS得到参数式解码的频宽扩展音频信号BES，其中频宽扩展音频信号BES基于具有至少一个频带FB的频域信号FDS；以及

组合器4，用于组合核心频带音频信号CBS与频宽扩展音频信号BES以产生音频信号AS；

其中频宽扩展模块3包括能量调整模块5，以此种方式配置能量调整模块5：在发生音频帧丢失AFL的当前音频帧AF2中，基于用于当前音频帧AF2的当前增益因子CGF以及基于用于至少一个频带FB的估计的信号能量EE，设定用于至少一个频带FB的当前音频帧AF2的调整的信号能量，其中从来自在先音频帧AF1或来自比特流BS的增益因子得到当前增益因子CGF，从核心频带音频信号CBS的当前音频帧AF2的频谱得到估计的信号能量EE。

根据本发明的音频解码器1在能量方面将频宽扩展模块3链接至核心频带解码模块，或换言之，确保频宽扩展模块3在隐藏期间以能量节约的方式跟随核心频带解码模块2，而不管核心频带解码模块2做什么。

此方法的创新在于，在隐藏的情况下，高频带生成不再严格地适于包络能量。利用增益锁定的技术，在隐藏期间高频带能量适于低频带能量，且因此不再仅依赖于在最后良好的帧AF1中传输的数据。此进程采用使用低频带信息用于高频带重建的想法。

利用此方法，不需要将额外数据(如，衰落因子)从核心编码器2发送至频宽扩展编码器3。这使得该技术可简单地应用至具有频宽扩展3的任何编码器1(尤其是SBR)，在该编码器处已经固有地执行增益计算(方程式1)。

本发明音频解码器1的隐藏考虑核心频带解码模块2的衰落斜率。这整体地导致衰落的预期行为：

避免了以下情形：其中核心频带解码模块2的频带FB的能量相比于频宽扩展模块3的频带FB的能量衰落地较慢，其将变成可感知的且造成频带有限信号的不可爱的印象。

此外，还避免了以下情形：其中核心频带解码模块2的频带FB的能量相比于频宽扩展模块3的频带FB的能量衰落地较快，其将由于频宽扩展模块3的频带FB相对于核心频带解码模块2的频带FB被过于放大而引入伪讯。

与具有带有预定义能量水平的频宽扩展的非衰落解码器(例如，CELP/HVXC+SBR解码器)(其仅保留特定信号类型的频谱倾斜)相比，本发明音频解码器1与信号的频谱特征相独立地工作，以便避免音频信号AS的感观上解码的降级。

所提出的技术可供除核心频带解码模块2(下文中核心编码器)之外的任何频宽扩展(BWE)方法使用。大多数频宽扩展技术基于原始的能量水平与在复制核心频谱之后获得的能量水平之间的每频带增益。所提出的技术并不像现有技术水平一样对在先音频帧的能量起作用，而对在先音频帧AF1的增益起作用。

当音频帧AF2丢失或不可读(或换言之，如果发生音频帧丢失AFL)时，来自最后良好的帧的增益被提供至核心频带解码模块2的正常解码过程，其调整频宽扩展模块3的频带FB的能量(参见方程式1)。这形成隐藏。通过核心频带解码模块隐藏而应用在核心频带解码模块2上的任何衰落，将通过锁定低频带与高频带之间的能量比率而自动地应用至频宽扩展模块3的频带FB的能量。

在一些实施例中，频宽扩展模块3包括：增益因子提供模块6，用于将至少在发生音频帧丢失AFL的当前音频帧AF2中的当前增益因子CGF转发至能量调整模块5。

在优选的实施例中，增益因子提供模块6以此种方式配置：在发生音频帧丢失AFL的当前音频帧AF2中，当前增益因子CGF为在先音频帧AF1的增益因子。

此实施例通过锁定针对最后良好的帧中的最后包络而得到的增益，完全地停止频宽扩展解码模块3中包含的衰落。

在其他优选实施例中，增益因子提供模块6以此种方式配置：在发生帧丢失AFL的当前音频帧AF2中，从在先音频帧的增益因子和从在先音频帧的信号类别计算当前增益因子CGF。

此实施例使用信号分类器以基于过去的增益以及还自适应地基于先前接收的帧AF1的信号类别来计算增益GCS。信号类别可以指语音声的类别，如：阻塞音(具有子类别：塞音、塞擦音、擦音)、响音(此子类别：鼻音、闪音、近音、元音)、边音、颤音。

在优选的实施例中，增益因子提供模块6用于计算发生音频帧丢失AFL的随后音频帧的数目，且用于在发生音频帧丢失AFL的随后音频帧的数目超出预定义数目的情况下，执行增益因子降低过程。

如果擦音直接发生在突发帧丢失(随后音频帧AF中的多个帧丢失AFL)之前，则核心频带解码模块2的固有默认衰落可能太慢而不能结合增益锁定以确保令人愉快且自然的声音。此问题的感知结果可以是在频宽扩展模块3的频带FB中具有太多能量的延长的擦音。为此，对多个帧丢失AFL执行检查。如果此检查为肯定的，则执行增益因子降低过程。

在一些实施例中，频宽扩展模块3包括：噪声生成器模块7，用于将噪声NOI添加至至少一个频带FB，其中在发生音频帧丢失AFL的当前音频帧AF2中，使用信号能量对在先音频帧AF1的至少一个频带FB的噪声能量的比率来计算当前音频帧AF2的噪声能量。

在存在实施于频宽扩展3的噪声底限特征(即，用于保留原始信号的噪度的额外噪声分量)的情况下，有必要采用也朝向噪声底限的增益锁定的想法。为实现此，考虑频宽扩展模块的频带的能量，将非隐藏帧的噪声底限能量水平转换为噪声比率。该比率被保存至缓冲器且将作为用于隐藏情况下的噪声水平的基数。主要优点在于，归因于比率的计算，较佳地将噪声底限耦合至核心编码器能量。

在优选的实施例中，音频解码器1包括：频谱分析模块8，用于建立核心频带音频信号CBS的当前音频帧AF2的频谱，并从核心频带音频信号CBS的当前音频帧AF2的频谱得到用于至少一个频带FB的当前帧AF2的估计的信号能量EE。

在优选的实施例中，频宽扩展模块3包括：信号生成器模块9，用于基于核心频带音频信号CBS和比特流BS，创建具有至少一个频带FB的未经加工的频域信号RFS，该信号被转发至能量调整模块5。

在优选的实施例中，频宽扩展模块3包括：信号合成模块10，用于从频域信号FDS产生频宽扩展音频信号BES。

图5说明根据本发明的音频解码器1的实施例的成帧。

在一些实施例中，增益因子提供模块6以此种方式配置：在未发生音频帧丢失AFL的当前音频帧AF2随后地紧跟着发生音频帧丢失AFL的在先音频帧AF1的情况下，如果频宽扩展模块3的音频帧AF相对于核心频带解码模块2的音频帧AF’之间的延迟DEL小于延迟阈值，则针对当前音频帧AF2接收的增益因子用于当前帧AF2；而如果频宽扩展模块3的音频帧AF相对于核心频带解码模块3的音频帧AF’之间的延迟DEL大于延迟阈值，则来自在先音频帧AF1的增益因子用于当前帧AF2。

除了隐藏之外，在频宽扩展模块3中，需要特别关注成帧。频宽扩展模块的音频帧AF和核心频带解码模块3的音频帧AF’常常未能准确地对准，而具有特定延迟DEL。因此，可能发生以下情形：一个丢失封包包含有相对于同一封包中包含的核心信号延迟的频宽扩展数据。

此情况下的结果为，丢失之后的第一良好封包可包含扩展数据以创建在先核心频带解码模块音频帧AF’的频宽扩展模块3的频带FB的部分，该部分已在解码器2中隐藏。

为此，在恢复期间需要取决于核心解码模块以及频宽扩展模块的各个属性考虑成帧。这可以意味着，将频宽扩展模块3中的第一音频帧或其部分视为错误的，且对于一个额外帧不立刻应用最新增益因子而是保持来自第一音频帧的锁定增益。

是否保持用于第一良好帧的锁定增益取决于延迟。对于具有不同延迟的编解码器的实验应用示出针对具有不同延迟的编解码器的不同益处。对于具有相当小延迟(如，1ms)的编解码器，较佳使用用于第一良好音频帧的最新增益因子。

尽管已在装置的上下文中描述一些方面，但显然，这些方面亦表示对应方法的描述，其中区块或器件对应于方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中所描述的方面亦表示对应装置的对应区块或项目或特征的描述。一些或所有方法步骤可通过(或使用)硬件装置(例如，微处理器、可编程计算机或电子电路)来执行。在一些实施例中，可通过此种装置执行最重要方法步骤的某个或更多。

取决于某些实施要求，本发明的实施例可以硬件或软件实施。可使用具有存储于其上的电子可读控制信号的诸如数字存储介质的非暂时性存储介质，例如软性磁盘、DVD、蓝光光碟、CD、ROM、PROM、EPROM、EEPROM或闪存，执行实施方案，这些电子可读控制信号与可编程计算机系统协作(或能够协作)以使得执行各个方法。因此，数字存储介质可以是计算机可读的。

根据本发明的一些实施例包含具有电子可读控制信号的数据载体，这些电子可读控制信号能够与可编程计算机系统协作，使得执行本文中所描述的方法中的一个。

大体而言，本发明的实施例可实施为具有程序代码的计算机程序产品，当计算机程序产品执行于计算机上时，程序代码操作性地用于执行这些方法中的一个。程序代码可(例如)储存于机器可读载体上。

其他实施例包含储存于机器可读载体上的用于执行本文中所描述的方法中的一个的计算机程序。

换言之，因此，本发明方法的实施例为具有程序代码的计算机程序，当计算机程序执行于计算机上时，该程序代码用于执行本文中所描述的方法中的一个。

因此，本发明方法的另一实施例为包含记录于其上的，用于执行本文中所描述的方法中的一个的计算机程序的数据载体(或数字存储介质，或计算机可读介质)。数据载体、数字存储介质或记录介质为通常有形的和/或非变迁的。

因此，本发明方法的另一实施例为表示用于执行本文中所描述的方法中的一个的计算机程序的数据流或信号序列。数据流或信号序列可例如用于经由数据通信连接(例如，经由因特网)而传送。

另一实施例包含用于或经调适以执行本文中所描述的方法中的一个的处理构件，例如，计算机或可编程逻辑器件。

另一实施例包含安装有用于执行本文中所描述的方法中的一个的计算机程序的计算机。

根据本发明的另一实施例包括用于将用于执行本文中所描述的方法中的一个的计算机程序发送(如，电子或光)至接收器的装置或系统。接收器可以是，例如，计算机、移动装置、存储器装置或类似。装置或系统可以是，例如，包括用于将计算机程序发送至接收器的文件服务器。

在一些实施例中，可编程逻辑器件(例如，场可编程门阵列)可用于执行本文中所描述的方法的功能性中的一些或所有。在一些实施例中，场可编程门阵列可与微处理器协作，以便执行本文中所描述的方法中的一个。大体而言，较佳地由任何硬件装置执行这些方法。

上文所描述的实施例仅仅说明本发明的原理。应理解，对本文中所描述的配置及细节的修改及变型对本领域技术人员而言将是显而易见。因此，仅意欲由待决专利的权利要求的范围限制，而不由通过本文的实施例的描述及解释而提出的特定细节限制。

附图标记：

1音频解码器

2核心频带解码模块

3频宽扩展模块

4组合器

5能量调整模块

6增益因子提供模块

7噪声生成器模块

8频谱分析模块

9信号生成器模块

10信号合成模块

AS音频信号

BS比特流

AF音频帧

CBS核心频带音频信号

BES频宽扩展音频信号

FDS频域信号

FB频带

AFL音频帧丢失

CGF当前增益因子

EE估计的信号能量

NOI噪声

DEL延迟

RFS未经加工的频域信号

参考文献

[3GP09]3GPP；TechnicalSpecificationGroupServicesandSystemAspects，Extendedadaptivemulti-rate-wideband(AMR-WB+)codec，3GPPTS26.290，3rdGenerationPartnershipProject，2009.

[3GP12a]Generalaudiocodecaudioprocessingfunctions；EnhancedaacPlusgeneralaudiocodec；additionaldecodertools(release11)，3GPPTS26.402，3rdGenerationPartnershipProject，Sep2012.

[3GP12b]Speechcodecspeechprocessingfunctions；adaptivemulti-rate-wideband(AMRWB)speechcodec；errorconcealmentoferroneousorlostframes，3GPPTS26.191，3rdGenerationPartnershipProject，Sep2012.

[EBU10]EBU/ETSIJTCBroadcast，Digitalaudiobroadcasting(DAB)；transportofadvancedaudiocoding(AAC)audio，ETSITS102563，EuropeanBroadcastingUnion，May2010.

[EBU12]Digitalradiomondiale(DRM)；systemspecification，ETSIES201980，ETSI，Jun2012.

[ISO09]ISO/IECJTC1/SC29/WG11，Informationtechnology-codingofaudio-visualobjects-part3：Audio，ISO/IECIS14496-3，InternationalOrganizationforStandardization，2009.

[ITU08]ITU-T，G.718：Frameerrorrobustnarrow-bandandwidebandembeddedvariablebit-ratecodingofspeechandaudiofrom8-32kbit/s，RecommendationITU-TG.718，TelecommunicationStandardizationSectorofITU，Jun2008.

[RR06]Sang-UkRyuandKennethRose，Framelossconcealmentforaudiodecordersemployingspectralbandreplication，ConventionPaper6962，ElectricalandComputerEngineering，UniversityofCalifornia，Oct2006，AES.

[SKE06]AndreasSchneider，KurtKrauss，andAndreasEnret，Evaluationofreal-timetransportprotocolconfigurationsusingaacplus，Conventionpaper6789，AES，May2006，Presentedatthe120^thConvention2006May20-23.

Claims

1.一种用于从包含音频帧(AF)的比特流(BS)产生音频信号(AS)的音频解码器，所述音频解码器(1)包括：

核心频带解码模块(2)，用于从所述比特流(BS)得到直接解码的核心频带音频信号(CBS)；

频宽扩展模块(3)，用于从所述核心频带音频信号(CBS)以及从所述比特流(BS)得到参数式解码的频宽扩展音频信号(BES)，其中所述频宽扩展音频信号(BES)基于具有至少一个频带(FB)的频域信号(FDS)；以及

组合器(4)，用于组合所述核心频带音频信号(CBS)与所述频宽扩展音频信号(BES)以产生所述音频信号(AS)；

其中所述频宽扩展模块(3)包括能量调整模块(5)，以此种方式配置所述能量调整模块(5)：在发生音频帧丢失(AFL)的当前音频帧(AF2)中，基于用于所述当前音频帧(AF2)的当前增益因子(CGF)以及基于用于所述至少一个频带的估计的信号能量(EE)，设定用于所述至少一个频带(FB)的所述当前音频帧(AF2)的调整的信号能量，其中从来自在先音频帧(AF1)或来自所述比特流(BS)的增益因子得到所述当前增益因子(CGF)，从所述核心频带音频信号(CBS)的当前音频帧(AF2’)的频谱得到所述估计的信号能量(EE)。

2.如前述权利要求所述的音频解码器，其中频宽扩展模块(3)包括：

增益因子提供模块(6)，用于将至少在发生所述音频帧丢失(AFL)的所述当前音频帧(AF2)中的所述当前增益因子(CGF)转发至所述能量调整模块(5)。

3.如前述任一项权利要求所述的音频解码器，其中所述增益因子提供模块(6)以此种方式配置：在发生所述音频帧丢失(AFL)的所述当前音频帧(AF2)中，所述当前增益因子(CGF)为所述在先音频帧(AF1)的增益因子。

4.如权利要求2或3所述的音频解码器，其中所述增益因子提供模块(6)以此种方式配置：在发生所述音频帧丢失(AFL)的所述当前音频帧(AF2)中，从所述在先音频帧(AF1)的所述增益因子和从所述在先音频帧(AF1)的信号类别计算所述当前增益因子(CGF)。

5.如权利要求2-4中任一项所述的音频解码器，其中所述增益因子提供模块(6)用于计算发生音频帧丢失(AFL)的随后音频帧的数目，且用于在发生音频帧(AFL)丢失的所述随后音频帧的数目超出预定义数目的情况下，执行增益因子降低过程。

6.如前述任一项权利要求所述的音频解码器，其中所述增益因子降低过程包括在所述当前增益因子超出第一阈值的情况下，通过将所述当前增益因子除以第一数字而降低所述当前增益因子的步骤。

7.如权利要求5或6所述的音频解码器，其中所述增益因子降低过程包括在所述当前增益因子超出大于所述第一阈值的第二阈值的情况下，通过将所述当前增益因子除以大于所述第一数字的第二数字而降低所述当前增益因子的步骤。

8.如权利要求5-7中任一项所述的音频解码器，其中所述增益因子降低过程包括在降低后的所述当前阈值低于所述第一阈值的情况下，将所述当前增益因子设定为所述第一阈值的步骤。

9.如前述任一项权利要求所述的音频解码器，其中所述频宽扩展模块(3)包括：

噪声生成器模块(7)，用于将噪声(NOI)添加至所述至少一个频带(FB)，其中在发生所述音频帧丢失(AFL)的所述当前音频帧(AF2)中，使用所述信号能量对所述在先音频帧(AF1)的至少一个频带(FB)的噪声能量的比率来计算所述当前音频帧(AF2)的噪声能量。

10.如前述任一项权利要求所述的音频解码器，其中所述音频解码器(1)包括：

频谱分析模块(8)，用于建立所述核心频带音频信号(CBS)的所述当前音频帧(AF2’)的所述频谱，并从所述核心频带音频信号(CBS)的所述当前音频帧(AF2’)的所述频谱得到用于所述至少一个频带(FB)的所述当前帧(AF2)的所述估计的信号能量。

11.如权利要求2-10中任一项所述的音频解码器，其中所述增益因子提供模块(6)以此种方式配置：在未发生音频帧丢失的当前音频帧随后地紧跟着发生音频帧丢失的在先音频帧的情况下，如果所述频宽扩展模块(3)的音频帧(AF1，AF2)相对于所述核心频带解码模块(2)的音频帧(AF1’，AF2’)之间的延迟(DEL)小于延迟阈值，则针对所述当前音频帧接收的增益因子用于所述当前帧；而如果所述频宽扩展模块的所述音频帧相对于所述核心频带解码模块的所述音频帧之间的所述延迟(DEL)大于所述延迟阈值，则来自所述在先音频帧的增益因子用于所述当前帧。

12.如前述任一项权利要求所述的音频解码器，其中所述频宽扩展模块(3)包括：

信号生成器模块(9)，用于基于所述核心频带音频信号(CBS)和所述比特流(BS)创建具有至少一个频带(FB)的未经加工的频域信号(RFS)，所述未经加工的频域信号(RFS)被转发至所述能量调整模块(5)。

13.如前述任一项权利要求所述的音频解码器，其中所述频宽扩展模块(3)包括：

信号合成模块(10)，用于从所述频域信号(FDS)产生所述频宽扩展音频信号(BES)。

14.一种用于从包含音频帧(AF)的比特流(BS)产生音频信号(AS)的方法，所述方法包括步骤：

从所述比特流(BS)得到直接解码的核心频带音频信号(CBS)；

从所述核心频带音频信号(CBS)以及从所述比特流(BS)得到参数式解码的频宽扩展音频信号(BES)，其中所述频宽扩展音频信号(BES)基于具有至少一个频带(FB)的频域信号(FDS)；以及

组合所述核心频带音频信号(CBS)和所述频宽扩展音频信号(BES)以产生所述音频信号(AS)；

其中在发生音频帧丢失(AFL)的当前音频帧(AF2)中，基于用于所述当前音频帧(AF2)的当前增益因子(CGF)以及基于用于所述至少一个频带(FB)的估计的信号能量，设定用于所述至少一个频带(FB)的所述当前音频帧(AF2)的调整的信号能量，其中从来自在先音频帧(AF1)或来自所述比特流(BS)的增益因子得到所述当前增益因子(CGF)，从所述核心频带音频信号(CBS)的当前音频帧(AF2’)的频谱得到所述估计的信号能量。

15.一种计算机程序，用于在执行于计算机或处理器上时执行如权利要求14所述的方法。