CN111627451B

CN111627451B - 用于获取音频信号的替换帧的频谱系数的方法及相关产品

Info

Publication number: CN111627451B
Application number: CN202010135748.8A
Authority: CN
Inventors: 珍妮·苏科夫斯基; 拉尔夫·斯皮尔施内德; 戈兰·马尔科维奇; 沃尔夫冈·耶格斯; 克里斯蒂安·赫尔姆里希; 贝恩德·埃德勒; 拉尔夫·盖格
Original assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority date: 2013-06-21
Filing date: 2014-06-20
Publication date: 2023-11-03
Anticipated expiration: 2034-06-20
Also published as: BR112015032013B1; US11282529B2; AU2014283180B2; TWI562135B; US20200020343A1; KR20160024918A; EP3011556B1; MX352099B; CA2915437C; MY169132A; JP2016526703A; MX2015017369A; US9916834B2; US20180108361A1; CN105408956B; SG11201510513WA; AU2014283180A1; RU2632585C2; KR101757338B1; US20160104490A1

Abstract

描述一种获取用于音频信号的替换帧(m)的频谱系数的方法。基于存在于替换帧(m)之前的帧的频谱中的峰值，检测音频信号的频谱的音调分量。对于频谱的音调分量，预测用于替换帧(m)的频谱中的峰值(502)及其周围部分的频谱系数，且对于频谱的非音调分量，使用用于替换帧(m)的非预测频谱系数或替换帧(m)之前的帧的对应频谱系数。

Description

用于获取音频信号的替换帧的频谱系数的方法及相关产品

本申请是申请人为弗朗霍夫应用科学研究促进协会、申请日为2014年6月20日、申请号为201480035489.4、发明名称为“用于获取音频信号的替换帧的频谱系数的方法及相关产品”的分案申请。

技术领域

本发明涉及编码的音频信号的发送的领域，尤其涉及，一种用于获取用于音频信号的替换帧的频谱系数的方法及装置、音频解码器、音频接收器以及用于发送音频信号的系统。实施例涉及一种用于基于先前所接收的帧来建构用于替换帧的频谱的方法。

背景技术

在已有技术中，描述了处理音频接收器处的帧丢失(frame-loss)的若干方法。举例而言，当帧在音频或语音编解码器的接收器侧丢失时，可使用如参考文献[1]中所描述的用于帧丢失隐蔽(frame-loss-concealment)的简单方法，诸如：

·重复最后接收的帧，

·使丢失帧静音，或

·符号加扰(sign scrambling)。

另外，在参考文献[1]中，提出在子频带中使用预测器的先进技术。然后，将预测器技术与符号加扰结合，且使用预测增益作为逐子频带决策准则以确定对于此子频带的频谱系数将使用哪种方法。

在参考文献[2]中，将时域中的波形信号外插用于MDCT(改进的离散余弦变换，Modified Discrete Cosine Transform)域编解码器。对于包括语音的单音信号，此类方法可能较好。

若允许一个帧延迟，则可将周围帧的内插用于丢失帧的建构。在参考文献[3]中描述了此方法，其中使用索引为m-1和m+1的邻近帧来内插具有索引m的丢失帧中的音调(tonal)分量的幅度。在比特流中发送定义用于音调分量的MDCT系数符号的旁侧信息。符号加扰用于其他非音调MDCT系数。音调分量被确定为具有最高幅度的预设固定数目的频谱系数。此方法选择具有最高幅度的n个频谱系数作为音调分量。

C_m+1(k)

图7示出表示不具有所发送的旁侧信息的内插方法(正如在参考文献[4]中所描述)的方块图。该内插方法基于使用MDCT(改进的离散余弦变换)在频域中编码的音频帧而进行操作。帧内插区块700接收丢失帧之前的帧及丢失帧之后的帧的MDCT系数，更具体地，在关于图7所描述的方法中，在帧内插区块700处接收在先帧的MDCT系数C_m-1(k)及在后帧的MDCT系数C_m+1(k)。帧内插区块700生成用于当前帧的内插MDCT系数该当前帧早前已在接收器处丢失或由于其他原因(例如，归因于所接收的数据中的错误，诸如此类)而不能在接收器处进行处理。将由帧内插区块700输出的内插MDCT系数应用至造成标度因子频带中的幅度定标的区块702及造成具有索引集合的幅度定标的区块704，且各个区块702及704分别输出由因子及定标的MDCT系数区块702的输出信号被输入至基于接收的输入信号生成伪频谱的伪频谱区块706中，该伪频谱被输入至生成指示检测的峰值的信号的峰值检测区块708中。由区块702提供的信号也被施加至随机符号改变区块712，该区块响应于由区块708生成的峰值检测信号而造成所接收的信号的符号改变并将修改的MDCT系数输出至频谱组成区块710。由区块704提供的经定标的信号被施加至符号校正区块714，该符号校正区块响应于由区块708提供的峰值检测信号，造成由区块704提供的经定标的信号的符号校正，并将修改的MDCT系数输出至频谱组成区块710，该频谱组成区块基于所接收的信号生成由频谱组成区块710输出的内插MDCT系数如图7所示，由区块708提供的峰值检测信号也被提供至生成经定标的MDCT系数的区块704。

图7在区块714的输出端生成用于丢失帧的与音调分量相关联的频谱系数且在区块712的输出端，提供用于非音调分量的频谱系数以便在频谱组成区块710处，基于针对音调分量及非音调分量而接收的频谱系数，提供用于与丢失帧相关联的频谱的频谱系数。

现将更详细地描述图7的方块图中所描述的FLC(帧丢失隐蔽)技术的操作。

在图7中，基本上，可区分四个模块：

·成形噪声插入模块(包括帧内插700、在标度因子频带内的幅度定标702及随机符号改变712)，

·MDCT频率区间分类模块(包括伪频谱706及峰值检测708)，

·音调隐蔽操作模块(包括在索引集合内的幅度定标704及符号校正714)，及

·频谱组成710。

该方法基于以下通用公式：

通过逐频率区间内插得到(参见区块700“帧内插”)

通过使用几何平均值的能量内插得到α^*(k)：

·用于所有分量的逐标度因子频带，(参见区块702“标度因子频带中的幅度定标”)及

·用于音调分量的逐索引子集(参见区块704“在索引集合内的幅度定标”)：

·对于音调分量，其可示出为α＝cos(πf_l)，其中f_l为音调分量的频率。

基于通过简单平滑运算而得到的伪功率谱得到能量E：

s^*(k)，对于非音调分量被随机设定为±1(参见区块712“随机符号改变”)，且对于音调分量被随机设定为+1或-1(参见区块714“符号校正”)。

将峰值检测执行为在伪功率谱中搜索区域最大值以检测与下伏正弦曲线相对应的频谱峰值的确切位置。峰值检测基于在参考文献[5]中所描述的MPEG-1音质模型中所采用的音调识别过程(tone identification process)。在此之外，定义索引子集，其具有依据MDCT频率区间的分析窗口的主瓣的带宽及在其中心的检测的峰值。将这些频率区间视为正弦曲线的音调主导的MDCT频率区间，并将索引子集视为各自的音调分量。

符号校正s^*(k)使某个音调分量的所有频率区间的符号翻转，或不翻转。使用综合分析执行该确定，即，针对两个版本均得到SFM，并选择具有较低SFM的版本。对于SFM的得到，需要功率谱，而功率谱又需要MDST(改进的离散正弦变换，Modified Discrete SineTransform)系数。为了保持复杂性是可管理的，仅使用音调分量的MDCT系数，仅得到用于此音调分量的MDST系数。

图8示出总FLC技术的方块图，与图7的方法相比，该总FLC技术经过改良并在参考文献[6]中加以描述。在图8中，在MDCT频率区间分类区块800处接收丢失帧之前的上一帧和丢失帧之后的第一帧的MDCT系数C_m-1及C_m+1。这些系数也被提供至噪声成形插入区块802和针对音调分量的MDCT估计区块804。在区块804，还接收由分类区块800提供的输出信号，以及分别接收丢失帧之前的倒数第二个帧和丢失帧之后的第二帧的MDCT系数C_m-2及C_m+2。区块804生成丢失帧的用于音调分量的MDCT系数且噪声成形插入区块802生成用于的丢失帧的用于非音调分量的MDCT频谱系数这些系数被提供至频谱组成区块806，频谱组成区块806在输出端生成用于丢失帧的频谱系数噪声成形插入区块802响应于由估计区块804生成的系统I_T进行操作。

关于参考文献[4]，以下修改是令人感兴趣的：

·得到用于峰值检测的伪功率谱为

·为了消除感观上的不相关或虚假峰值，将峰值检测仅应用于有限的频谱范围，且仅考虑超出相对于伪功率谱的绝对最大值的相对阈值的区域最大值。对剩余峰值以其幅度的递减次序进行排序，且将预先指定数目的最高顺位的最大值归类为音调峰值。

·该方法基于以下通用公式(此时α带有符号)：

·如上所述地得到但α的得到变得更高级，遵循以下方法

以以下方式取代E_m、E_m-1及E_m+1：

而

产生α为二次的表达式。因此，对于给定的MDCT估计，存在用于乘法校正因子(A1、A2、A3为变换矩阵)的两个候选者(具有相反的符号)。类似于参考文献[4]中所描述的，执行较佳估计的选择。

·此先进方法需要在帧丢失之前及之后的两个帧，以得到在先及后续帧的MDST系数。

在参考文献[7]中建议此方法的较少延迟的版本：

·作为开始点，重新使用内插公式对于帧m-1应用该内插公式，从而产生：

·然后，由真实估计替换内插结果(此处，因子2变为校正因子的部分：α＝2cos(πf_l))，致使

C_m(k)＝αC_m-1(k)-C_m-2(k)

·通过观察两个在先帧的能量来确定校正因子。根据能量计算，将在先帧的MDST系数近似为

·之后，将正弦能量计算为

·类似地，计算用于帧m-2的正弦能量并由与α无关的E_m-2表示。

·应用能量需求

E_m-1(α)＝E_m-2

再次产生α为二次的表达式。

·如前所述地执行针对计算的候选者的选择过程，但决策规则仅考虑在先帧的功率谱。

在参考文献[8]中描述了频域中的另一较少延迟的帧丢失隐蔽。不失一般性地，参考文献[8]的教示可简化为：

·使用时间信号的DFT的预测：

(a)从与接收到的编码的频域系数C_m相对应的解码的时域信号获得DFT频谱。

(b)假设线性相位改变，调整DFT幅度以预测在下一帧中失去的频域系数C_m+1

·使用自接收的频率频谱的幅度估计的预测：

(a)使用C_m作为输入，找出C′_m及S′_m，以使得

其中Q_m(k)为与C_m(k)相对应的DFT系数的幅度

(b)计算：

(c)执行幅度及相位的线性外插：

Q_m+1(k)＝2Q_m(k)-Q_m-1(k)

·使用滤波器以从C_m计算C′_m和S′_m，然后如上所述地继续以得到C_m+1(k)

·使用适应性滤波器以计算C_m+1(k)：

参考文献[8]中提及但未详细描述待预测频谱系数的选择。

在参考文献[9]中，已认识到，对于准静止信号，连续帧之间的相位差几乎恒定，且仅取决于分频(fractional frequency)。然而，仅使用来自上两个复频谱的线性外插。

在AMR-WB+(参见参考文献[10])中，使用了参考文献[11]中所描述的方法。假设仅当前帧的一部分丢失，从某种意义上来说(参考文献[11]中的方法也使用当前帧的可用频谱系数)，参考文献[11]中的方法为参考文献[8]中所描述方法的扩展。然而，在参考文献[11]中未考虑帧完全丢失的情形。

在参考文献[12]中描述了MDCT域中的另一较少延迟的帧丢失隐蔽。在参考文献[12]中，首先判断丢失的第P个帧是否为多谐波帧。若第P个帧之前的K个帧中，K₀个以上的帧具有小于阈值的频谱平坦度，则丢失的第P个帧为多谐波帧。若丢失的第P个帧为多谐波帧，则使用MDCT-MDST域中的第(P-K)至第(P-2)个帧来预测丢失的第P个帧。若频谱系数的功率谱大于两个相邻的功率谱系数，则该频谱系数为峰值。将如参考文献[13]中所描述的伪频谱用于第(P-1)个帧。

从L₁个功率谱帧建构频谱系数的集合Sc，如下所述：

获取由L₁个帧中的每个中的峰值组成的L₁个集合S₁、……、S_L1，每个集合中的峰值的数目分别为N₁、……、N_L1。从L₁个集合S₁、……、S_L1中选择集合S_i。对于集合S_i中的每个峰值系数m_j(j＝1....N_i)，判断在m_j、m_j±1、……、m_j±k中是否存在属于所有其他峰值集合的任意频率系数。若存在任一个，则将所有频率m_j、m_j±1、……、m_j±k放入频率集合S_C中。若不存在属于所有其他峰值集合的频率系数，则直接将帧中的所有频率系数放入频率集合S_C中。k为非负整数。对于集合S_C中的所有频谱系数，使用在第(P-K)至第(P-2)个MDCT-MDST帧中的L₂个帧来预测相位。使用线性外插(当L₂＝2时)或线性拟合(当L₂>2时)进行预测。对于线性外插：

其中p、t1及t2为帧索引。

使用第(P-1)个帧之前的多个帧，获取不在集合S_C中的频谱系数，对于如何获取不作特别的解释。

发明内容

本发明之目的在于提供一种用于获取用于音频信号的替换帧的频谱系数的改进方法。

通过以下描述的方法、非暂时性计算机程序产品、装置、音频编码器、音频接收器以及用于发送音频信号的系统，实现此目的。

本发明提供一种用于获取用于音频信号的替换帧的频谱系数的方法，该方法包括：

基于存在于替换帧之前的帧的频谱中的峰值，检测音频信号的频谱的音调分量；

对于频谱的音调分量，预测用于替换帧的频谱中的峰值及其周围部分的频谱系数；以及

对于频谱的非音调分量，使用用于替换帧的非预测频谱系数或替换帧之前的帧的对应频谱系数。

本发明提供一种用于获取用于音频信号的替换帧的频谱系数的装置，该装置包括：

检测器，用于基于存在于替换帧之前的帧的频谱中的峰值，检测音频信号的频谱的音调分量；以及

预测器，用于对于频谱的音调分量，预测用于替换帧的频谱中的峰值及其周围部分的频谱系数；

其中对于频谱的非音调分量，使用用于替换帧的非预测频谱系数或替换帧之前的帧的对应频谱系数。

本发明提供一种用于获取用于音频信号的替换帧的频谱系数的装置，该装置用于根据用于获取用于音频信号的替换帧的频谱系数的本发明方法进行操作。

本发明提供一种音频解码器，其包括本发明的一种用于获取用于音频信号的替换帧的频谱系数的装置。

本发明提供一种音频接收器，其包括本发明的音频解码器。

本发明提供一种用于发送音频信号的系统，该系统包括：

编码器，用于生成编码的音频信号；以及

本发明解码器，用于接收编码音频信号并对编码的音频信号进行解码。

本发明提供一种包括计算机可读介质的非暂时性计算机程序产品，该计算机可读介质储存指令，当在计算机上执行指令时，进行用于获取用于音频信号的替换帧的频谱系数的本发明方法。

本发明方法是有利的，因为该方法提供具有良好品质而不引入任意额外延迟的音调信号的良好帧丢失隐蔽。本发明的低延迟编解码器是有利的，因为该低延迟编解码器对语音信号及音频信号均很好地执行，且(例如)在容易出错的环境中受益于特别针对静止音调信号所实现的良好帧丢失隐蔽。提出单音及多音信号的较少延迟的帧丢失隐蔽，其为音调信号提供良好结果且不会使得非音调信号降级。

根据本发明的实施例，提供MDCT域中的音调分量的改进隐蔽。实施例涉及结合频域编解码器或交换式语音/频域编解码器的音频及语音编码，尤其涉及MDCT(改进的离散余弦变换)域中的帧丢失隐蔽。根据实施例，本发明提议用于基于先前接收的帧来建构用于丢失帧的MDCT频谱的较少延迟的方法，其中使用MDCT在频域中对最后接收的帧进行编码。

根据优选的实施例，本发明方法包括对频谱的音调部分的检测，例如，使用倒数第二个复频谱以得到峰值的正确位置或地点、使用最后一个实频谱以改进决策(若频率区间为音调的)，及使用音高(pitch)信息以更好地检测音调开始或偏移，其中该音高信息已存在于比特流中或在解码器侧得到。此外，本发明方法包括待隐蔽谐波的信号适应性宽度的提供。还提供作为谐波的部分的每个频谱系数的帧之间的相移或相位差的计算，其中此计算基于最后一个可用频谱(例如，CMDCT频谱)，而无需倒数第二个CMDCT。根据实施例，使用最后接收的MDCT频谱来改进相位差，且该改进可为适应性的，其依据连续丢失的帧的数目。可从解码时域信号建构CMDCT频谱，这是有利的，因为其无需与编解码器成帧的任意对准，且允许通过利用低重叠窗口的属性建构尽可能接近丢失帧的复频谱。本发明的实施例提供使用时域或频域隐蔽的每个帧决策。

本发明方法是有利的，因为在确定帧已丢失或需被替换时该方法完全基于在接收器侧已可得到的信息进行操作，且无需必须进行接收的额外旁侧信息，从而，也不存在针对在已有技术的方法中发生的额外延迟的来源(考虑到接收额外旁侧信息或从手头现有信息得到额外旁侧信息的必要性)。

与上文所描述的已有技术的方法相比，本发明方法是有利的，因为当应用本发明方法时，避免了由本发明的发明者所认识到的这些已有技术的方法的缺点，随后将概述这些缺点。

对于音调信号，参考文献[1]中所描述的用于帧丢失隐蔽的方法不够稳健且不产生足够良好的结果。

如参考文献[2]中所描述的时域中的波形信号外插无法处理多音信号，且因为必须确定精确的音高滞后，对于极静止的音调信号的隐蔽，复杂性增加。

在参考文献[3]中，引入了额外延迟且需要重要的旁侧信息。音调分量选择极其简单且将选择非音调分量中的许多峰值。

参考文献[4]中所描述的方法需要在解码器侧的预览(look-ahead)，且因此引入一个帧的额外延迟。将平滑的伪功率谱用于峰值检测降低了峰值定位的精度。也降低了检测的可靠性，因为其将从在仅一个帧中出现的噪声中检测峰值。

参考文献[6]中所描述的方法需要在解码器侧的预览，且因此引入两个帧的额外延迟。音调分量选择不会独立地检查两个帧中的音调分量，而是依赖于平均频谱，因此，音调分量选择将具有过多的误肯定(false positive)或误否定(false negative)，从而不可能对峰值检测阈值进行调谐。因为使用了伪功率谱，所以峰值的定位将不精确。用于峰值搜索的有限的频谱范围就像是用于由使用伪功率谱而引起的所述问题的规避方案。

参考文献[7]中所描述的方法基于参考文献[6]中所描述的方法，且因此具有相同缺点；该方法仅克服额外延迟。

在参考文献[8]中，没有关于频谱系数是否属于信号的音调部分的决策的详细描述。然而，音调频谱系数检测与隐蔽之间的协同作用是重要的，因此，音调分量的良好检测是重要的。此外，使用依赖于C_m和C_m-1(即，C_m、C_m-1、及S_m-1，因为当C_m及C_m-1可用时，可计算S_m-1)的滤波器计算C′_m和S′_m尚未被认可。使用可能性计算未对准至编码的信号成帧(以低重叠窗口而被给定)的复频谱也未被认可。另外，使用可能性仅基于倒数第二个复频谱计算帧之间的相位差未被认可。

在参考文献[12]中，必须将至少三个在先帧储存于存储器中，借此显著地增加存储器需求。是否使用音调隐蔽的决策可能是错误的，而具有一个或多个谐波的帧可被归类为不具有多个谐波的帧。最后接收的MDCT帧并未被直接用于改进丢失的MDCT频谱的预测，而仅用于音调分量的搜索。用于谐波的待隐蔽MDCT系数的数目是固定的，然而，依据噪声水平，期望具有构成一个谐波的可变数目个MDCT系数。

附图说明

在下文中，将参考附图更详细地描述本发明的实施例，其中：

图1示出在解码器侧的实施本发明方法的用于发送音频信号的系统的简化结构示意图，

图2示出根据一实施例的本发明方法的流程图，

图3为邻近帧的重叠MDCT窗口的示意性表示，

图4示出根据一实施例的表示用于挑选峰值的步骤的流程图，

图5为帧的功率谱的示意性表示，从该功率谱检测一个或多个峰值，

图6示出用于“中间帧”的示例，

图7示出表示不具有发送的旁侧信息的内插方法的方块图，以及

图8示出与图7相比的经改进的总FLC技术的方块图。

具体实施方式

在下文中，将更详细地描述本发明方法的实施例，且注意的是，在附图中，具有相同或相似功能性的元件由相同附图标记来表示。在下文中，将描述本发明方法的实施例，根据实施例，仅在使用MDCT对上两个接收到的帧进行编码时，才在频域中进行隐蔽。还将描述关于是否对在接收两个MDCT帧之后丢失的帧使用时域或频域隐蔽的决策的细节。关于下文中所描述的实施例，注意的是，在频域中对上两个帧进行编码的需求并未降低本发明方法的适用性，因为在交换式编解码器中，频域将用于静止的音调信号。

图1示出在解码器侧实现本发明方法的用于发送音频信号的系统的简化结构示意图。该系统包括在输入端102处接收音频信号104的编码器100。该编码器用于基于接收的音频信号104生成在编码器100的输出端106处提供的编码的音频信号。该编码器可提供编码的音频信号，以使得使用MDCT对音频信号的帧进行编码。根据实施例，编码器100包括用于允许音频信号的无线发送(如以附图标记110指示)的天线108。在其他实施例中，该编码器可通过有线连接线(如以附图标记112指示)输出在输出端106处提供的编码的音频信号。

该系统进一步包括具有输入端122的解码器120，在该输入端处接收由编码器106提供的编码的音频信号。根据实施例，编码器120可包括用于从编码器100接收无线发送110的天线124。在另一实施例中，输入端122可提供到有线发送112的连接以接收编码的音频信号。在解码器120的输入端122处接收的音频信号被施加至检测器126，该检测器判断是否需要替换由解码器120解码的所接收的音频信号的编码的帧。举例而言，根据实施例，这可以是当检测器126确定在解码器处未接收到应跟在在先帧之后的帧时或当确定所接收的帧具有防止在解码器侧120对其进行解码的错误时的情况。在检测器126处确定为解码而提供的帧可用的情况下，该帧将被转发至解码区块128(编码的帧的解码将在该解码区块中进行)，以便在解码器的输出端130处可输出解码的音频帧或解码的音频信号的流132。

在区块126处确定需要替换当前待处理的帧的情况下，需要替换的当前帧之前的且可在检测器电路126中缓冲的帧被提供至音调侦测器134，该音调侦测器判断替换的频谱是否包括音调分量。在不提供音调分量的情况下，向生成频谱系数的噪声生成器/存储器区块136指示此情况，频谱系数为可通过使用噪声生成器或另一传统的噪声生成方法(例如，符号加扰或类似)生成的非预测性系数。可选地，也可从存储器(例如，查找表)获取用于频谱的非音调分量的预定义频谱系数。可选地，当确定频谱不包括音调分量时，可以选择替换之前的帧中一个的对应频谱特性，而不是生成非预测频谱系数。

在音调检测器134检测到频谱包括音调分量的情况下，向预测器138指示各个信号，该预测器根据稍后将描述的本发明的实施例预测用于替换帧的频谱系数。为替换帧确定的各个系数被提供至解码区块128，在该解码区块中基于这些频谱系数进行丢失或替换帧的解码。

如图1所示，音调检测器134、噪声生成器136及预测器138限定解码器120中的用于获取用于替换帧的频谱系数的装置140。可使用硬件和/或软件组件(例如，经适当地程序化的处理单元)来实施所描绘的元件。

图2示出根据实施例的本发明方法的流程图。在第一步骤S200中，例如在解码器120处，接收编码的音频信号，如在图1中所描绘的。接收的音频信号可以是使用MDCT编码的各个音频帧的形式。

在步骤S202中，判断是否需要替换待被解码器120处理的当前帧。举例而言，在帧由于所接收的数据中的错误或类似而不能被处理的情况下，或在向接收器/解码器120的发送期间丢失帧的情况下，或在帧(例如)由于在从编码器侧至解码器侧的帧发送期间的延迟而未能及时地在音频信号接收器120处接收帧的情况下，在解码器侧可能需要替换帧。

在步骤S202中(例如，由解码器120中的检测器126)确定需要替换当前待被解码器120处理的帧的情况下，该方法进行至步骤S204，在该步骤进行是否需要频域隐蔽的进一步判断。根据实施例，如果音高信息对于上两个接收的帧是可用的且音高不改变，则在步骤S204确定期望频域隐蔽。否则，确定应该应用时域隐蔽。在可选的实施例中，可使用解码的信号基于子帧来计算音高，且再次使用以下决策：在音高存在的情况下以及在音高在子帧中恒定的情况下，使用频域隐蔽，否则，应用时域隐蔽。

在本发明的又一实施例中，可提供检测器(例如，解码器120中的检测器126)，且可以以这样的方式配置检测器：其额外地分析替换帧之前的倒数第二个帧或最后一个帧或此二者的频谱，并基于所发现的峰值决定信号是单音还是多音的。在信号是多音的情况下，将使用频域隐蔽，而不管是否存在音高信息。可选地，可以以这样的方式配置解码器120中的检测器126：其额外地分析替换帧之前的一个或多个帧以指示信号中的音调分量的数目是否超出预定义阈值。在信号中的音调分量的数目超出阈值的情况下，将使用频域隐蔽。

在例如通过应用上文所提及的准则而在步骤S204中确定将使用频域隐蔽的情况下，该方法进行至步骤S206，在该步骤中，基于存在于在先帧的频谱中的一个或多个峰值(即，存在于替换帧之前的倒数第二个帧的频谱和最后一个帧的频谱中的大体相同的位置处的一个或多个峰值)，检测音频信号的频谱的音调部分或音调分量。在步骤S208中，判断是否存在频谱的音调部分。在存在频谱的音调部分的情况下，该方法进行至步骤S210，在该步骤中，(例如)基于可从在先帧(即，倒数第二个帧和最后一个帧)得到的信息，预测用于替换帧的频谱中的一个或多个峰值及其周围部分的一个或多个频谱系数。将在步骤S210中预测的频谱系数转发(例如)至图1中所示的解码区块128，从而，如步骤212处所示的，可执行基于来自步骤210的频谱系数的对编码的音频信号的帧的解码。

在步骤S208中确定不存在频谱的音调部分的情况下，该方法进行至步骤S214，使用用于替换帧的非预测频谱系数或替换帧之前的帧的相应频谱系数，这些频谱系数被提供至步骤S212以用于对帧进行解码。

在步骤S204中确定不期望频域隐蔽的情况下，该方法进行至步骤S216，在此步骤中，执行对待替换帧的传统的时域隐蔽，并基于在步骤S216中通过处理生成的频谱系数，在步骤S212中对编码的信号的帧进行解码。

在步骤S202处确定当前处理的音频信号中不存在替换帧(即，可使用传统方法对当前处理的帧进行完全解码)的情况下，该方法直接进行至步骤S212以对编码的音频信号的帧进行解码。

在下文中，将描述根据本发明实施例的其他细节。

功率谱计算

对于索引为m-2的倒数第二个帧，直接从解码的时域信号计算MDST系数S_m-2。

对于最后一个帧，使用估计的MDST频谱，从最后接收的帧的MDCT系数C_m-1计算该频谱(参见例如参考文献[13])：

|S_m-1(k)|＝|C_m-1(k+1)-C_m-1(k-1)|

如下地进行计算用于帧m-2和m-1的功率谱：

P_m-2(k)＝|S_m-2(k)|²+|C_m-2(k)|²

P_m-1(k)＝|S_m-1(k)|²+|C_m-1(k)|²

其中：

S_m-1(k)为帧m-1中的MDST系数，

C_m-1(k)为帧m-1中的MDCT系数，

S_m-2(k)为帧m-2中的MDST系数，及

C_m-2(k)为帧m-2中的MDCT系数。

对获取的功率谱如下地进行平滑：

Psmoothed_m-2(k)＝0.75·P_m-2(k-1)+P_m-2(k)+0.75·P_m-2(k+1)

Psmoothed_m-1(k)＝0.75·P_m-1(k-1)+P_m-1(k)+0.75·P_m-1(k+1)

音调分量的检测

将存在于上两个帧(m-2及m-1)中的峰值视为音调分量的代表。峰值的连续存在允许对音调分量与噪声信号中随机出现的峰值进行区分。

音高信息

假设音高信息可用：

·在编码器侧计算且在比特流中可用，或

·在解码器侧计算。

仅当满足所有以下条件时才使用音高信息：

·音高增益大于零

·音高滞后在上两个帧中是恒定的

·基频大于100Hz。

从音高滞后计算基频：

若存在F₀′＝n·F₀(其中，N＞5的谐波是频谱中最强的)，则将F₀设定为F′₀。若在谐波n·F₀的位置处不存在足够强的峰值，则F₀不可靠。

根据实施例，在与图3中所示的MDCT窗口的右边界对准的成帧上计算音高信息。此对准对信号的音调部分的外插是有益的，因为作为需要隐蔽的部分的重叠区300也用于音高滞后计算。

在另一实施例中，音高信息可在比特流中传输并在空白频道中被编解码器使用，因此不会对隐蔽造成额外成本。

包络

在下文中，描述用于获取频谱包络的过程，该频谱包络是稍后所描述的峰值挑选所需的。

使用长度为L的移动平均滤波器计算上两个帧中的每个功率谱的包络：

滤波器长度取决于基频(且可被限制在[7,23]的范围内)：

L与F₀之间的此联系类似于参考文献[14]中所描述的过程，然而，在本发明中，使用来自当前帧的包括预览的音高信息，其中参考文献[14]使用针对讲话者的特定的平均音高。若基频不可用或不可靠，则将滤波器长度L设定为15。

峰值挑选

首先基于预定义阈值在帧m-1的功率谱中搜索峰值。基于峰值在帧m-1中的位置，调适用于在帧m-2的功率谱中进行搜索的阈值。因此，发现存在于两个帧(m-1及m-2)中的峰值，但确切位置基于帧m-2中的功率谱。此次序是重要的，因为仅使用估计的MDST计算帧m-1中的功率谱，且因此峰值的位置并不精确。使用帧m-1的MDCT也很重要，因为不希望以仅存在于帧m-2中而不存在于帧m-1中的音调继续。图4示出根据实施例的表示用于挑选峰值的以上步骤的流程图。在步骤S400中，基于一个或多个预定义阈值，在替换帧之前的最后一个帧m-1的功率谱中搜索峰值。在步骤S402中，调适该一个或多个阈值。在步骤S404中，基于一个或多个经调适的阈值，在替换帧之前的倒数第二个帧m-2的功率谱中搜索峰值。

图5为帧的功率谱的示意性表示，从该功率谱检测一个或多个峰值。在图5中，示出包络500，可如上所概述地确定包络或可通过其他已知方法确定包络。在图5中示出了由圆圈表示的多个峰值候选者。将在下文更详细地描述在峰值候选者中发现峰值。图5示出被发现的峰值502，以及假峰值504和表示噪声的峰值506。另外，示出频谱系数的左脚(leftfoot)508及右脚(right foot)510。

根据实施例，使用以下步骤(图4中的步骤S400)进行在替换帧之前的最后一个帧m-1的功率谱P_m-1中发现峰值：

·若满足所有的以下准则，则将频谱系数归类为音调峰值候选者：

○经平滑的功率谱与包络500之间的比大于某个阈值：

○经平滑的功率谱与包络500之间的比大于峰值候选者的周围邻近者，意味着该峰值候选者为区域最大值，

·通过发现频谱系数k的左脚508和右脚510及通过发现左脚508与右脚510之间的最大值，确定区域最大值。如图4中可见，需要此步骤，其中假峰值504可由旁瓣或由量化噪声造成。

如下地对用于倒数第二个帧m-2的功率谱P_m-2中的峰值搜索的阈值进行设定(图4中的步骤S402)：

·在P_m-1中索引i处的峰值周围的频谱系数k∈[i-1，i+1]中：

阈值(k)＝(Psmoothed_m-1(k)＞包络_m-1(k))？9.21dB：10.56dB，

·若F₀可用并可靠，则对于每个n∈[1，N]，设定及frac＝n·F₀-k：

阈值(k)＝8.8dB+10·log₁₀(0.35)

阈值(k-1)＝8.8dB+10·log₁₀(0.35+2·frac)

阈值(k+1)＝8.8dB+10·log₁₀(0.35+2·(1-frac))，

若k∈[i-1，i+1]在P_m-1中索引i处的峰值周围，则对在第一步骤中设定的阈值进行覆写，

·对于所有其他索引：

阈值(k)＝20.8dB

通过以下步骤(图4中的步骤S404)在倒数第二个帧m-2的功率谱P_m-2中发现音调峰值：

·在以下情况下将频谱系数归类为音调峰值：

○功率谱与包络之间的比大于阈值：

○功率谱与包络之间的比大于峰值的周围邻近者，意味着该峰值为区域最大值；

·通过发现频谱系数k的左脚508和右脚510及通过发现在左脚508与右脚510之间的最大值，确定区域最大值；

·左脚508及右脚510还限定音调峰值502的周围部分，即，音调隐蔽方法将用于音调分量的频谱频率区间。

使用上述方法，揭示了图4中的右峰值506仅存在于帧中一个中，即，该峰值不存在于帧m-1或m-2中。因此，将此峰值标记为噪声且不选择其作为音调分量。

正弦参数提取

对于正弦信号N/2(MDCT跳跃大小)的移位致使信号

因此，存在相移其中l为峰值的索引。因此，对于奇数频谱系数，相移取决于输入频率的分数部分加上额外的添加的π。

可使用如参考文献[15]中所描述的方法得到频率的分数部分Δl：

·假定子频带k＝l中的信号的幅度为区域最大值，可通过计算子频带k＝l-1及k＝l+1中的信号的幅度的比(即，通过评估下式)确定Δl：

其中使用了窗口的幅度响应的近似：

其中b为主瓣的宽度。此表达式中的常数G已调整至27.4/20.0以将估计的最大绝对误差减至最小。

·代入近似的频率响应，且令

b′＝2·b

导致：

MDCT预测

对于所发现的所有频谱峰值及其周围部分，使用MDCT预测。对于所有其他频谱系数，可使用符号加扰或类似的噪声生成方法。

属于已发现的峰值及其周围部分的所有频谱系数皆属于表示为K的集合。举例而言，在图5中，峰值502被识别为表示音调分量的峰值。峰值502的周围部分可由预定义数目的邻近频谱系数(例如，由在左脚508与右脚510之间的频谱系数加上脚508、510的系数)来表示。

根据实施例，峰值的周围部分由在峰值502周围的预定义数目的系数限定。峰值的周围部分可包括在峰值502左边的第一数目的系数及在峰值502右边的第二数目的系数。在峰值502左边的系数的第一数目和在峰值502右边的系数的第二数目可以相等或不等。

根据应用EVS标准的实施例，可在第一步骤中(例如，在检测音调分量之前)设定或固定预定义数目的邻近系数。在EVS标准中，可使用在峰值502左边的三个系数、在右边的三个系数及峰值502，即，总共七个系数(出于复杂性原因而选择此数目，然而任意其他数目也是可行的)。

根据实施例，峰值的周围部分的大小是适应性的。可修改被识别为表示音调分量的峰值的周围部分，以使得在两个峰值周围的周围部分不重叠。根据实施例，峰值始终仅与其周围部分一起被考虑，且它们一起限定音调分量。

对于丢失帧中的MDCT系数的预测，使用倒数第二个帧中的功率谱(复频谱的幅度)：

将替换帧中的丢失的MDCT系数估计为：

在下文中，将描述根据实施例的用于计算相位的方法。

相位预测

对于所发现的每个频谱峰值，如上所述地计算分频Δl，且相移为：

为帧之间的相移。对于峰值及其周围部分中的系数，该相移是相等的。

使用以下表达式在倒数第二个所接收的帧中计算用于峰值位置及其周围部分(k∈K)处的每个频谱系数的相位：

将丢失帧中的相位预测为：

根据实施例，可使用改进的相移。使用用于峰值位置及其周围部分处的每个频谱系数的所计算的相位允许帧m-1中的MDST的估计，其可被得到为：

其中：

Q_m-2(k)为帧m-2中的功率谱(复频谱的幅度)。

从此MDST估计及从接收的MDCT得到帧m-1中的相位的估计：

估计的相位用于改进相移：

其中：

为帧m-1中的复频谱的相位，及

为帧m-2中的复频谱的相位。

将丢失帧中的相位预测为：

根据此实施例的相移改进，改良了在存在背景噪声的情况下或在正弦曲线的频率改变的情况下的正弦曲线的预测。对于具有恒定频率且不具有背景噪声的非重叠正弦曲线，对在峰值周围的所有MDCT系数而言，相移是相同的。

对于音调部分及对于噪声部分，所使用的隐蔽可具有不同的衰落速度。若对于信号的音调部分的衰落速度较慢，则在多个帧丢失之后，音调部分变成主导。正弦曲线中由正弦曲线分量的不同相移引起的波动产生令人不快的伪讯(artifact)。

为了克服此问题，根据实施例，从第三丢失帧开始，峰值(具有索引k)的相位差用于在该峰值周围的所有频谱系数(k-l为左脚的索引，且k+u为右脚的索引)：

根据其他实施例，提供转变。第二丢失帧中具有高衰减的频谱系数使用峰值的相位差，且具有低衰减的系数使用校正的相位差：

i∈[k-l，k+u]

幅度改进

根据其他实施例，可应用使用幅度改进的另一方法，而不应用上述的相移改进：

其中l为峰值的索引，如上所述地计算分频Δl。相移为：

为了避免能量的增加，根据其他实施例，改进的幅度可由来自倒数第二个帧的幅度限制：

Q_m-1(k)＝max(Q_m-1(k)，Q_m-2(k))

此外，根据又一实施例，幅度的减小可用于使其衰落：

使用“中间帧”的相位预测

根据其他实施例，替代将频谱系数的预测基于替换帧之前的帧，相位预测可使用“中间帧”(也被称为“中间”帧)。图6示出“中间帧”的示例。在图6中，替换帧之前的最后一个帧600(m-1)、替换帧之前的倒数第二个帧602(m-2)以及中间帧604(m-1,5)与相关联的MDCT窗口606至610一起示出。

若MDCT窗口重叠小于50％，则可能使CMDCT频谱更接近于丢失帧。在图6中，描绘了具有25％的MDCT窗口重叠的示例。这允许使用虚线窗口610获取用于中间帧604(m-1,5)的CMDCT频谱，虚线窗口等于MDCT窗口606或608，但距编解码器成帧具有帧长度的一半的位移。由于中间帧604(m-1,5)在时间上更接近丢失帧(m)，因此中间帧的频谱特性将比倒数第二个帧602(m-2)与丢失帧(m)之间的频谱特性更类似于丢失帧(m)的频谱特性。

在此实施例中，直接从解码的时域信号进行MDST系数S_m-1.5及MDCT系数C_m-1.5的计算，其中MDST及MDCT构成CMDCT。可选地，可使用矩阵运算从邻近的现有MDCT系数中得到CMDCT。

如上所述地进行功率谱计算，并如上所述地进行音调分量的检测，其中第m-2个帧被第m-1.5个帧替换。

对于正弦信号N/4(MDCT跳跃大小)的移位致使信号

此致使相移因此，相移取决于输入频率的分数部分加上额外添加的其中l为峰值的索引。如上所述地进行分频的检测。

对于丢失帧中的MDCT系数的预测，使用来自m-1.5帧的幅度：

丢失的MDCT系数被估计为：

可使用下式来计算相位

此外，根据实施例，可应用上述的相移改进：

此外，可如上所述地使用用于在峰值周围的所有频谱系数的相移到峰值的相移的收敛。

虽然已在装置的上下文中描述了一些方面，但显然，这些方面还表示对应的方法的描述，其中块或装置对应于方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中描述的方面还表示对应的块或对应的装置的项目或特征的描述。

根据某些实施要求，本发明的实施例可以以硬件或软件实施。可使用具有存储于其上的电子可读控制信号的数字存储介质，例如软盘、DVD、蓝光光碟、CD、ROM、PROM、EPROM、EEPROM或闪存，执行实施方案，电子可读控制信号与(或能够与)可编程计算机系统协作，从而执行各个方法。

根据本发明的一些实施例包括具有电子可读控制信号的非暂时性数据载体，电子可读控制信号能够与可编程计算机系统协作，从而执行本文中描述的方法中的一个。

一般地，本发明的实施例可被实施为具有程序代码的计算机程序产品，程序代码可操作用于当计算机程序产品在计算机上执行时执行所述方法中的一个。程序代码可例如存储于机器可读载体上。

其他实施例包括存储于机器可读载体上的用于执行本文中描述的方法中的一个的计算机程序。

换言之，本发明的方法的实施例因此为具有程序代码的计算机程序，该程序代码用于当计算机程序在计算机上执行时执行本文中描述的方法中的一个。

本发明的进一步实施例因此为数据载体(或数字存储介质或计算机可读介质)，其包括记录于其上的用于执行本文中描述的方法中的一个的计算机程序。

本发明的进一步实施例因此为数据流或信号序列，其表示用于执行本文中描述的方法中的一个的计算机程序。数据流或信号序列可例如被配置为通过数据通信连接(例如，通过因特网)进行传送。

进一步实施例包括处理装置(例如，计算机或可编程逻辑装置)，其被配置为或适于执行本文中描述的方法中的一个。

进一步实施例包括一种计算机，其具有安装于其上用于执行本文中描述的方法中的一个的计算机程序。

在一些实施例中，可使用可编程逻辑装置(例如，现场可编程门阵列)执行本文中描述的方法的一些或全部功能。在一些实施例中，现场可编程门阵列可与微处理器协作以执行本文中描述的方法中的一个。通常，方法优选地被任何硬件装置执行。

上述实施例仅为说明本发明的原理。应理解的是，本文中描述的配置及细节的修改及变化对于本领域的其他技术人员是显而易见的。因此，其仅受到所附的专利权利要求的范围的限制，而不受本文中以实施例的描述及解释的方式而呈现的特定细节的限制。

参考文献

[1]P.Lauber and R.Sperschneider,"Error Concealment for CompressedDigital Audio,"in AES 111th Convention,New York,USA,2001.

[2]C.J.Hwey,"Low-complexity,low-delay,scalable and embedded speechand audio coding with adaptive frame loss concealment".Patent US 6,351,730B2,2002.

[3]S.K.Gupta,E.Choy and S.-U.Ryu,"Encoder-assisted frame lossconcealment techniques for audio coding".Patent US 2007/094009A1.

[4]S.-U.Ryu and K.Rose,"AFrame Loss Concealment Technique for MPEG-AAC,"in 120th AES Convention,Paris,France,2006.

[5]I SO/IEC JTC1/SC29/WG11,Information technology-Coding of movingpictures and associated,International Organization for Standardization,1993.

[6]S.-U.Ryu and R.Kenneth,An MDCT domain frame-loss concealmenttechnique for MPEG Advanced Audio Coding,Department od Electrical andComputer Engineering,University of California,2007.

[7]S.-U.Ryu,Source Modeling Approaches to Enhanced Decoding in LossyAudio Compression and Communication,UNIVERSITY of CALIFORNIASanta Barbara,2006.

[8]M.Yannick,"Method and apparatus for transmission error concealmentof frequency transform coded digital audio signals".Patent EP 0574288B1,1993.

[9]Y.Mahieux,J.-P.Petit and A.Charbonnier,"Transform coding of audiosignals using correlation between successive transform blocks,"in Acoustics,Speech,and Signal Processing,1989.ICASSP-89.,1989.

[10]3GPP；Technical Specification Group Services and System Aspects,Extended Adaptive Multi-Rate-Wideband(AMR-WB+)codec,2009.

[11]A.Taleb,"Partial Spectral Loss Concealment in Transform Codecs".Patent US 7,356,748 B2.

[12]C.Guoming,D.Zheng,H.Yuan,J.Li,J.Lu,K.Liu,K.Peng,L.Zhibin,M.Wu andQ.Xiaojun,"Compensator and Compensation Method for Audio Frame Loss inModified Discrete Cosine Transform Domain".Patent US 2012/109659A1.

[13]L.S.M.Dauder,"MDCT Analysis of Sinusoids:Exact Results andApplications to Coding Artifacts Reduction,"IEEE TRANSACTIONS ON SPEECH ANDAUDIO PROCESSING,pp.302-312,2004.

[14]D.B.Paul,"The Spectral Envelope Estimation Vocoder,"IEEETransactions on Acoustics,Speech,and Signal Processing,pp.786-794,1981.

[15]A.Ferreira,"Accurate estimation in the ODFT domain of thefrequency,phase and magnitude of stationary sinusoids,"2001IEEE Workshop onApplications of Signal Processing to Audio and Acoustics,pp.47-50,2001.

Claims

1.一种用于获取用于音频信号的替换帧的频谱系数的方法，所述方法包含：

检测音频信号的频谱的音调分量(S206)，其中超过预定阈值并且存在于替换帧m之前的最后一个帧m-1和倒数第二个帧m-2的频谱中或者存在于最后一个帧m-1和中间帧m-1.5的频谱中的峰值(502)表示音调分量；

对于频谱的所述音调分量，预测用于所述替换帧m的频谱中的峰值(502)及其周围部分的频谱系数(S210)；以及

对于频谱的非音调分量，使用用于所述替换帧m的非预测频谱系数或所述替换帧m之前的帧的对应频谱系数(S214)。

2.如权利要求1所述的方法，其中：

基于所述替换帧m之前的帧m-2的复频谱的幅度和所述替换帧m的复频谱的预测相位，预测用于所述替换帧m的频谱中的峰值(502)及其周围部分的频谱系数，且

基于所述替换帧m之前的帧m-2的复频谱的相位和在所述替换帧m之前的帧之间的相移，预测所述替换帧m的复频谱的相位。

3.如权利要求2所述的方法，其中：

基于所述替换帧m之前的倒数第二个帧m-2的复频谱的幅度和所述替换帧m的复频谱的预测相位，预测用于所述替换帧m的频谱中的峰值(502)及其周围部分的频谱系数，且

基于所述替换帧m之前的倒数第二个帧m-2的复频谱，预测所述替换帧m的复频谱的相位。

4.如权利要求2所述的方法，其中基于用于在所述替换帧m之前的帧m-2中的峰值及其周围部分处的每个频谱系数的相位，预测所述替换帧m的复频谱的相位。

5.如权利要求2所述的方法，其中对于在各个帧中的峰值及其周围部分处的每个频谱系数，在所述替换帧m之前的帧之间的相移是相等的。

6.如权利要求1所述的方法，其中所述音调分量由峰值及其周围部分限定。

7.如权利要求1所述的方法，其中峰值的周围部分由在峰值(502)周围的预定义数目的系数限定。

8.如权利要求1所述的方法，其中峰值的周围部分包括在峰值(502)左边的第一数目的系数和在峰值(502)右边的第二数目的系数。

9.如权利要求8所述的方法，其中所述第一数目的系数包括在左脚(508)与峰值(502)之间的系数加上所述左脚(508)的系数，且其中所述第二数目的系数包括在右脚(510)与峰值(502)之间的系数加上所述右脚(510)的系数。

10.如权利要求8所述的方法，其中在峰值(502)左边的系数的第一数目与在峰值(502)右边的系数的第二数目是相等或不等的。

11.如权利要求10所述的方法，其中在峰值(502)左边的系数的所述第一数目为三，且在峰值(502)右边的系数的所述第二数目为三。

12.如权利要求6所述的方法，其中在所述检测音调分量的步骤之前，设定在峰值(502)周围的系数的预定义数目。

13.如权利要求1所述的方法，其中峰值的周围部分的大小为适应性的。

14.如权利要求13所述的方法，其中选择峰值的周围部分，以使得在两个峰值周围的周围部分不重叠。

15.如权利要求2所述的方法，其中：

基于所述替换帧m之前的倒数第二个帧m-2的复频谱的幅度和所述替换帧m的复频谱的预测相位，预测用于所述替换帧m的频谱中的峰值(502)及其周围部分的频谱系数，

基于所述替换帧m之前的最后一个帧m-1的复频谱的相位和在所述替换帧m之前的最后一个帧m-1与倒数第二个帧m-2之间的改进相移，预测所述替换帧m的复频谱的相位，

基于所述替换帧m之前的倒数第二个帧m-2的复频谱的幅度、所述替换帧m之前的倒数第二个帧m-2的复频谱的相位、在所述替换帧m之前的最后一个帧m-1与倒数第二个帧m-2之间的相移以及最后一个帧m-1的实频谱，确定所述替换帧m之前的最后一个帧m-1的复频谱的相位，且

基于所述替换帧m之前的最后一个帧m-1的复频谱的相位和所述替换帧m之前的倒数第二个帧m-2的复频谱的相位，确定所述改进相移。

16.如权利要求15所述的方法，其中基于连续丢失的帧的数目，相移的改进为适应性的。

17.如权利要求16所述的方法，其中从第三丢失帧开始，针对峰值确定的相移用于预测在峰值(502)周围的频谱系数。

18.如权利要求17所述的方法，其中对于预测第二丢失帧中的频谱系数，当所述替换帧m之前的最后一个帧m-1中的相移等于或低于预定义阈值时，针对峰值(502)确定的相移用于预测用于周围频谱系数的频谱系数，且当所述替换帧m之前的最后一个帧m-1中的相移高于所述预定义阈值时，针对各个周围频谱系数确定的相移用于预测用于周围频谱系数的频谱系数。

19.如权利要求2所述的方法，其中：

基于所述替换帧m之前的最后一个帧m-1的复频谱的改进幅度和所述替换帧m的复频谱的预测相位，预测用于所述替换帧m的频谱中的峰值(502)及其周围部分的频谱系数，且

基于所述替换帧m之前的倒数第二个帧m-2的复频谱的相位和在所述替换帧m之前的最后一个帧m-1与倒数第二个帧m-2之间的相移的两倍，预测所述替换帧m的复频谱的相位。

20.如权利要求19所述的方法，其中基于所述替换帧m之前的最后一个帧m-1的实频谱的实频谱系数、所述替换帧m之前的倒数第二个帧m-2的复频谱的相位以及在所述替换帧m之前的最后一个帧m-1与倒数第二个帧m-2之间的相移，确定所述替换帧m之前的最后一个帧m-1的复频谱的所述改进幅度。

21.如权利要求19所述的方法，其中所述替换帧m之前的最后一个帧m-1的复频谱的所述改进幅度由所述替换帧m之前的倒数第二个帧m-2的复频谱的幅度来限制。

22.如权利要求2所述的方法，其中：

基于在所述替换帧m之前的最后一个帧m-1与倒数第二个帧m-2之间的中间帧的复频谱的幅度和所述替换帧m的复频谱的预测相位，预测用于所述替换帧m的频谱中的峰值(502)及其周围部分的频谱系数。

23.如权利要求22所述的方法，其中：

基于所述替换帧m之前的中间帧的复频谱的相位和在所述替换帧m之前的中间帧之间的相移，预测所述替换帧m的复频谱的相位，或

基于所述替换帧m之前的最后一个帧m-1的复频谱的相位和在所述替换帧m之前的中间帧之间的改进相移，预测所述替换帧m的复频谱的相位；基于所述替换帧m之前的最后一个帧m-1的复频谱的相位和所述替换帧m之前的中间帧的复频谱的相位，确定所述改进相移。

24.如权利要求1所述的方法，其中检测所述音频信号的频谱的音调分量包括：

基于一个或多个预定义阈值，在所述替换帧m之前的最后一个帧m-1的频谱中搜索峰值(S400)；

调适所述一个或多个阈值(S402)；以及

基于一个或多个经调适的阈值，在所述替换帧m之前的倒数第二个帧m-2的频谱中搜索峰值(S404)。

25.如权利要求24所述的方法，其中调适所述一个或多个阈值包括：基于所述替换帧m之前的最后一个帧m-1的频谱和频谱包络或基于基频，设定用于在所述替换帧m之前的最后一个帧m-1中发现的峰值的周围的区域中搜索在所述替换帧m之前的倒数第二个帧m-2中的峰值的所述一个或多个阈值。

26.如权利要求25所述的方法，其中所述基频用于包括所述替换帧m之前的最后一个帧m-1及所述替换帧m之前的最后一个帧m-1的预看的信号。

27.如权利要求26所述的方法，其中所述替换帧m之前的最后一个帧m-1的预看在编码器侧上使用所述预看加以计算。

28.如权利要求24所述的方法，其中调适所述一个或多个阈值(S402)包括：将用于在不在所述替换帧m之前的最后一个帧m-1中发现的峰值的周围的区域中搜索在所述替换帧m之前的倒数第二个帧m-2中的峰值的所述一个或多个阈值设定为预定义阈值。

29.如权利要求1所述的方法，包括：

使用用于所述音频信号的音调分量的频谱系数的预测，确定对于所述替换帧m是应用时域隐蔽还是应用频域隐蔽。

30.如权利要求29所述的方法，其中在所述替换帧m之前的最后一个帧m-1和所述替换帧m之前的倒数第二个帧m-2具有恒定音高的情况下，或所述替换帧m之前的一个或多个帧的分析指示信号中的音调分量的数目超出预定义阈值的情况下，应用频域隐蔽。

31.如权利要求1所述的方法，其中使用MDCT对所述音频信号的帧进行编码。

32.如权利要求1所述的方法，其中替换帧m包括：不能在音频信号接收器处进行处理的帧，或在发送至所述音频信号接收器期间丢失的帧，或在所述音频信号接收器处未能及时接收的帧。

33.如权利要求1所述的方法，其中使用噪声生成方法或使用来自存储器的预定义频谱系数，生成非预测频谱系数，噪声生成方法包括符号加扰，存储器包括查找表。

34.一种计算机可读存储介质，储存指令，当所述指令在计算机上执行时，进行如权利要求1-33中任一项所述的方法。

35.一种用于获取用于音频信号的替换帧m的频谱系数的装置，所述装置包括：

检测器(134)，用于检测音频信号的频谱的音调分量，其中超过预定阈值并且存在于替换帧m之前的最后一个帧m-1和倒数第二个帧m-2的频谱中或者存在于最后一个帧m-1和中间帧m-1.5的频谱中的峰值(502)表示音调分量；以及

预测器(138)，用于对于频谱的所述音调分量，预测用于所述替换帧m的频谱中的峰值(502)及其周围部分的频谱系数；

其中对于频谱的非音调分量，使用用于所述替换帧m的非预测频谱系数或所述替换帧m之前的帧的对应频谱系数。

36.一种用于获取用于音频信号的替换帧m的频谱系数的装置，所述装置用于根据如权利要求1-33中任一项所述的方法进行操作。

37.一种音频解码器，包括如权利要求35或36所述的装置。

38.一种音频接收器，包括如权利要求37所述的音频解码器。

39.一种用于发送音频信号的系统，所述系统包括：

编码器(100)，

用于生成编码的音频信号；以及

如权利要求37所述的解码器(120)，用于接收所述编码的音频信号，及对所述编码的音频信号进行解码。