CN101379551A

CN101379551A - 在语音编解码器中用于有效帧擦除隐蔽的方法和装置

Info

Publication number: CN101379551A
Application number: CNA200680050130XA
Authority: CN
Inventors: 汤米·韦兰考特; 米兰·杰利内克; 菲利普·古尔内; 雷德万·萨拉米
Original assignee: VoiceAge Corp
Current assignee: VoiceAge Corp
Priority date: 2005-12-28
Filing date: 2006-12-28
Publication date: 2009-03-04
Also published as: JP2009522588A; WO2007073604A8; WO2007073604A1; EP1979895A4; EP1979895A1; BRPI0620838A2; ES2434947T3; EP1979895B1; RU2419891C2; NO20083167L; DK1979895T3; ZA200805054B; PT1979895E; KR20080080235A; AU2006331305A1; CA2628510A1; JP5149198B2; RU2008130674A; US20110125505A1; CA2628510C

Abstract

一种方法和装置，用于隐蔽在从编码器到解码器的传送期间由被编码的声音信号的帧被擦除而引起的帧擦除，以及用于在帧擦除之后解码器的恢复，包括：在编码器中，确定隐蔽/恢复参数，其至少包括与被编码的声音信号的帧相关的相位信息。向解码器传送在编码器中确定的隐蔽/恢复参数，以及，在解码器中，响应于所接收的隐蔽/恢复参数，指引帧擦除隐蔽。帧擦除隐蔽包括响应于所接收的相位信息，重新同步隐蔽了擦除的帧和对应的编码器处被编码的声音信号的帧。当没有隐蔽/恢复参数被传输到解码器时，在解码器处估计在从编码器向解码器传送期间已经被擦除的编码声音信号的每帧的相位信息。也可响应于所估计的相位信息，在解码器中指引帧擦除隐蔽，其中帧擦除隐蔽包括响应于所估计的相位信息，重新同步每个隐蔽了擦除的帧和在编码器处被编码的声音信号的对应帧。

Description

在语音编解码器中用于有效帧擦除隐蔽的方法和装置

发明领域

本发明涉及:用于考虑到声音信号的传送和/或合成而数字化编码声音信号(尤其是、但不限于语音信号)的技术。更具体地，本发明涉及声音信号的健壮的编码和解码，以在由于例如在无线系统中的信道误差、或在基于分组网络的语音应用中的丢包而造成的擦除帧的情况中保持良好性能。

背景技术

在诸如电话会议、多媒体和无线通信的各种应用领域中，对于在主观质量和比特率之间具有良好折衷的数字窄带和宽带语音编码技术的要求在增加。直到最近，在语音编码应用中已主要使用了被限制在200-3400Hz的范围中的电话带宽。然而，相比于传统的电话带宽，宽带语音应用在通信中提供增加的可识度和自然性。范围在50-7000Hz的带宽已被证明足够传递提供面对面通信的印象的良好质量。对于一般的音频信号，该带宽给出可接受的主观质量，但仍旧低于分别操作于20-16000Hz和20-20000Hz的FM无线电或CD的质量。

语音编码器将语音信号转换为数字比特流，该数字比特流通过通信信道被传输，且被存储于存储介质中。语音信号被数字化，也就是，通过通常的每采样16比特而被采样和量化。该语音编码器具有代表这些具有较小数量的比特的数字采样、同时保持良好的主观语音质量的角色。语音解码器或合成器在所传送或所存储的比特流上进行操作，且将其转换回到声音信号。

编码激励线性预测(CELP)编码是达到在主观质量与比特率之间最佳折衷的最好的可用技术之一。该编码技术是无线和有线应用两者中的许多语音编码标准的基础。在CELP编码中，在通常被称作帧的L个样值的连续块中处理被采样的语音信号，其中，L是预定的数字，典型地，其对应于10-30ms的语音信号。按照每帧计算并传送线性预测(LP)滤波器。典型地，LP滤波器的计算需要自接下来的帧的5-15ms语音段的预估(lookahead)。L采样帧被分割为被称作子帧的更小的块。通常，子帧的数量为3或4，从而产生4-10ms的子帧。在每个子帧中，通常从两个分量中获得激励信号，即，过去的激励和创新(innovative)的固定码本激励。从过去激励形成的分量通常被称为自适应码本或音调激励(pitch excitation)。编码特征化激励信号的参数，并将其发送到解码器，其中，将重构的激励信号用作LP滤波器的输入。

由于低比特率语音编码的主要应用是无线移动通信系统和基于分组网络的语音，所以，在帧擦除的情况下的语音编解码器的健壮性将变得十分重要。在无线蜂窝系统中，所接收的信号的能量可以展现出频繁的严重衰落，从而导致高比特错误率，并且，这在小区边界处将变得更加明显。在这种情况下，信道解码器无法校正所接收的帧中的误差，并且，结果，在信道解码器之后所使用的误差检测器将宣告该帧被擦除。在基于分组网络的语音应用中，语音信号被分组化，其中，通常，每个分组对应于20-40ms的声音信号。在分组交换(packet-switched)通信中，如果分组的数量变得非常大，则在路由器处可能发生分组减少，或者，分组在长的延迟之后才能够到达接收器，并且，如果其延迟大于接收器端的抖动缓冲器(jitter buffer)的长度，则其应当被宣告为丢失。在这些系统中，典型地，编码器要经受3％到5％的帧擦除率。此外，为了使得这些系统与传统的使用继承的窄带语音信号的PSTN(public switchedtelephone network，公共交换电话网)相竞争，宽带语音编码的使用对于这些系统将是有用的资源。

CELP中的自适应码本或音调预测器扮演在低比特率上保持高语音质量的角色。然而，由于自适应码本的内容基于来自过去帧的信号，这使得编解码器模型对帧丢失敏感。在擦除或丢失帧的情况下，解码器处的自适应码本的内容与编码器处的其内容将变得不同。因此，在隐蔽丢失帧且接收到顺序的良好帧之后，由于自适应码本贡献已经改变，所以，在所接收的良好帧中的合成信号与所意图的合成信号不同。丢失帧的影响依赖于其中发生了擦除的语音段的性质。如果擦除发生在信号的固定段，则可以执行有效的帧擦除隐蔽，且对于随后的良好帧的影响可被最小化。另一方面，如果擦除发生在语音起始(onset)或过渡，则擦除的效果能够传播通过几个帧。例如，如果失去语音段的开始，则第一音调周期将从自适应码本内容中丢失。这对于随后的良好帧中的音调预测器将具有严重的效果，从而导致在编码器处将合成信号收敛为所意图的信号之前的更长的时间。

发明内容

更具体地，依照本发明的第一方面，其提供了一种方法，用于隐蔽由于在从编码器到解码器的传送期间擦除的编码的声音信号的帧所引起的帧擦除、以及用于在帧擦除之后恢复解码器，该方法包括:在编码器中，确定隐蔽/恢复参数，所述隐蔽/恢复参数至少包括与被编码的声音信号的帧相关的相位信息；向解码器传送在编码器中确定的隐蔽/恢复参数；以及在解码器中，响应于所接收的隐蔽/恢复参数，而进行帧擦除隐蔽，其中，帧擦除隐蔽包括:响应于所接收的相位信息，将隐蔽了擦除的帧与在编码器处被编码的声音信号的对应帧重新同步。

依照本发明的第二方面，提供了一种装置，用于隐蔽由于在从编码器到解码器的传送期间擦除的编码的声音信号的帧所引起的帧擦除、以及用于在帧擦除之后恢复解码器，该装置包括:在编码器中的用于确定隐蔽/恢复参数的部件，所述隐蔽/恢复参数至少包括与被编码的声音信号的帧相关的相位信息；用于向解码器传送在编码器中确定的隐蔽/恢复参数的部件；以及在解码器中的用于响应于所接收的隐蔽/恢复参数而进行帧擦除隐蔽的部件，其中，用于进行帧擦除隐蔽的部件包括:用于响应于所接收的相位信息而将隐蔽了擦除的帧与在编码器处被编码的声音信号的对应帧重新同步的部件。

依照本发明的第三方面，提供一种装置，用于隐蔽由于在从编码器到解码器的传送期间擦除的编码的声音信号的帧所引起的帧擦除、以及用于在帧擦除之后恢复解码器，该装置包括:在编码器中的隐蔽/恢复参数的生成器，所述隐蔽/恢复参数至少包括与被编码的声音信号的帧相关的相位信息；用于向解码器传送在编码器中确定的隐蔽/恢复参数的通信链路；以及在解码器中的被提供所接收的隐蔽/恢复参数的帧擦除隐蔽模块，并且，擦除隐蔽模块包括同步器，其响应于所接收的相位信息，以将隐蔽了擦除的帧与在编码器处被编码的声音信号的对应帧重新同步。

依照本发明的第四方面，提供一种方法，用于隐蔽由于在从编码器到解码器的传送期间擦除的编码的声音信号的帧所引起的帧擦除、以及用于在帧擦除之后恢复解码器，该方法包括，在解码器中:估计在从编码器到解码器的传送期间已被擦除的被编码的声音信号的每帧的相位信息；以及响应于所估计的相位信息而进行帧擦除隐蔽，其中，帧擦除隐蔽包括响应于所估计的相位信息，而将每个隐蔽了擦除的帧与在编码器处被编码的声音信号的对应帧重新同步。

依照本发明的第五方面，提供一种装置，用于隐蔽由于在从编码器到解码器的传送期间擦除的编码的声音信号的帧所引起的帧擦除、以及用于在帧擦除之后恢复解码器，该装置包括:在解码器上，用于估计在从编码器到解码器的传送期间已被擦除的被编码的声音信号的每帧的相位信息的部件；以及用于响应于所估计的相位信息而进行帧擦除隐蔽的部件，其中，用于进行帧擦除隐蔽的部件包括:用于响应于所估计的相位信息、而将每个隐蔽了擦除的帧与在编码器处被编码的声音信号的对应帧重新同步的部件。

依照本发明的第六方面，提供一种装置，用于隐蔽由于在从编码器到解码器的传送期间擦除的编码的声音信号的帧所引起的帧擦除、以及用于在帧擦除之后恢复解码器，该装置包括:在解码器上，用于估计在从编码器到解码器的传送期间已被擦除的被编码的信号的每帧的相位信息的估计器；被提供所估计的相位信息的擦除隐蔽模块，并且，该擦除隐蔽模块包括同步器，其响应于所估计的相位信息，将每个隐蔽了擦除的帧与在编码器处被编码的声音信号的对应帧重新同步。

一旦了解下述的说明性实施例的非限制性描述，其通过参考伴随的附图的示例给出，本发明的前述的和其它目的、优点和特征将变得更加显而易见。

附图说明

在附图中:

图1是图解语音编码和解码装置的应用示例的语音通信系统的示意框图；

图2是CELP编码装置的示例的示意框图；

图3是CELP解码装置的示例的示意框图；

图4是基于G.729内核(G.729参考ITU-T建议G.729)的嵌入式编码器的示意框图；

图5是基于G.729内核的嵌入式解码器的示意框图；

图6是图2中的CELP编码装置的简化框图，其中，已将闭环音调搜索模块、零输入响应计算器模块、冲激响应生成器模块、创新激励搜索模块和存储器更新模块分组为单个闭环音调和创新码本搜索模块；

图7是图4的框图的扩展，其中，已添加了与用来改进隐蔽/恢复的参数相关的模块；

图8是显示用于擦除隐蔽的帧分类状态机的示例的示意图；

图9是显示根据本发明的非限制性的说明性实施例的、激励的周期性部分的隐蔽过程的流程图；

图10是显示根据本发明的非限制性的说明性实施例的激励的周期性部分的同步过程的流程图；

图11显示具有和不具有同步过程的激励信号的典型示例；

图12显示使用显示于图11中的激励信号重构语音信号的示例；以及

图13展示当起始帧丢失时的情况示例的框图。

具体实施方式

尽管将要在下面的描述中描述本发明的涉及语音信号的说明性实施例，但是，应当记住，本发明的概念可等同地应用于其它类型的信号，尤其是、但并不限于其它类型的声音信号。

图1展示了语音通信系统100，其描述在本发明说明性环境中的语音编码和解码的使用。图1中的语音通信系统100支持跨越通信信道101的语音信号的传送。尽管其可以包括例如有线、光学链路或光纤链路，但典型地，通信信道101至少部分地包括射频链路。这样的射频链路经常支持需要共享的带宽资源的多个同时的语音通信，例如，如可在蜂窝电话系统中所发现的那样。尽管并未示出，但在系统100的单个装置实施例中，通信信道101可被替换为存储装置，以便记录并存储已编码的语音信号用于之后的回放。

在图1的语音通信系统100中，麦克风102产生模拟语音信号103，其被提供给模数(A/D)转换器104，以便将其转换为数字语音信号105。语音编码器106编码数字语音信号105，以产生被编码为二进制形式、并被传递到信道编码器108的一组信号编码参数107。在通过通信信道101传送所述信号编码参数107之前，可选的信道编码器108向所述信号编码参数107的二进制表示添加冗余。

在接收器中，信道解码器109利用在所接收的比特流111中的所述冗余信息，以检测并校正在传送期间发生的信道误差。随后，语音解码器110将从信道解码器109所接收的比特流112转换回为一组信号编码参数，并根据所恢复的信号编码参数而创建数字合成语音信号113。由数模(D/A)转换器115将在语音解码器110处重构的数字合成语音信号113转换为模拟形式114，且通过扬声器单元116将其回放。

本说明书所公开的有效的帧擦除隐蔽方法的非限制性说明性实施例可用于基于窄带或宽带线性预测的编解码器。公开了此说明性实施例，其涉及基于由国际电信联盟(ITU)所标准化的建议G.729的嵌入式编解码器[ITU-T建议G.729“Coding of speech at 8 kbit/s using conjugate-structure algebraic-codeexcited linear-prediction(CS-ACELP)”Geneva，1996]。

基于G.729的嵌入式编解码器已由ITU-T在2006年标准化，且被称作建议G729.1[ITU-T Recommendation G.729.1“G.729 based Embedded Variablebit-rate coder:An 8-32 kbit/s scalable wideband coder bitstream interoperablewith G.729”Geneva，2006]。本说明书中所公开的技术已经在ITU-T建议G.729.1中应用。

此处，应理解，有效的帧擦除隐蔽方法的说明性实施例可以用于其它类型的编解码器。例如，本说明书中所呈现的有效的帧擦除隐蔽方法的说明性实施例可由ITU-T用于嵌入式可变比特率编解码器的标准化的候选算法。在该候选算法中，核心层基于类似于AMR-WB(ITU-T建议G722.2)的宽带编码技术。

在下面的章节中，将首先给出CELP和基于G.729的嵌入式编码器和解码器的概览。随后，将公开用来改进编解码器的健壮性的新的方式的说明性实施例。

ACELP编码器的概览

由图2中的编码装置200基于逐块来编码所采样的语音信号，编码装置200被分解为编号从201到211的11个模块。

因此，基于逐块来处理输入语音信号212，也就是说，即前面所提到的被称作帧的L采样块。

参考图2，所采样的输入语音信号212被提供给可选的预处理模块201。预处理模块201可以包括高通滤波器，对于窄带信号，其具有200Hz的截止频率，而对于宽带信号则具有50Hz的截止频率。

预处理的信号由s(n)所表示，其中n＝0、1、2...、L-1，其中L为帧的长度，其典型地为20ms(在8kHz的采样频率下为160个样值)。

信号s(n)被用于在模块204执行LP分析。LP分析是本领域的技术人员公知的技术。在该说明性实施方式中，使用自相关方法。在自相关方法中，典型地，首先使用具有长度为30-40ms量级的汉明窗，而为信号s(n)加窗。从加窗信号计算自相关(autocorrelation)，并且，使用Levinson-Durbin递归来计算LP滤波器系数a_i，其中i＝1、...、p，并且，其中，p为LP阶数，典型地，其在窄带编码中为10，而在宽带编码中为16。参数a_i为LP滤波器的传递函数A(z)的系数，其由下面的关系给出:

A (z) = 1 + Σ_{i = 1}^{p} a_{i} z^{- i}

对于本领域的技术人员而言，LP分析也被认为是公知的，因此，在本说明书中将不做进一步的描述。

模块204还执行LP滤波器系数的量化和插值。LP滤波器系数首先被变换到更适合于量化和插值目的的另一等价域(equivalent domain)。线谱对(LSP)和immitance谱对(ISP)域是两个可以有效执行量化和插值的域。在窄带编码中，使用分割或多级量化、或者它们的组合，10个LP滤波器系数a_i可以18至30比特的级数被量化。插值的目的是使得对按照每一子帧更新LP滤波器系数，在每帧将它们传送一次，这将改进编码器性能，而无需增加比特率。对于本领域的技术人员而言，LP滤波器系数的量化和插值也被认为是公知的，因此，在本说明书中将不做进一步的描述。

下面各段落将描述在子帧的基础上执行的编码操作的剩余部分。在该说明性实施方式中，20ms的输入帧被分割为4个5ms的子帧(在采样频率8kHz下的40个样值)。在下面的描述中，滤波器A(z)表示子帧的非量化插值LP滤波器，滤波器

表示子帧的量化插值LP滤波器。在每一个子帧，将该滤波器

提供给多路复用器213，用于通过通信信道(未示出)传输。

在合成分析(analysis-by-synthesis)编码器中，通过在知觉加权域(perceptually weighted domain)中最小化输入语音信号212和合成语音信号之间的均方差，而搜索最优音调和创新参数。响应于信号s(n)，在知觉加权滤波器205中计算加权信号s_w(n)。下面的关系给出用于知觉加权滤波器205的传递函数的示例:

W(z)＝A(z/y₁)/A(z/y₂)，其中，0<y₂<y₁≤1

为了简化音调分析，首先，在开环音调搜索模块206中，根据加权语音信号s_w(n)估计开环音调滞后(lag)T_OL。随后，在子帧的基础上、在闭环音调搜索模块207中执行的闭环音调分析将被限制在开环音调滞后T_OL周围，这将明显地降低LTP(Long Term Prediction，长期预测)参数T(音调滞后)和b(音调增益)的搜索复杂度。通常是每10ms(两个子帧)，使用本领域的技术人员公知的技术，在模块206中执行一次开环音调分析。

首先，计算用于LTP(长期预测)分析的目标向量x。这通常是通过从加权的语音信号s_w(n)中减去加权合成滤波器

的零输入响应s₀。响应于来自LP分析、量化和插值模块204的量化插值LP滤波器

以及响应于LP滤波器A(z)和

而存储于存储器更新模块211中的加权的合成滤波器

的初始状态、以及激励向量u，通过零输入响应计算器208来计算零输入响应s₀。该操作对于本领域的技术人员而言是公知的，因此，在本说明书中将不进一步的描述。

使用来自模块204的LP滤波器A(z)和

的系数，在冲激响应生成器209中计算加权的合成滤波器

的N维冲激响应向量h。并且，该操作对于本领域的技术人员而言也是公知的，因此在本说明书中将不作进一步的描述。

在闭环音调搜索模块207中计算闭环音调(或者音调码本)参数b和T，这使用目标向量x、冲激响应向量h、以及开环音调滞后T_OL作为输入。

该音调搜索包括寻找最小化在目标向量x和过去激励的按比例滤波版本之间的加权的音调预测均方差的最佳音调滞后T和增益b，例如:e＝‖x-by‖²。

更具体地，在该说明性实施方式中，音调(音调码本或者自适应码本)搜索由三(3)个阶段组成。

在第一阶段中，响应于加权的语音信号s_w(n)，在开环音调搜索模块206中估计开环音调滞后T_OL。正如前面的描述中所指示的，通常，使用本领域的技术人员公知的技术，每10ms(两个子帧)执行一次该开环音调分析。

在第二阶段中，在闭环音调搜索模块207中，向搜索准则C搜索所估计的开环音调滞后T_OL周围的整数音调滞后(通常在±5)，这将显著地简化搜索过程。以下给出搜索准则C的示例:

C = \frac{x^{t} y_{T}}{\sqrt{y_{T}^{t} y_{T}}},

其中，t表示向量转置。

一旦在第二阶段中找到最优整数音调滞后，则利用搜索准则C，搜索的第三阶段(模块207)测试该最优整数音调滞后周围的部分(fraction)。例如，ITU-T建议G.729使用1/3子采样分解(sub-sample resolution)。

编码该音调码本索引T，并通过通信信道(未示出)将其传送到多路复用器213。量化音调增益b，并将其传送到多路复用器213。

一旦确定音调，或LTP(长期预测)参数b和T，则下一步骤是:利用图2中的创新激励搜索模块210来搜索最优创新激励。首先，通过减去LTP贡献，而更新该目标向量x:

x′＝x-by_T

其中，b是音调增益，且y_T为经滤波的音调码本向量(在延迟T上的过去激励与冲激响应h卷积)。

在创新码本中执行CELP中的创新激励搜索过程，以寻找最优激励码向量c_k和增益g，这将最小化目标向量x′和码向量c_k的按比例滤波版本之间的均方差E，例如:

E＝‖x′-gHc_k‖²

其中，H为从冲激响应向量h导出的下三角卷积矩阵。向多路复用器213提供对应于找到的最优码向量c_k和增益g的创新码本的索引k，以便通过通信信道传送。

在说明性实施方式中，所使用的创新码本是动态码本，其包括自适应预滤波器F(z)所遵循的代数码本，根据1995年8月22日授权给Adoul等人的美国专利5,444,816，为了改进合成语音质量，自适应预滤波器F(z)提高特定的谱分量。在该说明性实施方式中，如1995年8月22日出版的美国专利号5,444,816(Adoul等人)、1997年12月17日授权给Adoul等人的美国专利号5,699,482、1998年5月19日授权给Adoul等人的美国专利号5,754,976、以及1997年12月23日的美国专利号5,701,392(Adoul等人)中所描述的那样，利用代数码本，在模块210中执行创新码本搜索。

ACELP解码器的概览

图3中的语音解码器300展示在数字输入322(向多路分解器317输入比特流)与输出采样语音信号s_out之间所执行的各个步骤。

多路分解器317从由数字输入信道接收的二进制信息(输入比特流322)中提取合成模型参数。对于每个所接收的二进制帧，所提取的参数是:

-量化、插值的LP系数其也被称作每帧产生一次的短期预测参数(STP)；

-长期预测(LTP)参数T和b(对于每个子帧)；以及

-创新码本索引k和增益g(对于每个子帧)。

正如将在下文解释的那样，基于这些参数合成当前的语音信号。

创新码本318响应于索引k，以产生创新码向量c_k，其由放大器324通过解码增益g而被缩放。在说明性实施方式中，如上所述的美国专利号5,444,816、5,699,482、5,754,976和5,701,392中所提到的创新码本将被用于产生创新码向量c_k。

通过将音调延迟T应用于音调码本301以产生音调码向量，从而产生缩放的音调码向量bv_T。随后，由放大器326通过音调增益b放大音调码向量v_T，以产生缩放的音调码向量bv_T。

通过加法器320计算激励信号u为:

u＝gc_k+bv_T

使用存储于存储器303的激励信号u的过去值来更新音调码本301的内容，以保持编码器200和解码器300之间的同步。

经由具有形式的LP合成滤波器306，通过对激励信号u滤波而计算合成的信号s′，其中，

为当前子帧的量化插值LP滤波器。正如在图3中可见的，向LP合成滤波器306提供来自多路分解器317的线325上的量化插值LP系数以相应地调节LP合成滤波器306的参数。

经由后处理器307对向量s′滤波，以获得输出采样语音信号s_out。典型地，后处理包括短期后滤波、长期后滤波，以及增益缩放(scaling)。其也可以包括高通滤波，以移除不想要的低频。后滤波也是本领域的技术人员的公知常识。

基于G.729的嵌入式编码的概览

G.729编解码器是基于上面所解释的代数CELP(ACELP)编码范例的。由表1给出在8kbit/s时的G.729编解码器的比特分配。

表1 在8kbit/s时G.729中的比特分配

ITU-T建议G.729运行在10ms帧(在8kHz采样率上的80个样值)。在每帧将LP参数量化且传送一次。G.729帧被分割为两个5ms子帧。在第一子帧中使用8比特、而在第二子帧中使用5比特(相对于第一子帧的延迟)，来量化音调延迟(或自适应码本索引)。每子帧联合使用7比特来量化音调和代数码本增益。使用17比特代数码本来表示创新或稳态(tationary)的码本激励。

基于核心G.729编解码器构建嵌入式编解码器。嵌入式编码、或分层编码包括核心层和用于增强的质量或增强的编码带宽的附加层。网络可以按需丢弃对应于上层的比特流(在一些链路具有较低的可用比特率的拥塞或者多播的情况下)。解码器可以基于其接收到的层而重构信号。

在说明性实施方式中，核心层L1包括8kbit/s的G.729。第二层L2提供附加的4kbit/s，以便提高在R2＝L1+L2＝12kbit/s的比特率上的窄带质量。2kbit/s的上面的十(10)层中每层都被用于获取宽带编码信号。L3至L12的10层分别对应于14、16、......和32kbit/s的比特率。因此，对于14kbit/s和更高的比特率，将嵌入式编码器作为宽带编码器操作。

例如，该编码器在前两层(通过添加第二代数码本而修改的G.729)中使用预测编码(CELP)，并随后在频域中量化最先几层的编码误差。使用MDCT(Modified Discrete Cosine Transform，修改的离散余弦变换)来将信号映射到频域。使用可缩放代数向量量化，来量化该MDCT系数。为了增加音频带宽，参数编码被应用于高频。

编码器运行在20ms的帧，并且，需要5ms的预估用于LP分析窗。具有50％重叠的MDCT需要附加的20ms预估，这可被应用于编码器或解码器处。例如，在解码器处使用MDCT预估，这将导致如下面所解释的改进的帧擦除隐蔽。编码器在32kbps上产生输出，这在各自包含640比特的20ms帧中转换。在嵌入层中安排每帧中的比特。层1具有160比特，其代表8kbps下的标准G.729的20ms(对应于两个G.729帧)。层2具有80比特，其代表附加的4kbps。随后，每个附加层(层3至12)加上2kbps，直到32kbps。

图4中显示嵌入式编码器的示例的框图。

以16kHz采样的原始宽带信号x(401)，首先，在模块402中，将其分割为两个频带:0-4000Hz和4000-8000Hz。在图4的例子中，使用具有64个系数的QMF(Quadrature Mirror Filter，正交镜像滤波器)滤波器组来实现频带分割。该操作对于本领域的技术人员而言是公知的。在频带分割之后，获得两个信号，一个覆盖0-4000Hz的频带(低频带)，而另一个覆盖4000-8000Hz的频带(高频带)。在模块402中，由因子2对这两个频带中的每个中的信号进行下采样(downsample)。这在8kHz的采样频率下产生两个信号:用于低频带的x_LF(403)、以及用于高频带的x_HF(404)。

低频带信号x_LF被馈送到G.729编码器的修改版本405中。该修改版本405首先在8kbps上产生标准的G.729比特流，其为层1构建比特。注意，编码器运行于20ms的帧，因此，层1的比特对应于两个G.729帧。

随后，将G.729编码器修改为包括第二创新代数码本，以增强低频带信号。该第二码本等同于G.729中的创新码本，且每5ms子帧需要17比特，以编码该码本脉冲(每20ms帧68比特)。使用第一和第三子帧中的3个比特、以及第二和第四子帧中的2个比特(每帧10比特)，相对于第一码本增益而量化第二代数码本的增益。使用2个比特来发送分类信息，以在解码器处改进隐蔽。这为层2产生68+10+2＝80比特。通过减去加权语音域中的G.729创新码本的贡献，而获得用于该第二阶段创新码本的目标信号。

通过将标准G.729的激励与附加的创新码本的创新激励相加(缩放的创新和自适应码向量的相加)，而获得所修改的G.729编码器405的合成信号

，且将该加强的激励通过常用的G.729合成滤波器。如果解码器只从比特流中接收层1和层2，则这就是解码器将要产生的信号。注意，只使用G.729激励来更新自适应(或音调)码本内容。

层3将带宽从窄带扩展到宽带质量。这是通过将参数编码(模块407)应用到高频分量x_HF而完成的。只计算并为该层传送x_HF的谱包络和时域包络。带宽扩展需要33比特。根据本发明，该层中其余7比特被用于传送相位信息(声门脉冲位置)，以在解码器处改进帧擦除隐蔽。在下面的描述中将更加细致地解释这点。

随后，根据图4，在模块408中，将来自加法器466的编码误差

与高频信号x_HF均映射到频域。具有50％重叠的MDCT被用于该时-频映射。这可以通过使用两个MDCT来执行，其中每个频带一个MDCT。在MDCT之前，首先可由操作符(-1)ⁿ对高频带信号进行谱折叠，以使得为了量化目的，而将来自所述两个变换的MDCT系数在一个向量中结合。随后，在模块409中，以与3GPP AMRWB+音频编码器(3GPP TS 26.290)中的FFT(快速傅里叶变换)的量化相似的方式，使用可缩放代数向量量化来量化该MDCT系数。当然，可应用其它形式的量化。该谱量化的总比特率为18kbps，这将计入到每20ms帧360比特的比特预算中。在量化之后，在模块410中，对应的比特按2kbps的步阶分层，以形成层4至12。因此，每个2kbps层包含每20ms帧40比特。在一个说明性实施例中，在层4中可以保留5比特，以便传送能量信息，以在出现帧擦除的情况下改进解码器隐蔽和收敛。

相比于核心G.729编码器，算法扩展可被总结如下:1)第二次重复G.729的创新码本(层2)；2)应用参数编码来扩展带宽，其中，仅仅计算且量化谱包络和时域包络(增益信息)(层3)；3)每20ms计算MDCT，且使用可缩放代数VQ(Vector Quantization，向量量化)将其谱系数量化为8维块；以及4)应用比特分层例程，以将来自代数VQ的18kbps流格式化为各自2kbps的层(层4至12)。在一个实施例中，可在层2(2比特)、层3(7比特)和层4(5比特)中传送14比特的隐蔽和收敛信息。

图5是嵌入式解码器500的示例的框图。在每个20ms帧中，解码器500可接收从8kbps直至32kbps的任何所支持的比特率。这意味着:解码器操作是以在每帧中所接收的比特，或层的数量为条件的。在图5中，假定在解码器上，至少已接收到层1、2、3和4。下面将描述较低比特率的情形。

在图5的解码器中，首先，将所接收的比特流501分离为如由编码器产生的比特层(模块502)。层1和2形成对修改的G.729解码器503的输入，这为较低频带(0-4000Hz，在8kHz下采样)产生合成信号

可以回想:层2实质上包含具有与G.729创新码本相同的结构的第二创新码本的比特。

随后，来自层3的比特形成对参数解码器506的输入。该层3比特给出高频带(4000-8000Hz，在8kHz下采样)的参数描述。具体地，层3比特描述20ms帧的高频带谱包络连同时域包络(或增益信息)。参数解码的结果是高频带信号的参数近似，在图5中被称作x_HF。

随后，来自层4及其以上的比特形成逆量化器504(Q^-1)的输入。逆量化器504的输入是一组量化的谱系数。这些量化的系数形成逆变换模块505(T^-1)的输入，尤其是具有50％重叠的逆MDCT。逆MDCT的输出是信号

该信号

可被看作是低频带中、且连同量化的高频带(如果在给定帧中任意比特被分配给高频带)中的修改的G.729编码器的量化编码误差。逆变换模块505(T^-1)被实现为两个逆MDCT，随后，

将包括两个分量，即，代表低频分量的

以及代表高频分量的

随后，在组合器507中，形成修改的G.729编码器的量化编码

误差的分量

与

组合，以形成低频带合成

以相同的方式，在组合器508，将形成量化的高频带的分量

与高频带

的参数近似相组合，以形成高频带合成经由合成QMF滤波器组509来处理信号

和

以形成在16kHz采样率下的总合成信号

。

在未接收到层4及其以上的情况中，则

为零，且组合器507和508的输出与它们的输入相等，也就是

和x_HF。如果只接收到层1和层2，则该解码器仅需要应用该修改的G.729解码器来产生信号

高频带分量将为零，且在16kHz(如果需要)上的上采样信号将仅仅具有低频带中的内容。如果只接收到层1，则解码器仅需要应用G.729解码器来产生信号

健壮的帧擦除隐蔽

在数字语音通信系统中，帧的擦除对于合成的语音质量具有主要的效果，尤其是当运行于无线环境和分组交换网络时。在无线蜂窝系统中，所接收的信号的能量可以展现频繁的严重的衰落，从而导致高比特错误率，并且，这在小区边界将变得更加明显。在这种情况下，信道解码器无法校正位于所接收的帧中的误差，结果，在信道解码器之后通常所使用的误差检测器将宣告该帧被擦除。在基于分组网络的语音应用(例如网络电话(VoIP))中，语音信号被分组化，其中，通常是在每个分组中放置20ms帧。在分组交换通信中，如果分组的数量变得非常大，则在路由器处可能发生分组丢失，或者，分组可能在非常长的延迟之后到达接收器，并且，如果其延迟大于接收器端的抖动缓冲区的长度，则该分组应当被宣告为丢失。在这些系统中，编解码器通常要经受3％到5％的帧擦除率。

基本上，帧擦除(FER)处理的问题有两部分。首先，当擦除帧指示器到达时，必须通过使用前一帧中所发送的信息、以及通过估计丢失帧中的信号演化，而生成该丢失帧。估计的成功不但依赖于隐蔽策略，而且依赖于语音信号中擦除所发生的位置。第二，当正常操作恢复时，也就是说，当在一块擦除帧(一个或多个)之后、第一个良好帧到达时，必须确保平滑过渡。由于真实的合成与估计的合成可以不同地演化，所以，这并不是一件微不足道的任务。当第一个良好帧到达时，解码器由此与编码器失去同步。主要原因在于，低比特率编码器依赖于音调预测，并且，在擦除帧期间，音调预测器(或者自适应码本)的存储器不再与编码器处的存储器相同。当许多连续帧被擦除时，该问题被放大。至于隐蔽，正常处理恢复的困难依赖于信号的类型，例如，其中发生擦除的语音信号。

通过使隐蔽和正常处理的恢复(进一步恢复)适于发生擦除的语音信号的类型，可以显著地减少帧擦除的负面作用。为了这个目的，有必要将每个语音帧分类。该分类可以在编码器中完成、并被传送。可选地，其可在解码器处估计它。

为了最好的隐蔽和恢复，存在必须仔细控制的语音信号的一些关键特性。这些关键特性是信号能量或者幅度、周期数量、谱包络和音调周期。在有声(voiced)的语音恢复的情况下，通过相位控制可以达到进一步的改进。通过略微增加比特率，可以量化并发送一些辅助参数，以便更好的控制。如果没有附加的带宽可用，则可以在解码器处估计参数。通过这些被控制的参数，可以显著地改进帧擦除隐蔽和恢复，尤其是通过将所解码信号的收敛提高到编码器处的实际信号，并且减轻当正常处理恢复时的编码器与解码器之间不匹配的影响。

这些想法已经在参考文献[1]中的PCT专利申请中公开。依照本发明的非限制性的说明性实施例，如下面将要公开的那样，通过更好地同步音调码本(或自适应码本)中的声门脉冲，而进一步加强隐蔽和收敛。这可以通过使用或不使用所接收的相位信息来执行，例如，所接收的相位信息对应于音调脉冲或声门脉冲的位置。

在本发明的说明性实施例中，公开了用于有效地帧擦除隐蔽的方法、以及用于在解码器处改进跟随擦除帧的帧中的收敛的方法。

根据说明性实施例，帧擦除隐蔽技术已被应用于上面所描述的基于G.729的嵌入式编解码器。在下面的描述中，该编解码器将用作FER隐蔽方法的实现的示例架构。

图6给出了基于图2中的CELP编码器模型的嵌入式编码器600的层1和层2的简化框图。在该简化框图中，闭环音调搜索模块207、零输入响应计算器208、冲激响应计算器209、创新激励搜索模块210、以及存储器更新模块211被分组为闭环音调和创新码本搜索模块602。此外，在层2中的第二步码本搜索也被包括在模块602中。执行该分组，以简化与本发明中说明性实施例相关的模块的介绍。

图7是图6中框图的扩展，其中，已加入与本发明中非限制性的说明性实施例相关的模块。在这些加入的模块702至707中，计算、量化且传送附加的参数，其目的在于:在擦除帧之后，改进FER隐蔽以及解码器的收敛(convergence)和恢复。在该说明性实施例中，这些隐蔽/恢复参数包括信号分类、能量、以及相位信息(例如，前一帧中最后的声门脉冲的估计位置)。

在下面的描述中，将详细给出这些附加隐蔽/恢复参数的计算和量化，并且，其通过参考图7将变得更加清楚。在这些参数之中，将更加详细地涉及信号分类。在接下来的章节中，将解释使用了这些附加的隐蔽/恢复参数的有效的FER隐蔽。

用于FER隐蔽和恢复的信号分类

在存在擦除帧时、为了信号重构而使用语音分类的基本思想包括这样的事实:理想的隐蔽策略对于准稳态的语音段、以及具有快速变化特性的语音段来说是不同的。非稳定语音段中的擦除帧的最佳处理可被总结为语音编码参数向着环境噪声特性的快速收敛，在准稳态信号的情况下，语音编码参数并不显著变化，且在衰减之前的几个相邻的擦除帧期间，能够保持几乎不变。并且，用于跟随帧的擦除块的信号恢复的最优方法随着语音信号的分类而变化。

语音信号可被粗略地分类为有声的、无声的和停顿(pause)。

有声语音包括许多周期分量，且可被进一步划分为以下各类:有声初动(voiced onset)、有声段、有声过渡和有声偏移。有声初动被定义为在停顿或无声段之后的有声语音段的开始。在有声段期间，从一帧到另一帧，语音信号参数(谱包络、音调周期、周期和非周期分量的比、能量)变化缓慢。通过有声语音的快速变化表现有声过渡，例如元音之间的过渡。有声偏移的特征在于能量的逐渐降低、以及有声段最后的发声。

信号的无声(unvoiced)部分的特征在于丢弃周期分量，其可被进一步划分为:不稳定的帧，其中，能量和频谱快速变化；以及稳定的帧，其中这些特性保持相对稳定。

剩下的帧被分类为静音(silence)。静音帧包括所有不具有活动语音的帧，也就是，如果存在背景噪声，则也只有噪声的帧。

不是所有的上述分类都需要分离的处理。因此，为了错误隐蔽技术的目的，一些信号分类被一起分组。

在编码器处的分类

当在比特流中存在可用带宽，以包括分类信息时，可在编码器处完成该分类。这具有很多优势。一个是在语音编码器中经常有预估。该预估允许在估计随后的帧中的信号的演化，且因此可以通过考虑未来的信号行为，而完成该分类。一般地，预估越长，分类越好。进一步的优势在于复杂度减少，这是因为，帧擦除隐蔽的大多数信号处理必需，语音编码无论如何也是需要的。最后，工作于原始信号，而不是工作于合成信号，也是一个优势。

考虑隐蔽和恢复策略而完成帧分类。换句话说，以这样的方式分类任意帧:如果随后帧丢失，则隐蔽可以是最优的，或者，如果先前帧丢失，则恢复可以是最优的。用于FER处理的一些类无需被传送，这是因为，它们可以在解码器处被明确地推断出来。在当前说明性实施例中，使用5个不同的类，并被定义如下:

·UNVOICED(无声)类包括所有无声语音帧、以及所有不具有活动语音的帧。如果有声偏移帧末端趋向于无声，有声偏移帧也可以被分类为UNVOICED，并且，在其丢失的情况下，为无声帧所设计的隐蔽可用于下一帧。

·UNVOICED TRANSITION(无声过渡)类包括具有在末端可能的有声初动的无声帧。然而，该初动仍旧太短、或者未构建为足以使用为有声帧设计的隐蔽。该UNVOICED TRANSITION类只能跟随被分类为UNVOICED或UNVOICED TRANSITION的帧。

·VOICED TRANSITION(有声过渡)类包括具有相对弱的有声特性的有声帧。典型地，那些帧是具有快速变化特性(元音之间的过渡)、或有声偏移持续到整个帧的有声帧。VOICED TRANSITION类的帧只能跟随被分类为VOICEDTRANSITION、VOICED或ONSET的帧。

·VOICED(有声)类包括具有稳定特性的有声帧。该类只能跟随被分类为VOICED TRANSITION、VOICED或ONSET的帧。

·ONSET(初动)类包括所有跟随分类为UNVOICED或UNVOICEDTRANSITION类的帧的具有稳定特性的有声帧。被分类为ONSET的帧对应于有声初动帧，其中，初动已经被构建地足以使用为丢失的有声帧设计的隐蔽。在ONSET之后的用于帧擦除隐蔽技术与在VOICED类之后的相同。区别在于恢复策略。如果ONSET类的帧丢失(也就是，在擦除之后，良好的VOICED帧到达，但是在擦除之前的最后的良好帧是UNVOICED)，一种特别的技术可被用于人工重构所丢失的初动。在图6中可看到这样的情形。在下面的描述中，将详细描述该人工初动重构技术。另一方面，如果在擦除之后、ONSET良好帧到达，且在擦除之前，最后的良好帧是UNVOICED，则由于初动并未丢失(尚未在丢失帧中)，所以，无需该特殊处理。

在图8中概述分类状态图。如果可用带宽是足够的，则在编码器中完成分类，并使用2比特传送。就像从图8中所看到的，无声过渡804和有声过渡806可以被分组在一起，这是因为，在解码器处，它们可以被明确地区分(无声过渡804只能跟随无声802或无声过渡804帧，有声过渡806只能跟随初动810、有声808或有声过渡806帧)。在该说明性实施例中，在编码器处执行分类，且使用在层2中传送的2比特对该分类进行量化。因此，如果至少接收到层2，则解码器分类信息用于改进隐蔽。如果只是接收到内核层1，则在解码器处执行分类。

下述参数将用于在编码器处分类:正规化相关r_x、频谱倾斜测量e_t、信噪比snr、音调稳定性计数器pc、当前帧末端的信号的相对的帧能量E_s、以及过零计数器z_c。

下面将解释用于对信号分类的这些参数的计算。

正规化相关r_x是作为图7中开环音调搜索模块206的一部分而计算的。该模块206通常每10ms输出开环音调估计(每帧两次)。此处，其也被用于输出正规化的相关测量。在开环音调延迟的当前加权语音信号sw(n)和过去加权语音信号上计算这些正规化相关。平均相关r_x被定义为:

r_x＝0.5(r_x(0)+r_x(1)) (1)

其中，r_x(0)和r_x(1)分别为前半帧和后半帧的正规化相关。正规化相关r_x(k)被计算如下:

r_{x} (k) = \frac{Σ_{i = 0}^{L' - 1} x (t_{k} + i) x (t_{k} + i - T_{k})}{\sqrt{Σ_{i = 0}^{L' - 1} x^{2} (t_{k} + i) Σ_{i = 0}^{T - 1} x^{2} (t_{k} + i - T_{k})}} - - - (2)

使用加权语音信号s_w(n)(作为“x”)计算相关r_x(k)。瞬时(instant)t_k与当前的半帧开始相关，并分别等于0和80个样值。值T_k为最大化互相关

的半帧中的音调滞后。自相关计算L′的长度等于80个样值。在半帧中确定值T_k的另一个实施例中，计算互相关

以及在三个延迟部分20-39、40-79、80-143中搜索对应于最大值的值τ。随后，T_k被设置为τ的值，以最大化方程(2)中的正规化相关。

频谱倾斜测量e_t包括关于能量的频率分布的信息。在该说明性实施例中，在模块703中，将频谱倾斜估计为语音信号的正规化的第一自相关系数(在LP分析期间所获得的第一反射系数)。

由于每帧执行LP分析两次(每10ms G.729帧一次)，所以，作为所述两次LP分析中的第一反射系数的平均值而计算频谱倾斜。也就是:

e_{t} = - 0.5 (k_{1}^{(1)} + k_{1}^{(2)}) - - - (3)

其中，

为半帧j中来自LP分析的第一反射系数。

信噪比(SNR)snr测量利用这样的事实，即:对于一般的波形匹配编码器，对于有声的声音，SNR要高得多。snr参数估计必须在编码器子帧循环的末端进行，且使用以下关系，在SNR计算模块704中为整个帧计算snr参数估计:

snr = \frac{E_{sw}}{E_{e}} - - - (4)

其中，E_sw为当前帧的语音信号s(n)的能量，且E_e为当前帧的语音信号和合成信号之间的误差的能量。

音调稳定性计数器pc评估音调周期的变化。响应于开环音调估计，在信号分类模块705中计算其如下:

pc＝|p₃-p₂|+|p₂-p₁| (5)

p₁、p₂和p₃的值对应于从最后的3个子帧起的闭环音调滞后。

通过模块705计算相对帧能量E_s，其是dB中的当前帧能量和其长期平均值之间的差:

E_s＝E_f-E_lt (6)

其中，帧能量E_f作为以dB为单位的加窗的输入信号的能量:

E_{f} = 10 \log_{10} (\frac{1}{L} Σ_{i = 0}^{L - 1} s^{2} (i) w_{hanning} (i)) - - - (7)

其中，L＝160为帧长度，且w_hanning(i)为汉宁窗的长度L。使用下面的关系在活动语音帧上更新长期平均能量:

E_lt＝0.99E_lt+0.01E_f (8)

最后的参数为过零参数zc，其是通过过零计算模块702在语音信号的一个帧上计算的。在该说明性实施例中，过零计数器zc计数在该间隔期间信号符号从正变为负的次数。

为了使得分类更加健壮，在信号分类模块705中将一起考虑分类参数，而形成品质函数f_m。对于该目的，首先，在0到1之间依比例调节分类参数，以使得无声信号的每个典型参数值转变为0，而有声信号的每个典型参数值转变为1。在它们之间使用线性函数。不妨考虑参数px，使用下式而获得它的缩放版本(scaled version):

p^s＝k_p.p_x+c_p (9)

并且，在0到1之间对其进行截取(clip)(除了在0.5到1之间截取的相对能量)。对于每个参数，已经试验性地找到函数系数k_p和c_p，以使得归因于在存在FER的情况下所使用的隐蔽和恢复技术的信号失真为最小。在表2中总结了在此说明性实施方式中所使用的值:

表2 信号分类参数和它们各自的缩放函数(scaling function)的系数

品质函数(merit function)被定义为:

f_{m} = \frac{1}{7} (2 \cdot {\overset{&OverBar;}{r}}_{x}^{s} + {\overset{&OverBar;}{e}}_{t}^{s} + 1.2 {snr}^{s} + {pc}^{s} + E_{s}^{s} + {zc}^{S}) - - - (10)

其中，上标s指示参数的缩放版本。

随后，如果所缩放的相对能量

等于0.5，则品质函数被缩放1.05，如果

大于0.75，则被缩放1.25。此外，品质函数也被基于检查瞬间相对能量变化和长期相对能量变化之间差异的状态机而导出的因子fE缩放。

将相对能量变化参数E_var更新为:

E_var＝0.05(E_s-E_prev)+0.95E_var

其中，E_prev为来自前一帧的E_s的值。

If(|E_s-E_prev|<(|E_var|+6))AND(class_old＝UNVOICED)f_E＝0.8

Else

If((E_s-E_prev)>(E_var+3))AND(class_old＝UNVOICED or TRANSITION)f_E＝1.1

Else

If((E_s-E_prev)<(E_var-5))AND(class_old＝VOICED or ONSET)f_E＝0.6。

其中，class_old是前一帧的类。

随后，使用品质函数fm且遵循表格3中所总结的规则来执行分类:

表3 编码器处的信号分类规则

在编码器处出现声音活动检测(VAD)的情况下，VAD标志可用于分类，这是因为，其直接地指示:如果它的值指示不活动的语音(也就是，帧直接被分类为无声)，则不需要进一步的分类。在该说明性实施例中，如果相对能量小于10dB，则该帧直接被分类为无声。

解码器处的分类

如果应用不允许传送类信息(没有附加的比特可被传输)，则也可在解码器处执行分类。在该说明性实施例中，在层2中传送分类比特，因此，对于其中只接收核心层1的情况，也在解码器处执行分类。

下面的参数将用于解码器处的分类:正规化相关r_x、频谱倾斜测量e_t、音调稳定性计数器pc、当前帧末端的信号的相对帧能量E_s、以及过零计数器Z_c。

下面解释用于分类信号的这些参数的计算。

基于合成信号，在帧的末端计算正规化相关r_x。使用最后的子帧的音调滞后。

正规化相关r_x是按照音调同步计算的，如下:

r_{x} = \frac{Σ_{i = 0}^{T - 1} x (t + i) x (t + i - T)}{\sqrt{Σ_{i = 0}^{T - 1} x^{2} (t + i) Σ_{i = 0}^{T - 1} x^{2} (t + i - T)}} - - - (11)

其中，T为最后子帧的音调滞后，且t＝L-T，以及L为帧大小。如果最后子帧的音调滞后大于3N/2(N为子帧大小)，则T被设置为最后两个子帧的平均音调滞后。

使用合成语音信号s_out(n)计算相关r_x。对于低于子帧(40个样值)大小的音调滞后，在瞬时t＝L-T和t＝L-2T，两次计算正规化相关，且作为两次计算的平均值给出r_x。

频谱倾斜参数e_t包含关于能量的频率分布的信息。在该说明性实施例中，解码器处的频谱倾斜被估计为合成信号的第一正规化自相关系数。基于最后3个子帧，将其计算为:

e_{t} = \frac{Σ_{i = N}^{L - 1} x (i) x (i - 1)}{Σ_{i = N}^{L - 1} x^{2} (i)} - - - (12)

其中x(n)＝s_out(n)为合成信号，N是子帧大小，以及L为帧大小(在该说明性实施例中，N＝40，且L＝160)。

音调稳定性计数器pc估计音调周期的变化。在解码器处，基于下式计算其:

pc＝|p₃+p₂-p₁-p₀| (13)

值p₃、p₂、p₁、p₀对应于来自4个子帧的闭环音调滞后。

作为以dB为单位的当前的帧能量与其长期平均能量之间的差，计算相对的帧能量E_s:

E_s＝E_f-E_lt (14)

其中，帧能量E_f是在帧的末端同步的音调上计算的以dB为单位的合成信号的能量:

E_{f} = 10 \log_{10} (\frac{1}{T} Σ_{i = 0}^{T - 1} s_{out}^{2} (i + L - T)) - - - (15)

其中，L＝160为帧长度，而T则是最后两个子帧的平均音调滞后。如果T小于子帧大小，则将T设置为2T(使用两个音调周期为短的音调滞后所计算的能量)。

使用下面的关系在活动的语音帧上更新长期平均能量:

E_lt＝0.99E_lt+0.01E_f (16)

最后的参数为在合成信号的一个帧上所计算的过零参数zc。在该说明性实施例中，该过零计数器zc计数在该间隔期间、信号符号从正变为负的次数。

为了使得该分类更加健壮，一起考虑这些分类参数，以形成品质函数f_m。为了这个目的，首先由线性函数缩放分类参数。不妨考虑参数p_x，使用下式获得其缩放版本:

p^s＝k_p·p_x+c_p (17)

在0到1之间截取缩放音调相干参数，如果它是正的，则将正规化相关参数缩放为两倍。已经试验性地为每个参数找到函数系数k_p和c_p，以使得归因于在存在FER的情况下所使用的隐蔽和恢复技术的信号失真为最小。在表4中总结了在此说明性实施方式中所使用的值:

表4 在解码器处的信号分类参数，以及它们各自的标量函数的系数

品质函数被定义为:

f_{m} = \frac{1}{6} (2 \cdot {\overset{&OverBar;}{r}}_{x}^{s} + {\overset{&OverBar;}{e}}_{t}^{s} {+ pc}^{s} + E_{s}^{s} + {zc}^{S}) - - - (18)

其中，上标s指示参数的缩放版本。

随后，使用品质函数f_m，遵循表5中所总结的规则，执行分类，

表5 解码器处的信号分类规则

前一个帧的类	规则	当前帧的类
前一个帧的类	规则	当前帧的类	初动	f_m≥0.63	有声过渡

有声有声过渡人工初动
有声有声过渡人工初动				0.39≤f_m<0.63	有声过渡
	f_m<0.39	无声		0.39≤f_m<0.63	有声过渡
	f_m<0.39	无声	无声过渡无声	f_m>0.56	初动
	0.56≥f_m>0.45	无声过渡	无声过渡无声	f_m>0.56	初动
	0.56≥f_m>0.45	无声过渡		f_m≤0.45	无声

用于FER处理的语音参数

当FER发生时，有几个参数需要仔细地控制，以避免令人生厌的不自然。如果可以传送几个额外的比特，则可以在编码器估计、量化和传送这些参数。否则，可以在解码器处估计它们中的一些。这些参数可以包括信号分类、能量信息、相位信息，以及声音信息。

能量控制的重要性主要是当在所擦除的帧块之后恢复正常操作时表明其自身。由于大多数语音编码器利用预测，所以，在解码器处无法适当地估计合适的能量。在有声语音段中，不正确的能量能够持续几个连续的帧，当该不正确的能量增加时，这是非常令人生厌的。

不但由于长期预测(音调预测)而为有声语音控制能量，而且也为无声语音控制能量。此处的原因在于:通常在CELP型编码器中所使用的创新增益量化器的预测。在无声段期间的误差的能量可以引起令人生厌的高频波动。

相位控制也是应当考虑的一部分。例如，相关于声门脉冲位置而发送相位信息。在[1]中的PCT专利申请中，相位信息作为帧中的第一声门脉冲而传送，且被用于重构丢失的有声初动。相位信息的进一步用途在于:重新同步自适应码本的内容。这改进了被隐蔽的帧和跟随的帧中解码器的收敛，且显著地改进了语音质量。依赖于所接收的相位信息(接收的和未接收的)以及解码器处的可用延迟，用于重新同步自适应码本(或者过去激励)的过程可以通过多种方式执行。

能量信息

在LP的残差域(residual domain)或语音信号域中，可以评估并发送能量信息。在残差域中发送该信息具有不考虑LP合成滤波器的影响的优势。在几个丢失的有声帧之后的有声恢复的情况下(在有声语音段期间发生FER时)，这是特别有效的。在有声帧之后FER到达时，在具有一些衰减策略的隐蔽期间，典型地，使用最后的良好帧的激励。当在擦除之后、新的LP合成滤波器与第一个良好帧到达时，在激励能量和LP合成滤波器的增益间可能出现失配。新的合成滤波器可以产生合成信号，其能量与最后的合成擦除帧的能量有很大不同，也不同于原始信号能量。由于这个原因，在信号域中计算并量化能量。

在图7的能量估计和量化模块706中计算且量化能量Eq。在该非限制性说明性实施例中，在0dB至96dB的范围内，以3.1dB为步阶使用5比特均匀量化器。通过下式中的整数部分给出量化索引:

i = \frac{10 \log_{10} (E + 0.001)}{3.1} - - - (19)

其中，索引的范围为0≤i≤31。

E是用于分类为有声或初动的帧的最大采样能量、或用于其它帧的每样值的平均能量。对于有声或初动帧，在帧的末端与音调同步地计算最大采样能量，计算如下:

E = \max_{i = L - t_{E}}^{L - 1} (s^{2} (i)) - - - (20)

其中，L为帧长度，且信号s(i)代表语音信号。如果音调延迟大于子帧大小(在该说明性实施例中为40个样值)，则t_E等于最后子帧的取整(rounded)的闭环音调滞后。如果音调延迟短于40个样值，则t_E被设置为最后子帧的取整的闭环音调滞后的两倍。

对于其它类，E为后半个当前帧的每采样的平均能量，也就是说，t_E被设置为L/2，且计算E为:

E = \frac{1}{t_{E}} Σ_{i = L - t_{E}}^{L - 1} s^{2} (i) - - - (21)

在该说明性实施例中，编码器处的本地合成信号被用于计算能量信息。

在该说明性实施例中，在层4中发送能量信息。因此，如果接收到层4，则该信息可被用于改进帧擦除隐蔽。否则，在解码器一侧估计能量。

相位控制信息

由于和在前面的部分中所描述的相似的原因，在有声语音的丢失段之后，当恢复时，使用相位控制。在一块所擦除的帧之后，解码器存储器变得和编码器存储器失去同步。为了重新同步解码器，可以发送某种相位信息。作为非限定性示例，可将前一帧中最后的声门脉冲的位置和符号作为相位信息而发送。随后将描述在丢失有声初动之后用于恢复的相位信息。同样地，正如随后将公开的，为了改进正确接收的连续帧中的收敛(减少所传播的误差)，该信息也被用于重新同步擦除帧中的激励信号。

相位信息可以对应于该帧中的第一声门脉冲、或者前一帧中最后的声门脉冲。该选择将依赖于:在解码器处，额外的延迟是否可用。在该说明性实施例中，对于在MDCT重构中的重叠和相加操作，在解码器处，一个帧延迟是可用的。因此，当擦除单个帧时，未来的帧的参数是可用的(由于额外的帧延迟)。在这种情况下，在擦除的帧的末端的最大脉冲的位置和符号是可从未来帧中获得的。因此，音调激励通过将最后的最大脉冲与在未来帧中所接收的位置对齐的方式隐蔽。下面将对其进行更加详细的公开。

在解码器处可能没有额外的延迟可以使用。在这种情况下，当隐蔽擦除的帧时，不使用相位信息。然而，在擦除的帧之后所接收的良好帧中，相位信息被用于在自适应码本的存储器中执行声门脉冲同步。这将改进减少误差传播的性能。

令T₀为最后的子帧的取整的闭环音调滞后。在低通滤波LP残差(residual)上执行最大脉冲的搜索。由下式给出低通滤波的残差:

r_LP＝0.25r(n-1)+0.5r(n)+0.25r(n+1) (22)

声门脉冲搜索和量化模块707通过查找具有最大绝对幅度的样值，而在帧中搜索低通滤波残差的T₀个最后采样之中的最后的声门脉冲τ的位置(τ为相对于帧的末端的位置)。

以下述的方式，使用6比特对最后声门脉冲的位置编码。用于为第一声门脉冲编码的精度依赖于最后的子帧T₀的闭环音调值。这是可能的，原因在于:编码器和解码器均知道该值、且该值不受在一个或几个帧损失之后的误差传播的影响。当T₀小于64时，利用一个样值的精度，对相对于帧的末端的最后的声门脉冲的位置直接编码。当64≤T₀<128时，通过简单的整数除法(也就是，τ/2)，利用两个样值的精度，对相对于帧的末端的最后的声门脉冲的位置直接编码。当T₀≥128时，通过进一步将τ除以2，而采用四个样值的精度对相对于帧的末端的最后的声门脉冲的位置直接编码直接编码。在解码器上执行相反的过程。如果T₀<64，则依照原样使用所接收的量化位置。如果64≤T₀<128，则将所接收的量化位置乘以2、并递增1。如果T₀≥128，则将所接收的量化位置乘以4、并递增2(递增2导致一致分布的量化误差)。

最大绝对脉冲幅度的符号也被量化。其给予相位信息总共7比特。由于在声门脉冲形状中，经常包含具有相反符号的两个大的脉冲，该符号将用于相位的重新同步。忽略该符号可能导致位置中的小的漂移，并减小重新同步过程的性能。

应当注意，可以使用用于量化相位信息的有效方法。例如，相对于从当前帧的第一子帧的音调滞后中估计的位置，可以量化前一帧中最后的脉冲位置(在由音调滞后所延迟的帧中，可以从第一脉冲容易地估计该位置)。

在更多的比特可用的情况下，可以编码声门脉冲的形状(shape)。在这种情况下，可以通过残差信号与可能的脉冲信号、符号(正或负)与位置之间的相关分析，而确定第一声门脉冲的位置。可从在编码器和解码器均知道的脉冲形状的码本中获得脉冲形状，该方法像向量量化那样为本领域的技术人员所公知。随后，编码并向解码器传送第一声门脉冲的形状、符号和幅度。

擦除帧的处理

在ACELP类的编解码器中说明了在该说明性实施例中的FER隐蔽技术。然而，可容易地将它们应用于经由LP合成滤波器，通过滤波激励信号而生成合成信号的任何语音编解码器。该隐蔽策略可被总结为信号能量的收敛、以及对于背景噪声估计参数的谱包络。信号的周期收敛为零。收敛的速度依赖于最后的所接收的良好帧类的参数和连续的擦除帧的数量，并由衰减因子α所控制。对于无声帧，因子α进一步依赖于LP滤波器的稳定性。通常，如果最后所接收的良好帧是在稳定的段内，则收敛是缓慢的，并且，如果该帧是在过渡段内，则收敛是快速的。在表6中总结α的值。

表6 FER隐蔽衰减因子α的值

所接收的最后的良好帧	连续的擦除帧的数量	α
所接收的最后的良好帧	连续的擦除帧的数量	α	有声、初动、人工初动	1	β
	>1	g_P	有声、初动、人工初动	1	β
	>1	g_P	有声过渡	≤2	0.8
	>2	0.2	有声过渡	≤2	0.8
	>2	0.2	无声过渡		0.88
无声	＝1	0.95	无声过渡		0.88

>1

0.5θ+0.4

在表6中，g_P为每帧的平均音调增益，由下式给出:

{\overset{&OverBar;}{g}}_{p} = 0.1 g_{p}^{(0)} + 0.2 g_{p}^{(1)} + 0.3 g_{p}^{(2)} + 0.4 g_{p}^{(3)} - - - (23)

其中，

为子帧i的音调增益。

β的值由下式给出:

β = \sqrt{{\overset{&OverBar;}{g}}_{P}}

范围为0.85≤β≤0.98 (24)

基于相邻的LP滤波器之间的距离测量而计算稳定性因子θ的值。此处，因子θ相关于LSP(Line Spectral Pair，线谱对)距离测量，并且，其范围为0≤θ≤1，其中，更大的θ值对应于更稳定的信号。当在稳定的无声的段内发生隔离的帧擦除时，导致减少的能量和谱包络波动。在该说明性实施例中，稳定性因子θ由下式给出:

θ = 1.25 - \frac{1}{1.4} Σ_{i = 0}^{9} {({LSP}_{i} - {LSPold}_{i})}^{2}

范围为0≤θ≤1 (25)

其中，LSP_i为当前的帧LSP，且LSPold_i为过去的帧LSP。注意到LSP是余弦域(从-1到1)的形式。

在未来帧的分类信息不可用的情况下，该类被设置为与最后所接收的良好帧相同。如果在未来帧中、该类的信息是可用的，则基于未来帧中的类和最后的良好帧中的类估计丢失帧的类。在该说明性实施例中，如果接收到未来帧的层2(未来帧的比特率高于8kbit/s，且未丢失)，则未来帧的类是可用的。如果在最大比特率12kbit/s下操作该编码器，则在解码器处不需要用于MDCT叠加的附加的帧延迟，且实现者(implementer)可选择降低解码器延迟。在这种情况下，将只在过去信息上执行隐蔽。这将被称作低延迟解码器模式(low-delay decoder mode)。

令class_old表示最后的良好帧的类，以及class_new表示未来帧的类，而class_lost表示要被估计的丢失帧的类。

最初，class_lost被设置等于class_old。如果未来帧是可用的，则它的类信息被解码为class_new。随后，class_lost被更新如下:

-如果class_new是有声，且class_old为初动，则class_lost被设置为有声。

-如果class_new是有声，且在最后的良好帧之前的帧的类为初动或者有声，则class_lost被设置为有声。

-如果class_new为无声，且class_old为有声，则class_lost被设置为无声过渡。

-如果class_new为有声或初动，且class_old为无声，则class_lost被设置为SINONSET(初动重构)。

激励的周期性部分的构建

对于类被设置为无声或无声过渡的擦除的帧的隐蔽，不生成激励信号的周期性部分。对于其它类，以下面的方式构建激励信号的周期性部分。

首先，前一帧的最后的音调周期被重复地复制。如果是良好帧之后的第1个擦除帧的情况，则首先对该音调周期进行低通滤波。所使用的滤波器是简单的具有滤波器系数等于0.18、0.64和0.18的3抽头线性相位FIR(有限冲击响应)滤波器。

定义用于选择最后的音调周期、并因此在隐蔽期间使用的音调周期Tc，以使得可以避免或减少音调倍数(multiple)或因数(submultiple)。使用下面的逻辑确定音调周期T_c:

if((T₃<1.8T_s)AND(T₃>0.6T_s))OR(T_cnt≥30)，thenT_c＝T₃，else T_c＝T_s此处，T₃为所接收最后的良好帧的第4个子帧的取整的音调周期，而T_s为具有相干音调估计的最后的稳定的有声帧的第4子帧的取整的预测音调周期。此处，稳定的有声帧被定义为被有声类型的帧(有声过渡、有声、初动)领先的有声帧。在该实施方式中，通过检查闭环音调估计是否被合理地关闭，也就是，最后的子帧音调、第二子帧音调和前一帧中的最后的子帧音调之间的比率是否在间隔(0.7，1.4)内，从而验证音调的相干性。可替换地，如果存在多个丢失的帧，则T₃为最后的隐蔽帧的第4个子帧的取整的估计音调周期。

音调周期T_c的确定意味着:如果在最后的良好帧末端的音调和最后的稳定帧的音调彼此接近，则使用最后的良好帧的音调。否则，该音调被认为是不可靠的，且使用最后的稳定帧的音调，以代替在有声初动处避免误差的音调估计的影响。然而，仅在最后的稳定段在过去并不太远的情况下，该逻辑才是有意义的。因此，定义计数器T_cnt，其限制最后的稳定段的影响的到达。如果T_cnt大于或等于30，也就是，如果自最后的T_s更新起至少有30个帧，则系统性地使用最后的良好帧音调。每次检测到稳定段，T_cnt便被复位为0，且更新T_s。在为整个擦除的块隐蔽期间，周期T_c保持恒定。

对于跟随有除了无声之外的正确接收的帧的擦除的帧，只使用该激励的周期性部分更新激励缓冲器。该更新将在下一帧中用于构建音调码本激励。

由于用于构建激励的音调周期可以不同于编码器处的真实的音调周期，所以，上面所描述的过程可能导致声门脉冲位置的漂移。这将引起自适应码本缓冲器(或者过去的激励缓冲器)与实际的激励缓冲器失去同步。因此，如果在擦除的帧之后接收到良好帧，则音调激励(或自适应码本激励)将具有误差，这将持续几帧，并影响正确接收的帧的性能。

图9是显示在说明性实施例中所描述的激励的周期性部分的隐蔽过程900的流程图，以及图10是显示激励的周期性部分的同步过程1000的流程图。

为了克服这个问题、并改进解码器处的收敛，公开了一种重新同步方法(图9中的900)，其将在隐蔽的帧中最后的声门脉冲的位置调整为与实际的声门脉冲位置相同步。在第一实施方式中，可以基于关于隐蔽帧中的最后的声门脉冲的真实位置、以及将在未来帧中传送的相位信息，而执行重新同步过程。在第二实施方式中，当来自未来帧的信息不可用时，在解码器处估计最后的声门脉冲的位置。

如上所述，通过重复前一帧中最后的音调周期T_c(图9中的操作906)，而构建整个丢失帧的音调激励，其中，T_c在上面被定义。对于第一个擦除的帧(图9中在操作902期间所检测的)，首先使用具有系数0.18、0.64和0.18的滤波器，对音调周期进行低通滤波(图9中的操作904)。其被执行如下:

u(n)＝0.18u(n-T_c-1)+0.64u(n-T_c)+0.18u(n-T_c+1)n＝0、...Tc-1

u(n)＝u(n-T_c)n＝T_c、...L+N-1 (26)

其中，u(n)为激励信号，L为帧大小，以及N为子帧大小。如果这不是第一个擦除的帧，则简单地将所隐蔽的激励构建为:

u(n)＝u(n-T_c) n＝0、...L+N-1 (27)

应当注意到，也为附加的子帧计算所隐蔽的激励，以帮助下面将显示的重新同步。

一旦找到隐蔽的激励，则如下执行重新同步过程。如果未来帧是可用的(图9中的操作908)、且包括声门脉冲信息，则解码该信息(图9中的操作910)。如上所述，该信息包括绝对最大脉冲从该帧的末端开始的位置、及其符号。令该解码位置被表示为P₀，则由下式给出绝对最大脉冲的实际位置:

P_last＝L-P₀

随后，基于低通滤波的激励，确定具有与所解码的符号信息相似的符号的自帧的起始的最大脉冲的位置(图9中的操作912)。换句话说，如果所解码的最大脉冲位置为正，则确定自帧的起始的所隐蔽的激励中的最大正脉冲，否则，确定负最大脉冲。令T(0)表示所隐蔽的激励中的第一最大脉冲。由下式给出其它最大脉冲的位置(图9中的操作914):

T(i)＝T(0)+iT_c i＝1、...N_p-1 (28)

其中，N_p为脉冲的数量(包括未来帧的第一脉冲)。

通过搜索最接近实际脉冲P_last的脉冲T(i)，而发现帧中最后的隐蔽的脉冲的脉冲位置中的误差(图9中的操作916)。如果该误差由下式给出:

T_e＝P_last-T(k)，其中k为最接近P_last的索引

如果T_e＝0，则不需要重新同步(图9中的操作918)。如果T_e的值为正(T(k)<P_last)，则T_e个样值需要被插入(图10中的操作1002)。如果T_e的值为负(T(k)>P_last)，则T_e个样值需要被移除(图10中的操作1002)。此外，只有如果T_e<N、且T_e<N_p×T_diff，则执行重新同步，其中N为子帧大小，且T_diff为T_c和未来帧中第一子帧的音调滞后之间的绝对差(图9中的操作918)。

需要添加或删除的采样跨越帧中的整个音调周期分布。确定不同的音调周期中的最小能量区域，并且在这些区域中执行样值删除或插入。在各个位置T(i)(i＝0、...、N_p-1)上，帧中的音调脉冲的数量为N_p。最小能量区域的数量为N_p-1。通过计算5采样窗所使用的能量，确定最小能量区域(图10中的操作1002)。在窗的中间设置最小能量位置，其中能量为最小值(图10中的操作1004)。在位置T(i)和T(i+1)上的两个音调脉冲之间执行的搜索被约束在T(i)+T_c/4和T(i+1)-T_c/4之间。

如上所述，令由T_min(i)(i＝0、...N_min-1)表示所确定的最小位置，其中N_min＝N_p-1为最小能量区域的数量。在T_min(i)周围执行样值删除或插入。正如下面所公开的，将要被添加或删除的样值分布为跨越不同的音调周期。

如果N_min＝1，则只有一个最小能量区域，且在T_min(0)处插入或删除所有的脉冲T_e。

对于N_min>1，使用简单的算法来确定将要在每个音调周期处被添加或移除的样值的数量，由此，在开始处添加/移除较少量的样值，朝着帧的末端而变多(图10中的操作1006)。在该说明性实施例中，使用下面的递归关系，得到对于将要被移除/添加的脉冲的总数T_e和最小能量区域的数量N_min、每音调周期将要被移除/添加的采样的数量R(i)的值，其中i＝0、...、N_min-1，(图10中的操作1006):

R (i) = round (\frac{{(i + 1)}^{2}}{2} f - Σ_{k = 0}^{i - 1} R (k)) - - - (29)

其中，

f = \frac{2 | T_{e} |}{N_{\min}^{2}}

应当注意到的是，在每一阶段，检查条件R(i)<R(i-1)，且如果其为真，则交换R(i)和R(i-1)的值。

值R(i)对应于开始于帧的起始的音调周期。R(0)对应于T_min(0)，R(1)对应于T_min(1)，...，R(N_min-1)对应于T_min(N_min-1)。由于R(i)的值为递增次序，所以，向位于帧的末端的周期添加/移除更多的样值。

作为R(i)计算的示例，对于T_e＝11或-11，N_min＝4(11个样值要被添加或删除，且帧中有4个音调周期)，得到R(i)的下列值:

f＝2×11/16＝1.375

R(0)＝round(f/2)＝1

R(1)＝round(2f-1)＝2

R(2)＝round(4.5f-1-2)＝3

R(3)＝round(8f-1-2-3)＝5

因此，在最小能量位置T_min(0)周围添加/移除1个样值，在最小能量位置T_min(1)周围添加/移除2个样值，在最小能量位置T_min(2)周围添加/移除3个样值，且在最小能量位置T_min(3)周围添加/移除5个样值(图10中的操作1008)。

移除采样是直截了当的。通过除以20并且反转符号之后复制最后的R(i)个样值，在此说明性实施例中执行添加样值(图10中的操作1008)。在上面的示例中，需要在位置T_min(3)处插入5个样值，执行如下:

u(T_min(3)+i)＝-u(T_min(3)+i-R(3))/20i＝0、...、4 (30)

使用上面所公开的程序，强行使得所隐蔽的激励中的最后的最大脉冲与位于在未来帧中传送的帧的末端的实际的最大脉冲位置相对齐(图9中的操作920和图10中的操作1010)。

如果脉冲相位信息不可用、而未来帧是可用的，则能够利用过去的音调值对未来帧的音调值插值，以找到每子帧的估计音调滞后。如果未来帧是不可用的，则可以估计丢失的帧的音调值，并且，使用过去的音调值来对其插值，以找到每子帧的估计的音调滞后。随后，针对在隐蔽中所使用的最后的音调和每子帧的估计音调滞后两者，计算所隐蔽的帧中的所有音调周期的总延迟。这两个总滞后之间的差给出在该帧和所估计的脉冲中最后的隐蔽的最大脉冲之间差的估计。如上所述，随后，该脉冲可被重新同步(图9中的操作920和图10中的操作1010)。

如果解码器没有附加的延迟，则出现在未来帧中的脉冲相位信息可被用于第一个所接收的良好帧，以重新同步自适应码本(过去激励)的存储器，且在构建当前帧的激励之前，获得与在当前帧中所传送的位置对齐的最后的最大声门脉冲。在这种情况下，如上所述，实际上，在激励的存储器中、而不是在当前激励中执行该同步。在这种情况下，当前激励的构建将以同步的存储器开始。

当没有附加的延迟可用时，也可能发送当前帧的第一最大脉冲，而不是过去帧的最后的最大声门脉冲的位置。如果是这种情形，在构建当前激励之前，在激励的存储器中也达到同步。在这种安排下，由下式给出激励的存储器中绝对最大脉冲的实际位置:

P_last＝L+P₀-T_new

其中，T_new是新的帧中第一个音调周期，而P₀为当前帧的第一最大声门脉冲的所解码的位置。

由于为了周期性部分的构建而使用前一帧的激励的最后脉冲，在所隐蔽的帧开始处，其增益近似是正确的，且可被设置为1(图9中的操作922)。随后，贯穿该帧，一个样值接一个样值地，其增益被线性地削弱，以在帧的末端获得α的值(图9中操作924)。

α的值(图9中的操作922)对应于表6的值，其考虑到有声段的能量演变。在某种程度上，通过使用最后的良好帧的每个子帧的音调激励增益值而推断该演变。通常，如果这些增益大于1，则信号能量增加，如果它们低于1，则能量减少。如上所述，α因此被设置为

β = \sqrt{{\overset{&OverBar;}{g}}_{p}}

。β的值被截取在0.98和0.85之间，以避免强烈的能量增加和减少。

对于跟随着除了无声之外的被正确地接收的帧的擦除的帧，只使用激励的周期性部分来更新激励缓冲器(在重新同步和增益缩放(gain scaling)之后)。该更新将用于在下一帧中构建音调码本激励(图9的操作926)。

图11是显示具有和不具有同步过程的激励信号的典型示例。图11b中显示不具有帧擦除的原始激励信号。图11c显示当擦除图11a中所示的帧时，不使用同步过程的所隐蔽的激励信号。可以清楚地看到，在所隐蔽的帧中的最后的声门脉冲并不与图11b中所显示的真实的脉冲位置对齐。此外，可以看到，帧擦除隐蔽的效果在接下来的未被擦除的帧中持续。图11d显示当已经使用根据上面所描述的展示的本发明的实施例的同步过程时的所隐蔽的激励信号。可以清楚地看到，在所隐蔽的帧中正确地将所隐蔽的帧中的最后的声门脉冲与显示于图11b中的真实的脉冲位置对齐。进一步，可以看到，在接下来正确地接收的帧上的帧擦除隐蔽的效果相比图11c中的情形问题较少。在图11e和11f中肯定了这种观察。图11e显示原始激励和不具有同步的所隐蔽的激励之间的误差。图11f显示原始激励和当使用同步过程时的所隐蔽激励之间的误差。

图12显示使用显示于图11中的激励信号重构语音信号的示例。图12b显示不具有帧擦除的重构的信号。图12c显示当显示于图12a的帧被擦除时、不使用同步过程的重构的语音信号。图12d显示当显示于图12a中的帧被擦除时、使用本发明的上述说明性实施例公开的同步过程而重构的语音信号。图12e显示原始信号和图12c中的信号之间的每子帧的信噪比(SNR)。从图12e可以看出，即使在接收到良好帧时，SNR也非常低(对于接下来的两个良好帧，其位于0dB，且直到第7个良好帧也保持在低于8dB)。图12f显示在原始信号和图12d中信号之间每子帧的信噪比(SNR)。从图12d中可以看出，信号快速地收敛到真实的重构的信号。该SNR在两个良好帧之后，快速地升高到10dB以上。

激励的随机部分的构建

随机地产生激励信号的创新部分(非周期性的)。其可以被生成为随机噪声，或通过使用具有随机产生的向量索引的CELP创新码本。在该说明性实施例中，已经使用一个简单的近似一致分布的随机生成器。在调节该创新增益之前，随机生成的创新被缩放为某个参考值，且在此被固定为每采样的归一能量。

在擦除的块的开始处，通过使用最后的良好帧的每个子帧的创新激励增益，而初始化该创新增益g_s:

g_s＝0.1g(0)+0.2g(1)+0.3g(2)+0.4g(3) (31)

其中，g(0)、g(1)、g(2)和g(3)为最后正确接收的帧的4个子帧的固定码本或创新增益。激励的随机部分的衰减策略稍微不同于音调激励的衰减。原因是:在随机激励向缓和噪声生成(CNG)激励能量收敛的同时，音调激励(且因此的激励周期)向零收敛。如下执行创新增益衰减:

g_{s}^{1} = α \cdot g_{s}^{0} + (1 - α) \cdot g_{n} - - - (32)

其中

为下一帧的开始处的创新增益，

为当前帧的开始处的创新增益，g_n为在缓和噪声生成期间所使用的激励的增益，且α在表5中被定义。因此，类似于周期性的激励衰减，在整个帧中，增益基于逐个样值衰减，其开始于

并转向将在下一帧的开始处所达到的

的值。

最后，如果最后所接收的良好帧(正确地接收或非擦除的)不同于无声，则通过具有系数-0.0125、-0.109、0.7813、-0.109和-0.0125的线性相位FIR高通滤波器对该创新激励滤波。为了在有声段期间降低噪声分量的数量，这些滤波器系数被乘以等于(0.75-0.25r_v)的自适应因子，r_v为-1到1范围内的有声因子。激励的随机部分随后被加到自适应激励，以形成总激励信号。

如果最后的良好帧为无声，则只使用创新激励，且通过因子0.8将其进一步衰减。在这种情况下，由于没有激励的周期性部分可用，所以，使用创新激励来更新过去的激励缓冲器。

谱包络隐蔽、合成以及更新

为了合成所解码的语音，必须获得LP滤波器参数。

在未来帧不可用的情况下，谱包络逐渐地移至环境噪声的估计包络。此处，使用LP参数的LSF表示:

I¹(j)＝αI⁰(j)+(1-α)I_n(j) j＝0、...、p-1(33)

在方程(33)中，I1(j)为当前帧的第j个LSF的值，I⁰(j)为前一帧的第j个LSF的值，Iⁿ(j)为估计的缓和噪声包络的第j个LSF的值，以及p为LP滤波器的阶数(注意LSF是在频域)。可替换地，擦除的帧的LSP参数可以简单地被设置等于最后的帧的参数(I¹(j)＝I⁰(j))。

通过LP合成滤波器对激励信号滤波，而获得合成的语音。从LSF表示中计算滤波器系数，并在正常解码器的操作期间，为每个子帧而对所述滤波器系数插值(每帧四(4)次)。

如果未来帧是可用的，则通过在未来和前一帧中对LSP值插值而获得每子帧的LP滤波器参数。许多方法可用于查找插值参数。在一个方法中，使用下面的关系找到整个帧的LSP参数:

LSP⁽¹⁾＝0.4LSP⁽⁰⁾+0.6LSF⁽²⁾ (34)

其中，LSP⁽¹⁾为擦除帧的估计的LSP，LSP⁽⁰⁾为过去帧中的LSP，而LSP⁽²⁾为未来帧中的LSP。

作为一个非限制性示例，每20ms帧(集中于第二和第四子帧)中传送LSP参数两次。因此，LSP⁽⁰⁾被集中于过去帧的第四子帧，而LSP⁽²⁾被集中于未来帧的第二子帧。因此，可以为擦除帧中的每个子帧找到插值的LSP参数:

LSP^(1，i)＝((5-i)LSP⁽⁰⁾+(i+1)LSF⁽²⁾)/6 i＝0、...、3 (35)

其中，i为子帧索引。LSP在余弦域(-1到1)中。

由于创新增益量化器和LSF量化器都使用预测，所以，在重新开始正常操作之后，它们的存储器将不会是最新的。为了减少这种影响，在每个擦除帧的末端估计并更新量化器的存储器。

擦除之后正常操作的恢复

基本上，在帧的擦除块之后的恢复的问题应归咎于在所有的现代的语音编码器中实际使用的强大的预测。特别地，由于使用过去的激励信号编码现在的帧激励(长期或音调预测)的事实，CELP类型语音编码器为有声语音获得它们的高信噪比。也就是说，大多数量化器(LP量化器、增益量化器等等)利用预测。

人工初动构建

与在CELP编码器中使用长期预测相关的最复杂的情况是当丢失有声初动时。丢失的初动意味着:在擦除块期间的某处发生有声语音初动。在这种情况下，所接收的最后的良好帧为无声的，且因此在激励缓冲器中没有发现周期性激励。然而，在擦除块后的第一个良好帧是有声的，在编码器处的激励缓冲器是高度周期性的，且使用该周期的过去激励，已经对自适应激励编码。由于该激励的此周期性部分在解码器处完全丢失，所以，其可能占用几帧来从此丢失中恢复。

如果初动帧丢失(也就是，如图13所示，有声良好帧在擦除之后到达，但擦除之前的最后的良好帧为无声)，将使用特别的技术，以人工地重构丢失的初动，并且触发声音合成。在该说明性实施例中，可从未来帧中获得隐蔽帧中的最后的声门脉冲的位置(未来帧没有丢失，且在未来帧中接收到与前一帧相关的相位信息)。在这种情况中，照常执行擦除帧的隐蔽。然而，基于来自未来帧的可用的位置和符号信息，人工地重构擦除帧的最后的声门脉冲。该信息包括自帧的末端开始最大脉冲的位置及其符号。因此，擦除帧中的最后的声门脉冲被人工地构建为低通滤波脉冲。在该说明性实施例中，如果脉冲符号为正，则所使用的低通滤波器为简单的线性相位FIR滤波器，其具有冲激响应h_low＝{-0.0125，0.109，0.7813，0.109，-0.0125}。如果脉冲符号为负，则所使用的低通滤波器为线性相位FIR滤波器，其具有冲激响应h_low＝{0.0125，-0.109，-0.7813，-0.109，0.0125}。

所考虑的音调周期为所隐蔽帧的最后的子帧。通过将低通滤波器的冲激响应置于自适应激励缓冲器(先前被初始化为零)中，而实现低通滤波脉冲。该低通滤波声门脉冲(低通滤波器的冲激响应)将被集中于所解码的位置P_last(在未来帧的比特流中传送)。在下一个良好帧的解码中，将重新开始普通的CELP解码。将低通滤波声门脉冲置于隐蔽帧的末端的合适位置将显著地改进连续的良好帧的性能、且加速解码器向实际的解码器状态收敛。

通过对应于为FER隐蔽所量化和传送的能量的增益，而缩放人工的初动激励的周期性部分的能量，以及通过LP合成滤波器的增益而划分人工的初动激励的周期性部分的能量。LP合成滤波器增益被计算如下:

g_{LP} = \sqrt{Σ_{i = 0}^{40} h^{2} (i)} - - - (36)

其中，h(i)为LP合成滤波器冲激响应。最后，通过将周期性部分乘以0.96，而减少人工初动增益。

在人工初动构建的情况下，不对用于输出语音合成的LP滤波器插值。作为替代，所接收的LP参数被用于整个帧的合成。

能量控制

在帧的擦除块之后的恢复的一个任务是合适地控制所合成语音信号的能量。由于在现代的语音编码器中普遍使用的强大的预测，需要合成能量控制。当在有声段期间发生一块擦除帧时，也要执行能量控制。当在有声帧之后帧擦除到达时，在具有某个衰减策略的隐蔽期间，典型地，使用最后的良好帧的激励。当一个新的LP滤波器与擦除之后的第一个良好帧到达时，在激励能量和新的LP合成滤波器的增益之间可能存在失配。新的合成滤波器能够产生具有与最后的所合成的擦除帧的能量且与原始信号能量非常不同的能量的合成信号。

擦除帧之后的第一良好帧期间的能量控制可被总结如下。合成信号缩放，以使得其能量类似于在第一个良好帧的开始的最后的擦除帧的末端的所合成语音信号的能量，以及朝着帧的末端收敛到所传送的能量，以防止过高的能量增加。

在合成语音信号域执行能量控制。即使在语音域控制能量，由于对于接下来的帧、其是作为长期预测存储器而服务，所以，也必须缩放激励信号随后，重新执行合成，以平滑该过渡。令g₀表示用于缩放当前帧中第1个样值的增益，g₁为在帧的末端所使用的增益。那么，激励信号被缩放如下:

u_s(i)＝g_AGC(i)·u(i) i＝0、...、L-1

其中，u_s(i)为缩放的增益，u(i)为在缩放前的激励，L为帧长度，而g_AGC(i)为起始自g₀、且指数收敛于g₁的增益:

g_AGC(i)＝f_AGCg_AGC(i-1)+(1-f_AGC)g₁ i＝0、...、L-1 (38)

具有初始化为g_AGC(-1)＝g0，其中，f_AGC为在该实施方式中设置的衰减因子，其被设置为0.98。作为一方面从前一(所擦除的)帧具有的平滑过渡、与另一方面尽可能缩放当前帧的最后的音调周期到正确的(所传送的)值之间的折衷，该值已经被试验性地找到。完成其是由于:在帧的末端，音调同步地估计所传送的能量值。增益g₀和g₁被定义为:

g_{0} = \sqrt{E_{- 1} / E_{0}} - - - (39)

g_{1} = \sqrt{E_{q} / E_{1}} - - - (40)

其中，E_-1，为在前一帧(擦除的)的末端所计算的能量，E₀为当前帧(所恢复的)起始处的能量，E₁为当前帧末端处的能量，以及E_q为当前帧末端处所量化的传送的能量，其在编码器处从方程(20；21)计算。除了在合成语音信号s′上计算它们以外，类似地计算E_-1，和E₁。使用隐蔽音调周期T_c同步地计算E_-1，且E₁使用最后的子帧取整音调T₃。使用第一子帧的取整的音调值T₀相似地计算E₀，对于有声和初动帧，方程(20；21)被修改为:

E = \max_{i = 0}^{t_{E}} (s^{' 2} (i))

t_E等于取整音调滞后、或者在音调短于64个样值的情况下的两倍于该长度。对于其它帧，

E = \frac{1}{t_{E}} Σ_{i = 0}^{t_{E}} s^{' 2} (i)

其中，t_E等于帧长度的一半。增益g₀和g₁进一步被限值为最大的允许值，以防止强烈的能量。在本说明性实施例中，该值被设置为1.2。

进行帧擦除隐蔽和解码器恢复包括:当跟随帧擦除所接收的第一个非擦除帧的LP滤波器的增益高于在所述帧擦除期间最后的帧擦除的LP滤波器的增益时，在所接收的第一个非擦除帧期间，使用下述关系将在解码器中产生的LP滤波器激励信号的能量调整到所述所接收的第一个非擦除帧的LP滤波器的增益:

如果不能传送E_q，则E_q被设置为E₁。然而，如果擦除发生在有声语音段期间(也就是，擦除之前的最后的良好帧、以及被分类为有声过渡、有声或初动的擦除之后的第一个良好帧)，如先前所提到的那样，由于在激励信号能量和LP滤波器增益之间可能的失配，必须采取进一步的预防。当跟随帧擦除所接收的第一个非擦除帧的LP滤波器的增益高于在所述帧擦除期间最后的帧擦除的LP滤波器的增益时，出现特定的危险情形。在该特定情形中，使用下述关系式，将在所接收的第一个非擦除帧期间、在解码器中产生的LP滤波器激励信号的能量调整到所述所接收的第一个非擦除帧的LP滤波器的增益:

E_{q} = E_{1} \frac{E_{LP 0}}{E_{LP 1}}

其中，E_LP0为擦除之前的最后的良好帧的LP滤波器冲激响应的能量，且E_LP1为擦除之后的第一个良好帧的LP滤波器的能量。在该实施方式中，在该帧中使用最后的子帧的LP滤波器。最后，在这种情况中，E_q的值被限制为E_-1，的值(传送不具有E_q信息的有声段擦除)。

下面所有与语音信号中的过渡相关的例外进一步覆写g₀的计算。如果在当前帧中使用人工初动，则g₀被设置为0.5g₁，以使得初动能量逐渐地增长。

在擦除之后的第一个良好帧被分类为初动的情况下，防止g₀高于g₁。利用该预防，以防止在帧的起始处的正增益调整(其可能至少仍旧部分地无声)放大该有声初动(在帧的末端)。

最后，在从有声向无声过渡期间(也就是，最后的良好帧被分类为有声过渡、有声或初动，以及当前帧被分类为无声)、或者在从非活动语音时期向活动语音时期过渡期间(所接收的最后的良好帧被编码为缓和噪声，且当前帧被编码为活动语音)，g₀被设置为g₁。

在有声段擦除的情况下，跟随在擦除之后的第一个良好帧的帧中也可以出现错误能量问题。即使第一个良好帧的能量已经像上面所述的那样被调整，这仍旧可能发生。为了减轻这样的问题，可以继续能量控制，直到有声段的末端。

在具有宽带核心层的嵌入式编解码器中的所公开的隐蔽的应用

如上所述，ITU-T已将上面所公开的本发明所说明性实施例用作嵌入式可变比特率编解码器标准的候选算法。在该候选算法中，核心层是基于相似于AMR-WB(ITU-T建议G.722.2)的宽带编码技术。核心层运行在8kbit/s，且编码带宽高达6400Hz，具有内部采样频率为12.8kHz(类似于AMR-WB)。使用第二个4kbit/s CELP层将比特率增加到12kbit/s。随后，从16到32kbit/s，使用MDCT获得上层。

该隐蔽相似于上面所公开的方法，一些不同之处主要是由于不同的核心层采样率。在12.8kHz采样率处，帧大小为256个样值，而子帧大小为64个样值。

使用8比特来编码相位信息，其中，如下，使用1比特来编码符号，而使用7比特来编码位置。

对于未来帧中的第一子帧，用于编码第一声门脉冲的位置的精度依赖于闭环音调值T₀。当T₀小于128时，采用一个样值的精度直接编码与帧的末端相关的最后的声门脉冲的位置。当T0≥128时，通过使用一个简单的整数除法，也就是，τ/2，在两个样值的精度下编码与帧的末端相关的最后的声门脉冲的位置。在解码器处执行相反的过程。如果T0<128，则依照原样使用所接收的量化位置。如果T0≥128，则将所接收的量化位置乘以2、并递增1。

隐蔽恢复参数包括8比特相位信息、2比特分类信息以及6比特能量信息。以16kbit/s在第三层中传送这些参数。

尽管在前面的描述中，相关于非限制性的说明性实施例而描述本发明，该实施例可在所附权利要求的范围内而随意修改，且不脱离本发明的范围和精神。

参考文献

[1]Milan Jelinek和Philippe Gournay.PCT专利申请WO03102921A1“Amethod and device for efficient frame erasure concealment in linear predictivebased speech codecs”。

Claims

1、一种方法，用于隐蔽由于在从编码器到解码器的传送期间擦除的编码的声音信号的帧所引起的帧擦除、以及用于在帧擦除之后恢复解码器，该方法包括：

在编码器中，确定隐蔽/恢复参数，所述隐蔽/恢复参数至少包括与被编码的声音信号的帧相关的相位信息；

向解码器传送在编码器中确定的隐蔽/恢复参数；以及

在解码器中，响应于所接收的隐蔽/恢复参数而进行帧擦除隐蔽，其中，帧擦除隐蔽包括：响应于所接收的相位信息，将隐蔽了擦除的帧与在编码器处被编码的声音信号的对应帧重新同步。

2、如权利要求1所述的方法，其中，隐蔽/恢复参数的确定包括：确定在被编码的声音信号的每帧中的声门脉冲的位置，作为该相位信息。

3、如权利要求1所述的方法，其中，隐蔽/恢复参数的确定包括：确定在被编码的声音信号的每帧中的最后的声门脉冲的位置和符号，作为该相位信息。

4、如权利要求2所述的方法，还包括：在向解码器传送声门脉冲的位置之前，量化声门脉冲的位置。

5、如权利要求3所述的方法，还包括：在向解码器传送最后的声门脉冲的位置和符号之前，量化最后的声门脉冲的位置和符号。

6、如权利要求2所述的方法，还包括：将声门脉冲的量化位置编码到被编码的声音信号的未来帧中。

7、如权利要求2所述的方法，其中，确定声门脉冲的位置包括：

在被编码的声音信号的每帧的预定音调周期中，测量声门脉冲作为最大幅度脉冲；以及

确定最大幅度脉冲的位置。

8、如权利要求7所述的方法，还包括：通过测量最大幅度脉冲的符号，而确定声门脉冲的符号作为相位信息。

9、如权利要求3所述的方法，其中，确定最后的声门脉冲的位置包括：

在被编码的声音信号的每帧中，测量最后的声门脉冲作为最大幅度脉冲；以及

确定最大幅度脉冲的位置。

10、如权利要求9所述的方法，其中，确定声门脉冲的符号包括：

测量最大幅度脉冲的符号。

11、如权利要求10所述的方法，其中，将隐蔽了擦除的帧与被编码的声音信号的对应帧重新同步的步骤包括：

解码被编码的声音信号的所述对应帧的最后的声门脉冲的位置和符号；

在隐蔽了擦除的帧中，确定最接近于所述被编码的声音信号的所述对应帧的所述最后的声门脉冲的位置的、具有与被编码的声音信号的对应帧的最后的声门脉冲的符号类似的符号的最大幅度脉冲的位置；以及

将在隐蔽了擦除的帧中的最大幅度脉冲的位置与被编码的声音信号的对应帧的最后声门脉冲的位置对齐。

12、如权利要求7所述的方法，其中，将隐蔽了擦除的帧与被编码的声音信号的对应帧重新同步的步骤包括：

解码被编码的声音信号的所述对应帧的声门脉冲的位置；

在隐蔽了擦除的帧中，确定最接近于所述被编码的声音信号的所述对应帧的所述声门脉冲的位置的最大幅度脉冲的位置；以及

将在隐蔽了擦除的帧中的最大幅度脉冲的位置与被编码的声音信号的对应帧的声门脉冲的位置对齐。

13、如权利要求12所述的方法，其中，将在隐蔽了擦除的帧中的最大幅度脉冲的位置与被编码的声音信号的对应帧中的声门脉冲的位置对齐的步骤包括：

确定在隐蔽了擦除的帧中的最大幅度脉冲的位置和被编码的声音信号的对应帧中的声门脉冲的位置之间的偏移；以及

在隐蔽了擦除的帧中，插入/移除对应于所确定的偏移的多个样值。

14、如权利要求13所述的方法，其中，插入/移除多个样值的步骤包括：

确定隐蔽了擦除的帧中的至少一个最小能量区域；以及

将要被插入/移除的多个样值分布在所述至少一个最小能量区域周围。

15、如权利要求9所述的方法，其中，将要被插入/移除的多个样值分布在所述至少一个最小能量区域周围的步骤包括：使用下面的关系式，将所述多个样值分布在所述至少一个最小能量区域周围：

R (i) = round (\frac{{(i + 1)}^{2}}{2} f - Σ_{k = 0}^{i - 1} R (k))

对于i＝0、...N_min-1且k＝0、...i-1，且N_min>1其中，

f = \frac{2 | T_{e} |}{N_{\min}^{2}},

N_min为最小能量区域的数量，且T_e为在隐蔽了擦除的帧中的最大幅度脉冲的位置和被编码的声音信号的对应帧中的声门脉冲的位置之间的偏移。

16、如权利要求15所述的方法，其中R(i)为递增次序，使得大多向隐蔽了擦除的帧的末端添加/移除样值。

17、如权利要求1所述的方法，其中，响应于所接收的隐蔽/恢复参数而进行帧擦除隐蔽的步骤包括：对于有声的擦除帧：

响应于所接收的隐蔽/恢复参数，在隐蔽了擦除的帧中构建激励信号的周期性部分；以及

通过随机地产生非周期性的创新的信号，构建激励信号的随机创新部分。

18、如权利要求1所述的方法，其中，响应于所接收的隐蔽/恢复参数而进行帧擦除隐蔽的步骤包括：对于无声擦除帧，通过随机地产生非周期性的创新的信号，构建激励信号的随机创新部分。

19、如权利要求1所述的方法，其中，隐蔽/恢复参数还包括信号分类。

20、如权利要求19所述的方法，其中，该信号分类包括：将被编码的声音信号的连续帧分类为无声、无声过渡、有声过渡、有声、或初动。

21、如权利要求20所述的方法，其中，基于未来帧和最后接收的良好帧的分类，而估计丢失帧的分类。

22、如权利要求21所述的方法，其中，如果未来帧是有声、且最后接收的良好帧是初动，则丢失帧被设置为有声。

23、如权利要求22所述的方法，其中，如果未来帧是无声、且最后接收的良好帧是有声，则丢失帧被设置为无声过渡。

24、如权利要求1所述的方法，其中，

该声音信号是语音信号；

在编码器中确定隐蔽/恢复参数包括：确定被编码的声音信号的连续帧的相位信息和信号分类；

响应于隐蔽/恢复参数而进行帧擦除隐蔽包括：当由跟随帧擦除的有声帧和在帧擦除之前的无声帧的存在而指示初动帧丢失时，人工地重构丢失的初动帧；以及

响应于相位信息，将隐蔽了擦除的丢失的初动帧和被编码的声音信号的对应初动帧重新同步。

25、如权利要求24所述的方法，其中，人工地重构丢失的初动帧的步骤包括：将丢失的初动帧中的最后的声门脉冲人工地重构为低通滤波的脉冲。

26、如权利要求24所述的方法，还包括：通过增益来缩放重构的丢失的初动帧。

27、一种方法，用于隐蔽由于在从编码器到解码器的传送期间擦除的编码的声音信号的帧所引起的帧擦除、以及用于在帧擦除之后恢复解码器，该方法包括：在解码器中：

估计在从编码器到解码器的传送期间已被擦除的被编码的声音信号的每帧的相位信息；以及

响应于所估计的相位信息而进行帧擦除隐蔽，其中，帧擦除隐蔽包括：响应于所估计的相位信息，而将每个隐蔽了擦除的帧与在编码器处被编码的声音信号的对应帧重新同步。

28、如权利要求27所述的方法，其中，估计相位信息的步骤包括：估计已被擦除的被编码的声音信号的每帧的最后声门脉冲的位置。

29、如权利要求28所述的方法，其中，估计已被擦除的被编码的声音信号的每帧的最后声门脉冲的位置的步骤包括：

从最后的音调值估计声门脉冲；以及

利用过去的音调值来对所估计的声门脉冲进行插值，以便确定所估计的音调滞后。

30、如权利要求29所述的方法，其中，将隐蔽了擦除的帧与被编码的声音信号的对应帧重新同步的步骤包括：

确定隐蔽了擦除的帧中的最大幅度脉冲；以及

将隐蔽了擦除的帧中的最大幅度脉冲与所估计的声门脉冲对齐。

31、如权利要求30所述的方法，其中，将隐蔽了擦除的帧中的最大幅度脉冲与所估计的声门脉冲对齐的步骤包括：

计算隐蔽了擦除的帧中的音调周期；

确定所估计的音调滞后和隐蔽了擦除的帧中的音调周期之间的偏移；以及

在隐蔽了擦除的帧中插入/移除对应于所确定的偏移多个样值。

32、如权利要求31所述的方法，其中，插入/移除多个样值的步骤包括：

确定隐蔽了擦除的帧中的至少一个最小能量区域；以及

33、如权利要求32所述的方法，其中，将要被插入/移除的多个样值分布在所述至少一个最小能量区域周围的步骤包括：使用下面的关系式，将所述多个样值分布在所述至少一个最小能量区域周围：

R (i) = round (\frac{{(i + 1)}^{2}}{2} f - Σ_{k = 0}^{i - 1} R (k))

对于i＝0、...N_min-1且k＝0、...i-1，且N_min>1其中，

f = \frac{2 | T_{e} |}{N_{\min}^{2}},

N_min为最小能量区域的数量，且T_e为所估计的音调滞后和隐蔽了擦除的帧中的音调周期之间的偏移。

34、如权利要求33所述的方法，其中R(i)为递增次序，使得大多向隐蔽了擦除的帧的末端添加/移除样值。

35、如权利要求27所述的方法，包括：以线性方式，从每个隐蔽了擦除的帧的起始到末端，衰减每个隐蔽了擦除的帧的增益。

36、如权利要求35所述的方法，其中，衰减每个隐蔽了擦除的帧的增益直到达到α为止，其中，α是用于控制在帧擦除之后的解码器恢复的收敛速度的因子。

37、如权利要求36所述的方法，其中，因子α依赖于LP滤波器对于无声帧的稳定性。

38、如权利要求37所述的方法，其中，因子α还考虑到有声段的能量演变。

39、一种装置，用于隐蔽由于在从编码器到解码器的传送期间擦除的编码的声音信号的帧所引起的帧擦除、以及用于在帧擦除之后恢复解码器，该装置包括：

在编码器中的用于确定隐蔽/恢复参数的部件，所述隐蔽/恢复参数至少包括与被编码的声音信号的帧相关的相位信息；

用于向解码器传送在编码器中确定的隐蔽/恢复参数的部件；以及

在解码器中的用于响应于所接收的隐蔽/恢复参数而进行帧擦除隐蔽的部件，其中，用于进行帧擦除隐蔽的部件包括：用于响应于所接收的相位信息而将隐蔽了擦除的帧与在编码器处被编码的声音信号的对应帧重新同步的部件。

40、一种装置，用于隐蔽由于在从编码器到解码器的传送期间擦除的编码的声音信号的帧所引起的帧擦除、以及用于在帧擦除之后恢复解码器，该装置包括：

在编码器中的隐蔽/恢复参数的生成器，所述隐蔽/恢复参数至少包括与被编码的声音信号的帧相关的相位信息；

用于向解码器传送在编码器中确定的隐蔽/恢复参数的通信链路；以及

在解码器中的被提供所接收的隐蔽/恢复参数的帧擦除隐蔽模块，并且，该帧擦除隐蔽模块包括：同步器，其响应于所接收的相位信息，以将隐蔽了擦除的帧与在编码器处被编码的声音信号的对应帧重新同步。

41、如权利要求40所述的装置，其中，隐蔽/恢复参数的生成器生成在被编码的声音信号的每帧中的声门脉冲的位置，作为该相位信息。

42、如权利要求40所述的装置，其中，隐蔽/恢复参数的生成器生成在被编码的声音信号的每帧中的最后的声门脉冲的位置和符号，作为该相位信息。

43、如权利要求41所述的装置，还包括：量化器，用于在在经由通信链路向解码器传送声门脉冲的位置之前，量化声门脉冲的位置。

44、如权利要求42所述的装置，还包括：量化器，用于在经由通信链路向解码器传送最后的声门脉冲的位置和符号之前，量化最后的声门脉冲的位置和符号。

45、如权利要求43所述的装置，还包括：编码器，用于将声门脉冲的量化位置编码到被编码的声音信号的未来帧中。

46、如权利要求41所述的装置，其中，该生成器确定在被编码的声音信号的每帧中的最大幅度脉冲的位置，作为声门脉冲的位置。

47、如权利要求42所述的装置，其中，该生成器确定在被编码的声音信号的每帧中的最大幅度脉冲的位置和符号，作为声门脉冲的位置和符号。

48、如权利要求46所述的装置，其中，该生成器确定作为最大幅度脉冲的符号的声门脉冲的符号，作为相位信息。

49、如权利要求46所述的装置，其中，该同步器：

确定每个隐蔽了擦除的帧中的最接近于被编码的声音信号的对应帧中的声门脉冲的位置的最大幅度脉冲的位置；

确定在每个隐蔽了擦除的帧中的最大幅度脉冲的位置和被编码的声音信号的对应帧中的声门脉冲的位置之间的偏移；以及

在每个隐蔽了擦除的帧中，插入/移除对应于所确定偏移的多个样值，以便将在隐蔽了擦除的帧中的最大幅度脉冲的位置与被编码的声音信号的对应帧的声门脉冲的位置对齐。

50、如权利要求42所述的装置，其中，该同步器：

确定每个隐蔽了擦除的帧中的最接近于所述被编码的声音信号的对应帧的所述最后的声门脉冲的位置的、具有与最后的声门脉冲的符号类似的符号的最大幅度脉冲的位置；

确定在每个隐蔽了擦除的帧中最大幅度脉冲的位置和被编码的声音信号的对应帧中的最后的声门脉冲的位置之间的偏移；以及

在每个隐蔽了擦除的帧中，插入/移除对应于所确定偏移的多个样值，以便将在隐蔽了擦除的帧中的最大幅度脉冲的位置与被编码的声音信号的对应帧的最后的声门脉冲的位置对齐。

51、如权利要求49所述的装置，其中，该同步器还：

通过使用滑动窗，确定每个隐蔽了擦除的帧中的至少一个最小能量区域；以及

将要被插入/移除的多个样值分布在该至少一个最小能量区域周围分布。

52、如权利要求51所述的装置，其中，该同步器使用下面的关系式，将要被插入/移除的多个样值分布在所述至少一个最小能量区域周围：

R (i) = round (\frac{{(i + 1)}^{2}}{2} f - Σ_{k = 0}^{i - 1} R (k))

对于i＝0、...N_min-1且k＝0、...i-1，且N_min>1其中，

f = \frac{2 | T_{e} |}{N_{\min}^{2}},

53、如权利要求52所述的装置，其中，R(i)为递增次序，使得大多向隐蔽了擦除的帧的末端添加/移除样值。

54、如权利要求40所述的装置，其中，对于有声的擦除帧，被提供所接收的隐蔽/恢复参数的帧擦除隐蔽模块包括：

响应于所接收的隐蔽/恢复参数的每个隐蔽了擦除的帧中的激励信号的周期性部分的生成器；以及

激励信号的非周期性的创新部分的随机生成器。

55、如权利要求40所述的装置，对于无声的擦除帧，被提供所接收的隐蔽/恢复参数的帧擦除隐蔽模块包括：激励信号的非周期性的创新部分的随机生成器。

56、一种装置，用于隐蔽由于在从编码器到解码器的传送期间擦除的编码的声音信号的帧所引起的帧擦除、以及用于在帧擦除之后恢复解码器，该装置包括：

在解码器上，用于估计在从编码器到解码器的传送期间已被擦除的被编码的声音信号的每帧的相位信息的部件；以及

用于响应于所估计的相位信息而进行帧擦除隐蔽的部件，其中，用于进行帧擦除隐蔽的部件包括：用于响应于所估计的相位信息而将每个隐蔽了擦除的帧与在编码器处被编码的声音信号的对应帧重新同步的部件。

57、一种装置，用于隐蔽由于在从编码器到解码器的传送期间擦除的编码的声音信号的帧所引起的帧擦除、以及用于在帧擦除之后恢复解码器，该装置包括：

在解码器上，用于估计在从编码器到解码器的传送期间已被擦除的被编码的信号的每帧的相位信息的估计器；以及

被提供所估计的相位信息的擦除隐蔽模块，并且，该擦除隐蔽模块包括：同步器，其响应于所估计的相位信息，将每个隐蔽了擦除的帧与在编码器处被编码的声音信号的对应帧重新同步。

58、如权利要求57所述的方法，其中，相位信息的估计器根据过去的音调值而估计在被编码的声音信号的每帧中的最后的声门脉冲的位置和符号，并且利用过去的音调值来对所估计的声门脉冲插值，以便确定所估计的音调滞后。

59、如权利要求58所述的方法，其中，该同步器：

确定每个隐蔽了擦除的帧中的最大幅度脉冲和音调周期；

确定每个隐蔽了擦除的帧中的音调周期和在被编码的声音信号的对应帧中的所估计的音调滞后之间的偏移；以及

在每个隐蔽了擦除的帧中，插入/移除对应于所确定的偏移的多个样值，以便将在隐蔽了擦除的帧中的最大幅度脉冲与所估计的最后的声门脉冲对齐。

60、如权利要求59所述的方法，其中，该同步器还：

通过使用滑动窗来确定至少一个最小能量区域；以及

将该多个样值分布在该至少一个最小能量区域周围。

61、如权利要求60所述的方法，其中，该同步器使用下面的关系式，将所述多个样值分布在所述至少一个最小能量区域周围：

R (i) = round (\frac{{(i + 1)}^{2}}{2} f - Σ_{k = 0}^{i - 1} R (k))

对于i＝0、...N_min-1且k＝0、...i-1，且N_min>1其中，

f = \frac{2 | T_{e} |}{N_{\min}^{2}},

N_min为最小能量区域的数量，且T_e为每个掩蔽了擦除的帧中的音调周期和所编码的声音信号的对应帧中的所估计的音调滞后之间的偏移。

62、如权利要求61所述的装置，其中，其中，R(i)为递增次序，使得大多向隐蔽了擦除的帧的末端添加/移除样值。

63、如权利要求58所述的装置，还包括：衰减器，用于以线性方式，从每个隐蔽了擦除的帧的起始到末端，衰减每个隐蔽了擦除的帧的增益。

64、如权利要求63所述的装置，其中，该衰减器衰减每个隐蔽了擦除的帧的增益直到达到α为止，其中，α是用于控制在帧擦除之后的解码器恢复的收敛速度的因子。

65、如权利要求64所述的装置，其中，因子α依赖于LP滤波器对于无声帧的稳定性。

66、如权利要求65所述的装置，其中，因子α还考虑到有声段的能量演变。

67、如权利要求1所述的方法，包括：当该相位信息在隐蔽擦除的帧时不可用时，当在解码下一个所接收的非擦除的帧之前可用时，利用该相位信息来更新解码器的自适应码本的内容。

68、如权利要求1所述的方法，其中：

确定隐蔽/恢复参数的步骤包括：确定在被编码的声音信号的每帧中的声门脉冲的位置，作为该相位信息；并且

更新自适应码本步骤包括：重新同步自适应码本中的声门脉冲。

69、如权利要求40所述的装置，其中，当该相位信息在隐蔽擦除的帧时不可用时，当在解码下一个所接收的非擦除的帧之前可用时，该解码器利用该相位信息来更新解码器的自适应码本的内容。

70、如权利要求69所述的装置，其中：

隐蔽/恢复参数的生成器确定被编码的声音信号的每帧中的声门脉冲的位置，作为该相位信息；并且，

用于更新自适应码本的解码器重新同步自适应码本中的声门脉冲。