CN1489762A

CN1489762A - 语音解码中语音帧差错隐蔽的方法和系统

Info

Publication number: CN1489762A
Application number: CNA018183778A
Authority: CN
Inventors: J��÷��͢��; J·梅基宁; H·J·米科拉; J·韦尼奥; ��-�ջ��; J·罗托拉·－普基拉
Original assignee: Nokia Oyj
Current assignee: Nokia Technologies Oy
Priority date: 2000-10-31
Filing date: 2001-10-29
Publication date: 2004-04-14
Anticipated expiration: 2021-10-29
Also published as: DE60121201T2; DE60121201D1; US6968309B1; ZA200302556B; KR100563293B1; AU2002215138A1; JP2004526173A; BRPI0115057B1; CN1218295C; ATE332002T1; PT1330818E; WO2002037475A1; CA2424202A1; JP4313570B2; CA2424202C; BR0115057A; ES2266281T3; EP1330818B1; EP1330818A1; KR20030086577A

Abstract

一种用于在作为解码器中接收到的已编码位流的部分的语音序列中隐蔽一个或多个坏帧中的差错的方法和系统。当语音序列是话音时，在坏帧中的LTP－参数被上一个帧中相应的参数替代。当语音序列是非话音时，在坏帧中的LTP－参数被基于LTP历史值以及有限自适应随机项算得的值替代。

Description

语音解码中语音帧差错隐蔽的方法和系统

技术领域

本发明一般涉及对来自已编码位流的语音信号的解码，更具体而言，涉及在语音解码期间语音帧中检测到差错时将受损语音参数隐蔽。

背景技术

语音和声频编码算法在通信，多媒体和存储系统中具有广泛的应用。编码算法的发展是由在保持高质量合成信号的同时节省传输和存储容量的需要所驱动的。编码器的复杂性是由，例如，应用平台的处理能力所限制。在某些应用中，例如，话音存储，编码器可以非常复杂，而解码器应该尽可能简单。

现代的语音编码解码器是通过处理被称为帧的短数据段中的语音信号进行工作的。典型的语音编码解码器的帧长度是20ms，假定采样频率为8KHz，这对应于160个语音样本。在宽带的编码解码器中，假定采样频率为16KHz，典型的20ms的帧长度对应于320个语音样本。帧可被进一步划分成许多子帧。对于每个帧，编码器确定一个输入信号的参数表示。这些参数被量化并以数字形式通过一个通信信道发送(或存储在一种存储介质中)。解码器根据接收到的参数产生合成的语音信号，如图1中所示。

一个典型的被抽取的编码参数集包括对信号短时间预测中使用的谱参数(如线性预测编码(LPC)参数)，对信号长时间预测(LTP)使用的参数，各种增益参数，和激活参数。LTP参数与语音信号的基频紧密相关。这种参数通常被称为所谓的基音-滞后(Pitch-Lag)参数，它用语音样本来描述基本周期，增益参数之一也与基本周期关系密切，所以被称为LTP增益。在使语音尽可能自然方面LTP增益是一个非常重要的参数。以上的编码参数的描述一般地说适合于各种各样的语音编码解码器，包括所谓的代码-激活的线性预测(CELP)编码解码器，它暂时是最成功的语音编码解码器。

语音参数被以数字形式通过一个通信信道进行发送。有时通信信道的条件改变，这可能对位流造成差错。这将造成帧差错(坏帧)，也就是描述一个特定的语音段(典型情况下是20ms)的某些参数被损坏。有两种帧差错：全部受损的帧和部分受损的帧。这些帧有时在解码器中根本没有接收到。在基于分组的传输系统中，如在通常的因特网连接中，当数据分组将不再到达接收机，或者数据分组到达如此之晚，以致由于谈话语音的实时性质不可能被使用时，可能产生这种情况。部分受损的帧是一个这样的帧，它到达接收机并可能仍然包含某些未出差错的参数。这通常是在电路交换连接，如在现有的GSM连接中的情况。典型情况下在部分受损的帧中位差错率(BER)大约是0.5-5％。

从以上的描述可以看到，在处理由于丢失语音参数使重建的语音降质方面，两种坏的或受损的帧将需要不同的措施。

丢失或出错的语音帧是通信信道不良状况的结果，使得位流出差错。当在接收到的语音帧中检测到差错时，启动差错校正步骤。这种差错校正步骤通常包括置换步骤和静音步骤。在先前技术中，坏帧的语音参数被经衰减或修改的来自前面的好帧的值替代。然而，在受损帧中某些参数(如CELP参数中的激励值)可能仍然被用于解码。

图2示出现有技术方法的原理。如图2中所示，一个标记为“参数历史”的缓存器被用于存储上一次好帧的语音参数。当检测到一个坏帧时，坏帧指示器(BFI)被设置为1，并启动差错隐蔽步骤。当BFI未被设置(BFI＝0)时，参数历史值被更新，语音参数被用于解码而不进行差错隐蔽。在先前技术系统中，差错隐蔽步骤使用参数历史值以便隐蔽在受损的帧中丢失或出错的参数。从接收到的帧中可以使用某些语音参数，即使该帧被分类为一个坏帧(BFI＝1)。例如，在GSM自适应多速率(AMR)语音编码解码器(ETSI技术说明06.91)中，始终使用来自信道的激励向量。当语音帧是完全丢失的帧(例如，在某些基于IP的传输系统中)，将不使用来自接收到的坏帧的参数。在某些情况下，将接收不到帧，或者该帧将到达如此之晚，以致不得不被分类为一个丢失的帧。

在现有技术系统中，LTP-滞后隐蔽使用上一个良好的LTP-滞后值，其中小部分稍作修改，并且用稍向恒定的平均值推移的上一个良好的参数替代谱参数。通常可用被衰减的上一个良好的值或几个前面的良好值的中值代替增益(LTP和编码簿)。对所有的子帧使用相同的被置换的语音参数，其中某些稍作修改。

现有技术LTP隐蔽对于稳态的语音信号可能是合适的，例如，语音或稳态的语音。然而，对于非稳态语音信号，先前技术方法可能引起不愉快的和可听到的人为产物。例如，当语音信号是非话音的或非稳态时，简单地利用上一个良好的滞后值替代坏帧中的滞后值具有在非话音语音脉冲串的中间生成短的话音语音段的效果(见图10)。这种效果，被称为“堆”(bing)的人为产物，可能是令人烦恼的。

提供一种用于在语音解码中差错隐蔽以改进语音质量的方法和系统是有益的并且是所希望的。

发明内容

本发明利用这样的事实，即在语音信号中长时间预测(LTP)参数之间有可辨认的关系。特别是，LTP-滞后与LTP-增益有牢固的相关性。当LTP-增益是高的和合乎情理地稳定时，LTP-滞后在典型情况下是非常稳定的，并且在相邻的滞后值之间的变化很小。在这种情况下，语音参数是话音的语音序列的指示。当LTP-增益是低的或非稳定时，LTP-滞后在典型情况下是非话音的，语音参数是非话音的语音序列的指示。一旦语音序列被分类为稳态的(话音的)或非稳态的(非话音的)，在序列中的受损的或坏帧可以不同方式进行处理。

因此，本发明的第一方面是一种用于隐蔽在指明语音解码器中接收到的语音信号的已编码位流中的差错的方法，其中已编码的位流包括多个排列在语音序列中的语音帧，语音帧包括至少一个受损的帧，在此帧前面有一个或多个未受损的帧，其中受损的帧包括一个第一长时间预测滞后值和一个第一长时间预测增益值，未受损的帧包括第二长时间预测滞后值和第二长时间预测增益值，其中第二长时间预测滞后值包括一个上次的长时间预测滞后值，第二长时间预测增益值包括一个上次的长时间预测增益值，语音序列包括稳态的和非稳态的语音序列，其中受损的帧可以部分地受损或完全地受损。该方法包括以下步骤：

确定是否第一长时间预测滞后值是在根据第二长时间预测滞后值确定的上限和下限以内还是以外；

当第一长时间预测滞后值是在上限和下限以外时，用第三滞后值代替部分受损帧中的第一长时间预测滞后值；和

当第一长时间预测滞后值在上限和下限以内时，保持部分受损帧中的第一长时间预测滞后值。

另一种方法，该方法包括以下步骤：

根据第二长时间预测增益值，确定受损帧排列在其间的语音序列是稳态的还是非稳态的；

当语音序列是稳态时，用上次的长时间预测滞后值代替受损帧中的第一长时间预测滞后值；和

当语音序列是非稳态时，用根据第二长时间预测滞后值和有限自适应的随机滞后抖动确定的第三长时间预测滞后值代替受损帧中的第一长时间预测滞后值，和用根据第二长时间预测增益值和有限自适应的随机增益抖动确定的第三长时间预测增益值代替受损帧中的第一长时间预测增益值。

最好，第三长时间预测滞后值至少部分地基于第二长时间预测滞后值的加权中值计算，该有限自适应随机滞后抖动是一个基于第二长时间预测滞后值确定的限值为界限的值。

最好，该第三长时间预测增益值至少部分地基于第二长时间预测增益值的加权中值计算，该有限自适应随机增益抖动是一个基于第二长时间预测增益值的为界限的值。

另一种方法，该方法包括以下步骤：

确定是否受损帧是部分受损还是完全受损；

如果受损帧是完全地受损，用第三滞后值代替受损帧中的第一长时间预测滞后值，其中当完全地受损帧排列在其间的语音序列是稳态时，将第三滞后值设置为等于上次的长时间预测滞后值，当所述的语音序列是非稳态时，根据第二长时间预测值和有限自适应随机滞后抖动确定第三滞后值；

和如果受损帧是部分地受损，用第四滞后值代替受损帧中的第一长时间预测滞后值，其中当部分受损帧排列在其间的语音序列是稳态时，设置第四滞后值等于上次的预测滞后值，当所述的语音序列是非稳态时，根据从与受损帧前面的非受损帧关联的自适应编码薄搜索到的被解码的长时间预测滞后值设置第四滞后值。

本发明的第二方面是一种用于将已编码位流中的语音信号编码和将已编码位流解码成合成语音的语音信号发射机和接收机系统，其中已编码位流包括多个排列在语音序列中的语音帧，语音帧包括至少一个受损帧，在该帧前面有一个或多个未受损的帧，其中受损的帧用第一信号指示，并包括一个第一长时间预测滞后值和一个第一长时间预测增益值，未受损的帧包括第二长时间预测滞后值和第二长时间预测增益值，其中第二长时间预测滞后值包括上次的长时间预测滞后值，第二长时间预测增益值包括上次的长时间预测增益值，语音序列包括稳态的和非稳态的语音序列，该系统包括：

一个第一装置，对第一信号作出响应，用于根据第二长时间预测增益值，确定是否受损帧排列在其间的语音序列是稳态的还是非稳态的，并用于提供一个第二信号，指明是否语音序列是稳态的还是非稳态的；和

一个第二装置，对第二信号作出响应，用于当语音序列是稳态时，用上次的长时间预测滞后值代替受损帧中的第一长时间预测滞后值，当语音序列是非稳态时，分别用第三长时间预测滞后值和第三长时间预测增益值代替受损帧中的第一长时间预测滞后值和第一长时间增益值，其中第三长时间预测滞后值是根据第二长时间预测滞后值和有限自适应随机滞后抖动确定的，第三长时间预测增益值是根据第二长时间预测增益值和有限自适应随机增益抖动确定的。

最好，第三长时间预测滞后值至少部分地基于第二长时间预测滞后值的加权中值算得的，有限自适应随机滞后抖动是一个基于第二长时间预测滞后值确定的限值为界限的值。

最好，第三长时间预测增益值至少部分地基于第二长时间预测增益值的加权中值计算，该有限自适应随机增益抖动是一个基于第二长时间预测增益值确定的限值为界限的值。

本发明的第三方面是一种用于从已编码的位流合成语音的解码器，其中已编码位流包括多个排列在语音序列中的语音帆，语音帧包括至少一个受损的帧，在该帧的前面有一个或多个未受损的帧，其中受损的帧用一个第一信号指示，并包括第一长时间预测滞后值和第一长时间预测增益值，未受损的帧包括第二长时间预测滞后值和第二长时间预测增益值，其中第二长时间预测滞后值包括上次的长时间预测滞后值和第二长时间预测增益值包括上次的长时间预测增益值，语音序列包括稳态的和非稳态的语音序列。该解码器包括：

一个第一装置，对第一信号作出响应，用于根据第二长时间预测增益值确定是否受损帧安排在其间的语音序列是稳态的还是非稳态的，并用于提供一个第二信号，指明是否语音序列是稳态的还是非稳态的；和

一个第二装置，对第二信号作出响应，用于当语音序列是稳态时，用上次的长时间预测滞后值代替受损帧的第一长时间预测滞后值，当语音序列是非稳态时，分别用第三长时间预测滞后值和第三长时间预测增益值代替受损帧中的第一长时间预测滞后值和第一长时间预测增益值，其中第三长时间预测滞后值是根据第二长时间预测滞后值和有限自适应随机滞后抖动确定的，第三长时间预测增益值是根据第二长时间预测增益值和有限自适性随机增益抖动确定的。

本发明的第四方面是一种移动站，被安排成接收包含指明语音信号的语音数据的已编码位流，其中已编码位流包括多个排列在语音序列中的语音帧，语音帧包括至少一个受损的帧，在该帧的前面有一个或多个未受损的帧，其中受损的帧用一个第一信号指示，并包括第一长时间预测滞后值和第一长时间预测增益值，未受损的帧包括第二长时间预测滞后值和第二长时间预测增益值，其中第二长时间预测滞后值包括上次的长时间预测滞后值和第二长时间预测增益值包括上次的长时间预测增益值，语音序列包括稳态的和非稳态的语音序列。该移动站包括：

一个第一装置，对第一信号作出响应，用于根据第二长时间预测增益值确定是否受损的帧排列在其间的语音序列是稳态的还是非稳态的，并用于提供一个第二信号，指明语音序列是稳态的还是非稳态的；和

一个第二装置，对第二信号作出响应，用于当语音序列是稳态时，用上次的长时间预测滞后值代替在受损的帧中的第一长时间预测滞后值，当语音序列是非稳态时，分别用第三长时间预测滞后值和第三长时间预测增益值代替在受损帧中的第一长时间预测滞后值和第一长时间增益值，其中第三长时间预测滞后值是基于第二长时间预测滞后值和有限自适应随机滞后抖动确定的，第三长时间预测增益值是基于第二长时间预测增益值和有限自适应随机增益抖动确定的。

本发明的第五方面是一种在远程通信网中的部件，被安排成接收包含来自一个移动站的语音数据的已编码位流，其中语音数据包括多个排列在语音序列中的语音帧，语音帧包括至少一个受损的帧，在该帧的前面有一个或多个未受损的帧，其中受损的帧用一个第一信号指示，并包括第一长时间预测滞后值和第一长时间预测增益值，未受损的帧包括第二长时间预测滞后值和第二长时间预测增益值，其中第二长时间预测滞后值包括上次的长时间预测滞后值和第二长时间预测增益值包括上次的长时间预测增益值，语音序列包括稳态的非稳态的语音序列。该部件包括：

一个第一装置，对第一信号作出响应，用于根据第二长时间预测增益值确定是否受损帧排列在其间的语音序列是稳态的还是非稳态的，并用于提供一个第二信号，指明语音序列是稳态的还是非稳态的；和

一个第二装置，对第二信号作出响应，用于当语音序列是稳态时，用上次的长时间预测滞后值代替受损帧中的第一长时间预测滞后值，当语音序列是非稳态时，分别用第三长时间预测滞后值和第三长时间预测增益值代替在受损帧中的第一长时间预测滞后值和第一长时间增益值，其中第三长时间预测滞后值是基于第二长时间预测滞后值和有限自适应随机滞后抖动确定的，第三长时间预测增益值是基于第二长时间预测增益值和有限自适应随机增益抖动确定的。

通过阅读本描述连同图3到11C，本发明将变得更加明显。

附图说明

图1是用作说明一般的分布式语音编码解码器的方框图，其中包含语音数据的已编码位流被通过通信信道或存储介质从编码器传送到解码器。

图2是用作说明一种在接收机中的先前技术差错隐蔽设备的方框图。

图3是用作说明依据本发明的一种在接收机中的差错隐蔽设备的方框图。

图4是用作说明依据本发明的差错隐蔽方法的流程图。

图5是一种包括依据本发明的差错隐蔽模块的移动站的简要表示。

图6是一种利用依据本发明的解码器的远程通信网的简要表示。

图7是用作说明在话音的语音序列中滞后和增益剖面的LTP参数图。

图8是用作说明在非话音的语音序列中滞后和增益剖面的LTP参数图。

图9是在子帧序列中LTP-滞后值的图形，用作说明在先前技术差错隐蔽方法和依据本发明的方法之间的差别。

图10是子帧序列中LTP-滞后值的另一张图，用作说明在先前技术差错隐蔽方法和依据本发明的方法之间的差别。

图11a是一张语音信号图，用作说明具有如图11b和11c中所示的语音信道中坏帧位置的无差错语音序列。

图11b是一张语音信号图，用作说明依据先前技术的方法隐蔽坏帧中参数。

图11c是一张语音信号图，用作说明依据本发明隐蔽坏帧中参数。

最佳实施方式

图3示出一个解码器10，包括一个解码模块20和一个差错隐蔽模块30。解码模块20接收一种信号140，它通常指明用于语音合成的语音参数102。解码模块20在本领域中是已知的。差错隐蔽模块30被安排成接收已编码的位流100，它包括多个排列在语音序列中的语音流。坏帧检测设备32被用于检测在语音序列中的受损帧，并且当一个受损帧被检测到时，提供表示BFI标记的坏帧指示(BFI)信号110。BFI在本领域中也是已知的。BFI信号110被用于控制两个开关40和42。正常情况下，语音帧未被损坏，BFI标记为0。端接点S在工作情况下被连接到开关40和42中的端接点0。语音参数102被传送到一种缓存器，或“参数历史”存储器50，和用于语音合成的解码模块20。当一个坏帧被坏帧检测设备32检测到时，BFI标记被设置为1。端接点S被连到开关40和42中的端接点1。因此，语音参数102被提供给一个分析器70，为语音合成所需的语音参数被参数隐蔽模块60提供给解码模块20。语音参数102典型情况下包括用于短时间预测的LPC参数，激励参数，长时间预测(LTP)滞后参数，LTP增益参数和其他的增益参数。参数历史存储器50被用于存储许多未受损的语音帧的LTP-滞后和LTP-增益。参数历史存储器50的内容被不断地更新，以致存储在存储器50中的上次的LTP-增益参数和上次的LTP-滞后参数是上次的未受损的语音帧的参数。当在解码器10中接收到语音序列中的受损帧时，BFI标记被设置为1，受损帧的语音参数102被通过开关40传送到分析器70。通过比较在受损帧中的LTP-增益参数和存储在存储器50中的LTP-增益参数，分析器70可以根据在相邻帧中LTP-增益参数的量值和它的变化确定语音序列是稳态的还是非稳态的。典型情况下，在稳态的序列中，LTP-增益参数是高的并且是合理地稳定的，LTP-滞后值是稳定的并且在相邻LTP-滞后值中的变化是较小的，如图7中所示。相反，在非稳态序列中，LTP-增益参数是低的并且不稳定，LTP-滞后也是不稳定的，如图8中所示，LTP-滞后值或多或少随机地变化着。图7示出字“viini”的语音序列，图8示出字“exhibition”的语音序列。

如果包括受损帧的语音序列是话音的或稳态的，上次的良好的LTP-滞后被从存储器50中检索出并传送到参数隐蔽模块60。被检索出的良好的LTP-滞后被用于代替受损帧的LTP-滞后。因为在稳态语音序列中的LTP-滞后是稳定的并且它的变化很小，利用稍作修改的前面的LTP-滞后来隐蔽受损帧中的相应参数是合乎情理的。然后，RX信号104使替换参数，用参考数字134表示，被通过开关42传送到解码模块20。

如果包括受损帧的语言序列是非话音的或非稳态的，分析器70计算用于参数隐蔽的替代的LTP-滞后值和替代的LTP-增益值。因为在一个非稳态的语音序列中的LTP-滞后是不稳定的，典型情况下在相邻帧中的变化是非常大的，参数隐蔽应该使在被差错隐蔽的非稳态序列中的LTP-滞后能够以随机方式起伏。如果在受损帧中的参数被完全地受损，如在一个丢失的帧中，利用前面的良好的LTP-滞后值的加权中值以及有限自适应的随机抖动计算替代的LTP-滞后。有限自适应随机抖动被允许在从LTP-值的历史值算得的限值内变化，所以在一个被隐蔽差错的数据段中参数的起伏与相同的语音序列中前面的良好部分是类似的。

用于LTP-滞后的示范性的规则由一组如下所示的条件所支配：如果

minGain＞0.5AND LagDif＜10；OR

lastGain＞0.5AND secondLastGain＞0.5，则上次接收到的良好的LTP-滞后被用于完全受损的帧。否则，带有随机性的LTP-滞后缓存器的加权平均，Update_lag，被用于完全受损的帧。Update_lag是按以下所描述的方式算得的：

LTP-滞后缓存器被分类，检索出三个最大的缓存器值。这三个最大的值的平均被称为加权平均滞后(WAL)，与这些最大值的差被称为加权滞后差(WLD)。

设RAND是带有比例为(-WLD/2，WLD/2)的随机化，则

Update_lag＝WAL+RAND(-WLD/2，WLD/2)，其中，

minGain是LTP-增益缓存器的最小值；

LagDif是最小和最大LTP-滞后值之间的差值；

LastGain是上次接收到的良好的LTP-增益；和

secondLastGain是第二个上次接收到的良好的LTP-增益。

如果在受损帧中的参数是部分受损，则在受损帧中的LTP-滞后值被相应地替换。部分受损的帧是由一组以下给出的示范性的LTP-特性准则确定的：如果

(1)LagDif＜10AND(minLag-5)＜T_bf＜(maxLag+5)；OR

(2)lastGain＞0.5AND secondLastGain＞0.5AND(lastLag-10)＜T_bf＜(lastLag+10)；OR

(3)minGain＜0.4AND lastGain＝minGain AND minLag＜T_bf＜maxLag；OR

(4)LagDif＜70AND minLag＜T_bf＜maxLag；OR

(5)meanLag＜T_bf＜maxLag是真的，则T_bf被用于替代受损帧中的LTP-滞后，否则，如以上所描述的那样，受损帧被当作完全受损帧处理。在以上的条件中：

maxlag是LTP-滞后缓存器的最大值；

meanlag是LTP-滞后缓存器的平均值；

minlag是LTP-滞后缓存器的最小值；

Lastlag是上次接收到的良好的LTP-滞后值；和

T_bf是当BFI被设置时，好象BFI未被设置那样从自适应编码簿搜索到的被解码的LTP-滞后。

两个参数隐蔽的例子示于图9和10中。如图所示，在坏帧中的替代的LTP-滞后值的剖面图，依据先前技术，是相当平的，但是依据本发明的替代的剖面图，允许某些起伏，与无差错剖面图类似。在先前技术方法和本发明之间的差别，根据如图11a中所示的在无差错信道中的语音信号，分别进一步示于图11b和11c中。

当在受损帧中的参数是部分受损时，参数隐蔽可被进一步最佳化。在部分受损帧中，在受损帧中的LTP-滞后仍然可以获得可接受的合成的语音段。依据GSM技术说明，BFI标记是由一种循环冗余检验(CRC)机制或其他的差错校正机制设置的。在信道解码过程中，这些差错校正机制检测最高有效位中的差错。因此，即使只有几位出错，差错可被检出并相应地设置BFI标记。在先前技术参数隐蔽方法中，整个帧被抛弃。结果，包含在正确的位中的信息被扔掉。

通常情况下，在信道解码过程中，每帧的BER是一种对于信道条件的良好的指示器。当信道条件良好时，每帧的BER很小，在出错的帧中很高的百分数的LTP-滞后值被校正。例如，当帧差错率(FER)是0.2％时，超过70％的LTP-滞后值被校正。甚至当FER达到3％时，仍然有大约60％的LTP-滞后值被校正。CRC可以准确地检测出一个坏帧并相应地设置BFI标记。然而，CRC并不提供帧中BER的估值。如果BFI标记仅仅被用于参数隐蔽，则很高百分数的正确的LTP-滞后值可能被浪费掉。为了防止大量的正确的LTP-滞后值被扔掉，可以根据LTP历史值使决策准则适应于参数隐蔽，例如，也可以使用FER作为决策准则。如果LTP-滞后满足决策准则，不需要参数隐蔽。在这种情况下，分析器70将通过开关40接收到的语音参数102传送到参数隐蔽模块60，然后将同样的参数通过开关42传送到解码模块20。如果LTP-滞后不满足决策准则，则如以上所描述的那样，利用LTP-特性准则进一步检查受损的帧以便进行参数隐蔽。

在稳态的语音序列中，LTP-滞后是非常稳定的。无论在受损帧中大多数的LTP-滞后值是正确的还是有错的都可以高的概率被正确地预测。因此，可以使非常严格的准则适应于参数隐蔽。在非稳态的语音序列中，由于LTP参数的不稳定性质，可能难以预测是否在受损帧中的LTP-滞后值是正确的。然而，预测正确与否在非稳态语音中没有在稳态语音中那么重要。虽然允许有错的LTP-滞后值使用在对稳态语音的解码中可能使合成的语音不可能辨认，但允许有错的LTP-滞后值使用在对非稳态语音的解码中通常只增加可听到的人为产物。因此，用于在非稳态语音中参数隐蔽的决策准则可以是相当不严格的。

正如以前提到的那样，在非稳态语音中LTP-增益起伏很大。如果来自上次的良好帧的相同LTP-增益值被重复地用于替代在语音序列中一个或多个受损帧的LTP-增益值，在增益被隐蔽的段中LTP-增益剖面将是平的(与图7和8中所示的先前技术LTP-滞后的替代类似)，与未受损帧的起伏剖面完全相反。在LTP-增益剖面中突然的变化可以产生令人不愉快的听得见的人为产物。为了使这些听得见的人为产物为最小，使替代的LTP-增益值在差错被隐蔽的段中起伏是可能的。为此目的，分析器70也可用于确定替代的LTP-增益值被允许根据在LTP历史值中的增益值起伏所在范围的限值。

可按以下所描述的方式实现LTP-增益隐蔽。当BFI被设置时，按照一组LTP-增益隐蔽规则计算替代的LTP-增益值。替代的LTP-增益值被标记为Updated_gain。

(1)如果gainDif＞0.5AND lastGain＝maxGain＞0.9AND subBF＝1，则

Updated_gain＝(secondLastGain+thidLastGain)/2；

(2)如果gainDif＞0.5AND lastGain＝maxGain＞0.9AND subBF＝2，则

Updated_gain＝meanGain+randVar^*(maxGain-meanGain)；

(3)如果gaindif＞0.5AND lastGain＝maxGain＞0.9AND subBF＝3，则

Updated_gain＝meanGain-randVar^*(meanGai-minGain)；

(4)如果，gainDif＞0.5AND lastGain＝maxGain＞0.9AND subBF，则

Updated_gain＝meanGain+randVar^*(maxGain-meanGain)；

在以前的条件中，Updated_gain不可能大于lastGain。如果以前的条件不可能被满足，使用以下的条件：

(5)如果gainDif＞0.5，则

Updated_gain＝lastGain；

(6)如果gainDif＜0.5AND lastGain＝maxGain，则

Updated_gain＝meanGain；

(7)如果gainDIF＜0.5，则

Updated_gain＝lastGain，

其中

meanGain是LTP-增益缓存器的平均值；

maxGain是LTP-增益缓存器的最大值；

minGain是LTP-增益缓存器的最小值；

randVar是在0和1之间的随机值，

gainDif是在LTP-增益缓存器中最小和最大LTP-增益值之间的差值；

lastGain是上次接收到的良好的LTP-增益；

secondlastGain是第二个上次接收到的良好的LTP-增益；

thirdlastGain是第三个上次接收到的良好的LTP-增益；和

subBF是子帧的阶数。

图4示出依据本发明的差错隐蔽方法。在步骤160接收已编码位流，在步骤162检查帧看看是否它是受损的。如果该帧未受损，则在步骤164语音序列的参数历史值被更新，在步骤166当前帧的语音参数被解码。然后步骤返回到步骤162。如果该帧是坏的或受损，在步骤170从参数历史值存储器检索参数。在步骤172确定是否受损的帧是稳态的语音序列或非稳态的语音序列的部分。如果语音序列是稳态的，在步骤174上次良好的帧的LTP-滞后被用于替代在受损帧中的LTP-滞后。如果语音序列是非稳态的，在步骤180根据LTP历史值计算新的滞后值和新的增益值，在步骤182它们被用于替代在受损帧中的相应参数。

图5示出依据本发明一种示范性实施方案的移动站200方框图。移动站包括设备的典型部件，如话筒201，键板207，显示器206，耳机214，发送/接收开关208，天线209和控制单元205。此外，该图示出一个移动站中典型的发射机和接收机方框204，211。发射机方框204包括用于对语音信号编码的编码器221。发射机方框204也包括为信道编码，解密和调制以及RF功能所需的操作，为清楚起见它们未被画在图5中。接收机方框211也包括依据本发明的解码方框220。解码方框220包括与图3所示的参数隐蔽模块30相似的差错隐蔽模块222。来自话筒201的信号在放大级202被放大并在A/D变换器中被数字化，被送到发射机方框204，典型情况下送到发送方框所包含的语音编码设备。被发送方框处理，调制和放大的发送信号经发送/接收开关208送到天线209。要接收的信号从天线经发送/接收开关208送到接收机方框211，将接收到的信号解调和解密并对信道编码进行解码。所得到的语音信号经D/A变换器212送到放大器213并进一步送到耳机214。控制单元2058控制移动站200的操作，读出由用户从键板207给出的控制命令并藉助于显示器206给用户消息。

依据本发明的参数隐蔽模块30也可用在远程通信网300中，如普通的电话网，或移动站网，如GSM网。图6示出这样一种远程通信网方框图的一个例子。例如，远程通信网300可以包括电话交换局或相应的交换系统360，普通的电话370，基站340，基站控制器350和远程通信网的其他中心设备可连接在上面。移动站330可以通过基站340建立对远程通信网的连接。解码方框320包括与图3所示的差错隐蔽模块30类似的差错隐蔽模块322，例如，可以特别有利地放在基站340中。然而，例如，解码方框320也可以放在基站控制器350或其他的中心或交换设备355中。如果，例如，移动站系统在基站和基站控制器之间使用分离的代码转换器，用以将通过无线电信道所取得的编码信号变换成在远程通信系统中传送的典型的64K bit/s信号，反过来也一样，则解码方框320也可放在这样一种代码转换器中。一般来说，包括参数隐蔽模块322的解码方框320可以放在远程通信网300的任何将编码数据流变换成未编码数据流的部件中。解码方框320将来自移动站330的编码语音信号解码和滤波，此后语音信号可在远程通信网300中以通常的未被压缩的方式向前传送。

应该指出，本发明的差错隐蔽方法已经对于稳态的和非稳态的语音序列作了描述，稳态的语音序列通常是话音，非稳态的语音序列通常是非话音。因此，将会理解，所公开的方法适用于在话音和非话音的语音序列中的差错隐蔽。

本发明适用于CELP型的语音编码解码器，同样也适应于其他类型的语音编码解码器。因此，虽然对本发明已经根据它的优选实施方案作了描述，本领域的技术人员将会理解，在形式和细节上可以进行前面的和各种各样的其他改变，省略和偏移而并不偏离本发明的精神和范围。

Claims

1.一种用于在语音解码器中指明接收到的语音信号的编码位流中隐蔽差错的方法，其中编码的位流包括多个排列在语音序列中的语音帧，语音帧包括至少一个部分受损的帧，在该帧前面有一个或多个未受损的帧，其中部分受损的帧包括一个第一长时间预测滞后值和一个第一长时间预测增益值，未受损的帧包括第二长时间预测滞后值和第二长时间预测增益值，其中第二长时间预测滞后值包括一个上次的长时间预测滞后值，和第二长时间预测增益值包括一个上次的长时间预测增益值，所述的方法包括以下步骤：

根据第二长时间预测滞后值提供一个上限和一个下限；

确定是否第一长时间预测滞后值是在上限和下限以内或以外；

当第一长时间预测滞后值是在上限和下限之外时，用第三滞后值替代部分受损帧中的第一长时间预测滞后值；和

当第一长时间预测滞后值是在上限和下限以内时，保持部分受损帧中的第一长时间预测滞后值。

2.如权利要求1的方法，当第一长时间滞后值是在上限和下限以外时，进一步包括用第三增益值替代部分受损帧中的第一长时间预测增益值。

3.如权利要求1的方法，根据第二长时间预测滞后值和由基于第二长时间预测滞后值确定的进一步的限值为界限的有限自适应随机滞后抖动计算第三滞后值。

4.如权利要求2的方法，根据第二长时间预测增益值和由基于第二长时间预测增益值确定的限值为界限的有限自适应随机增益抖动计算第三增益值。

5.一种用于在语音解码器中指明接收到的语音信号的编码位流中隐蔽差错的方法，其中编码的位流包括多个排列在语音序列中的语音帧，语音帧包括至少一个受损的帧，在该帧前面有一个或多个未受损的帧，其中受损的帧包括一个第一长时间预测滞后值和一个第一长时间预测增益值，未受损的帧包括第二长时间预测滞后值和第二长时间预测增益值，和其中第二长时间预测滞后值包括一个上次的长时间预测滞后值，第二长时间预测增益值包括一个上次的长时间预测增益值，语音序列包括稳态的和非稳态的语音序列，和其中受损的帧可以是完全受损的帧或部分受损的帧，所述的方法包括以下步骤：

确定是否受损帧是部分受损或完全受损；

如果受损帧是完全受损，用第三滞后值替代受损帧中的第一长时间预测滞后值；和

如果受缶帧是部分受损，用第四滞后值替代受损帧中的第一长时间预测滞后值。

6.如权利要求5的方法，还包括以下步骤：

确定是否部分受损帧所在的语音序列是稳态的或非稳态的；

当所述的语音序列是稳态时，设置第四滞后值等于上次的长时间预测滞后值；和

当所述的语音序列是非稳态时，根据从与在受损帧前面的非受损帧有关的自适应编码簿搜索到的被解码的长时间预测滞后值确定第四滞后值。

7.如权利要求5的方法，还包括以下步骤：

确定是否完全受损帧所在的语音序列是稳态的或非稳态的；

当所述的语音序列是稳态时，设置第三滞后值等于上次的长时间预测滞后值；和

当所述的语音序列是非稳态时，根据第二长时间预测值和有限自适应随机滞后抖动确定第三滞后值。

8.如权利要求6的方法，其中第二长时间预测滞后值进一步包括第二个上次的长时间预测滞后值和第三个上次的长时间预测滞后值，第二长时间预测增益值进一步包括第二个上次的长时间预测增益值和第三个上次的长时间预测增益值，所述的方法进一步包括以下步骤：

确定minLag，它是在第二长时间预测滞后值之间的最小滞后值；

确定maxLag，它是在第二长时间预测滞后值之间的最大滞后值；

确定meanLag，它是第二长时间预测滞后值的平均值；

确定difLag，它是maxLag和minLag的差值；

确定minGain，它是在第二长时间预测增益值之间的最小增益值；

确定maxGain，它是在第二长时间预测增益值之间的最大增益值；

确定meanGain，它是第二长时间增益值的平均值；在其中

如果difLag＜0和(minLag-5)＜第四滞后值＜(maxLag+5)；或

如果上次的长时间预测增益值大于0.5，第二个上次的长时间预测增益值大于0.5，第四个滞后值小于上次的长时间预测值与10之和，第四滞后值与10之和大于上次的长时间预测值；或

如果minGain＜0.4，上次的长时间预测增益值等于minGain，和第四滞后值大于minLag但小于maxLag；或

如果difLag＜70，第四滞后值大于minLag但小于maxLag；或

如果第四滞后值大于meanLag但小于maxLag；则受损的帧被确定为部分受损。

9.如权利要求6的方法，其中当所述的语音序列是非稳态时，所述的方法进一步包括确定语音的帧差错率，使得

如果帧差错率达到所确定的值，根据所述的被解码的长时间预测滞后值确定第四滞后值，和

如果帧差错率小于所确定的值，第四滞后值被设置为等于上次的长时间预测滞后值。

10.如权利要求5的方法，其中稳态的语音序列包括语音的序列，非稳态的语音序列包括非话音序列。

11.一种用于将已编码位流中的语音信号编码和将已编码位流解码成合成的语音的的语音信号发射机和接收机系统，其中已编码位流包括多个排列在语音序列中的语音帧，语音帧包括至少一个受损帧，在该帧前面有一个或多个未受损的帧，其中受损帧包括一个第一长时间预测滞后值和一个第一长时间预测增益值，未受损的帧包括第二长时间预测滞后值和第二长时间预测增益值，其中第二长时间预测滞后值包括一个上次的长时间预测滞后值和第二长时间预测增益值包括一个上次的长时间预测增益值，语音序列包括稳态的和非稳态的语音序列，和一个第一信号被用于指明受损帧，所述的系统包括：

一个第一装置，对第一信号作出响应，用于确定是否受损帧排列在其间的语音序列是稳态的或非稳态的，和用于提供一个第二信号指明所述的确定；

一个第二装置，对第二信号作出响应，当所述的语音序列是稳态时，用上次的长时间预测滞后值替代受损帧中第一长时间预测滞后值，当所述的语音序列是非稳态时，用第三滞后值替代受损帧中的第一长时间预测滞后值。

12.如权利要求11的系统，其中根据第二长时间预测滞后值和有限自适应随机滞后抖动确定第三滞后值。

13.如权利要求11的系统，其中当所述的语音序列是非稳态时，第二装置进一步用第三增益值替代受损帧中的第一长时间预测增益值。

14.如权利要求13的系统，其中根据第二长时间预测增益值和有限自适应随机增益抖动确定第三增益值。

15.如权利要求11的系统，其中稳态的语音序列包括语音的序列，非稳态的语音序列包括非话音序列。

16.一种用于从已编码位流合成语音的解码器，其中已编码位流包括多个排列在语音序列中的语音帧，语音帧包括至少一个受损帧，在该帧前面有一个或多个未受损的帧，其中受损帧包括一个第一长时间预测滞后值和一个第一长时间预测增益值，未受损帧包括第二长时间预测滞后值和第二长时间预测增益值，其中第二长时间预测滞后值包括一个上次的长时间预测增益值，语音序列包括稳态的和非稳态的语音序列，一个第一信号被用于指明受损的帧，所述的解码器包括：

一个第一装置，对第一信号作出响应，用于确定是否受损帧排列在其间的语音序列是稳态的或非稳态的，并用于提供一个第二信号，指明所述的确定；

一个第二装置，对第二信号作出响应，当所述的语音序列是稳态时，用上次的长时间预测滞后值替代在受损帧中的第一长时间预测滞后值，当所述的语音帧是非稳态时，用第三滞后值替代在受损帧中的第一长时间预测滞后值。

17.如权利要求16的解码器，其中滞后值是基于第二长时间预测滞后值和有限自适应随机抖动确定的。

18.如权利要求16的解码器，其中当所述的语音序列是非稳态时，第二装置进一步用第三增益值替代受损帧中的第一长时间增益值。

19.如权利要求18的解码器，其中第三增益值是基于第二长时间预测增益值和有限自适应随机增益抖动确定的。

20.如权利要求16的解码器，其中稳态的语音序列包括语音的序列，非稳态的语音序列包括非话音序列。

21.一种被安排成接收包含指明语音信号的语音数据的已编码位流的移动站，其中已编码位流包括多个排列在语音序列中的语音帧，语音帧包括至少一个受损的帧，在该帧前面有一个或多个未受损的帧，其中受损帧包括一个第一长时间预测滞后值和一个第一长时间预测增益值，未受损帧包括第二长时间预测滞后值和第二长时间预测增益值，其中第二长时间预测滞后值包括一个上次的长时间预测滞后值，第二长时间预测增益值包括一个上次的长时间预测增益值，语音序列包括稳态的和非稳态的语音序列，其中一个第一信号被用于指明受损的帧，所述的移动站包括：

一个第一装置，对第一信号作出响应，用于确定是否受损帧安排在其间的语音序列是稳态的或非稳态的，并用于提供一个第二信号指明所述的确定；和

一个第二装置，对第二信号作出响应，当所述的语音序列是稳态时，用于用上次的长时间预测滞后值替代受损帧中第一长时间预测滞后值，当所述的语音序列是非稳态时，用第三滞后值替代受损帧中第一长时间预测滞后值。

22.如权利要求21的移动站，其中第三滞后值是基于第二长时间预测滞后值和有限自适应随机滞后抖动确定的。

23.如权利要求21的移动站，其中当所述的语音序列是非稳态时，第二装置进一步用第三增益值替代受损帧中的第一长时间增益值。

24.如权利要求23的移动站，其中第三增益值是基于第二长时间预测增益值和有限自适应随机增益抖动确定的。

25.如权利要求21的移动站，其中稳态的语音序列包括话音的序列，非稳态的语音序列包括非话音序列。

26.一种远程通信网中的部件，被安排成从移动站接收包含语音数据的已编码位流，其中语音数据包括多个排列在语音序列中的语音帧，语音帧包括至少一个受损的帧，在该帧前面有一个或多个未受损的帧，其中受损的帧包括一个第一长时间预测滞后值和一个第一长时间预测增益值，未受损的帧包括第二长时间预测滞后值和第二长时间预测增益值，其中第二长时间预测滞后值包括一个上次的长时间预测滞后值，第二长时间预测增益值包括一个上次的长时间预测增益值，语音序列包括稳态的和非稳态的语音序列，其中一个第一信号被用于指明受损的帧，所述的部件包括：

一个第一装置，对第一信号作出响应，用于确定是否受损的帧排列在其间的语音序列是稳态的或非稳态的，并用于提供一个第二信号指明所述的确定；和

一个第二装置，对第二信号作出响应，当所述的语音序列是稳态时，用上次的长时间预测滞后值替代受损帧中的第一长时间预测滞后值，当所述的语音序列是非稳态时，用第三滞后值替代受损帧中的第一长时间预测滞后值。

27.如权利要求26的部件，其中第三长时间预测滞后值是基于第二长时间预测滞后值和有限自适应随机滞后抖动确定的。

28.如权利要求26的部件，其中当所述的语音序列是非稳态时，第三装置进一步用第三增益值替代第一长时间预测增益值。

29.如权利要求28的部件，其中第三增益值是基于第二长时间预测增益值和有限自适应随机增益抖动确定的。

30.如权利要求26的部件，其中稳态语音序列包括语音的序列，非稳态的语音序列包括非话音序列。

31.如权利要求5的(新)方法，其中第二长时间预测增益值进一步包括第二个上次的长时间预测增益值，和

如果difLag＜10，和(minLag-5)＜decodedLag＜(maxLag+5)；或

如果lastGain＞0.5，和secondlastGain＞0.5，和

(lastLag-10)＜decodedLag＜lastLag+10)；或

如果minGain＜0.4，和lastGain＞0.5，和minLag＜decodedLag＜maxLag；或

如果difLag＜70，和minLag＜decodedLag＜maxLag；或

如果meanLag＜decodedLag＜maxLag，则第四值被设置为等于decodedLag，其中

minLag是在第二长时间预测滞后值之间的最小滞后值，

maxLag是在第二长时间预测滞后值之间的最大滞后值，

meanLag是第二长时间预测滞后值的平均值；

difLag是maxLag和minLag的差值，

minGain是在第二长时间预测增益值之间的最小增益值，

meanGain是在第二长时间预测增益值的平均值，

lastGain是上次的长时间预测增益值，

lastLag是上次的长时间预测滞后值，

secondlastGain是第二个上次的长时间预测滞后值；和

decodedLag是被解码的长时间预测滞后，是从与受损帧前面的未受损帧有关的自适应编码簿搜索到的。

32.如权利要求8的(新)方法，其中第一长时间预测增益值被Updated_gain替代，并且在其中

如果gainDif＞0.5AND lastGain＝maxGain＞0.9AND subBF＝1，则

Updated_gain＝(secondLastGain+thirdLastGain)/2；

如果gainDif＞0.5AND lastGain＝maxGain＞0.9AND subBF＝2，则

Updated_gain＝meanGain+randVar*(maxGain-meanGain)；

如果gainDif＞0.5AND lastGain＝maxGain＞0.9AND subBF＝3，则

Updated_gain＝meanGain-randVar*(meanGain-minGain)；

如果gainDif＞0.5AND lastGain＝maxGain＞0.9AND subBF＝4，则

Updated_gain＝meanGain+randVar*(maxGain-meanGain)；

和当Updated_gain是等于或小于lastGain时；或者

如果gainDif＞0.5，则

Updated_gain＝lastGain；

(8)如果gainDif＜0.5AND lastGain＝maxGain，则

Updated_gain＝meanGain；

(9)如果gainDIF＜0.5，则

Updated_gain＝lastGain，

和当Updated_gain大于lastGain时，其中

randVar是在0和1之间的一个随机值，

gainDif是在最小和最大长时间预测增益值之间的差值；

lastGain是上次的长时间预测增益值；

secondlastGain是第二个上次的长时间预测增益值；

thirdlastain是第三个上次的长时间预测增益值；和

subBF是子帧的阶数。