CN101331539A

CN101331539A - 用于互联网协议语音的包丢失恢复方法和设备

Info

Publication number: CN101331539A
Application number: CNA2006800471681A
Authority: CN
Inventors: 张焕强; 章志刚
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2005-12-15
Filing date: 2006-12-01
Publication date: 2008-12-24
Also published as: EP1961000A1; US20120087231A1; WO2007068610A1

Abstract

本发明揭露了在VoIP系统中包丢失恢复(PLR)的方法和用于该方法的设备。通过使用CELP编解码器的LPC参数中的信息，定位属于每一个语音音素的开始段的语音包/语音帧，并且在网络传输之前，使用包重发来保护这些包。

Description

用于互联网协议语音的包丢失恢复方法和设备

技术领域

本发明主要涉及包丢失恢复，尤其涉及互联网协议语音(Voice overInternet Protocol，VoIP)系统中包丢失恢复的方法和设备。

背景技术

包丢失(包括有大的延迟抖动的那些包)会降低语音质量，甚至使得语音不能理解。很多方案被设计出来解决这个问题。这些方案可分为基于发送端的包丢失恢复(PLR，Packet Loss Recovery)和基于接收端的包丢失隐藏(PLC，Packet Loss Concealment)[C.Perkins，O.Hodson，and V.Hardman，“Asurvey of packet-loss recovery techniques forstreaming audio，”IEEE Network Magazine，September/October，1998]。PLR方法包括交叉和其他FEC机制(如包级重传，在重要编解码参数上的数据保护)。PLC方法包括无声取代，包重发(packet repetition)，插值(interpolation)[ITU-TRecommendation G.711 Appendix I，A highquality low-complexity algorithm for packet loss concealment with G.711，2000]，时间标度修改(time scale modification)[Moon-Keun Lee；Sung-Kyo Jung；Hong-Goo Kang；Young-Cheol Park；Dae-Hee Youn；Apacketloss concealment algorithm based on time-scale modification for CELP-typespeech coders，Proceedings of IEEE International Conference on Acoustics，Speech，and Signal Processing，2003(ICASSP′03).Volume 1，6-10 April 2003Page(s)：I-116-I-119vol.1]，和在CELP编解码器中的基于模型的恢复[ITU-T Recommendation G.729-″Coding of Speech at 8 kbit/s UsingConjugate-Structure Algebraic-Code-Excited Linear-Prediction(CS-ACELP)″，March 1996]。

所有的PLC机制能够提高VoIP应用的感知语音质量，并且，如时间标度修改和基于模型的方法这样的方法有很好的隐藏性能。但是当包丢失突发性高的时候，所有这些方法效果都不好。特别地，当有大的流量负载的时候，因为信道干扰和发送冲突引起包丢失和长的等待时间(longlatency)，使这个问题在WLAN中变得更严重。因此，需要一种在大的包丢失突发和重负载网络中适用的、仍在低码速率运行的能够提高语音质量的解决方案。

发明内容

根据本发明的一个方面，提供了在互联网协议语音的网络中的包丢失恢复的方法。该方法包括步骤：a)确定感知上重要的语音包；b)在至少一个后面的包中捎带所述感知上重要的语音包；c)发送所有的包；以及d)当接收时重构包。

根据本发明，该感知上重要的语音包属于语音音素的开始段。

根据本发明，该感知上重要的语音包在步骤a)中通过使用编码激励线性预测(CELP)编解码器的线性预测编码(LPC)参数中的信息来确定。

在本发明的另一个方面中，提供了用于互联网协议语音(VoIP)的包丢失恢复设备。该设备包括：语音捕获单元；编码单元；用于确定感知上重要的语音包的确定单元；用于在至少一个后面的包上捎带感知上重要的语音包的捎带单元；发送单元；接收单元；用于存储包和用于转发包到解码单元的缓存单元；用于重构包的解码单元；以及语音播放单元。

根据本发明，该确定单元和该捎带单元能够被集成到该编码单元。

根据本发明，该感知上重要的包属于语音音素的开始段。

根据本发明，该感知上重要的包通过在步骤a)中使用编码激励线性预测(CELP)编解码器的线性预测编码(LPC)参数中的信息来确定。

附图说明

图1示出在不丢弃，随机丢弃和选择丢弃的情况下原始数据的语音段(speech segment)的波形图；

图2示出图1的随机丢弃和选择丢弃的平均评定得分(MeanOpinion Score，MOS)值；

图3示出英语短语“Hello，world“的波形和它的LPC参数的差值平方D(i)；

图4示出LPC参数的差值平方以及差值和它平均值的关系；

图5是示出重要帧重发的示意图；

图6是示出用于测试包丢失恢复机制性能的环境的示意图；以及

图7示出根据本发明的包丢失恢复机制性能的测试结果图。

具体实施方式

进一步地，结合实施例来描述本发明的技术特征。实施例仅仅是较好的例子，并不能用于局限本发明。通过下面结合附图的详细描述，本发明被更好的理解。

实验表明，语音音素(speech phoneme)的开始的帧比中间的帧重要，这是因为它们影响音素的语义理解。并且，在VoIP应用中，这些帧甚至更重要，这是因为在大部分编解码器中，包丢失隐藏机制是基于邻近的没有丢失的帧来构造丢失的帧，因此，如果丢失的包是音素的开始的帧，那么会基于前面别的音素的数据或者甚至是静音的帧构造音素开始部分所有丢失的帧。图1示出这样一个例子，其中示出CELP编解码器Speex的不同的输出波形，并且这些波形属于下面的情况：

没有丢弃(No Drop)：没有包丢失的原始语音帧；

随机丢弃(Random Drop)：随机丢包后的语音帧；和

选择丢弃(Selective Drop)：丢弃那些不重要帧(即那些不是音素开始部分的帧)后的语音帧，并且丢失速率和随机丢弃的丢失速率一样。

在图1中，用灰色条来标记音素的开始的部分。可以看出，如果这部分丢失(随机丢弃情形)，波形会被静音所替代。

图2给出该概念的量化描述。它示出随机丢弃和选择丢弃情形下的平均评定得分(Mean Opinion Score，MOS)。从图中可以看出，在相同的包丢失速率下，如果音素开始的帧不丢弃，那么语音质量会比较好。

像G.723，G.729，GSM，iLBC，Speex等很多实际的低比特速率语音编解码器是基于编码激励线性预测(code-Excited LinearPredictive，CELP)语音编码算法。CELP语音编解码器的基本思想是用激励(excitation)和一组滤波参数(filter parameter)对声带和声道建模。使用线性预测对该组滤波参数进行计算(它们是所谓的线性预测编码参数)，然后使用自适应码本和固定码本对残差进行编码。

在CELP语音编解码器中，LPC参数反映了声道的性质。当声道的形状随着每一个音素改变的时候，LPC参数也会因此改变，并且这能够反映在LPC参数的差值平方中。

这里我们给出关于如何计算LPC参数的差值平方的简单描述。假设在CELP编解码器中进行n阶LPC分析，a₀(i)，…，a_n-1(i)是帧i的LPC参数，那么帧i的LPC参数的差值平方计算如下：

D (i) = Σ_{k = 0}^{n} {(a_{k} (i) - a_{k} (i - 1))}^{2} - - - (1)

很显然，大的D(i)意味着和上一帧相比，当前帧有着明显的LPC参数变化。

图3示出了英语短语“Hello，World！″的波形和它的LPC参数的差值平方D(i)。每一个音素被标记在波形图的上方。我们能够看出，D(i)图(图的下部分)中的峰值与音素的开始完美地匹配。

为了定位所有音素的开始的帧，我们比较D(i)和它的平均值mean(D(i))，如果当前的D(i)比k*mean(D(i))大，那么帧i被视为音素的开始的部分(见图3)，并把帧i附到后面的帧上，从而帧i至少会被传送两次。这里，k是一个1左右的系数，并且它需要被细调。如果k值太小，会造成很多帧被错误地认为是音素的开始；如果k值太大，那么音素开始的一些帧就不能够被识别出。图4描述当k＝1时的例子。

我们保护重要的语音帧的方式很简单明了，如图5所示，仅仅在以后的帧中捎带重要的帧，其中每一个块表示要在网络中传输的音频帧。灰色的块是要被保护的重要的帧(这里，2号帧是被保护的帧)。

这种方法的问题是，大的背景噪声能够引起LPC参数的差值显著地变化。为解决这个问题，可以使用静音检测机制来加强音素检测。

做了一个实验来测试包丢失恢复机制的性能，其中两个IP电话A和B通过一个Linux路由器R互相连接，并且在Linux路由器R上通过运行NISTNet(见图6)模拟包丢失。在IP电话中，使用了开源的语音编解码器Speex[Speex编解码器：http://www.speex.org/]的修改版本，并且在这个编解码器中实现了内容识别(content-aware)的PLC。一段语音数据(42秒)从A传送到B，其中，B记录接收的语音数据，并且我们使用来自ITU-T的PESQ参考软件[ITU RecommendationP.862(02/2001)Perceptual evaluation of speech quality(PESQ)，an objective method for end-to-end speech qualityassessment of narrow-band telephone networks and speechcodecs]来获得接收的语音数据的MOS质量值。并且传送大约19.2％-30％的冗余数据来保护重要的帧。图7示出该实验的结果。能够看出，通过应用包丢失恢复，语音质量有着很明显的改善。

当前的实施例是为VoIP应用而专门设计的，并且特别地适合在无线局域网上的语音(Voice over wireless LAN，VoWLAN)中实现，例如，现在的通过WLAN，WiMAX或者3G网络到Internet的宽带无线接入。

一方面，所提议的解决方案能有效的计算，因为当确定音素的开始的时候，我们使用的数据是能够直接从CELP编解码器获得的LPC参数。唯一的额外计算是D(i)的计算，如果LPC参数是n阶，那么就是n-1个加法运算和n个乘法。并且为了进一步简化D(i)的计算，我们能够使用差值的绝对值来代替LPC参数差值平方值。

此外，和传统的全部包级重传相比，重传很少冗余信息就能够实现语音质量的显著提高。如图7所示，本实施例中的重传仅仅占传统的全部包级重传的30％左右。

前面描述了本发明的方面和优选的实施例，本领域普通技术人员能够在不背离本发明的前提下做出很多在设计或者构建细节的变形。本发明包括所有披露特征的单独的特征或可能的排列和组合。

Claims

1.一种在互联网协议语音(VoIP)的系统中用于包丢失恢复的方法，所述方法包括步骤：

a)确定感知上重要的语音包；

b)在至少一个后面的包中捎带所述感知上重要的语音包；

c)发送所有的包；以及

d)当接收时重构包。

2.如权利要求1所述的方法，其中，所述感知上重要的语音包属于语音音素的开始段。

3.如权利要求1所述的方法，其中，所述感知上重要的语音包在步骤a)中通过使用编码激励线性预测(CELP)编解码器的线性预测编码(LPC)参数中的信息来确定。

4.一种用于互联网协议语音(VoIP)的包丢失恢复设备，所述设备包括：

语音捕获单元；

编码单元；

用于确定感知上重要的语音包的确定单元；

用于在至少一个后面的包上捎带感知上重要的语音包的捎带单元；

发送单元；

接收单元；

用于存储包和用于转发包到解码单元的缓存单元；

用于重构包的解码单元；以及

语音播放单元。

5.如权利要求4所述的设备，其中，所述确定单元和所述捎带单元能够被集成到所述编码单元。

6.如权利要求4所述的设备，其中，所述感知上重要的包属于语音音素的开始段。

7.如权利要求4所述的设备，其中，所述感知上重要的包通过使用编码激励线性预测(CELP)编解码器的线性预测编码(LPC)参数中的信息来确定。