CN101331539A - 用于互联网协议语音的包丢失恢复方法和设备 - Google Patents
用于互联网协议语音的包丢失恢复方法和设备 Download PDFInfo
- Publication number
- CN101331539A CN101331539A CNA2006800471681A CN200680047168A CN101331539A CN 101331539 A CN101331539 A CN 101331539A CN A2006800471681 A CNA2006800471681 A CN A2006800471681A CN 200680047168 A CN200680047168 A CN 200680047168A CN 101331539 A CN101331539 A CN 101331539A
- Authority
- CN
- China
- Prior art keywords
- important
- unit
- perception
- packet
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000011084 recovery Methods 0.000 title claims abstract description 17
- 230000008447 perception Effects 0.000 claims description 16
- 238000011156 evaluation Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 206010038743 Restlessness Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明揭露了在VoIP系统中包丢失恢复(PLR)的方法和用于该方法的设备。通过使用CELP编解码器的LPC参数中的信息,定位属于每一个语音音素的开始段的语音包/语音帧,并且在网络传输之前,使用包重发来保护这些包。
Description
技术领域
本发明主要涉及包丢失恢复,尤其涉及互联网协议语音(Voice overInternet Protocol,VoIP)系统中包丢失恢复的方法和设备。
背景技术
包丢失(包括有大的延迟抖动的那些包)会降低语音质量,甚至使得语音不能理解。很多方案被设计出来解决这个问题。这些方案可分为基于发送端的包丢失恢复(PLR,Packet Loss Recovery)和基于接收端的包丢失隐藏(PLC,Packet Loss Concealment)[C.Perkins,O.Hodson,and V.Hardman,“Asurvey of packet-loss recovery techniques forstreaming audio,”IEEE Network Magazine,September/October,1998]。PLR方法包括交叉和其他FEC机制(如包级重传,在重要编解码参数上的数据保护)。PLC方法包括无声取代,包重发(packet repetition),插值(interpolation)[ITU-TRecommendation G.711 Appendix I,A highquality low-complexity algorithm for packet loss concealment with G.711,2000],时间标度修改(time scale modification)[Moon-Keun Lee;Sung-Kyo Jung;Hong-Goo Kang;Young-Cheol Park;Dae-Hee Youn;Apacketloss concealment algorithm based on time-scale modification for CELP-typespeech coders,Proceedings of IEEE International Conference on Acoustics,Speech,and Signal Processing,2003(ICASSP′03).Volume 1,6-10 April 2003Page(s):I-116-I-119vol.1],和在CELP编解码器中的基于模型的恢复[ITU-T Recommendation G.729-″Coding of Speech at 8 kbit/s UsingConjugate-Structure Algebraic-Code-Excited Linear-Prediction(CS-ACELP)″,March 1996]。
所有的PLC机制能够提高VoIP应用的感知语音质量,并且,如时间标度修改和基于模型的方法这样的方法有很好的隐藏性能。但是当包丢失突发性高的时候,所有这些方法效果都不好。特别地,当有大的流量负载的时候,因为信道干扰和发送冲突引起包丢失和长的等待时间(longlatency),使这个问题在WLAN中变得更严重。因此,需要一种在大的包丢失突发和重负载网络中适用的、仍在低码速率运行的能够提高语音质量的解决方案。
发明内容
根据本发明的一个方面,提供了在互联网协议语音的网络中的包丢失恢复的方法。该方法包括步骤:a)确定感知上重要的语音包;b)在至少一个后面的包中捎带所述感知上重要的语音包;c)发送所有的包;以及d)当接收时重构包。
根据本发明,该感知上重要的语音包属于语音音素的开始段。
根据本发明,该感知上重要的语音包在步骤a)中通过使用编码激励线性预测(CELP)编解码器的线性预测编码(LPC)参数中的信息来确定。
在本发明的另一个方面中,提供了用于互联网协议语音(VoIP)的包丢失恢复设备。该设备包括:语音捕获单元;编码单元;用于确定感知上重要的语音包的确定单元;用于在至少一个后面的包上捎带感知上重要的语音包的捎带单元;发送单元;接收单元;用于存储包和用于转发包到解码单元的缓存单元;用于重构包的解码单元;以及语音播放单元。
根据本发明,该确定单元和该捎带单元能够被集成到该编码单元。
根据本发明,该感知上重要的包属于语音音素的开始段。
根据本发明,该感知上重要的包通过在步骤a)中使用编码激励线性预测(CELP)编解码器的线性预测编码(LPC)参数中的信息来确定。
附图说明
图1示出在不丢弃,随机丢弃和选择丢弃的情况下原始数据的语音段(speech segment)的波形图;
图2示出图1的随机丢弃和选择丢弃的平均评定得分(MeanOpinion Score,MOS)值;
图3示出英语短语“Hello,world“的波形和它的LPC参数的差值平方D(i);
图4示出LPC参数的差值平方以及差值和它平均值的关系;
图5是示出重要帧重发的示意图;
图6是示出用于测试包丢失恢复机制性能的环境的示意图;以及
图7示出根据本发明的包丢失恢复机制性能的测试结果图。
具体实施方式
进一步地,结合实施例来描述本发明的技术特征。实施例仅仅是较好的例子,并不能用于局限本发明。通过下面结合附图的详细描述,本发明被更好的理解。
实验表明,语音音素(speech phoneme)的开始的帧比中间的帧重要,这是因为它们影响音素的语义理解。并且,在VoIP应用中,这些帧甚至更重要,这是因为在大部分编解码器中,包丢失隐藏机制是基于邻近的没有丢失的帧来构造丢失的帧,因此,如果丢失的包是音素的开始的帧,那么会基于前面别的音素的数据或者甚至是静音的帧构造音素开始部分所有丢失的帧。图1示出这样一个例子,其中示出CELP编解码器Speex的不同的输出波形,并且这些波形属于下面的情况:
在图1中,用灰色条来标记音素的开始的部分。可以看出,如果这部分丢失(随机丢弃情形),波形会被静音所替代。
图2给出该概念的量化描述。它示出随机丢弃和选择丢弃情形下的平均评定得分(Mean Opinion Score,MOS)。从图中可以看出,在相同的包丢失速率下,如果音素开始的帧不丢弃,那么语音质量会比较好。
像G.723,G.729,GSM,iLBC,Speex等很多实际的低比特速率语音编解码器是基于编码激励线性预测(code-Excited LinearPredictive,CELP)语音编码算法。CELP语音编解码器的基本思想是用激励(excitation)和一组滤波参数(filter parameter)对声带和声道建模。使用线性预测对该组滤波参数进行计算(它们是所谓的线性预测编码参数),然后使用自适应码本和固定码本对残差进行编码。
在CELP语音编解码器中,LPC参数反映了声道的性质。当声道的形状随着每一个音素改变的时候,LPC参数也会因此改变,并且这能够反映在LPC参数的差值平方中。
这里我们给出关于如何计算LPC参数的差值平方的简单描述。假设在CELP编解码器中进行n阶LPC分析,a0(i),…,an-1(i)是帧i的LPC参数,那么帧i的LPC参数的差值平方计算如下:
很显然,大的D(i)意味着和上一帧相比,当前帧有着明显的LPC参数变化。
图3示出了英语短语“Hello,World!″的波形和它的LPC参数的差值平方D(i)。每一个音素被标记在波形图的上方。我们能够看出,D(i)图(图的下部分)中的峰值与音素的开始完美地匹配。
为了定位所有音素的开始的帧,我们比较D(i)和它的平均值mean(D(i)),如果当前的D(i)比k*mean(D(i))大,那么帧i被视为音素的开始的部分(见图3),并把帧i附到后面的帧上,从而帧i至少会被传送两次。这里,k是一个1左右的系数,并且它需要被细调。如果k值太小,会造成很多帧被错误地认为是音素的开始;如果k值太大,那么音素开始的一些帧就不能够被识别出。图4描述当k=1时的例子。
我们保护重要的语音帧的方式很简单明了,如图5所示,仅仅在以后的帧中捎带重要的帧,其中每一个块表示要在网络中传输的音频帧。灰色的块是要被保护的重要的帧(这里,2号帧是被保护的帧)。
这种方法的问题是,大的背景噪声能够引起LPC参数的差值显著地变化。为解决这个问题,可以使用静音检测机制来加强音素检测。
做了一个实验来测试包丢失恢复机制的性能,其中两个IP电话A和B通过一个Linux路由器R互相连接,并且在Linux路由器R上通过运行NISTNet(见图6)模拟包丢失。在IP电话中,使用了开源的语音编解码器Speex[Speex编解码器:http://www.speex.org/]的修改版本,并且在这个编解码器中实现了内容识别(content-aware)的PLC。一段语音数据(42秒)从A传送到B,其中,B记录接收的语音数据,并且我们使用来自ITU-T的PESQ参考软件[ITU RecommendationP.862(02/2001)Perceptual evaluation of speech quality(PESQ),an objective method for end-to-end speech qualityassessment of narrow-band telephone networks and speechcodecs]来获得接收的语音数据的MOS质量值。并且传送大约19.2%-30%的冗余数据来保护重要的帧。图7示出该实验的结果。能够看出,通过应用包丢失恢复,语音质量有着很明显的改善。
当前的实施例是为VoIP应用而专门设计的,并且特别地适合在无线局域网上的语音(Voice over wireless LAN,VoWLAN)中实现,例如,现在的通过WLAN,WiMAX或者3G网络到Internet的宽带无线接入。
一方面,所提议的解决方案能有效的计算,因为当确定音素的开始的时候,我们使用的数据是能够直接从CELP编解码器获得的LPC参数。唯一的额外计算是D(i)的计算,如果LPC参数是n阶,那么就是n-1个加法运算和n个乘法。并且为了进一步简化D(i)的计算,我们能够使用差值的绝对值来代替LPC参数差值平方值。
此外,和传统的全部包级重传相比,重传很少冗余信息就能够实现语音质量的显著提高。如图7所示,本实施例中的重传仅仅占传统的全部包级重传的30%左右。
前面描述了本发明的方面和优选的实施例,本领域普通技术人员能够在不背离本发明的前提下做出很多在设计或者构建细节的变形。本发明包括所有披露特征的单独的特征或可能的排列和组合。
Claims (7)
1.一种在互联网协议语音(VoIP)的系统中用于包丢失恢复的方法,所述方法包括步骤:
a)确定感知上重要的语音包;
b)在至少一个后面的包中捎带所述感知上重要的语音包;
c)发送所有的包;以及
d)当接收时重构包。
2.如权利要求1所述的方法,其中,所述感知上重要的语音包属于语音音素的开始段。
3.如权利要求1所述的方法,其中,所述感知上重要的语音包在步骤a)中通过使用编码激励线性预测(CELP)编解码器的线性预测编码(LPC)参数中的信息来确定。
4.一种用于互联网协议语音(VoIP)的包丢失恢复设备,所述设备包括:
语音捕获单元;
编码单元;
用于确定感知上重要的语音包的确定单元;
用于在至少一个后面的包上捎带感知上重要的语音包的捎带单元;
发送单元;
接收单元;
用于存储包和用于转发包到解码单元的缓存单元;
用于重构包的解码单元;以及
语音播放单元。
5.如权利要求4所述的设备,其中,所述确定单元和所述捎带单元能够被集成到所述编码单元。
6.如权利要求4所述的设备,其中,所述感知上重要的包属于语音音素的开始段。
7.如权利要求4所述的设备,其中,所述感知上重要的包通过使用编码激励线性预测(CELP)编解码器的线性预测编码(LPC)参数中的信息来确定。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP05301057 | 2005-12-15 | ||
EP05301057.5 | 2005-12-15 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101331539A true CN101331539A (zh) | 2008-12-24 |
Family
ID=37735019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2006800471681A Pending CN101331539A (zh) | 2005-12-15 | 2006-12-01 | 用于互联网协议语音的包丢失恢复方法和设备 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20120087231A1 (zh) |
EP (1) | EP1961000A1 (zh) |
CN (1) | CN101331539A (zh) |
WO (1) | WO2007068610A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR3024582A1 (fr) | 2014-07-29 | 2016-02-05 | Orange | Gestion de la perte de trame dans un contexte de transition fd/lpd |
US10354660B2 (en) | 2017-04-28 | 2019-07-16 | Cisco Technology, Inc. | Audio frame labeling to achieve unequal error protection for audio frames of unequal importance |
CN110443059A (zh) * | 2018-05-02 | 2019-11-12 | 中兴通讯股份有限公司 | 数据保护方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6145109A (en) * | 1997-12-12 | 2000-11-07 | 3Com Corporation | Forward error correction system for packet based real time media |
JP4008607B2 (ja) * | 1999-01-22 | 2007-11-14 | 株式会社東芝 | 音声符号化/復号化方法 |
US7606164B2 (en) * | 1999-12-14 | 2009-10-20 | Texas Instruments Incorporated | Process of increasing source rate on acceptable side of threshold |
DE10118192A1 (de) * | 2001-04-11 | 2002-10-24 | Siemens Ag | Verfahren und Vorrichtung zur Übertragung von digitalen Signalen |
US7319703B2 (en) * | 2001-09-04 | 2008-01-15 | Nokia Corporation | Method and apparatus for reducing synchronization delay in packet-based voice terminals by resynchronizing during talk spurts |
-
2006
- 2006-12-01 WO PCT/EP2006/069215 patent/WO2007068610A1/en active Application Filing
- 2006-12-01 US US12/086,372 patent/US20120087231A1/en not_active Abandoned
- 2006-12-01 EP EP06830282A patent/EP1961000A1/en not_active Withdrawn
- 2006-12-01 CN CNA2006800471681A patent/CN101331539A/zh active Pending
Non-Patent Citations (1)
Title |
---|
BATU SAT AND BENJAMIN W. WAH: "SPEECH- AND NETWORK-ADAPTIVE LAYERED G.729 CODER FOR LOSS CONCEALMENTS OF REAL-TIME VOICE OVER IP", 《IEEE WORKSHOP ON MULTIMEDIA SIGNAL PROC.,》 * |
Also Published As
Publication number | Publication date |
---|---|
US20120087231A1 (en) | 2012-04-12 |
EP1961000A1 (en) | 2008-08-27 |
WO2007068610A1 (en) | 2007-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2026330B1 (en) | Device and method for lost frame concealment | |
CN102449690B (zh) | 用于重建被擦除语音帧的系统与方法 | |
Gibson | Speech coding methods, standards, and applications | |
US20070282601A1 (en) | Packet loss concealment for a conjugate structure algebraic code excited linear prediction decoder | |
US20050049853A1 (en) | Frame loss concealment method and device for VoIP system | |
Rosenberg | G. 729 error recovery for internet telephony | |
US8265929B2 (en) | Embedded code-excited linear prediction speech coding and decoding apparatus and method | |
Wah et al. | LSP-based multiple-description coding for real-time low bit-rate voice over IP | |
Wang et al. | Parameter interpolation to enhance the frame erasure robustness of CELP coders in packet networks | |
CN101331539A (zh) | 用于互联网协议语音的包丢失恢复方法和设备 | |
JP3722366B2 (ja) | パケット構成方法及び装置、パケット構成プログラム、並びにパケット分解方法及び装置、パケット分解プログラム | |
Gueham et al. | Packet loss concealment method based on interpolation in packet voice coding | |
Lefebvre et al. | A study of design compromises for speech coders in packet networks | |
Montminy et al. | Improving the performance of ITU-T G. 729A for VoIP | |
López-Oller et al. | Source-based error mitigation for speech transmissions over erasure channels | |
Gómez et al. | A multipulse-based forward error correction technique for robust CELP-coded speech transmission over erasure channels | |
KR100591544B1 (ko) | VoIP 시스템을 위한 프레임 손실 은닉 방법 및 장치 | |
Li et al. | Comparison and optimization of packet loss recovery methods based on AMR-WB for VoIP | |
Kwong et al. | Multiple description and multi-path routing for robust voice transmission over ad hoc networks | |
US7472056B2 (en) | Transcoder for speech codecs of different CELP type and method therefor | |
Xydeas et al. | Model-based packet loss concealment for AMR coders | |
Carmona et al. | A scalable coding scheme based on interframe dependency limitation | |
Serizawa et al. | A packet loss recovery method using packet arrived behind the playout time for CELP decoding | |
Merazka | Improved Packet Loss Recovery using Interleaving for CELP-type Speech Coders in Packet Networks. | |
Shetty et al. | Packet Loss Concealment for G. 722 using Side Information with Application to Voice over Wireless LANs. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20081224 |