CN101364854A - 一种基于边信息的语音包丢失恢复技术 - Google Patents
一种基于边信息的语音包丢失恢复技术 Download PDFInfo
- Publication number
- CN101364854A CN101364854A CNA2007101201440A CN200710120144A CN101364854A CN 101364854 A CN101364854 A CN 101364854A CN A2007101201440 A CNA2007101201440 A CN A2007101201440A CN 200710120144 A CN200710120144 A CN 200710120144A CN 101364854 A CN101364854 A CN 101364854A
- Authority
- CN
- China
- Prior art keywords
- voice
- recovery
- side information
- voice packet
- fundamental tone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及一种基于边信息的语音包丢失恢复技术,可应用在VoIP(Voiceover IP)中,属于网络通信领域。该技术针对PCM声码器,将基于发送端的前向纠错(FEC,Forward Error Correction)技术与基于接收端的错误隐藏(EC,ErrorConcealment)技术相结合,在发送端将紧邻当前语音包的前后两个语音包作为边信息,利用EC技术对当前语音包进行虚拟恢复,然后利用最小均方误差准则得到冗余信息,并将此冗余信息与后一语音包一起打包传输;若当前语音包丢失,在接收端利用边信息(前后语音包)、冗余信息(后一语音包携带)和EC技术对丢失的当前语音包进行实际恢复,以实现在带宽开销很小的条件下有效改善IP网络语音通信质量。
Description
技术领域
本发明涉及网络语音传输中的信号处理领域,尤其是语音包的丢失恢复技术,主要是针对PCM声码器的一种基于边信息的语音包丢失恢复技术。
背景技术
Intemet在全世界范围内的快速发展和语音信号处理技术的进步,使IP网络中的语音业务迅速兴起。但用于数据分组交换的IP协议并不是为了传输实时数据流而设计的,其提供的是一种“尽力而为(best effort)”的服务,除网络本身产生的时延抖动之外,还将导致语音包的丢失,直接影响接收端的接收语音质量。因此采取有效的语音包丢失恢复技术对获得优质的语音服务是非常重要的。
现有的恢复技术大体可分为两类:基于发送端的反馈重传(ARQ)、前向纠错(FEC)、交织等技术,基于接收端的错误隐藏(EC)技术。基于发送端恢复技术能够得到很高的恢复语音质量,但其缺点是增加了系统的带宽开销和少量传输延时;基于接收端恢复技术一般来说比较简单且不会增加带宽,但恢复的语音质量没有基于发送端技术恢复的语音质量高。
ARQ技术是当接收端发现没有接收到某个语音数据包时,要求发送端重新发送该数据包。重发技术对于突发丢包现象比较有效,但由于其需要较大时延和带宽开销,因此不适于实时传输,如VoIP。
FEC技术可分为媒体无关和媒体相关两种,在VoIP(Voice over IP)等对延时要求比较严格的网络实时应用中,低延时的媒体相关FEC技术正越来越受到重视。媒体相关FEC技术的实质是采用冗余恢复技术,在网络传输的语音包流中加入一些冗余信息(如比前一帧更低码率的编码码流);当语音包丢失时,可通过收到的冗余信息将其恢复。该技术能够得到很高的恢复语音质量,但其缺点是增加了系统的带宽开销和少量传输延时。
交织技术可以把大段的突发连续语音丢失转化为随机的小段丢失,然后运用其它错误隐藏技术(如下面提到的噪声替代、斜波复制等方法)将会取得很好的语音质量,但该方法会给系统带来很大时延。
EC技术本质上是在接收端对丢包附近的相关数据包经过某种算法处理来估算丢失的数据包,这些算法能根据人的生理特点,对丢包后的语音信号进行修复。该技术不需要数据发送端的参与,一般来说比较简单,容易实现且不会增加带宽。其方法主要有内插法、模版匹配法、斜波复制法、时域修正法等方法。孙亚民等人利用波形内插和线性预测的方法进行PCM类编码器的丢包恢复,在一定程度上改善了语音的质量。(专利号:00129594)
边信息理论已经在信道编码领域得到了广泛的应用。近些年来,一些学者将其应用到了语音编码领域,例如,频带扩展问题。Yannis等人将边信息理论应用到低速率的线性预测编码器的丢包恢复问题中,能够在带宽开销较小的条件下有效提升语音质量。然而对于高速率的PCM类编码器,边信息理论还没有应用到其中。事实上,由于PCM类编码器的低压缩特性,使得它更需要一种有效的方法来减少冗余的传输量,从而减轻网络负担。
发明内容
本发明要解决PCM编码器基于发送端丢包恢复技术带宽开销过大的问题,提供了一种基于边信息的语音包丢失恢复技术,涉及到发送端的虚拟恢复过程和接收端的实际恢复过程。
本发明解决其技术问题所用的技术方案是:
针对PCM声码器,在发送端将紧邻当前语音包的前后两个语音包作为边信息,利用EC(错误隐藏)技术对当前语音包进行虚拟恢复,然后利用最小均方误差准则得到冗余信息,并将此冗余信息与后一语音包一起打包传输;若当前语音包丢失,在接收端利用边信息(前后语音包)、冗余信息(后一语音包携带)和与发送端相同的EC技术对丢失的当前语音包进行实际恢复。
该方法的主要步骤有:
a)在发送端对当前语音包进行虚拟恢复以及冗余信息的提取时,将当前语音包的前一语音包的最后一个基音周期波形和后一语音包的第一个基音周期波形作为用于虚拟恢复的边信息基音单元;
b)将边信息基音单元进行线性内插,得到虚拟恢复的基音单元;
c)利用最小均方误差准则得到最优的内插系数,将其作为冗余信息;
d)在接收端对丢失语音包进行实际恢复时,利用边信息、冗余信息以及与发送端虚拟恢复时相同的内插方法。
在发送端对当前包的基音单元进行虚拟恢复时,假设Xi ou(n)为当前语音包的第i个基音单元,Xi ru(n)为虚拟恢复语音的第i个基音单元,Xi pu(n)和Xi fu(n)分别为前后语音包中用来合成虚拟恢复语音的边信息基音单元,Ti pr为Xi ru(n)的长度,Ni为基音单元的个数,ai为内插系数,则Xi ru(n)可表示为,
Xi ru(n)=αiXi pu(n)+(1-αi)Xi fu(n)i=1,2,...Ni;n=1,2...Ti pr;0<αi<1 (1)
利用最小均方误差准则选取内插系数ai作为冗余信息,
其中,Xi ou(n)为当前语音包的第i个基音单元,Xi ru(n)为虚拟恢复语音的第i个基音单元,Xi pu(n)和Xi fu(n)分别为前后语音包中用来合成虚拟恢复语音的边信息基音单元(因为基音周期不同,所以每个Xi ru(n)都有与之对应的Xi pu(n)和Xi fu(n)),Ti pr为Xi ru(n)的长度,Ni为基音单元的个数,ai为内插系数。
在接收端对丢失语音包的基音单元进行实际恢复时,利用边信息、冗余信息以及式(1)进行恢复,其中式(1)中的内插系数是由式(2)得到的最佳内插系数。
本发明有益的效果是:利用边信息进行在发送端进行冗余信息的提取,使冗余信息的到了较大的压缩,减少了带宽的开销;最小均方误差准则的使用,使接收端恢复的语音包与原始语音包之间的误差保持最小,从而提升了恢复语音的质量。
附图说明
图1—为本发明一种基于边信息的语音包丢失恢复技术的系统组成框图;
图2—为在发送端对当前语音包进行虚拟恢复以及冗余信息提取的过程;
图3—为在接收端的实际丢包恢复过程;
图4—为BV情况下在接收端的恢复语音波形图;
图5—为本文方法与双边基音波形复制法的性能对比。
具体实施方式
下面结合附图和实施例对本发明作进一步介绍。
从NTT-AT汉语语音数据库中选取一段长度为8s的语音文件。采用8kHz采样和16bitPCM量化,每个语音包的大小为20ms。人工产生丢包,并用本文的方法进行丢包恢复。
图1所示本发明的方法包括发送端的虚拟恢复及冗余信息的提取和接收端的实际恢复。
如图1所示,发送端将紧邻当前语音包的前后两个语音包作为边信息,利用EC(错误隐藏)技术对当前语音包进行虚拟恢复,然后利用最小均方误差准则得到冗余信息,并将此冗余信息与后一语音包一起打包传输;若当前语音包丢失,在接收端利用边信息、冗余信息(后一语音包携带)和EC技术对丢失的当前语音包进行实际恢复。
图2为在发送端对当前语音包进行虚拟恢复以及冗余信息提取的过程,操作细节如下:
a)对当前语音包及其前后语音包进行清浊判决,得到四种情况:前后语音包皆为浊音(BV,Both Voiced),前后语音包分别为浊音和清音(PV,PrecedingVoiced),前后语音包分别为清音和浊音(FV,Following Voiced),前后语音包皆为清音(BU,Both Unvoiced),本发明中只对BV情况下的当前语音包进行虚拟恢复并提取冗余信息。
b)将当前语音包的前一语音包的最后一个基音周期波形和后一语音包的第一个基音周期波形作为用于虚拟恢复的初始边信息基音单元,分别记为Xp(n)和Xf(n)。
c)对b)中的初始边信息基音单元Xp(n)和Xf(n)进行相位同步。首先找到Xp(n)的波峰,将其位置记为kp.,之后将Xp(n)的前kp-1个样点剪接到波形的末尾,并将新波形记为;用同样的方法,得到
d)对和进行基音长度调整。假设的长度为Tpp,的长度为TPf,Xr(n)为当前语音包中任意一个基音周期,其长度为Tpr。我们用重采样的方法对和进行拉伸或压缩,使Tpp和Tpf与Tpr相等。将和进行基音长度调整后的新波形分别记为Xpu(n)和Xfu(n),即为最终的边信息基音单元。
e)找到当前语音包的第一个和最后一个波峰的位置,两个波峰之间的波形包含了整数个基音单元,在发送端只对这些基音单元进行虚拟恢复。
f)将边信息基音单元进行线性内插,得到虚拟恢复的基音单元。假设Xi ou(n)为当前语音包的第i个基音单元,Xi ru(n)为虚拟恢复语音的第i个基音单元,Xi pu(n)和Xi fu(n)分别为前后语音包中用来合成虚拟恢复语音的边信息基音单元(因为基音周期不同,所以每个Xi ru(n)都有与之对应的Xi pu(n)和Xi fu(n)),Ti pr为Xi ru(n)的长度,Ni为基音单元的个数,ai为内插系数,则Xi ru(n)可表示为,
Xr iu(n)=αiXi pu(n)+(1-αi)Xi fu(n)i=1,2,...Ni;n=1,2...Ti pr;0<αi<1 (1)
g)利用最小均方误差准则选取最优内插系数ai作为冗余信息。
其中,Xi ou(n)为当前语音包的第i个基音单元,Xi ru(n)为虚拟恢复语音的第i个基音单元,Xi pu(n)和Xi fu(n)分别为前后语音包中用来合成虚拟恢复语音的边信息基音单元,Ti pr为Xi ru(n)的长度,Ni为基音单元的个数,ai为内插系数。同时也将当前语音包相邻基音周期的差值作为冗余信息,随后一语音包进行传输。
图3为在接收端的实际丢包恢复过程,操作细节如下:
a)对边信息的状态进行判别,看其属于BV,PV,FV,BU中的哪一种。
b)对于BV的情况,恢复过程如下:
(1)利用有关基音周期的冗余信息,我们可以算出丢失语音包中第一个和最后一个波峰的位置,对边信息基音单元做类似于发送端虚拟恢复中相位同步过程的波形剪接处理,恢复出语音波形的非整数周期部分。将邻近前一语音包的非整数周期部分记为Xr-head(n),将邻近后一语音包的非整数周期部分记为Xr-tail(n)。
(2)利用有关内插系数的冗余信息,边信息(前后语音包)以及与发送端相同的内插方法(式(1))对丢失语音的基音单元进行恢复。
(3)将步骤(2)得到的基音单元按顺序连接起来,得到恢复语音波形的整数周期部分即中间部分,记为Xr-middle(n)。
(4)将Xr-head(n)、Xr-middle(n)和Xr-tail(n)依次连接起来,得到完整的重建语音波形,记为R(n),恢复的波形如图4所示。
c)对于PV情况,复制前一语音包的最后一个基音周期波形直至填满丢包的空隙,之后进行幅度调整以保证前后语音包波形幅度的连续性。
d)对于FV情况,复制后一语音包的第一个基音周期波形直至填满丢包的空隙,之后进行幅度调整。
e)对于BU情况,将前一语音包的后半段与后一语音包的前半段连接起来,形成重建语音。
双边基音波形复制法(TSPWR,Two-Side Pitch Waveform Replication)是迄今为止公认的一种非常优秀的错误隐藏算法。图5为本文方法与双边基音波形复制法的性能对比。其中(a)是没有任何丢包的原始语音波形。(b)中第二个语音包丢失,并用静音代替。(c)表示用TSPWR方法对丢包进行恢复后的语音波形。(d)表示用本文方法对丢包进行恢复后的语音波形。(e)和(f)分别表示由TSPWR方法和本文方法得到的恢复波形与原始波形的误差。从图中可以看出,与双边基音波形复制法相比,本文方法能够有效地减少恢复波形与原始波形之间的误差。因为我们在发送端采用了MMSE准则进行虚拟重建和冗余提取,所以在冗余信息指导下的接收端的真实恢复语音必然保持了这种最小误差的特性。
Claims (5)
1.一种基于边信息的语音包丢失恢复技术,其特征在于:针对PCM声码器,在发送端将紧邻当前语音包的前后两个语音包作为边信息,利用EC技术对当前语音包进行虚拟恢复,然后利用最小均方误差准则得到冗余信息,并将此冗余信息与后一语音包一起打包传输;若当前语音包丢失,在接收端利用边信息(前后语音包)、冗余信息(后一语音包携带)和与发送端相同的EC技术对丢失的当前语音包进行实际恢复。
2.如权利要求1所述的基于边信息的语音包丢失恢复技术,其特征在于:该方法的主要步骤有:
a)在发送端对当前语音包进行虚拟恢复以及冗余信息的提取时,将当前语音包的前一语音包的最后一个基音周期波形和后一语音包的第一个基音周期波形作为用于虚拟恢复的边信息基音单元;
b)将边信息基音单元进行线性内插,得到虚拟恢复的基音单元;
c)利用最小均方误差准则得到最优的内插系数,将其作为冗余信息;
d)在接收端对丢失语音包进行实际恢复时,利用边信息、冗余信息以及与发送端虚拟恢复时相同的内插方法。
3.如权利2要求所述的基于边信息的语音包丢失恢复技术,其特征在于:在发送端对当前包的基音单元进行虚拟恢复时,假设Xi ou(n)为当前语音包的第i个基音单元,Xi ru(n)为虚拟恢复语音的第i个基音单元,Xi pu(n)和Xi fu(n)分别为前后语音包中用来合成虚拟恢复语音的边信息基音单元,Ti pr为Xi ru(n)的长度,Ni为基音单元的个数,ai为内插系数,则Xi ru(n)可表示为,
4.如权利要求2所述的基于边信息的语音包丢失恢复技术,其特征在于:
利用最小均方误差准则选取内插系数ai作为冗余信息,
其中,Xi ou(n)为当前语音包的第i个基音单元,Xi ru(n)为虚拟恢复语音的第i个基音单元,Xi pu(n)和Xi fu(n)分别为前后语音包中用来合成虚拟恢复语音的边信息基音单元(因为基音周期不同,所以每个Xi ru(n)都有与之对应的Xi pu(n)和Xi fu(n)),Ti pr为Xi ru(n)的长度,Ni为基音单元的个数,ai为内插系数。
5.如权利要求2所述的基于边信息的语音包丢失恢复技术,其特征在于:在接收端对丢失语音包的基音单元进行实际恢复时,利用边信息、冗余信息以及式(1)进行恢复,其中公式(1)中的内插系数是由式(2)得到的最佳内插系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007101201440A CN101364854B (zh) | 2007-08-10 | 2007-08-10 | 一种基于边信息的语音包丢失恢复方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007101201440A CN101364854B (zh) | 2007-08-10 | 2007-08-10 | 一种基于边信息的语音包丢失恢复方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101364854A true CN101364854A (zh) | 2009-02-11 |
CN101364854B CN101364854B (zh) | 2011-01-26 |
Family
ID=40391039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007101201440A Expired - Fee Related CN101364854B (zh) | 2007-08-10 | 2007-08-10 | 一种基于边信息的语音包丢失恢复方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101364854B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106788876A (zh) * | 2015-11-19 | 2017-05-31 | 电信科学技术研究院 | 一种语音丢包补偿的方法及系统 |
CN108111702A (zh) * | 2017-12-07 | 2018-06-01 | 瑟达智家科技(杭州)有限公司 | 一种对voip系统语音包丢失自动补偿的方法 |
CN111326166A (zh) * | 2020-02-25 | 2020-06-23 | 网易(杭州)网络有限公司 | 语音处理方法及装置、计算机可读存储介质、电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1929355B (zh) * | 2005-09-09 | 2010-05-05 | 联想(北京)有限公司 | 语音包丢失恢复系统以及方法 |
-
2007
- 2007-08-10 CN CN2007101201440A patent/CN101364854B/zh not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106788876A (zh) * | 2015-11-19 | 2017-05-31 | 电信科学技术研究院 | 一种语音丢包补偿的方法及系统 |
CN108111702A (zh) * | 2017-12-07 | 2018-06-01 | 瑟达智家科技(杭州)有限公司 | 一种对voip系统语音包丢失自动补偿的方法 |
CN108111702B (zh) * | 2017-12-07 | 2020-07-07 | 杭州闪目科技有限公司 | 一种对voip系统语音包丢失自动补偿的方法 |
CN111326166A (zh) * | 2020-02-25 | 2020-06-23 | 网易(杭州)网络有限公司 | 语音处理方法及装置、计算机可读存储介质、电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN101364854B (zh) | 2011-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7627467B2 (en) | Packet loss concealment for overlapped transform codecs | |
US8165128B2 (en) | Method and system for lost packet concealment in high quality audio streaming applications | |
KR101513184B1 (ko) | 계층적 디코딩 구조에서의 디지털 오디오 신호의 송신 에러에 대한 은닉 | |
CN1327409C (zh) | 提供信号重建的宽带音频信号发送机、接收机、系统和方法 | |
CN100426715C (zh) | 一种丢帧隐藏方法和装置 | |
CN101110214B (zh) | 一种基于多描述格型矢量量化技术的语音编码方法 | |
US20050058145A1 (en) | System and method for real-time jitter control and packet-loss concealment in an audio signal | |
WO2008040250A1 (fr) | Procédé, dispositif et système destinés au masquage d'erreurs d'un flux de données audio | |
CN102318004B (zh) | 改进的谐波转置 | |
WO2005109402A1 (ja) | 音声パケット送信方法、音声パケット送信装置、および音声パケット送信プログラムとそれを記録した記録媒体 | |
CN101364854B (zh) | 一种基于边信息的语音包丢失恢复方法 | |
Wah et al. | LSP-based multiple-description coding for real-time low bit-rate voice over IP | |
Johansson et al. | Bandwidth efficient AMR operation for VoIP | |
CN101166071A (zh) | 差错帧隐藏装置与方法 | |
CN103456307B (zh) | 音频解码器中帧差错隐藏的谱代替方法及系统 | |
KR20070059860A (ko) | 디지털 오디오 패킷 손실을 복구하기 위한 방법 및 장치 | |
CN101604527A (zh) | VoIP环境下基于G.711编码隐藏传送宽频语音的方法 | |
Mahfuz | Packet loss concealment for voice transmission over IP networks | |
CN101976567B (zh) | 一种语音信号差错掩盖方法 | |
Aoki | VoIP packet loss concealment based on two-side pitch waveform replication technique using steganography | |
Gueham et al. | An enhanced interleaving frame loss concealment method for voice over IP network services | |
CN101552008B (zh) | 语音编码方法及装置、语音解码方法及装置 | |
Bhute et al. | Speech packet concealment techniques based on time-scale modification for VoIP | |
Choi et al. | Effects of packet loss on 3 toll quality speech coders | |
Ma et al. | Packet loss concealment for speech transmission based on compressed sensing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110126 Termination date: 20140810 |
|
EXPY | Termination of patent right or utility model |