CN101364854A

CN101364854A - 一种基于边信息的语音包丢失恢复技术

Info

Publication number: CN101364854A
Application number: CNA2007101201440A
Authority: CN
Inventors: 赵胜辉; 李忠博; 匡镜明; 王晶
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2007-08-10
Filing date: 2007-08-10
Publication date: 2009-02-11
Anticipated expiration: 2027-08-10
Also published as: CN101364854B

Abstract

本发明涉及一种基于边信息的语音包丢失恢复技术，可应用在VoIP(Voiceover IP)中，属于网络通信领域。该技术针对PCM声码器，将基于发送端的前向纠错(FEC，Forward Error Correction)技术与基于接收端的错误隐藏(EC，ErrorConcealment)技术相结合，在发送端将紧邻当前语音包的前后两个语音包作为边信息，利用EC技术对当前语音包进行虚拟恢复，然后利用最小均方误差准则得到冗余信息，并将此冗余信息与后一语音包一起打包传输；若当前语音包丢失，在接收端利用边信息(前后语音包)、冗余信息(后一语音包携带)和EC技术对丢失的当前语音包进行实际恢复，以实现在带宽开销很小的条件下有效改善IP网络语音通信质量。

Description

一种基于边信息的语音包丢失恢复技术

技术领域

本发明涉及网络语音传输中的信号处理领域，尤其是语音包的丢失恢复技术，主要是针对PCM声码器的一种基于边信息的语音包丢失恢复技术。

背景技术

Intemet在全世界范围内的快速发展和语音信号处理技术的进步，使IP网络中的语音业务迅速兴起。但用于数据分组交换的IP协议并不是为了传输实时数据流而设计的，其提供的是一种“尽力而为(best effort)”的服务，除网络本身产生的时延抖动之外，还将导致语音包的丢失，直接影响接收端的接收语音质量。因此采取有效的语音包丢失恢复技术对获得优质的语音服务是非常重要的。

现有的恢复技术大体可分为两类:基于发送端的反馈重传(ARQ)、前向纠错(FEC)、交织等技术，基于接收端的错误隐藏(EC)技术。基于发送端恢复技术能够得到很高的恢复语音质量，但其缺点是增加了系统的带宽开销和少量传输延时；基于接收端恢复技术一般来说比较简单且不会增加带宽，但恢复的语音质量没有基于发送端技术恢复的语音质量高。

ARQ技术是当接收端发现没有接收到某个语音数据包时，要求发送端重新发送该数据包。重发技术对于突发丢包现象比较有效，但由于其需要较大时延和带宽开销，因此不适于实时传输，如VoIP。

FEC技术可分为媒体无关和媒体相关两种，在VoIP(Voice over IP)等对延时要求比较严格的网络实时应用中，低延时的媒体相关FEC技术正越来越受到重视。媒体相关FEC技术的实质是采用冗余恢复技术，在网络传输的语音包流中加入一些冗余信息(如比前一帧更低码率的编码码流)；当语音包丢失时，可通过收到的冗余信息将其恢复。该技术能够得到很高的恢复语音质量，但其缺点是增加了系统的带宽开销和少量传输延时。

交织技术可以把大段的突发连续语音丢失转化为随机的小段丢失，然后运用其它错误隐藏技术(如下面提到的噪声替代、斜波复制等方法)将会取得很好的语音质量，但该方法会给系统带来很大时延。

EC技术本质上是在接收端对丢包附近的相关数据包经过某种算法处理来估算丢失的数据包，这些算法能根据人的生理特点，对丢包后的语音信号进行修复。该技术不需要数据发送端的参与，一般来说比较简单，容易实现且不会增加带宽。其方法主要有内插法、模版匹配法、斜波复制法、时域修正法等方法。孙亚民等人利用波形内插和线性预测的方法进行PCM类编码器的丢包恢复，在一定程度上改善了语音的质量。(专利号：00129594)

边信息理论已经在信道编码领域得到了广泛的应用。近些年来，一些学者将其应用到了语音编码领域，例如，频带扩展问题。Yannis等人将边信息理论应用到低速率的线性预测编码器的丢包恢复问题中，能够在带宽开销较小的条件下有效提升语音质量。然而对于高速率的PCM类编码器，边信息理论还没有应用到其中。事实上，由于PCM类编码器的低压缩特性，使得它更需要一种有效的方法来减少冗余的传输量，从而减轻网络负担。

发明内容

本发明要解决PCM编码器基于发送端丢包恢复技术带宽开销过大的问题，提供了一种基于边信息的语音包丢失恢复技术，涉及到发送端的虚拟恢复过程和接收端的实际恢复过程。

本发明解决其技术问题所用的技术方案是：

针对PCM声码器，在发送端将紧邻当前语音包的前后两个语音包作为边信息，利用EC(错误隐藏)技术对当前语音包进行虚拟恢复，然后利用最小均方误差准则得到冗余信息，并将此冗余信息与后一语音包一起打包传输；若当前语音包丢失，在接收端利用边信息(前后语音包)、冗余信息(后一语音包携带)和与发送端相同的EC技术对丢失的当前语音包进行实际恢复。

该方法的主要步骤有：

a)在发送端对当前语音包进行虚拟恢复以及冗余信息的提取时，将当前语音包的前一语音包的最后一个基音周期波形和后一语音包的第一个基音周期波形作为用于虚拟恢复的边信息基音单元；

b)将边信息基音单元进行线性内插，得到虚拟恢复的基音单元；

c)利用最小均方误差准则得到最优的内插系数，将其作为冗余信息；

d)在接收端对丢失语音包进行实际恢复时，利用边信息、冗余信息以及与发送端虚拟恢复时相同的内插方法。

在发送端对当前包的基音单元进行虚拟恢复时，假设Xⁱ _ou(n)为当前语音包的第i个基音单元，Xⁱ _ru(n)为虚拟恢复语音的第i个基音单元，Xⁱ _pu(n)和Xⁱ _fu(n)分别为前后语音包中用来合成虚拟恢复语音的边信息基音单元，Tⁱ _pr为Xⁱ _ru(n)的长度，N_i为基音单元的个数，a_i为内插系数，则Xⁱ _ru(n)可表示为，

Xⁱ _ru(n)＝α_iXⁱ _pu(n)+(1-α_i)Xⁱ _fu(n)i＝1，2，...N_i；n＝1，2...Tⁱ _pr；0<α_i<1 (1)

利用最小均方误差准则选取内插系数a_i作为冗余信息，

\min_{α_{i}} Σ_{n = 1}^{T_{pr}^{i}} {(X_{ou}^{i} (n) - X_{ru}^{i} (n))}^{2} = \min_{α_{i}} Σ_{n = 1}^{T_{pr}^{i}} {(X_{ou}^{i} (n) - α_{i} \cdot X_{pu} (n) - (1 - α_{i}) \cdot X_{fu} (n))}^{2} - - - (2)

其中，Xⁱ _ou(n)为当前语音包的第i个基音单元，Xⁱ _ru(n)为虚拟恢复语音的第i个基音单元，Xⁱ _pu(n)和Xⁱ _fu(n)分别为前后语音包中用来合成虚拟恢复语音的边信息基音单元(因为基音周期不同，所以每个Xⁱ _ru(n)都有与之对应的Xⁱ _pu(n)和Xⁱ _fu(n))，Tⁱ _pr为Xⁱ _ru(n)的长度，N_i为基音单元的个数，a_i为内插系数。

在接收端对丢失语音包的基音单元进行实际恢复时，利用边信息、冗余信息以及式(1)进行恢复，其中式(1)中的内插系数是由式(2)得到的最佳内插系数。

本发明有益的效果是：利用边信息进行在发送端进行冗余信息的提取，使冗余信息的到了较大的压缩，减少了带宽的开销；最小均方误差准则的使用，使接收端恢复的语音包与原始语音包之间的误差保持最小，从而提升了恢复语音的质量。

附图说明

图1—为本发明一种基于边信息的语音包丢失恢复技术的系统组成框图；

图2—为在发送端对当前语音包进行虚拟恢复以及冗余信息提取的过程；

图3—为在接收端的实际丢包恢复过程；

图4—为BV情况下在接收端的恢复语音波形图；

图5—为本文方法与双边基音波形复制法的性能对比。

具体实施方式

下面结合附图和实施例对本发明作进一步介绍。

从NTT-AT汉语语音数据库中选取一段长度为8s的语音文件。采用8kHz采样和16bitPCM量化，每个语音包的大小为20ms。人工产生丢包，并用本文的方法进行丢包恢复。

图1所示本发明的方法包括发送端的虚拟恢复及冗余信息的提取和接收端的实际恢复。

如图1所示，发送端将紧邻当前语音包的前后两个语音包作为边信息，利用EC(错误隐藏)技术对当前语音包进行虚拟恢复，然后利用最小均方误差准则得到冗余信息，并将此冗余信息与后一语音包一起打包传输；若当前语音包丢失，在接收端利用边信息、冗余信息(后一语音包携带)和EC技术对丢失的当前语音包进行实际恢复。

图2为在发送端对当前语音包进行虚拟恢复以及冗余信息提取的过程，操作细节如下：

a)对当前语音包及其前后语音包进行清浊判决，得到四种情况：前后语音包皆为浊音(BV，Both Voiced)，前后语音包分别为浊音和清音(PV，PrecedingVoiced)，前后语音包分别为清音和浊音(FV，Following Voiced)，前后语音包皆为清音(BU，Both Unvoiced)，本发明中只对BV情况下的当前语音包进行虚拟恢复并提取冗余信息。

b)将当前语音包的前一语音包的最后一个基音周期波形和后一语音包的第一个基音周期波形作为用于虚拟恢复的初始边信息基音单元，分别记为X_p(n)和X_f(n)。

c)对b)中的初始边信息基音单元X_p(n)和X_f(n)进行相位同步。首先找到X_p(n)的波峰，将其位置记为k_p.，之后将X_p(n)的前k_p-1个样点剪接到波形的末尾，并将新波形记为

；用同样的方法，得到

d)对

和

进行基音长度调整。假设

的长度为T_pp，

的长度为T_Pf，X_r(n)为当前语音包中任意一个基音周期，其长度为T_pr。我们用重采样的方法对

和进行拉伸或压缩，使T_pp和T_pf与T_pr相等。将

和

进行基音长度调整后的新波形分别记为X_pu(n)和X_fu(n)，即为最终的边信息基音单元。

e)找到当前语音包的第一个和最后一个波峰的位置，两个波峰之间的波形包含了整数个基音单元，在发送端只对这些基音单元进行虚拟恢复。

f)将边信息基音单元进行线性内插，得到虚拟恢复的基音单元。假设Xⁱ _ou(n)为当前语音包的第i个基音单元，Xⁱ _ru(n)为虚拟恢复语音的第i个基音单元，Xⁱ _pu(n)和Xⁱ _fu(n)分别为前后语音包中用来合成虚拟恢复语音的边信息基音单元(因为基音周期不同，所以每个Xⁱ _ru(n)都有与之对应的Xⁱ _pu(n)和Xⁱ _fu(n))，Tⁱ _pr为Xⁱ _ru(n)的长度，N_i为基音单元的个数，a_i为内插系数，则Xⁱ _ru(n)可表示为，

X^r _iu(n)＝α_iXⁱ _pu(n)+(1-α_i)Xⁱ _fu(n)i＝1，2，...N_i；n＝1，2...Tⁱ _pr；0<α_i<1 (1)

g)利用最小均方误差准则选取最优内插系数a_i作为冗余信息。

\min_{α_{i}} Σ_{n = 1}^{T_{pr}^{i}} {(X_{ou}^{i} (n) - X_{ru}^{i} (n))}^{2} = \min_{α_{i}} Σ_{n = 1}^{T_{pr}^{i}} {(X_{ou}^{i} (n) - α_{i} \cdot X_{pu} (n) - (1 - α_{i}) \cdot X_{fu} (n))}^{2} - - - (2)

其中，Xⁱ _ou(n)为当前语音包的第i个基音单元，Xⁱ _ru(n)为虚拟恢复语音的第i个基音单元，Xⁱ _pu(n)和Xⁱ _fu(n)分别为前后语音包中用来合成虚拟恢复语音的边信息基音单元，Tⁱ _pr为Xⁱ _ru(n)的长度，N_i为基音单元的个数，a_i为内插系数。同时也将当前语音包相邻基音周期的差值作为冗余信息，随后一语音包进行传输。

图3为在接收端的实际丢包恢复过程，操作细节如下：

a)对边信息的状态进行判别，看其属于BV，PV，FV，BU中的哪一种。

b)对于BV的情况，恢复过程如下：

(1)利用有关基音周期的冗余信息，我们可以算出丢失语音包中第一个和最后一个波峰的位置，对边信息基音单元做类似于发送端虚拟恢复中相位同步过程的波形剪接处理，恢复出语音波形的非整数周期部分。将邻近前一语音包的非整数周期部分记为X_r-head(n)，将邻近后一语音包的非整数周期部分记为X_r-tail(n)。

(2)利用有关内插系数的冗余信息，边信息(前后语音包)以及与发送端相同的内插方法(式(1))对丢失语音的基音单元进行恢复。

(3)将步骤(2)得到的基音单元按顺序连接起来，得到恢复语音波形的整数周期部分即中间部分，记为X_r-middle(n)。

(4)将X_r-head(n)、X_r-middle(n)和X_r-tail(n)依次连接起来，得到完整的重建语音波形，记为R(n)，恢复的波形如图4所示。

c)对于PV情况，复制前一语音包的最后一个基音周期波形直至填满丢包的空隙，之后进行幅度调整以保证前后语音包波形幅度的连续性。

d)对于FV情况，复制后一语音包的第一个基音周期波形直至填满丢包的空隙，之后进行幅度调整。

e)对于BU情况，将前一语音包的后半段与后一语音包的前半段连接起来，形成重建语音。

双边基音波形复制法(TSPWR，Two-Side Pitch Waveform Replication)是迄今为止公认的一种非常优秀的错误隐藏算法。图5为本文方法与双边基音波形复制法的性能对比。其中(a)是没有任何丢包的原始语音波形。(b)中第二个语音包丢失，并用静音代替。(c)表示用TSPWR方法对丢包进行恢复后的语音波形。(d)表示用本文方法对丢包进行恢复后的语音波形。(e)和(f)分别表示由TSPWR方法和本文方法得到的恢复波形与原始波形的误差。从图中可以看出，与双边基音波形复制法相比，本文方法能够有效地减少恢复波形与原始波形之间的误差。因为我们在发送端采用了MMSE准则进行虚拟重建和冗余提取，所以在冗余信息指导下的接收端的真实恢复语音必然保持了这种最小误差的特性。

Claims

1.一种基于边信息的语音包丢失恢复技术，其特征在于：针对PCM声码器，在发送端将紧邻当前语音包的前后两个语音包作为边信息，利用EC技术对当前语音包进行虚拟恢复，然后利用最小均方误差准则得到冗余信息，并将此冗余信息与后一语音包一起打包传输；若当前语音包丢失，在接收端利用边信息(前后语音包)、冗余信息(后一语音包携带)和与发送端相同的EC技术对丢失的当前语音包进行实际恢复。

2.如权利要求1所述的基于边信息的语音包丢失恢复技术，其特征在于：该方法的主要步骤有：

3.如权利2要求所述的基于边信息的语音包丢失恢复技术，其特征在于：在发送端对当前包的基音单元进行虚拟恢复时，假设Xⁱ _ou(n)为当前语音包的第i个基音单元，Xⁱ _ru(n)为虚拟恢复语音的第i个基音单元，Xⁱ _pu(n)和Xⁱ _fu(n)分别为前后语音包中用来合成虚拟恢复语音的边信息基音单元，Tⁱ _pr为Xⁱ _ru(n)的长度，N_i为基音单元的个数，a_i为内插系数，则Xⁱ _ru(n)可表示为，

\begin{matrix} {X^{i}}_{ru} (n) = α_{i} {X^{i}}_{pu} (n) + (1 - α_{i}) {X^{i}}_{fu} (n) & i = 1,2, . . . N_{i}; n = 1,2 . . . {T^{i}}_{pr}; 0 < α_{i} < 1 \end{matrix} - - - (1)

4.如权利要求2所述的基于边信息的语音包丢失恢复技术，其特征在于：

利用最小均方误差准则选取内插系数a_i作为冗余信息，

\min_{α_{i}} Σ_{n = 1}^{T_{pr}^{i}} {(X_{ou}^{i} (n) - X_{ru}^{i} (n))}^{2} = \min_{α_{i}} Σ_{n = 1}^{T_{pr}^{i}} {(X_{ou}^{i} (n) - α_{i} \cdot X_{pu} (n) - (1 - α_{i}) \cdot X_{fu} (n))}^{2} - - - (2)

5.如权利要求2所述的基于边信息的语音包丢失恢复技术，其特征在于：在接收端对丢失语音包的基音单元进行实际恢复时，利用边信息、冗余信息以及式(1)进行恢复，其中公式(1)中的内插系数是由式(2)得到的最佳内插系数。