CN101976567B

CN101976567B - 一种语音信号差错掩盖方法

Info

Publication number: CN101976567B
Application number: CN201010521774A
Authority: CN
Inventors: 陈贺新; 赵岩; 肖菲
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2010-10-28
Filing date: 2010-10-28
Publication date: 2011-12-14
Anticipated expiration: 2030-10-28
Also published as: CN101976567A

Abstract

一种语音信号的差错掩盖方法，涉及一种数字通信领域的方法，尤其涉及一种音频信号差错掩盖的方法。包括以下步骤为：根据接收端丢失的语音包的长度确定丢失部分的语音信号采样点数，并设该丢失部分的语音采样点数为L；设丢失帧的帧序号为N(N≥2)，语音信号的采样率为f_s；选取丢包语音前面接收到的已解码语音信号采样点L个，并设该语音信号为x(t)；同时，选取丢包语音后面接收到的已解码语音信号采样点L个，并设该语音信号为y(s)；采用多项式拟合x(t)；采用多项式拟合y(s)；利用x(t)和y(s)的拟合多项式表达式生成丢包部分语音信号的多项式表达式z(r)；利用丢包部分语音信号的多项式表达式z(r)，计算出丢包部分语音信号的预测值；根据上述步骤获得的预测值，对丢包部分语音值进行替代。

Description

一种语音信号差错掩盖方法

技术领域：

本发明涉及一种数字通信领域的方法，尤其涉及一种音频信号差错掩盖的方法。

背景技术：

基于IP的语音通信业务量几年来一直呈上升趋势，同时，传统公共电话网正在逐步向以IP技术为核心的下一代网络演进。然而，基于IP的压缩语音数据包在网络中传输时，会不可避免地由于网络拥塞或传输信道误码等引起丢包，特别是在无线网络中传输时丢包问题更加严重。为了减小丢包对接收端语音质量的影响，已有许多差错控制技术用来对抗丢包的影响，其中，差错掩盖技术便是在接收端中广泛采用的一种改善语音主观听觉效果的方法。

从已有的研究成果来看，语音信号差错掩盖技术主要包括：基于插入的方法、基于再生的方法和基于内插的方法三大类。基于插入的方法是通过插入填充包来实现差错掩盖，而填充包通常是非常简单的静默或噪音替代以及前面收到的包的简单重复。这类方法容易实现，但是掩盖性能较差。基于再生的方法利用语音编码算法的相关知识估计出丢包部分语音的解码参数，进而通过解码或合成恢复丢失的语音信号。这类方法依赖于语音编码算法，不同的语音编码器要采用对应的掩盖方法，通常这类掩盖方法的复杂度也比较高。基于内插的方法是利用某种形式的模式匹配和内插来得到和丢包语音信号相似的可替换包，这类算法比基于插入的方法复杂，但可以获得较好的恢复效果，同时方法的通用性比基于再生的方法好。

经过对现有技术的文献检索发现，David J.Goodman等人在1986年《IEEE声学、语音与信号处理期刊》(IEEE Transactions on acoustics，speech and signal processing)第34卷1440页到1448页发表的“Waveform Substitution Techniques for Recovering Missing Speech Segments in Packet Voice Communications”(分组语音通信中恢复丢失语音段的波形替代技术)一文中提出的基于模式匹配的波形替代方法和基于音高检测的波形替代方法，是两种较好的基于内插的语音信号差错掩盖方法。基于模式匹配的波形替代方法将丢失语音包(含L个采样的语音段)前面的语音信号中紧邻丢包语音段的部分语音(含M个采样的语音子段，M＜L，通常M取L的二分之一)看作“模板”(template)，然后在丢包语音段更前面或后面的语音信号中搜索和该模板最匹配的语音子段，找到后将含有该语音子段的L个采样的语音段作为丢失语音包的替代，从而实现丢包语音信号的差错掩盖。基于音高检测的波形替代方法同基于模式匹配的波形替代方法类似，只是采用音高检测代替模版匹配在丢包语音段前面或后面的语音信号中搜索能够替代丢包语音段的波形信号。

上述基于波形替代的方法是利用丢包语音段的前面或后面语音信号中具有和丢包语音段相似的波形这一特征，因此当语音信号波形不具有重复性时这种方法就得不到理想的掩盖结果。

发明内容：

本发明的目的是针对现有技术的不足，提供一种用于语音信号差错掩盖的方法，使接收端能够恢复出高质量的掩盖语音信号。

本发明是通过以下技术方案实现的：

一种语音信号的差错掩盖方法，其特征在于，包括以下步骤：

第一步：根据接收端丢失的语音包的长度确定丢包部分的语音信号采样点数，并设该丢包部分的语音采样点数为L；设丢失帧的帧序号为N，且N≥2，语音信号的采样率为f_s；

第二步：选取丢包语音前面接收到的已解码语音信号采样点L个，并设该语音信号为x(t)；同时，选取丢包语音后面接收到的已解码语音信号采样点L个，并设该语音信号为y(s)；

第三步：采用多项式拟合x(t)；

第四步：采用多项式拟合y(s)；

第五步：利用x(t)和y(s)的拟合多项式表达式生成丢包部分语音信号的多项式表达式z(r)；

第六步：利用丢包部分语音信号的多项式表达式z(r)，计算出丢包部分语音信号的预测值；

第七步：根据上述步骤获得的预测值，对丢包部分语音值进行替代。

所述第二步采用的多项式拟合x(t)，设该多项式为X(t)，具体如下：

X(t)＝a₀+a₁t+a₂t²+...+a_n-1t^n-1+a_ntⁿ

其中，a₀，a₁，...，a_n为多项式的系数，n为多项式的阶数，t＝(N-2)·L/f_s，((N-2)·L+1)/f_s，...，((N-1)·L-1)/f_s。

所述第三步采用的多项式拟合y(s)，设该多项式为Y(s)，具体如下：

Y(s)＝b₀+b₁s+b₂s²+...+b_p-1s^p-1+b_ps^p

其中，b₀，b₁，...，b_p为多项式的系数，p为多项式的阶数，s＝N·L/f_s，(N·L+1)/f_s，...，((N+1)·L-1)/f_s。

所述利用x(t)和y(s)的拟合多项式表达式生成丢包部分语音信号的多项式表达式z(r)，具体如下：

c.若n≥p，则将y(s)的拟合多项式Y(s)扩展为n阶，那么

Y(s)＝b₀+b₁s+b₂s²+...+b_p-1s^p-1+b_ps^p+b_p+1s^p+1+...+b_nsⁿ

其中，b_p+1，...，b_n均为0

生成丢包部分语音信号的多项式表达式z(r)，则

z(r)＝c₀+c₁r+c₂r²+...+c_n-1r^n-1+c_nrⁿ

其中，c₀＝a₀-b₀，c₁＝a₁-b₁，...，c_n＝a_n-b_n，且有，

r＝(N-1)·L/f_s，((N-1)·L+1)/f_s，...，(N·L-1)/f_s；

d.若n＜p，则将x(t)的拟合多项式X(t)扩展为p阶，那么

X(t)＝a₀+a₁t+a₂t²+...+a_n-1t^n-1+a_ntⁿ+a_n+1tⁿ⁺¹+...+a_pt^p

其中，a_n+1，...，a_p均为0

生成丢包部分语音信号的多项式表达式z(r)，则

z(r)＝c₀+c₁r+c₂r²+...+c_p-1r^p-1+c_pr^p

其中，c₀＝a₀-b₀，c₁＝a₁-b₁，...，c_p＝a_p-b_p，且有，

r＝(N-1)·L/f_s，((N-1)·L+1)/f_s，...，(N·L-1)/f_s。

本发明的有益效果：本发明与现有技术，如基于模式匹配的波形替代方法和前帧替代方法相比，信号的信噪比(SNR)平均要提高1dB以上，且具有更好的主观听觉效果。

附图说明：

图1为本发明方法对比基于模式匹配的波形替代方法和前帧替代方法的实验结果。

具体实施方式

下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行，给出了详细的实施方式和过程，但本发明的保护范围不限于下述的实施例。

设解码端对音频流解码后定位到丢失帧的位置，设丢失帧的帧序号为N(N≥2)，已经将丢失帧前面的第N-1帧和丢失帧后面的第N+1帧正确解码，丢失帧的采样点数为160，语音的采样率f_s为8000Hz。本发明实施例的具体实施步骤为：

(1)选取丢包语音前面第N-1帧已正确解码的语音信号采样点L个，并设该语音信号为x(t)；同时，选取丢包语音后面第N+1帧已正确解码的语音信号采样点L个，并设该语音信号为y(s)；

(2)采用多项式拟合x(t)，设此多项式为X(t)，

X(t)＝a₀+a₁t+a₂t²+...+a_n-1t^n-1+a_ntⁿ

(3)由最小二乘法确定多项式x(t)的拟合系数，假设各数据点的权值为1，令，

则有：

即：

Σ_{i = 0}^{L} (a_{0} t_{i}^{j} + a_{1} t_{i}^{j + 1} + . . . + a_{n} t_{i n + j}) = Σ_{i = 0}^{L} t_{i}^{j} x (t_{i})

解此方程组就可以得到多项式系数向量A＝a₀，a₁，...，a_n。

(4)采用多项式拟合y(s)，设此多项式为Y(s)，如公式

Y(s)＝b₀+b₁s+b₂s²+...+b_p-1s^p-1+b_ps^p

(5)由最小二乘法确定多项式y(s)的拟合系数，假设各数据点的权值为1，令，

则有：

即：

Σ_{i = 0}^{L} (b_{0} s_{i}^{j} + b_{1} s_{i}^{j + 1} + . . . + b_{p} s_{i}^{p + j}) = Σ_{i = 0}^{L} s_{i}^{j} y (s_{i})

解此方程组就可以得到多项式系数向量B＝b₀，b₁，...，b_p。

(6)利用x(t)和y(s)的拟合多项式表达式生成丢包部分语音信号的多项式表达式z(r)；所述利用x(t)和y(s)的拟合多项式表达式生成丢包部分语音信号的多项式表达式，具体如下：

①若n≥p，则将y(s)的拟合多项式Y(s)扩展为n阶，如公式

Y(s)＝b₀+b₁s+b₂s²+...+b_p-1s^p-1+b_ps^p+b_p+1s^p+1+...+b_nsⁿ

其中，b_p+1，...，b_n均为0.

生成丢包部分语音信号的多项式表达式z(r)，如公式

z(r)＝c₀+c₁r+c₂r²+...+c_n-1r^n-1+c_nrⁿ

其中，丢包部分语音信号的多项式系数与第N-1帧和第N+1帧语音信号的多项式系数的关系是：

c₀＝a₀-b₀，c₁＝a₁-b₁，...，c_n＝a_n-b_n

且，r＝(N-1)·L/f_s，((N-1)·L+1)/f_s，...，(N·L-1)/f_s。

②若n＜p，则将x(t)的拟合多项式X(t)扩展为p阶，如公式

X(t)＝a₀+a₁t+a₂t²+...+a_n-1t^n-1+a_ntⁿ+a_n+1tⁿ⁺¹+...+a_pt^p

其中，a_n+1，...，a_p均为0.

生成丢包部分语音信号的多项式表达式z(r)，如公式

z(r)＝c₀+c₁r+c₂r²+...+c_p-1r^p-1+c_pr^p

c₀＝a₀-b₀，c₁＝a₁-b₁，...，c_p＝a_p-b_p

且，r＝(N-1)·L/f_s，((N-1)·L+1)/f_s，...，(N·L-1)/f_s。

(5)利用丢包部分语音信号的多项式表达式z(r)，计算出丢包部分语音信号的预测值。

(6)根据上述步骤获得的预测值，对丢包部分语音值进行替代。

作为对比实例，本发明实施例还实现了对语音信号ring.wav(f_s＝8000Hz，n＝160，， L＝80)在不同丢包率下基于模式匹配的波形替代方法和前帧替代方法。实验发现，本发明相比基于模式匹配的波形替代方法和前帧替代方法具有更好的掩盖效果，信号的信噪比(SNR)在不同丢包率下都有较大提高。图1给出了本发明方法对比基于模式匹配的波形替代方法和前帧替代方法的实验结果。

Claims

1.一种语音信号的差错掩盖方法，其特征在于，包括以下步骤：

第一步：根据接收端丢失的语音包的长度确定丢包部分的语音信号采样点数，并设该丢包部分的语音信号采样点数为L；设丢失帧的帧序号为N，且N≥2，语音信号的采样率为f_s；

第三步：采用多项式拟合x(t)；

第四步：采用多项式拟合y(s)；

2.根据权利要求1所述的一种语音信号的差错掩盖方法，其特征在于：所述第二步采用的多项式拟合x(t)，设该多项式为X(t)，具体如下：

X(t)＝a₀+a₁t+a₂t²+...+a_n-1t^n-1+a_ntⁿ

其中，a₀，a₁，..，a_n为多项式的系数，n 为多项式的阶数，t＝(N-2)·L/f_s，((N-2)·L+1)/f_s，...，((N-1)·L-1)/f_s。

3.根据权利要求1所述的一种语音信号的差错掩盖方法，其特征在于，所述第三步采用的多项式拟合y(s)，设该多项式为Y(s)，具体如下：

Y(s)＝b₀+b₁s+b₂s²+...+b_p-1s^p-1+b_ps^p

其中，b₀，b₁，...，b_p为多项式的系数，p 为多项式的阶数，s＝N·L/f_s，(N·L+1)/f_s，...，((N+1)·L-1)/f_s。

4.根据权利要求1所述的一种语音信号的差错掩盖方法，其特征是，所述利用x(t)和y(s)的拟合多项式表达式生成丢包部分语音信号的多项式表达式z(r)，具体如下：

其中：X(t)＝a₀+a₁t+a₂t²+...+a_n-1t^n-1+a_ntⁿ

a₀，a₁，...，a_n 为多项式的系数，n为多项式的阶数，t＝(N-2)·L/f_s，((N-2)·L+1)/f_s，...，((N-1)·L-1)/f_s，

其中：Y(s)＝b₀+b₁s+b₂s²+...+b_p-1s^p-1+b_ps^p

b₀，b₁，...，b_p为多项式的系数，p为多项式的阶数，s＝N·L/f_s，(N·L+1)/f_s，...，((N+1)·L-1)/f_s，那么

a.若n≥p，则将y(s)的拟合多项式Y(s)扩展为n阶，那么

Y(s)＝b₀+b₁s+b₂s²+...+b_p-1s^p-1+b_ps^p+b_p+1s^p+1+...+b_nsⁿ

其中，b_p+1，...，b_n均为0，

生成丢包部分语音信号的多项式表达式z(r)，则

z(r)＝c₀+c₁r+c₂r²+...+c_n-1r^n-1+c_nrⁿ

其中，c₀＝a₀-b₀，c₁＝a₁-b₁，...，c_n＝a_n-b_n，且有，r＝(N-1)·L/f_s，((N-1)·L+1)/f_s，...，(N·L-1)/f_s；

b.若n＜p，则将x(t)的拟合多项式X(t)扩展为p阶，那么

X(t)＝a₀+a₁t+a₂t²+...+a_n-1t^n-1+a_ntⁿ+a_n+1tⁿ⁺¹+...+a_pt^p

其中，a_n+1，...，a_p均为0，

生成丢包部分语音信号的多项式表达式z(r)，则

z(r)＝c₀+c₁r+c₂r²+...+c_p-1r^p-1+c_pr^p

其中，c₀＝a₀-b₀，c₁＝a₁-b₁，...，c_p＝a_p-b_p，且有，

r＝(N-1)·L/f_s，((N-1)·L+1)/f_s，...，(N·L-1)/f_s。