CN103440871A

CN103440871A - 一种语音中瞬态噪声抑制的方法

Info

Publication number: CN103440871A
Application number: CN2013103699865A
Authority: CN
Inventors: 陈喆; 殷福亮; 张兆伟
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2013-08-21
Filing date: 2013-08-21
Publication date: 2013-12-11
Anticipated expiration: 2033-08-21
Also published as: CN103440871B

Abstract

本发明公开了一种语音中瞬态噪声抑制的方法，属于信号处理技术领域。一种语音中瞬态噪声抑制的方法，其特征在于：包括三个模块：伽马通频率倒谱系数提取模块、瞬态噪声检测模块、语音信号重建模块；所述的伽马通频率倒谱系数提取模块输入端接收含噪的语音信号，输出端与瞬态噪声检测模块输入端相连，所述的瞬态噪声检测模块输出端与语音信号重建模块的输入端相连，所述的语音信号重建模块的输入端初接收含噪的语音信号外，还与所述的瞬态噪声检测模块输出端相连，语音信号重建模块输出为去噪后的语音。

Description

一种语音中瞬态噪声抑制的方法

技术领域

本发明涉及一种语音中瞬态噪声抑制的方法，属于信号处理技术领域。

背景技术

瞬态噪声存在于很多应用场合中，如助听器、免提组件、手机及视讯会议设备等语音通信终端设备中。瞬态噪声的存在严重影响语音质量，使语音信号清晰度和可懂度下降，引起听觉疲劳。语音中的瞬态噪声通常是加性噪声，也称为暂态噪声。瞬态噪声在时域中通常具有突发性、脉冲性等特点，其能量通常集中在较短的时域区间内，而在频域分布则很宽。典型的瞬态信号通常由一个初始的峰值和一段持续时间约为10～50ms衰减的短时振荡过程构成，如敲门、鼠标点击、节拍器、键盘敲击、锤子击打声等都属于瞬态噪声。多数情况下，瞬态噪声的消除比较困难，因为多数瞬态噪声与语音信号在时频域完全混叠，且具有非连续性等特点。目前的语音噪声抑制算法绝大多数是针对稳态噪声和连续噪声的，如谱减方法、自适应滤波方法、维纳滤波方法等，此类算法对瞬态噪声抑制效果很差。因此，有必要发明对瞬态噪声环境下的语音噪声抑制技术。

因为语音噪声抑制效果的最终度量是人的主观感受，因此有必要考虑人耳的听觉感知特性对语音噪声抑制性能的影响。在听觉感知形成的过程中，人耳基底膜发挥了重要的作用，基底膜具有良好的频率选择和分辨特性。基于这一特性，可以通过设计带通滤波器组来实现耳蜗基底膜的分频作用，这种滤波器组就称为人耳听觉滤波器。Johannesma于1972年提出了伽马通(Gammatone，GT)滤波器模型，它是基于听觉模型中的耳蜗基底膜模型实现的，最先用于描述猫的听觉神经的生理学冲激响应的特性。该滤波器能够较好地模拟人耳听觉的频率响应，符合人耳的听觉感知特性。其冲激响应函数的时域表达式为

g(t)＝[Bⁿt^n-1e^-2πBtcos(2πf_it+φ)]u(t)

B＝b₁·ERB(f_i)

其中，参数Bⁿ为滤波器增益；n为滤波器阶数；n＝4的伽马通滤波器就能很好地模拟基底膜的滤波特性；为初始相位，u(t)为单位阶跃函数；f_i为中心频率；ERB(f_i)为伽马通滤波器的等价矩形带宽，其与中心频率f_i的关系为：

ERB(f_i)＝24.7+0.108f_i

伽马通滤波器的中心频率决定了滤波器的等价带宽、频率响应等特性，而由人耳感知特性可知，各伽马通滤波器的中心频率满足对数均匀分布，中心频率可通过下式确定：

f_{i} = (f_{H} + 228.7) \exp (i \times v) - 228.7

= (f_{H} + 228.7) \exp (i \times \frac{\ln \frac{f_{L} + 228.7}{f_{H} + 228.7}}{CH}) - 228.7,1 \leq i \leq CH

v = \frac{\ln \frac{f_{L} + 228.7}{f_{H} + 228.7}}{CH}

其中，参数v为各滤波器之间的重叠因子，用来表示各滤波器之间的重叠程度，参数f_L、f_H为滤波器组的截止频率，CH表示伽马通滤波器组的通道数。对该伽马通滤波器冲激相应作Laplace变换，得到4阶伽马通滤波器在连续域的传递函数为：

G (s) = \frac{[s + b + (\sqrt{2} - 1) ω_{i}] [s + b - (\sqrt{2} - 1) ω_{i}] [s + b + (\sqrt{2} + 1) ω_{i}] [s + b - (\sqrt{2} + 1) ω_{i}]}{{[{(s + b)}^{2} + {ω_{i}}^{2}]}^{4}}

其中，ω_i＝2πf_i，表示各滤波器的中心角频率。通过冲激响应不变法，将伽马通滤波器冲激响应的Laplace变换G(s)转换到Z域，则有：

G_{i} (z) = \frac{T_{s} - T_{s} a_{3} (a_{1} + (\sqrt{2} - 1) a_{2}) z^{- 1}}{1 - 2 a_{1} a_{3} z^{- 1} + {a_{3}}^{2} z^{- 2}} \times \frac{T_{s} - T_{s} a_{3} (a_{1} - (\sqrt{2} - 1) a_{2}) z^{- 1}}{1 - 2 a_{1} a_{3} z^{- 1} + {a_{3}}^{2} z^{- 2}}

\times \frac{T_{s} - T_{s} a_{3} (a_{1} + (\sqrt{2} + 1) a_{2}) z^{- 1}}{1 - 2 a_{1} a_{3} z^{- 1} + {a_{3}}^{2} z^{- 2}} \times \frac{T_{s} - T_{s} a_{3} (a_{1} - (\sqrt{2} + 1) a_{2}) z^{- 1}}{1 - 2 a_{1} a_{3} z^{- 1} + {a_{3}}^{2} z^{- 2}}

= G_{1, i} (z) \cdot G_{2, i} (z) \cdot G_{3, i} (z) \cdot G_{4, i} (z)

其中，T_s为采样周期，a₁＝cos(ω_iT_s)，a₂＝sin(ω_iT_s)，

由上式可知，4阶的伽马通滤波器可由4个二阶传递函数级联实现，分别对4个二阶传递函数进行反变换，得到4个二阶滤波器的冲激响应，即：g_1，i(n)、g_2，i(n)、g_3，i(n)、g_4，i(n)。将语音信号分别与各冲激响应卷积后，得到伽马通滤波器的滤波输出。48kHz采样率下的64通道伽马通滤波器幅频响应曲线如说明书的附图1所示。

(2)信包丢失隐藏

VoIP即通过IP网络传输语音的数据包，作为传统公共交换电话网(PSTN)替代通信方式，其得到越来越多的关注。由于网络拥塞或传输过程延迟抖动会造成信包丢失，亦即某些信包不能及时出现在接收端，这种情况称作信包丢失。设计良好的解决丢包问题的技术，能大大提高语音传输质量。这类技术可以分为基于发送端的丢包恢复技术(PLR)和基于接收端的丢包隐藏技术(PLC)。丢包恢复技术包括前向纠错(FEC)和交织(interleaving)等。一般来说，采用基于发送端恢复技术的效果比基于接收端隐藏技术的好，但该技术较复杂，同时会增加网络带宽和传输时延。考虑到实时性的因素，许多实用的VoIP系统采用了丢包隐藏技术。常用的PLC算法有静音替代、包复制技术、模式匹配、基音波形复制和线性预测等。本发明将采用双向线性预测(Bidirectional Linear Prediction，BLP)的丢包隐藏方法抑制瞬态噪声。

Vaseghi等提出了基于线性预测模型与插值算法的脉冲噪声检测及抑制算法。该算法分为脉冲噪声检测和信号插值修复两部分，检测部分包含基于AR模型的线性预测分析、逆滤波器和门限检测器。检测器的输出是二进制开关值，用来控制插值器，如果检测到脉冲噪声存在，插值器被激活并替换被污染的样值，该方法功能框图如说明书的附图2所示。

在专著“Advanced Digital Signal Processing and Noise Reduction”(3rd editor.NewYork：Wiley，2006)中，S.V.Vaseghi给出了一种脉冲噪声的检测和抑制方法，该方法的主要缺点：(a)由于很多一维信号(如语音)的精确模型不易获得，容易引入谐波失真；(b)无法检测幅度较小的脉冲信号。

Phillip A.Hetherington和Shreyas A.Paranjpe在发明专利“Repetitive transientnoise removal”(US patent：2006116873，2003)中提出了根据噪声特点进行建模，然后利用建模的信号与待检测信号的相关系数来确定待检测数据是否含有噪声，若存在噪声，则根据建模信号将待检测信号中的噪声成分移除。该方法的流程图如说明书附图图3所示。

该技术适合于去除具有重复性的噪声。而瞬态噪声的类型多种多样，当短时间内存在多种不同类型的瞬态噪声时，会造成建模不准确，影响去噪效果。

发明内容

本发明针对以上问题的提出，而研制一种语音中瞬态噪声抑制的方法。本发明针对语音中的瞬态噪声，基于检测-修复的思想，采用伽马通频率倒谱系数(GFCC)和语音信号重建方法，以提高瞬态噪声的检测精度，提出了一种语音瞬态噪声去噪方法，提高语音信号的语音质量。

本发明采取的技术方案如下：

一种语音中瞬态噪声抑制的方法：包括三个模块：伽马通频率倒谱系数提取模块、瞬态噪声检测模块、语音信号重建模块；

所述的伽马通频率倒谱系数提取模块输入端接收含噪的语音信号，输出端与瞬态噪声检测模块输入端相连，所述的瞬态噪声检测模块输出端与语音信号重建模块的输入端相连，所述的语音信号重建模块的输入端初接收含噪的语音信号外，还与所述的瞬态噪声检测模块输出端相连，语音信号重建模块输出为去噪后的语音；所述的伽马通频率倒谱系数提取模块从输入可能含噪的语音信号中提取伽马通频率倒谱系数，所述的瞬态噪声检测模块根据相邻帧伽马通频率倒谱系数的差别来判决当前语音帧中是否含有瞬态噪声，若含有瞬态噪声，则使用语音信号重建模块重建当前语音帧，并用该重建语音帧替换当前语音帧，并输出；若不含有瞬态噪声，则对当前语音帧不做处理，直接输出。

本发明原理及有益效果：由附图说明中的图12可见，传统的检测——修复技术存在瞬态噪声漏检的情况，且修复后的语音平滑性不好，容易引入新的频率分量；由图13可见，本发明能有效地检测噪声并重建语音信号，重建后的噪声残留较传统算法少。

附图说明

图164通道的GT滤波器幅频响应曲线。

图2专著《Advanced Digital Signal Processing and Noise Reduction》(3rd editor.New York：Wiley，2006)给出的一种脉冲噪声的检测和抑制方法框图。

图3发明专利“Repetitive transient noise removal”(US patent：2006116873，2003)方法的流程图。

图4本发明的功能框图。

图5伽马通频率倒谱系数(GFCC)提取功能框图。

图6基于双向线性预测的语音信号重建方法的功能框图。

图7前向基音周期检测方法的功能框图。

图8瞬态噪声抑制效果(使用SNRSeg指标评价)。

图9瞬态噪声抑制效果(使用分段对数谱失真LSDSeg评价)。

图10不含瞬态噪声语音的语谱图示例。

图11在图11语音中加入噪声后语音语谱图。

图12使用S.V.Vaseghi在专著“Advanced Digital Signal Processing andNoise Reduction”(3rd editor.New York：Wiley，2006)中给出的一种脉冲噪声的检测和抑制方法处理图11语音的结果的语谱图。

图13使用本发明处理图11语音的结果的语谱图。

具体实施方式

下面结合附图对本发明做进一步说明：灰度图能够说明本发明的技术效果，特提供灰度图来说明本发明的技术效果，同时也为审查员更好的审查本发明的技术效果。灰度图为图10至图13。

本发明方案主要包括伽马通频率倒谱系数提取模块、瞬态噪声检测模块、语音信号重建模块，如图4所示。在瞬态噪声检测阶段，利用模拟人耳耳蜗听觉模型的伽马通(Gammatone)滤波器提取伽马通频率倒谱系数(GFCC)，根据相邻帧间的伽马通频率倒谱系数差异来检测瞬态噪声；若检测为含噪声帧，利用语音信号的相关性及短时平稳性，采用基于双向线性预测的接收端丢包隐藏(PLC)算法，通过邻近帧的信息对含噪语音帧进行波形重建。若检测为非噪声帧，则不做额外处理，直接输出。

输入采样率f_s＝48kHz的单声道语音信号。将含噪输入语音信号x(n)表示为

x(n)＝s(n)+d(n)，

其中，s(n)为纯净语音信号，d(n)为瞬态噪声。下面对本发明技术方案进行详细说明。

伽马通频率倒谱系数(GFCC)提取

具体伽马通频率倒谱系数(GFCC)提取功能框图如图5所示，步骤如下：

(a)对原始含噪语音x(n)进行预加重，增强高频分量，

x_e(n)＝x(n)-αx(n-1)，

其中，α为预加重系数，其取值范围是0＜α＜1，本发明建议α取值为0.97，

(b)伽马通(Gammatone)滤波器组滤波，使用如下伽马通滤波器组滤波，

G_{i} (z) = \frac{T_{s} - T_{s} a_{3} {[a_{1} + (\sqrt{2} - 1) a_{2}] z}^{- 1}}{1 - {2 a}_{1} a_{3} z^{- 1} + {a_{3}}^{2} z^{- 2}} \times \frac{T_{s} - T_{s} a_{3} [a_{1} - (\sqrt{2} - 1) a_{2}] z^{- 1}}{1 - {2 a}_{1} a_{3} z^{- 1} + {a_{3}}^{2} z^{- 2}}

\times \frac{T_{s} - T_{s} a_{3} [a_{1} + (\sqrt{2} + 1) a_{2}] z^{- 1}}{1 - {2 a}_{1} a_{3} z^{- 1} + {a_{3}}^{2} z^{- 2}} \times \frac{T_{s} - T_{s} a_{3} [a_{1} - (\sqrt{2} + 1) a_{2}] z^{- 1}}{1 - {2 a}_{1} a_{3} z^{- 1} + {a_{3}}^{2} z^{- 2}}, 1 \leq i \leq CH

= G_{1, i} (z) \cdot G_{2, i} (z) \cdot G_{3, i} (z) \cdot G_{4, i} (z)

a₁＝cos(ω_iT_s)，1≤i≤CH

a₂＝sin(ω_iT_s)，1≤i≤CH

a_{3} = e^{- {bT}_{s}}

ω_i＝2πf_i，1≤i≤CH

f_{i} = (f_{H} + 228.7) \exp (i \times v) - 228.7

= (f_{H} + 228.7) \exp (i \times \frac{\ln \frac{f_{L} + 228.7}{f_{H} + 228.7}}{CH}) - 228.7,1 \leq i \leq CH

v = \frac{\ln \frac{f_{L} + 228.7}{f_{H} + 228.7}}{CH}

其中，T_s为采样周期，CH表示伽马通滤波器组的通道数，本发明建议CH＝64。参数v为各滤波器之间的重叠因子，用来表示各滤波器之间的重叠程度，f_H为滤波器组的截止频率，其取值是输入信号的采样率，而f_L的取值范围为10～100Hz，本发明建议取50Hz；将x_w(n)分别通过64个滤波器，得到滤波后输出y_i(n)；

y_i(n)＝x_w(n)*g_1，i(n)*g_2，i(n)*g_3，i(n)*g_4，i(n)，i＝0，1，…，63

其中，′*′表示数字信号处理领域中的卷积操作；

(c)求各通道频域信号的能量，对GT滤波器组输出信号进行分帧，帧长为N，N的取值范围是240≤N≤960，本发明建议N取为480(采样频率为48KHz时，等效时间长度为10毫秒)，计算当前帧中各通道滤波器输出分量的对数能量和；

E (m) = \log_{e} Σ_{n = start}^{start + N - 1} {[y_{i} (n)]}^{2}, m = 0,1, \cdot \cdot \cdot, 63

其中，strat表示当前帧在信号x(n)中的开始位置；

(d)用离散余弦变换对各通道倒谱能量进行压缩，得到伽马通频率倒谱系数(Gammatone frequency cesptrum coefficient，GFCC)。

C^{(p)} (0) = \sqrt{\frac{2}{L}} Σ_{m = 0}^{CH - 1} E (m), l = 0

C^{(p)} (l) = \frac{2}{\sqrt{L}} Σ_{m = 0}^{CH - 1} E (m) \cos [\frac{πl (2 m + 1)}{2 CH}], 1 \leq l < L

其中，L为伽马通频率倒谱系数(GFCC)的阶数，L的取值范围是16≤L≤64，本发明建议L取32。

噪声检测

通过比较相邻帧间伽马通频率倒谱系数的差异，来区分语音帧和噪声帧。具体过程如下：

计算当前帧，即第p帧，信号的伽马通频率倒谱系数矢量C^(p)(l)与前一帧，即第p-1帧，信号的平滑伽马通频率倒谱系数矢量

(l)的欧式距离Dis，

Dis = \sqrt{Σ_{l = 0}^{L - 1} {[C^{(p)} (l) - C_{aver}^{p - 1} (l)]}^{2}}

平滑伽马通频率倒谱系数矢量

的更新过程为

C_{aver}^{p - 1} (l) = β \cdot C_{aver}^{p - 2} (l) + (1 - β) \cdot C^{(p - 1)} (l)

其中，0＜β＜1，是伽马通频率倒谱系数矢量平滑因子，本发明建议β＝0.6；

采用基于噪声能量的软阈值判决方法对噪声帧进行检测，首先计算当前帧与前一帧输入信号能量E(p)、Ｅ(p-1)，根据信号能量设定阈值thres＝q[Ｅ(p)+E(p-1)]/2，q的取值范围是0.01≤q≤100，本发明建议q取0.25，当伽马通频率倒谱系数矢量距离值Dis大于阈值thres时，即判定当前帧存在瞬态噪声。

基于双向线性预测的语音信号重建

根据相邻语音的波形，采用插值重建算法生成被噪声污染的语音帧，首先对含噪语音帧的前后帧进行双向线性预测，并根据线性预测系数设计逆滤波器，计算残差信号；再将残差信号通过基音周期检测算法计算基音周期，根据相邻帧的残差信号及基音周期，产生当前含噪帧的激励信号，根据激励信号及前一帧的线性预测系数，重建当前帧语音信号，并与相邻帧信号进行淡入、淡出方式的数据平滑，达到抑制语音中瞬态噪声的目的；基于双向线性预测的语音信号重建方法的功能框图如图6所示。

设D表示输出信号的延时，用于当前帧信号与相邻帧进行边界融合，D的取值范围是16≤D≤48，Lev表示线性预测滤波器的阶数，Lev的取值范围是10≤D≤30；

基于双向线性预测的语音信号重建方法通过相邻帧的采样点产生当前帧的估计值，故需要存储与当前帧最近的Ｂ个样点作为历史数据，用于估计前向线性预测系数及前向激励信号，记为相应地，

为当前帧之后的Ｂ个样点数据，用于估计后向线性预测系数及后向激励信号，本发明建议D、Lev、Ｂ的取值分别为24，20，1.5N；为了叙述及书写简便，权利要求书剩余部分所有符号均用于当前帧，不再标注帧序号p，

具体方法如下：

(1)用瞬态噪声检测模块的检测结果，当检测到当前帧为含噪帧，而前一帧为非含噪帧时，对缓冲区中的历史数据进行线性预测分析；首先对x_e(n)加窗，得到加窗后的信号x_w(n)＝x_e(n)·w(n)，窗函数选择为汉明窗w(n)＝0.54-0.46cos[(2n+1)π/N]，n＝0，1，…，N-1，x_w(n)的自相关函数为，

r_{corr} (m) = Σ_{n = 0}^{B / 2 - 1 - m} bu f_{f} (n + B / 2) \cdot {buf}_{f} (n + B / 2 + m), 0 \leq m < Lev

然后根据Levinson-Durbin算法计算前向线性预测系数

(2)根据前向线性预测系数

设计逆滤波器，并对

进行滤波，得到残差信号

e_{f} (n) = {buf}_{f} (n + Lev) - Σ_{i = 1}^{L} a_{f} (i) {buf}_{f} (n + Lev - i), 0 \leq n < B - Lev

(3)前向基音周期检测

本方法采用残差信号进行基音周期检测；前向基音周期检测的功能框图如图7所示。基音周期检测如下：

(a)低通滤波

由于基音周期检测结果常受到共振峰频率的影响，为了尽量消除共振峰的影响，首先对残差信号进行低通滤波，尽量滤除高频率的共振峰，对于不同说话人，基音周期一般分布在2～12ms内，该低通滤波器的通带截止频率f_p的取值范围是0.8kHz＜f_p＜1.2kHz，本发明设置f_p为0.9kHz，

(b)中心削波处理；

语音信号的基音信息主要隐藏在包络中，而共振峰信息大量存在于低幅值部分，为减小共振峰的影响，采用中心削波函数对低通滤波后的残差信号进行非线性处理，中心削波函数定义如下：

e_{fc} (n) = \{\begin{matrix} e_{f} (n) - T_{c}, & e_{f} (n) > T_{c} \\ 0, & | e_{f} (n) | \leq T_{c} \\ e_{f} (n) + T_{c}, & e_{f} (n) < - T_{c} \end{matrix},

其中，阈值T_c为削波电平，T_c＝γ·max{e_fc(n)，0≤n＜B-Lev}，本发明建议设置γ为0.4；

(c)基音周期估计

计算e_fc(n)的归一化自相关运算，即在(P_MIN，P_MAX)范围中搜索自相关最大值位置，作为基音周期估计值P_f，

r_{fc} (m) = \frac{Σ_{n = B - Lev - C}^{B - Lev - 1} e_{fc} (n - m) e_{fc} (n)}{\sqrt{Σ_{n = B - Lev - C}^{B - Lev - 1} e_{fc} (n - m) e_{fc} (n - m)}}, P_{MIN} \leq m \leq P_{MAX}

P_{f} = \arg \max_{P_{MIN} \leq m \leq P_{MAX}} r_{fc} (m)

其中，C为自相关运算的平均长度，P_MIN、P_MAX分别表示基音周期搜索的最小值和最大值，建议C取值为150，而P_MIN、P_MAX的取值分别为2ms和12ms对应的样点数96和576；

(4)后向基音周期检测

若检测当前帧为非含噪帧，采用与步骤(3)中前向基音周期检测类似的方法和步骤，检测后向基音周期；首先对后向缓冲区

中的数据作线性预测分析，得到后向线性预测系数

，并根据后向线性预测系数设计后向逆滤波器，对

进行后向滤波，得到后向残差信号

，并对后向残差信号进行基音检测，得到后向基音周期估计值P_b，

(5)基音周期修正

为防止倍频导致的基音周期估计不准的情况，本发明对前向基音周期P_f和后向基音周期P_b进行平滑处理，并根据平滑后的基音周期估计当前帧的基音周期P_c，具体过程为，

P_{c} = P_{f} + \frac{P_{b} - P_{f}}{2},

其中，δ为基音周期差异判决阈值，由语音信号相邻帧基音周期的差值决定，本发明建议δ取值为10；

(6)当前帧激励信号的产生；

采用相邻帧的残差信号及估计的基音周期来估计当前含噪帧的激励信号，分别对e_f(n)和e_b(n)以P_c为周期进行周期延拓，得到当前帧的前向激励信号

和后向激励信号

{\tilde{e}}_{f} (n) = \{\begin{matrix} e_{f} (B - Lev - P_{c} - D + n), & 0 \leq n < D + P_{c} \\ {\tilde{e}}_{f} (n - P_{c}), & D + P_{c} \leq n < N + 2 D \end{matrix}

{\tilde{e}}_{b} (n) = \{\begin{matrix} e_{b} (n - (N + D - P_{c})), & N + D - P_{c} \leq n < N + 2 D \\ {\tilde{e}}_{b} (n + P_{c}), & N + D - P_{c} > n &GreaterEqual; 0 \end{matrix}

为了将重建信号与相邻帧进行重叠相加，实现边界平滑，本发明设定激励信号长度为N+2D，D即为重叠区域的长度，

(7)波形重建；

通过产生的激励信号及相应的线性预测模型系数，重建当前帧语音信号，

\{\begin{matrix} {\tilde{x}}_{f} (n) = Σ_{i = 1}^{Lev} a_{f} (i) {\tilde{x}}_{f} (n - i) + {\tilde{e}}_{f} (n), & 0 \leq n < N + 2 D \\ {\tilde{x}}_{b} (n) = Σ_{i = 1}^{Lev} a_{b} (i) {\tilde{x}}_{b} (n - i) + {\tilde{e}}_{b} (n), & N + 2 D > n &GreaterEqual; 0 \end{matrix};

分别将缓冲区内离当前帧最近的Lev个样点赋给

和

作为重建信号的初始状态；

\{\begin{matrix} {\tilde{x}}_{f} (n) = {buf}_{f} (B - D + n), & - L \leq n < - 1 \\ {\tilde{x}}_{b} (n) = {buf}_{b} (n - (N + 2 D)), & N + 2 D \leq n < N + 2 D + Lev \end{matrix},

重建信号的中间N个样点替换当前含噪帧，两端的D个样点用于与前后帧进行重叠相加，进行淡入淡出处理，平滑重建信号，保证重建信号与两侧数据具有连续性，

(8)重建信号与前后帧边界融合

为了平滑重建信号与相邻帧的边界，将前向缓冲区

的最后D个样点与前向重建信号

前D个样点通过三角窗进行重叠相加，并用于更新前一帧数据的最后D个样点及缓冲区buf_f(n)，

x^{(p - 1)} (n) = \frac{n + 1}{D + 1} {\tilde{x}}_{f} (n) + \frac{D - n}{D + 1} {buf}_{f} (B - D - n), 0 \leq n < D,

{buf}_{f} (n) = \{\begin{matrix} x^{(p - 1)} (n - B + 2 N), & 0 \leq n < B - N \\ {\tilde{x}}_{f} (n - (B - N)), & B - N \leq n < B \end{matrix},

(a)线性加权

前向线性预测信号对于预测当前帧前半部分的精确度较高，而后向线性预测信号正好相反，基于此，对两个预测信号进行线性加权得到最终的重建信号，而当后向线性预测缺失时，仅用前向线性预测信号对含噪语音帧进行替换，

{\tilde{x}}^{(p)} (n) = \frac{N - n}{N + 1} {\tilde{x}}_{f} (n + D) + \frac{n + 1}{N + 1} {\tilde{x}}_{b} (n + D), 0 \leq n < N,

(b)连续多帧信号含噪情况：

当出现此类情况时，不再计算前一帧的LP系数及激励信号，而是用前一帧的相应估计值进行代替，然后进行步骤(6)～(8)中的合成滤波、边界融合以及线性加权。

本发明技术方案带来的有益效果

使用分段信噪比SNR_Seg和分段对数谱失真LSD_Seg进行瞬态噪声抑制结果评估。分段信噪比、分段对数谱失真定义分别为

{SNR}_{seg} = \frac{1}{N_{t}} Σ_{k = 1}^{N_{t}} 10 \cdot \log_{10} \frac{\underset{n &Element; {frm}_{k}}{Σ} {| x (n) |}^{2}}{\underset{n &Element; {frm}_{k}}{Σ} {| \hat{x} (n) - x (n) |}^{2}},

{LSD}_{seg} = \frac{1}{N_{t}} Σ_{l = 0}^{N_{t} - 1} {\frac{2}{N} Σ_{k = 0}^{N / 2 - 1} {[10 \cdot \log_{10} TX (k, l) - 10 \cdot \log_{10} T \hat{X} (k, l)]}^{2}}^{\frac{1}{2}},

其中，X为原始语音的短时DFT傅里叶变换，为待测语音的短时傅里叶变换，N_t为待测语音帧的帧数，TX定义如下：

TX(k，l)＝max{|X(k，l)|²，δ}，

δ = 10^{- \frac{50}{10}} \max_{k, l} {| X (k, l) |}^{2},

本发明中可以取得的有益效果

这里将本发明的技术方案与S.V.Vaseghi在专著“Advanced Digital SignalProcessing and Noise Reduction”(3rd editor.New York：Wiley，2006)中给出的一种脉冲噪声的检测和抑制方法进行了比较，分段信噪比和分段谱失真的结果见图8、图9。由图8可见，本发明方案在三种不同的输入信噪比下，其分段信噪比的提高量均要高于传统的检测——修复技术；由图9可见，本发明方案的分段谱失真要小于传统的检测——修复技术方案，说明在频域失真方面，该方案的性能要优于传统技术方案，但与原始语音仍有一定差距，这主要是因为所有瞬态噪声帧全部被正确检出的情况下，重建信号仍存在频谱失真；

在语谱图方面，图10～图13分别为：原始语音语谱图示例、在图10语音加入噪声后语音语谱图、使用S.V.Vaseghi在专著“Advanced Digital SignalProcessing and Noise Reduction”(3rd editor.New York：Wiley，2006)中给出的一种脉冲噪声的检测和抑制方法处理图11语音的结果的语谱图、使用本发明处理图11语音的结果的语谱图。

由图12可见，传统的检测——修复技术存在瞬态噪声漏检的情况，且修复后的语音平滑性不好，容易引入新的频率分量；由图13可见，本发明能有效地检测噪声并重建语音信号，重建后的噪声残留较传统算法少。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，如采样频率由48KHz改为44.1KHz、32KHz、16KHz、8KHz等，都应涵盖在本发明的保护范围之内。

本发明涉及的缩略语和关键术语定义如下：

AR模型：AutoRegressive，自回归模型。

BLP：Bidirectional Linear Prediction，双向线性预测。

DCT：Discrete Cosine Transform，离散余弦变换。

FEC：Forward Error Correction，前向纠错技术。

GFCC：Gammatone Frequency Cepstrum Coefficient，Gammatone频率倒谱系数。

LPF：Low Pass Filter，低通滤波器。

LSD：Log-spectrum Distortion，对数谱失真。

PLC：Packet Loss Concealment，丢包隐藏技术。

PLR：Packet Lost Recovery，丢包恢复技术。

PSTN：Public Switched Telephone Network，公共交换电话网。

PWR：Pitch Waveform Replication，基因周期波形复制。

SNR：Signal Noise Ratio，信噪比。

VoIP：Voice over IP，基于IP网的语音。

Claims

1.一种语音中瞬态噪声抑制的方法，其特征在于：包括三个模块：伽马通频率倒谱系数提取模块、瞬态噪声检测模块、语音信号重建模块；所述的伽马通频率倒谱系数提取模块输入端接收含噪的语音信号，输出端与瞬态噪声检测模块输入端相连，所述的瞬态噪声检测模块输出端与语音信号重建模块的输入端相连，所述的语音信号重建模块的输入端初接收含噪的语音信号外，还与所述的瞬态噪声检测模块输出端相连，语音信号重建模块输出为去噪后的语音；所述的伽马通频率倒谱系数提取模块从输入可能含噪的语音信号中提取伽马通频率倒谱系数，所述的瞬态噪声检测模块根据相邻帧伽马通频率倒谱系数的差别来判决当前语音帧中是否含有瞬态噪声，若含有瞬态噪声，则使用语音信号重建模块重建当前语音帧，并用该重建语音帧替换当前语音帧，并输出；若不含有瞬态噪声，则对当前语音帧不做处理，直接输出。

2.根据权利要求1所述的一种语音中瞬态噪声抑制的方法，其特征在于：伽马通频率倒谱系数提取模块的处理步骤如下：

(a)对原始含噪语音x(n)预加重，增强高频分量；定义原始含噪语音信号为x(n)，预加重后的语音信号为x_e(n)，

x_e(n)＝x(n)-ax(n-1)，

其中，a为预加重系数，α取值为0.97；

(b)伽马通滤波器组滤波，使用如下伽马通滤波器组滤波，

G_{i} (z) = \frac{T_{s} - T_{s} a_{3} [a_{1} + (\sqrt{2} - 1) a_{2}] z^{- 1}}{1 - 2 a_{1} a_{3} z^{- 1} + {a_{3}}^{2} z^{- 2}} \times \frac{T_{s} - T_{s} a_{3} [a_{1} - (\sqrt{2} - 1) a_{2}] z^{- 1}}{1 - 2 a_{1} a_{3} z^{- 1} + {a_{3}}^{2} z^{- 2}}

\times \frac{T_{s} - T_{s} a_{3} [a_{1} + (\sqrt{2} + 1) a_{2}] z^{- 1}}{1 - 2 a_{1} a_{3} z^{- 1} + {a_{3}}^{2} z^{- 2}} \times \frac{T_{s} - T_{s} a_{3} [a_{1} - (\sqrt{2} + 1) a_{2}] z^{- 1}}{1 - 2 a_{1} a_{3} z^{- 1} + {a_{3}}^{2} z^{- 2}}, 1 \leq i \leq CH

= G_{1, i} (z) \cdot G_{2, i} (z) \cdot G_{3, i} (z) \cdot G_{4, i} (z)

a₁＝cos(ω_iT_s)，1≤i≤CH，

a₂＝sin(ω_iT_s)，1≤i≤CH，

a_{3} = e^{{- bT}_{s}},

ω_i＝2πf_i，1≤i≤CH，

f_{i} = (f_{H} + 228.7) \exp (i \times v) - 228.7

= (f_{H} + 228.7) \exp (i \times \frac{\ln \frac{f_{L} + 228.7}{f_{H} + 228.7}}{CH}) - 228.7,1 \leq i \leq CH,

v = \frac{\ln \frac{f_{L} + 228.7}{f_{H} + 228.7}}{CH},

其中，T_s为采样周期，CH表示伽马通滤波器组的通道数，CH＝64；参数v为各滤波器之间的重叠因子，用来表示各滤波器之间的重叠程度，f_H为滤波器组的截止频率，其取值是输入信号的采样率，而f_L的取值范围为10～100Hz，f_L取50Hz；将x_w(n)分别通过64个滤波器，得到滤波后输出y_i(n)；

y_i(n)＝x_w(n)*g_1，i(n)*g_2，i(n)*g_3，i(n)*g_4，i(n)，i＝0，1，…，63；

其中，′*′表示数字信号处理领域中的卷积操作；

(c)求各通道频域信号的能量，对GT滤波器组输出信号进行分帧，帧长为N，N的取值范围是240≤N≤960，N取为480，在采样频率为48KHz时，其等效时间长度为10毫秒，计算当前帧中各通道滤波器输出分量的对数能量和；

E (m) = \log_{e} Σ_{n = start}^{start + N - 1} {[y_{i} (n)]}^{2},

m＝0，1，…，63

其中，strat表示当前帧在信号x(n)中的开始位置；

(d)用离散余弦变换对各通道倒谱能量进行压缩，得到伽马通频率倒谱系数；

C^{(p)} (0) = \sqrt{\frac{2}{L}} Σ_{m = 0}^{CH - 1} E (m),

l＝0

C^{(p)} (l) = \frac{2}{\sqrt{L}} Σ_{m = 0}^{CH - 1} E (m) \cos [\frac{πl (2 m + 1)}{2 CH}],

1≤l＜L

其中，L为伽马通频率倒谱系数的阶数，L的取值范围是16≤L≤64，L取32。

3.根据权利要求1所述的一种语音中瞬态噪声抑制的方法，其特征在于：瞬态噪声检测模块的检测过程如下：

的欧式距离Dis，

Dis = \sqrt{Σ_{l = 0}^{L - 1} [C^{(p)} (l) - C_{aver}^{p - 1} (l)]^{2}};

平滑伽马通频率倒谱系数矢量

的更新过程为

C_{aver}^{p - 1} (l) = β \cdot C_{aver}^{p - 2} (l) + (1 - β) \cdot C^{(p - 1)} (l);

其中，β是伽马通频率倒谱系数的平滑因子，其β＝0.6；采用基于噪声能量的软阈值判决方法对噪声帧进行检测，首先计算当前帧与前一帧输入信号能量E(p)、E(p-1)，根据信号能量设定阈值thres＝q[E(p)+E(p-1)]/2，q取0.25，当伽马通频率倒谱系数矢量距离值Dis大于阈值thres时，即判定当前帧存在瞬态噪声。

4.根据权利要求1所述的一种语音中瞬态噪声抑制的方法，其特征在于：语音信号重建模块的处理方法如下：

根据相邻语音的波形，采用插值重建算法生成被噪声污染的语音帧，首先对含噪语音帧的前后帧进行双向线性预测，并根据线性预测系数设计逆滤波器，计算残差信号；再将残差信号通过基音周期检测算法计算基音周期，根据相邻帧的残差信号及基音周期，产生当前含噪帧的激励信号，根据激励信号及前一帧的线性预测系数，重建当前帧语音信号，并与相邻帧信号进行淡入、淡出方式的数据平滑，达到抑制语音中瞬态噪声的目的；设D表示输出信号的延时，用于当前帧信号与相邻帧进行边界融合，D的取值范围是16≤D≤48，Lev表示线性预测滤波器的阶数，Lev的取值范围是10≤D≤30；基于双向线性预测的语音信号重建方法通过相邻帧的采样点产生当前帧的估计值，故需要存储与当前帧最近的B个样点作为历史数据，用于估计前向线性预测系数及前向激励信号，记为

相应地，

为当前帧之后的B个样点数据，用于估计后向线性预测系数及后向激励信号，D、Lev、B的取值分别为24，20，1.5N；为了叙述及书写简便，权利要求书剩余部分所有符号均用于当前帧，不再标注帧序号p，

具体方法如下：

(1)用瞬态噪声检测模块的检测结果，当检测到当前帧为含噪帧，而前一帧为非含噪帧时，对缓冲区中的历史数据进行线性预测分析；首先对x_e(n)加窗，得到加窗后的信号x_w(n)＝x_e(n)w(n)，窗函数选择为汉明窗w(n)＝0.54-0.46cos[(2n+1)π/N]，n＝0，1，…，N-1，x_w(n)的自相关函数为，