CN103594094B

CN103594094B - 自适应谱减法实时语音增强

Info

Publication number: CN103594094B
Application number: CN201210290096.0A
Authority: CN
Inventors: 徐云剑; 郭艾寅; 王景芳
Original assignee: Hunan International Economics University
Current assignee: Hunan International Economics University
Priority date: 2012-08-15
Filing date: 2012-08-15
Publication date: 2016-09-07
Anticipated expiration: 2032-08-15
Also published as: CN103594094A

Abstract

本发明公开了一种自适应谱减法实时语音增强方法，该方法包括：构建含噪语音有语音与无语音判别的动态阈值，提出了依动态阈值的噪声谱时变更新原则；充分利用了相邻帧间的相关性提取信息，实现了纯净语音谱平滑迭代估计方法；针对非平稳噪声和强背景噪声下声音信号难以提取的实际问题，给出了一种自适应谱减法语音增强算法；采用快速跟踪噪声算法对非平稳噪声进行逐帧平滑更新，能较好的估计噪声谱；本发明提出的算法能更有效地抑制背景噪声，提高了去噪后的语音质量与可懂度。这一方法具有计算代价小，简单易实现，实时性好,它为强背景噪声的去噪和弱信号的检测提供了新的途径。

Description

自适应谱减法实时语音增强

技术领域

本发明属于语音信号处理技术领域，特别是指一种自适应谱减法实时语音增强方法。

背景技术

语音增强是语音处理的一项重要技术，在语音识别、语音编码、语音合成等领域中有着广泛的应用。语音增强的目的是从带噪语音中提取尽可能纯净的原始语音。但由于噪声信号都是随机产生的，完全消噪几乎不可能。因此，实际语音增强的目标主要有：提高语音清晰度，改善语音质量；提高语音可懂度，方便听者理解。

实际环境中，语音总会受到外界环境噪声的干扰，这些噪声包括从周围环境，传输媒介中引入的噪声，电器设备的噪声以及其他说话人的干扰等等。环境噪声会影响语音质量，严重的情况下语音将完全淹没到噪声中，无法分辨。语音质量的下降会使语音处理系统的性能急剧恶化。比如，语音识别系统在实验室环境中可取得相当好的效果，但在噪声环境中，尤其是在强噪声环境中使用时，系统的识别率将受到严重影响。低速语音编码同样会受到噪声的影响。由于语音生成模型是低速率语音编码的基础，当语音受到噪声干扰时，提取的模型参数将很不准确，重建的语音质量急剧恶化。此时，采用语音增强技术进行预处理，将有效的改善系统性能。因此，语音增强技术有着非常广泛的应用前景，可以应用于如多媒体语音通信、有线、无线语音通信、语音编码、助听设备和鲁棒性语音识别、多模态人机交互、口语对话等领域。

常规谱减法在频域中，因为带噪语音谱减去噪声谱后会有些较大的功率谱分量的剩余部分，所以在频域上呈现出随机出现的尖峰，相应地在时域上就呈现出一些类正弦信号的叠加，呈现出音乐的特性。由于此类残留噪声具有一定的节奏性起伏感，被称为“音乐噪声”。

发明内容

（一）要解决的技术问题

有鉴于此，本发明的主要目的在于提出一种自适应谱减法实时语音增强方法，从带噪语音中提取尽可能纯净的原始语音，1）从含噪语音中判别有语音帧与无语音帧；2）判别阈值的时变更新；3）噪声谱的时变更新；4）语音谱的时变更新与语音增强。

（二）技术方案

为达到上述目的，本发明提供了一种自适应谱减法实时语音增强方法，该方法包括：

用y_m(n),s_m(n)和d_m(n)分别表示第n帧时刻的带噪语音、纯净语音和加性噪声；假设纯净语音信号与噪声互不相关，有

（1）

对上式进行FFT变换，有

（2）

其中，Y_m(ω),S_m(ω) 与D_m(ω)分别表示向量y_m,s_m和d_m的FFT变换。两边平方：

谱减法是从含噪语音功率谱中减去噪声功率谱，并假设噪声功率谱密度（PSD）已知：；

（3）

(4)

1 ）动态阈值

由式（1），时域分帧帧长N，第m帧能量，，[.]为取整，，

计数器：，。

的序号为maxScript，则第m帧动态阈值为：

，如k=1.122 （5）

2）噪声谱更新

对式（1）进行离散FFT变换，有

（6）

是语音信号s_m(n)的功率谱密度估计，是噪声d_m(n)的功率谱密度估计，k为频率序号；

当，则，其中：，如，否则，；

3）语音谱更新与语音增强

当，则，，否则，，其中：，如；

。

优选地，所述提取的参数初始化：含噪语音信号分帧，帧长N= [0.25fs]点，fs为信号采样频率，帧移N/2；噪声谱初值确定取开始无语音段几帧。

优选地，所述该发明实现过程见图1，语音增强过程如图2所示。

优选地，含噪语音信号一帧一帧实时处理，如图3所示。

（三）有益效果

1、本发明提供的这种自适应谱减法实时语音增强方法，具有有效地去噪滤波，显著地提高语音识别系统性能与可懂度，且在不同的噪声环境和信噪比条件下具有鲁棒性。本算法复杂度低，计算代价小，实时性强，简洁易实现，做到了有效性与实时性双满足；

2、本发明提供的这种自适应谱减法实时语音增强方法优势与特色：

1）实现了一种动态阈值；

2）提出了噪声谱时变更新原则；

3）充分利用了相邻帧间的相关性提取信息，实现了纯净语音谱平滑迭代估计方法；

4）算法复杂度低，可满足实时性；

3、本发明提供的这种自适应谱减法实时语音增强方法针对非平稳环境噪声，从噪声谱滤波的角度提出一种语音去噪算法。采用快速跟踪噪声算法对非平稳噪声进行逐帧平滑更新，能较好的估计噪声谱；这一方法具有计算简单, 它为强背景噪声的去噪和弱信号的检测提供了新的途径。

附图说明

图1本发明提供的一种自适应谱减法实时语音增强方法流程图；

图2为本发明提供的语音增强示意图；

图3为本发明提供的语音分帧示意图；

图4为本发明提供的谱减法实现结构图；

图5为本发明提供的自适应谱减法滤波法滤波前后结果对比；

图6为本发明提供的SNR=5dB不同噪声下语音增强方法的波形与语谱图比较；

图7 为本发明提供的SNR=5dB下同一语音不同噪声下语音增强方法的波形与语谱图比较。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明的核心内容是：实现了一种动态阈值；提出了噪声谱时变更新原则；充分利用了相邻帧间的相关性提取信息，实现了纯净语音谱平滑迭代估计方法，达到语音增强目的。

如图1所示，图1为本发明提供的一种自适应谱减法实时语音增强方法流程图，该方法包括以下步骤：

步骤101：参数初始化：含噪语音信号分帧，帧长N= [0.25fs]点，fs为信号采样频率，帧移N/2；噪声谱初值；

步骤102：分帧：用y_m(n),s_m(n)和d_m(n)分别表示第m帧时刻的带噪语音、纯净语音和加性噪声；

步骤103：计算第m帧信号能量与阈值；

步骤104：第m帧噪声谱时变更新；

步骤105：第m帧语音谱迭代更新，增强语音信号恢复；

步骤106：下一帧信号实时处理转步骤102。

上述步骤103中所述能量与阈值计算步骤包括：

时域分帧帧长N，第m帧能量，，[.]为取整，，

计数器：，。

则第m帧动态阈值为：

，如k=1.122。

上述步骤1024中所述噪声谱时变更新的形成过程包括：

离散FFT变换，有

是语音信号s_m(n)的功率谱密度估计，是噪声d_m(n)的功率谱密度估计，k为频率序号。

当，则，其中：，如，否则，。

上述步骤105中所述语音谱迭代更新，增强语音信号恢复的形成过程包括：

当，则，，否则，，其中：，如。

。

基于图1所示的一种自适应谱减法实时语音增强方法流程图，图2进一步示出了语音增强过程示意过程。

以下结合具体的实施例，对本发明提供的这种基于自适应谱减法实时语音增强进一步详细说明；实验取背景噪声选自AURORA库与Noisex-92数据库，纯净语音“The birchcanoe slid on the smooth planks.”文件sp01.wav，采样频率fs=16kHZ。在语音分帧过程中，帧长取25ms，即帧长M=[0.25fs]点，帧移，截取开始噪声帧N₀=10；

采用信噪比

来定量地分析算法的去噪效果。客观上从语音波形、语谱图、信噪比、分段信噪比（Time-domain segmental SNR，-10<SNRseg<35dB）与感知语音质量评价（Perceptualevaluation of speech quality ，1<PESQ<4.5）提高等几个方面对本算法的性能进行了综合分析；

实验1 选取非平稳时变噪声源—嘈杂人声Babble (crowd of people)频率混在语音频段，一般方法很难奏效，本算法能到达了预期效果。图5为自适应谱减法滤波法滤波前后结果对比；

计算滤波前的信噪比SNR_in=4.33dB、滤波后的信噪比SNR_out=6.55dB,在嘈杂人声(babble)本算法滤波信噪比Efficiency=提高了51.27%。倒数第二幅图为时域能量与动态阈值变化，最后一幅为语音增强前后频域能量之比变化趋势；

实验2 用本文自适应谱减法滤波语音增强在不同噪声背景：白噪声(white)、粉色噪声(pink)、航空噪声(f16)、工厂噪声(factory)与人的嘈杂声(babble)在信噪比SNR=5dB时比较，波形与语谱图比较结果见图6。信噪比SNR=5dB不同噪声语音增强质量评价结果见表I；

实验3 用本文自适应谱减法滤波语音增强，在同语音加载不同噪声背景：白噪声(white)、粉色噪声(pink)、航空噪声(f16)、工厂噪声(factory)与人的嘈杂声(babble)在信噪比SNR=5dB时比较，波形与语谱图比较结果见图7，考查算法的实时跟踪结果。其语音增强质量评价^]结果见表I最后一栏。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于自适应谱减法实时语音增强方法，其特征在于，用y_m(n)，s_m(n)和d_m(n)分别表示第m帧时刻的带噪语音、纯净语音和加性噪声，假设纯净语音信号与噪声互不相关，有

时域分帧帧长N，n为帧中序号，第m帧能量[.]为取整，MAX＝max{Energy(i)，m-L＜i≤m}，

计数器：js(j)＝0，1≤j≤L，js(flag(i))＝js(flag(i))+1，1≤i≤L；

max{js(j)，1≤j≤L}的序号为maxscript，则第m帧动态阈值为：

噪声谱：P_d(ω)＝E{|D(ω)|²}

Y_m(ω)＝S_m(ω)+D_m(ω)

注释说明：Y_m(ω)、S_m(ω)与D_m(ω)分别表示向量y_m(n)、s_m(n)与d_m(n)的FFT变换；

当Energy(m)＜Threshold(m)第m帧阈值，则

其中：0＜α＜1，

否则，

语音谱更新与语音增强：

当则，

否则，其中：0＜β＜1。