CN103971697A

CN103971697A - 基于非局部均值滤波的语音增强方法

Info

Publication number: CN103971697A
Application number: CN201410227922.6A
Authority: CN
Inventors: 钟桦; 焦李成; 周伟; 田小林; 王爽; 侯彪; 王桂婷; 马文萍; 尚荣华
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2014-05-27
Filing date: 2014-05-27
Publication date: 2014-08-06
Anticipated expiration: 2034-05-27
Also published as: CN103971697B

Abstract

本发明公开了一种基于非局部均值滤波的语音增强方法，主要解决现有技术在语音增强后易产生音乐噪声的问题。其实现步骤是：(1)输入带噪语音，计算带噪语音信号功率谱；(2)对带噪语音信号功率谱进行修改谱减法预处理，得到带噪语音估计功率谱；(3)由估计功率谱得到估计频谱，再对估计频谱进行短时傅立叶逆变换，得到预处理后语音；(4)对预处理后语音进行非局部均值滤波，计算语音修正值；(5)使用计算出来的修正值替代原始含噪语音信号。本发明为以非局部原理为基础，通过对待增强点邻域内的相似点进行加权平均，既能抑制背景噪声同时保持了语音清晰度，有效提高了语音质量，可用于移动通信。

Description

基于非局部均值滤波的语音增强方法

技术领域

本发明属于语音处理技术领域，具体地说是基于非局部均值滤波，利用信号邻域内相似信号点加权平均来降低语音噪声，可用于移动通信。

背景技术

语音是人类特有的功能，也是相互传递信息的最主要手段。现实生活中的语音不可避免的要受到周围环境的影响。一些较强的背景噪声，如机械噪声、其他说话者的语音等均会严重的影响语音信号的质量。此外，传输系统本身也会产生各种噪声，因此在接收端的信号为带噪语音信号。语音增强的主要目标就是在接收端尽可能从带噪语音中提取纯净的语音信号，降低听众的听觉疲劳程度，提高可懂度。

语音增强是语音信号处理的一个重要分支，一直活跃的研究领域。人们对语音增强的研究已有一个世纪的历史。早在上个世纪初，Bell实验室的研究人员就对电话系统的音节清晰度进行了系统的实验。七十年代后期，电子计算机技术的进步促进了语音信号处理技术的迅速发展。谱减法是这个时期最具影响的语音增强算法。在八十年代至今，语音识别与移动通信技术的飞速发展为语音增强的研究提供了动力，各种新算法以及原有算法的改进形式相继问世。如基于信号子带空间的语音增强算法；利用人工神经网络实现语音增强的方法；基于小波分解的滤波方法；最小均方误差滤波MMSE；对数谱最小均方误差估计LSA-MMSE等。

语音信号是一个非平稳信号，但在10-30ms一段时间内可以认为人的声带、声道等特征基本不变，语音的短时谱具有相对的稳定性和较强的相关性，而噪声的前后相关性很弱，所以可以利用短时谱这种特性进行语音增强，由于人耳对相位的信息不敏感，仅考虑幅度的估计即可。因此，基于短时谱幅度估计shorttimespectralamplitude的语音增强算法，是现在人们研究较多的一种语音增强技术。

上述传统的语音增强方法，由于需要得到准确的噪声功率谱和先验信噪比，而现实中噪声功率谱和先验信噪比的准确估计是难以实现的，因而导致语音增强后背景易残留噪声，影响听觉质量。

发明内容

本发明的目的在于针对上述已有技术的问题，提出一种基于非局部的语音增强方法，以有效避免对噪声功率谱和先验信噪比准确估计的过分依赖，减少语音背景中平稳或非平稳噪声，提高语音清晰度。

为实现上述目的，本发明包括如下步骤：

1)采集带噪语音y(i)，以每帧256个语音点将带噪语音分为N帧，帧间重叠128个点，并逐帧加汉明窗，通过短时傅里叶变换获得逐帧的频谱Y_λ(ω)，进而得到带噪语音逐帧功率谱|Y_λ(ω)|²，i表示时域信号离散点序列，i＝1,2,...,m，m表示语音序号总数目，λ表示帧序列数，λ＝1,2,...,N，ω表示离散频率点,ω＝1,2,...,256；

2)根据带噪语音前n帧功率谱|Y_λ(ω)|²，得到噪声估计功率谱|N(w)|²：

{| N (ω) |}^{2} = 1 / n \underset{λ = 1,2, . . ., n}{Σ} {| Y_{λ} (ω) |}^{2}

其中，n表示语音“寂静段”的功率谱帧序列；

3)根据噪声估计功率谱|N(w)|²与带噪语音功率谱|Y_λ(ω)|²，逐帧计算带噪语音功率谱|Y_λ(ω)|²的处理系数K_λ(ω)：

K_λ(ω)＝{r_λ(ω)|ω＝1,2,...,256}

其中，r_λ(ω)表示单个频率点系数：

式中，|d(ω)|²表示噪声功率谱上的离散频率点ω功率，|x_λ(ω)|²表示语音功率谱上的离散频率点ω功率；

4)根据带噪语音功率谱|Yλ(ω)|²和其处理系数K_λ(ω)，得到语音估计功率谱

{| {\hat{Y}}_{λ} (ω) |}^{2} = K_{λ} (ω) {| Y_{λ} (ω) |}^{2};

5)根据语音估计功率谱得到语音估计频谱再对语音估计频谱进行短时傅里叶逆变换，得到预处理后的语音信号

6)用非局部均质滤波算法计算出语音信号内所有语音点的修正值再用修正值替代原始值，得到去噪语音信号

\hat{X} (i) = \tilde{X} (i), i = 1,2, . . ., m

其中，m表示语音信号总数目。

本发明与现有的技术相比具有以下优点：

本发明由于将图像领域内的非局部均值滤波算法引入语音增强领域，并针对语音信号内的噪声为非平稳的特性，先对带噪语音采用修改谱减法预处理，再对预处理后的语音使用修改非局部均值滤波算法进行去噪，不仅避免了对噪声功率谱和先验信噪比准确估计的过分依赖，而且减少了语音背景中的音乐噪声，提高了语音的清晰度，进而提高了通讯质量。

附图说明

图1是本发明的实现流程图；

图2是现有的纯净语音语谱图；

图3是对图2加白噪声后的语谱图；

图4是用本发明对图3增强后的语谱图；

图5是用现有改进谱减法对图3增强后的语谱图；

图6是用现有最小统计跟踪算法对图3增强后的语谱图；

图7是现有最小均方误差算法对图3增强后的语谱图。

具体实施方式

参照图1，本发明基于非局部均值滤波的语音增强方法，其实现步骤如下：

步骤1，输入带噪语音，计算带噪语音信号功率谱。

1.1)对于输入的带噪语音y(i)，以每帧256个语音点将带噪语音分为N帧，帧间重叠128个点，得到分帧后信号y_λ(i₁)，并对y_λ(i₁)加汉明窗，得到加窗信号y_λ(i₁)′：

y_λ(i₁)′＝y_λ(i₁)*ham(256)；

其中，i表示时域信号离散点序列，i＝1,2,...,m，m表示语音序号总数目，λ表示帧序列数，λ＝1,2,...,N，i₁表示帧内序列号，i₁＝1,2,...,256，ham(256)表示大小为256个点的汉明窗；

1.2)对加窗信号y_λ(i₁)′进行短时傅里叶变换，得到变换后频谱Y_λ(ω)：Y_λ(ω)＝STFT(y_λ(i₁)′)

根据变换后频谱Y_λ(ω)得到带噪语音功率谱|Y_λ(ω)|²：

|Y_λ(ω)|²＝Y_λ(ω)*conj(Y_λ(ω))

ω表示离散频率点,ω＝1,2,...,256，STFT(·)表示短时傅立叶变换，conj(·)表示复数共轭。

步骤2，对带噪语音功率谱进行修改谱减法预处理，得到带噪语音估计功率谱

{| {\hat{Y}}_{λ} (ω) |}^{2} .

2.1)根据带噪语音前n帧功率谱|Y_λ(ω)|²，得到噪声估计功率谱|N(w)|²：

其中，n表示语音“寂静段”的功率谱帧序列，n＝5；

2.2)根据噪声估计功率谱|N(w)|²与带噪语音功率谱|Y_λ(ω)|²，逐帧计算带噪语音功率谱|Y_λ(ω)|²的处理系数K_λ(ω)：

K_λ(ω)＝{r_λ(ω)|ω＝1,2,...,256}，

其中，rλ(ω)表示单个频率点系数，其计算公式为：式中，|d(ω)|²表示噪声功率谱上的离散频率点ω功率，|x_λ(ω)|²表示语音功率谱上的离散频率点ω功率；

2.3)根据带噪语音功率谱|Y_λ(ω)|²和其处理系数K_λ(ω)，得到带噪语音估计功率谱

{| {\hat{Y}}_{λ} (ω) |}^{2} :

{| {\hat{Y}}_{λ} (ω) |}^{2} = K_{λ} (ω) {| Y_{λ} (ω) |}^{2} .

步骤3，由估计功率谱得到估计频谱，再对估计频谱进行短时傅立叶逆变换得到预处理后语音

3.1)根据语音估计功率谱得到语音估计频谱

{\hat{Y}}_{λ} (ω) = sqrt ({| {\hat{Y}}_{λ} (ω) |}^{2}) * yangle (Y_{λ} (ω))

其中，sqrt(·)表示计算平方根，yangle(·)表示提取谱相位；

3.2)对语音估计频谱进行短时傅里叶逆变换和去汉明窗，得到语音帧序列

{\hat{y}}_{λ} (i_{1}) :

{\hat{y}}_{λ} (i_{1}) = ISFST ({\hat{Y}}_{λ} (ω)) / ham (256)

其中，ISTFT(·)表示短时傅立叶逆变换；

3.3)去掉语音帧序列内重叠语音点后，得到预处理后的语音信号

步骤4，对预处理后的语音信号进行非局部均值滤波。

4.1)对于语音点i，以其当前位置为中心，在语音点i的邻域内左右各取f个语音点构成一列向量再在其邻域内左右各取t个语音点构成搜索窗Δ，Δ内各语音点的位置依次用j标记，j＝1,2,...,2t+1，对于搜索窗内第j个语音点，以其当前位置为中心，在其邻域内左右各取f个语音点构成另一列向量

4.2)根据步骤4.1)所取的两列向量，将语音点i与其搜索窗内语音点j的相似性权值表示为

w ({\overset{&RightArrow;}{x}}_{i}, {\overset{&RightArrow;}{x}}_{j}) = \exp (- \frac{{| | {\overset{&RightArrow;}{x}}_{i} - {\overset{&RightArrow;}{x}}_{j} | |}_{2}^{2}}{h^{2}}),

其中，h表示平滑参数，h＝kσ，k＝4.2，表示二阶范数，f＝25，t＝100，σ表示由语音开始“寂静段”估计出的噪声标准差：σ＝std{y(i)}i＝1,2,...,500，式中，std{·}表示样本标准差；

4.3)依次计算出语音点i和搜索窗内所有语音点的相似性权值，再对搜索窗内所有点加权平均，得到第i个语音点的修正值

\tilde{y} (i) = \frac{1}{Z (i)} \underset{j &Subset; Δ}{Σ} V (j) w ({\overset{&RightArrow;}{x}}_{i}, {\overset{&RightArrow;}{x}}_{j}),

其中，V(j)表示搜索窗内第j个语音点含噪信号值，Z(i)表示权值之和：

Z (i) = \underset{j &Element; Δ}{Σ} \exp (- \frac{{| | {\overset{&RightArrow;}{x}}_{i} - {\overset{&RightArrow;}{x}}_{j} | |}_{2}^{2}}{h^{2}});

4.4)重复步骤4.1)-4.3)，依次计算出语音信号内所有语音点的修正值

\tilde{X} (i) = {\tilde{y} (i)}, i = 1,2, . . ., m .

步骤5，修正含噪信号。

用修正值替代原始含噪值，得到去噪语音信号

\hat{X} (i) = \tilde{X} (i), i = 1,2, . . ., m

其中，m表示语音信号总数目

下面结合仿真对本发明效果做进一步的说明：

一.实验条件和内容

实验条件：测试语音段取自NOIZEUS语音库。这些语音用8kHz采样，16bits编码，噪声是取自Noisex92噪声库的白噪声White、汽车噪声volvo、飞机驾驶舱内噪声f16以及嘈杂噪声babble，将这四种噪声与测试语音段合成为信噪比是0dB、5dB、10dB和15dB的带噪语音，采用软件MATLAB7.10.0作为仿真工具，计算机配置为IntelCorei5/2.27G/2G。

二.实验内容：在上述实验条件下，选用当前语音增强领域内几种典型的算法和本发明方法对图3进行实验，几种方法分别是：(1)本发明方法；(2)改进谱减法；(3)最小统计跟踪方法MS；(4)最小均方误差方法MMSE；去噪结果的客观评价指标用分段信噪比增益SNR_seg增益衡量。

仿真实验1，使用本发明对图3进行去噪，结果如图4。由图4可以看出，经本发明去噪后的语谱图，背景干净，而且没有出现音乐噪声。

仿真实验2，使用现有的改进谱减法对图3进行去噪，结果如图5。由图5可以看出，经改进谱减法去噪后的语谱图，背景仍含有大量噪声，且产生较多音乐噪声。

仿真实验3，使用现有最小统计跟踪算法MS对图3进行去噪，结果如图6。由图6可以看出，经最小统计跟踪算法MS去噪后的语谱图，背景仍不干净，且在起始处理阶段产生一定音乐噪声。

仿真实验4，使用现有最小均方误差算法MMSE对图3进行去噪，结果如图7。由图7可以看出，经最小均方误差算法MMSE去噪后的语谱图，虽然音乐噪声已经较小，但其背景依然残留大量噪声。

对测试语音图2分别加入0dB，5dB，10dB，15dB的白噪声，volvo噪声，f16噪声，babble噪声，用SNR_seg增益作为去噪效果的评价指标，将上述三种现有的去噪方法和本发明的方法进行比较，结果取SNR_seg增益10次平均后的值，如表1：

表1各种语音增强算法的SNR_seg增益(dB)比较

从表1中可以看出，本发明方法的增强效果现有比改进谱减法、最小统计跟踪算法MS，最小均方误差算法MMSE在分段信噪比增益SNR_seg增益评价指标上都有很大的提高，本发明无论在客观指标还是主观效果上，都表现出了较好的性能，其在抑制噪声的同时，保证了语音的清晰度，提高了语音的质量。表1中的结果均为10次平均后的结果。

Claims

1.一种基于非局部均值滤波的语音增强方法，包括如下步骤：

{| N (ω) |}^{2} = 1 / n \underset{λ = 1,2, . . ., n}{Σ} {| Y_{λ} (ω) |}^{2}

其中，n表示语音“寂静段”的功率谱帧序列；

K_λ(ω)＝{r_λ(ω)|ω＝1,2,...,256}

其中，r_λ(ω)表示单个频率点系数：

4)根据带噪语音功率谱|Y_λ(ω)|²和其处理系数K_λ(ω)，得到语音估计功率谱

{| {\hat{Y}}_{λ} (ω) |}^{2} :

{| {\hat{Y}}_{λ} (ω) |}^{2} = K_{λ} (ω) {| Y_{λ} (ω) |}^{2};

5)根据语音估计功率谱得到语音估计频谱再对语音估计频谱进行短时傅里叶逆变换，得到预处理后的语音信号i＝1,2,...,m；

\hat{X} (i) = \tilde{X} (i), i = 1,2, . . ., m

其中，m表示语音信号总数目。

2.根据权利要求书1所述的基于非局部均值滤波的语音增强方法，其中步骤6)所述的用非局部均值滤波算法计算出语音信号内所有语音点的修正值，按如下步骤进行：

6a)对于语音点i，以其当前位置为中心，在语音点i的邻域内左右各取f个语音点构成一列向量再在其邻域内左右各取t个语音点构成搜索窗Δ，Δ内各语音点的位置依次用j标记，j＝1,2,...,2t+1，对于搜索窗内第j个语音点，以其当前位置为中心，在其邻域内左右各取f个语音点构成另一列向量

6b)根据步骤6a)所取的两列向量，将语音点i与其搜索窗内语音点j的相似性权值表示为

w ({\overset{&RightArrow;}{x}}_{i}, {\overset{&RightArrow;}{x}}_{j}) = \exp (- \frac{{| | {\overset{&RightArrow;}{x}}_{i} - {\overset{&RightArrow;}{x}}_{j} | |}_{2}^{2}}{h^{2}}),

其中，h表示平滑参数，h＝kσ，k＝4.2，σ表示由语音开始“寂静段”直接估计出的噪声标准差，表示二阶范数，f＝25，t＝100；

6c)依次计算出语音点i和搜索窗内所有语音点的相似性权值，再对搜索窗内所有点加权平均，得到第i个语音点的修正值

\tilde{y} (i) = \frac{1}{Z (i)} \underset{j &Subset; Δ}{Σ} V (j) w ({\overset{&RightArrow;}{x}}_{i}, {\overset{&RightArrow;}{x}}_{j})

Z (i) = \underset{j &Element; Δ}{Σ} \exp (- \frac{{| | {\overset{&RightArrow;}{x}}_{i} - {\overset{&RightArrow;}{x}}_{j} | |}_{2}^{2}}{h^{2}});

6d)重复步骤6a)-6c)，依次计算出语音信号内所有语音点的修正值

\tilde{X} (i) :

\tilde{X} (i) = {\tilde{y} (i)}, i = 1,2, . . ., m .