CN103971697B - 基于非局部均值滤波的语音增强方法 - Google Patents

基于非局部均值滤波的语音增强方法 Download PDF

Info

Publication number
CN103971697B
CN103971697B CN201410227922.6A CN201410227922A CN103971697B CN 103971697 B CN103971697 B CN 103971697B CN 201410227922 A CN201410227922 A CN 201410227922A CN 103971697 B CN103971697 B CN 103971697B
Authority
CN
China
Prior art keywords
voice
power spectrum
frame
point
noisy speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410227922.6A
Other languages
English (en)
Other versions
CN103971697A (zh
Inventor
钟桦
焦李成
周伟
田小林
王爽
侯彪
王桂婷
马文萍
尚荣华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201410227922.6A priority Critical patent/CN103971697B/zh
Publication of CN103971697A publication Critical patent/CN103971697A/zh
Application granted granted Critical
Publication of CN103971697B publication Critical patent/CN103971697B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种基于非局部均值滤波的语音增强方法,主要解决现有技术在语音增强后易产生音乐噪声的问题。其实现步骤是:(1)输入带噪语音,计算带噪语音信号功率谱;(2)对带噪语音信号功率谱进行修改谱减法预处理,得到带噪语音估计功率谱;(3)由估计功率谱得到估计频谱,再对估计频谱进行短时傅立叶逆变换,得到预处理后语音;(4)对预处理后语音进行非局部均值滤波,计算语音修正值;(5)使用计算出来的修正值替代原始含噪语音信号。本发明为以非局部原理为基础,通过对待增强点邻域内的相似点进行加权平均,既能抑制背景噪声同时保持了语音清晰度,有效提高了语音质量,可用于移动通信。

Description

基于非局部均值滤波的语音增强方法
技术领域
本发明属于语音处理技术领域,具体地说是基于非局部均值滤波,利用信号邻域内相似信号点加权平均来降低语音噪声,可用于移动通信。
背景技术
语音是人类特有的功能,也是相互传递信息的最主要手段。现实生活中的语音不可避免的要受到周围环境的影响。一些较强的背景噪声,如机械噪声、其他说话者的语音等均会严重的影响语音信号的质量。此外,传输系统本身也会产生各种噪声,因此在接收端的信号为带噪语音信号。语音增强的主要目标就是在接收端尽可能从带噪语音中提取纯净的语音信号,降低听众的听觉疲劳程度,提高可懂度。
语音增强是语音信号处理的一个重要分支,一直活跃的研究领域。人们对语音增强的研究已有一个世纪的历史。早在上个世纪初,Bell实验室的研究人员就对电话系统的音节清晰度进行了系统的实验。七十年代后期,电子计算机技术的进步促进了语音信号处理技术的迅速发展。谱减法是这个时期最具影响的语音增强算法。在八十年代至今,语音识别与移动通信技术的飞速发展为语音增强的研究提供了动力,各种新算法以及原有算法的改进形式相继问世。如基于信号子带空间的语音增强算法;利用人工神经网络实现语音增强的方法;基于小波分解的滤波方法;最小均方误差滤波MMSE;对数谱最小均方误差估计LSA-MMSE等。
语音信号是一个非平稳信号,但在10-30ms一段时间内可以认为人的声带、声道等特征基本不变,语音的短时谱具有相对的稳定性和较强的相关性,而噪声的前后相关性很弱,所以可以利用短时谱这种特性进行语音增强,由于人耳对相位的信息不敏感,仅考虑幅度的估计即可。因此,基于短时谱幅度估计shorttimespectralamplitude的语音增强算法,是现在人们研究较多的一种语音增强技术。
上述传统的语音增强方法,由于需要得到准确的噪声功率谱和先验信噪比,而现实中噪声功率谱和先验信噪比的准确估计是难以实现的,因而导致语音增强后背景易残留噪声,影响听觉质量。
发明内容
本发明的目的在于针对上述已有技术的问题,提出一种基于非局部的语音增强方法,以有效避免对噪声功率谱和先验信噪比准确估计的过分依赖,减少语音背景中平稳或非平稳噪声,提高语音清晰度。
为实现上述目的,本发明包括如下步骤:
1)采集带噪语音y(i),以每帧256个语音点将带噪语音分为N帧,帧间重叠128个点,并逐帧加汉明窗,通过短时傅里叶变换获得逐帧的频谱Yλ(ω),进而得到带噪语音逐帧功率谱|Yλ(ω)|2,i表示时域信号离散点序列,i=1,2,...,m,m表示语音序号总数目,λ表示帧序列数,λ=1,2,...,N,ω表示离散频率点,ω=1,2,...,256;
2)根据带噪语音前n帧功率谱|Yλ(ω)|2,得到噪声估计功率谱|N(w)|2
| N ( ω ) | 2 = 1 / n Σ λ = 1,2 , . . . , n | Y λ ( ω ) | 2
其中,n表示语音“寂静段”的功率谱帧序列;
3)根据噪声估计功率谱|N(w)|2与带噪语音功率谱|Yλ(ω)|2,逐帧计算带噪语音功率谱|Yλ(ω)|2的处理系数Kλ(ω):
Kλ(ω)={rλ(ω)|ω=1,2,...,256}
其中,rλ(ω)表示单个频率点系数:
式中,|d(ω)|2表示噪声功率谱上的离散频率点ω功率,|xλ(ω)|2表示语音功率谱上的离散频率点ω功率;
4)根据带噪语音功率谱|Yλ(ω)|2和其处理系数Kλ(ω),得到语音估计功率谱
| Y ^ λ ( ω ) | 2 = K λ ( ω ) | Y λ ( ω ) | 2 ;
5)根据语音估计功率谱得到语音估计频谱再对语音估计频谱进行短时傅里叶逆变换,得到预处理后的语音信号
6)用非局部均质滤波算法计算出语音信号内所有语音点的修正值再用修正值替代原始值,得到去噪语音信号
X ^ ( i ) = X ~ ( i ) , i = 1,2 , . . . , m
其中,m表示语音信号总数目。
本发明与现有的技术相比具有以下优点:
本发明由于将图像领域内的非局部均值滤波算法引入语音增强领域,并针对语音信号内的噪声为非平稳的特性,先对带噪语音采用修改谱减法预处理,再对预处理后的语音使用修改非局部均值滤波算法进行去噪,不仅避免了对噪声功率谱和先验信噪比准确估计的过分依赖,而且减少了语音背景中的音乐噪声,提高了语音的清晰度,进而提高了通讯质量。
附图说明
图1是本发明的实现流程图;
图2是现有的纯净语音语谱图;
图3是对图2加白噪声后的语谱图;
图4是用本发明对图3增强后的语谱图;
图5是用现有改进谱减法对图3增强后的语谱图;
图6是用现有最小统计跟踪算法对图3增强后的语谱图;
图7是现有最小均方误差算法对图3增强后的语谱图。
具体实施方式
参照图1,本发明基于非局部均值滤波的语音增强方法,其实现步骤如下:
步骤1,输入带噪语音,计算带噪语音信号功率谱。
1.1)对于输入的带噪语音y(i),以每帧256个语音点将带噪语音分为N帧,帧间重叠128个点,得到分帧后信号yλ(i1),并对yλ(i1)加汉明窗,得到加窗信号yλ(i1)′:
yλ(i1)′=yλ(i1)*ham(256);
其中,i表示时域信号离散点序列,i=1,2,...,m,m表示语音序号总数目,λ表示帧序列数,λ=1,2,...,N,i1表示帧内序列号,i1=1,2,...,256,ham(256)表示大小为256个点的汉明窗;
1.2)对加窗信号yλ(i1)′进行短时傅里叶变换,得到变换后频谱Yλ(ω):Yλ(ω)=STFT(yλ(i1)′)
根据变换后频谱Yλ(ω)得到带噪语音功率谱|Yλ(ω)|2
|Yλ(ω)|2=Yλ(ω)*conj(Yλ(ω))
ω表示离散频率点,ω=1,2,...,256,STFT(·)表示短时傅立叶变换,conj(·)表示复数共轭。
步骤2,对带噪语音功率谱进行修改谱减法预处理,得到带噪语音估计功率谱 | Y ^ λ ( ω ) | 2 .
2.1)根据带噪语音前n帧功率谱|Yλ(ω)|2,得到噪声估计功率谱|N(w)|2
其中,n表示语音“寂静段”的功率谱帧序列,n=5;
2.2)根据噪声估计功率谱|N(w)|2与带噪语音功率谱|Yλ(ω)|2,逐帧计算带噪语音功率谱|Yλ(ω)|2的处理系数Kλ(ω):
Kλ(ω)={rλ(ω)|ω=1,2,...,256},
其中,rλ(ω)表示单个频率点系数,其计算公式为:式中,|d(ω)|2表示噪声功率谱上的离散频率点ω功率,|xλ(ω)|2表示语音功率谱上的离散频率点ω功率;
2.3)根据带噪语音功率谱|Yλ(ω)|2和其处理系数Kλ(ω),得到带噪语音估计功率谱 | Y ^ λ ( ω ) | 2 :
| Y ^ λ ( ω ) | 2 = K λ ( ω ) | Y λ ( ω ) | 2 .
步骤3,由估计功率谱得到估计频谱,再对估计频谱进行短时傅立叶逆变换得到预处理后语音
3.1)根据语音估计功率谱得到语音估计频谱
Y ^ λ ( ω ) = sqrt ( | Y ^ λ ( ω ) | 2 ) * yangle ( Y λ ( ω ) )
其中,sqrt(·)表示计算平方根,yangle(·)表示提取谱相位;
3.2)对语音估计频谱进行短时傅里叶逆变换和去汉明窗,得到语音帧序列 y ^ λ ( i 1 ) :
y ^ λ ( i 1 ) = ISFST ( Y ^ λ ( ω ) ) / ham ( 256 )
其中,ISTFT(·)表示短时傅立叶逆变换;
3.3)去掉语音帧序列内重叠语音点后,得到预处理后的语音信号
步骤4,对预处理后的语音信号进行非局部均值滤波。
4.1)对于语音点i,以其当前位置为中心,在语音点i的邻域内左右各取f个语音点构成一列向量再在其邻域内左右各取t个语音点构成搜索窗Δ,Δ内各语音点的位置依次用j标记,j=1,2,...,2t+1,对于搜索窗内第j个语音点,以其当前位置为中心,在其邻域内左右各取f个语音点构成另一列向量
4.2)根据步骤4.1)所取的两列向量,将语音点i与其搜索窗内语音点j的相似性权值表示为
w ( x → i , x → j ) = exp ( - | | x → i - x → j | | 2 2 h 2 ) ,
其中,h表示平滑参数,h=kσ,k=4.2,表示二阶范数,f=25,t=100,σ表示由语音开始“寂静段”估计出的噪声标准差:σ=std{y(i)}i=1,2,...,500,式中,std{·}表示样本标准差;
4.3)依次计算出语音点i和搜索窗内所有语音点的相似性权值,再对搜索窗内所有点加权平均,得到第i个语音点的修正值
y ~ ( i ) = 1 Z ( i ) Σ j ⋐ Δ V ( j ) w ( x → i , x → j ) ,
其中,V(j)表示搜索窗内第j个语音点含噪信号值,Z(i)表示权值之和:
Z ( i ) = Σ j ∈ Δ exp ( - | | x → i - x → j | | 2 2 h 2 ) ;
4.4)重复步骤4.1)-4.3),依次计算出语音信号内所有语音点的修正值
X ~ ( i ) = { y ~ ( i ) } , i = 1,2 , . . . , m .
步骤5,修正含噪信号。
用修正值替代原始含噪值,得到去噪语音信号
X ^ ( i ) = X ~ ( i ) , i = 1,2 , . . . , m
其中,m表示语音信号总数目
下面结合仿真对本发明效果做进一步的说明:
一.实验条件和内容
实验条件:测试语音段取自NOIZEUS语音库。这些语音用8kHz采样,16bits编码,噪声是取自Noisex92噪声库的白噪声White、汽车噪声volvo、飞机驾驶舱内噪声f16以及嘈杂噪声babble,将这四种噪声与测试语音段合成为信噪比是0dB、5dB、10dB和15dB的带噪语音,采用软件MATLAB7.10.0作为仿真工具,计算机配置为IntelCorei5/2.27G/2G。
二.实验内容:在上述实验条件下,选用当前语音增强领域内几种典型的算法和本发明方法对图3进行实验,几种方法分别是:(1)本发明方法;(2)改进谱减法;(3)最小统计跟踪方法MS;(4)最小均方误差方法MMSE;去噪结果的客观评价指标用分段信噪比增益SNRseg增益衡量。
仿真实验1,使用本发明对图3进行去噪,结果如图4。由图4可以看出,经本发明去噪后的语谱图,背景干净,而且没有出现音乐噪声。
仿真实验2,使用现有的改进谱减法对图3进行去噪,结果如图5。由图5可以看出,经改进谱减法去噪后的语谱图,背景仍含有大量噪声,且产生较多音乐噪声。
仿真实验3,使用现有最小统计跟踪算法MS对图3进行去噪,结果如图6。由图6可以看出,经最小统计跟踪算法MS去噪后的语谱图,背景仍不干净,且在起始处理阶段产生一定音乐噪声。
仿真实验4,使用现有最小均方误差算法MMSE对图3进行去噪,结果如图7。由图7可以看出,经最小均方误差算法MMSE去噪后的语谱图,虽然音乐噪声已经较小,但其背景依然残留大量噪声。
对测试语音图2分别加入0dB,5dB,10dB,15dB的白噪声,volvo噪声,f16噪声,babble噪声,用SNRseg增益作为去噪效果的评价指标,将上述三种现有的去噪方法和本发明的方法进行比较,结果取SNRseg增益10次平均后的值,如表1:
表1各种语音增强算法的SNRseg增益(dB)比较
从表1中可以看出,本发明方法的增强效果现有比改进谱减法、最小统计跟踪算法MS,最小均方误差算法MMSE在分段信噪比增益SNRseg增益评价指标上都有很大的提高,本发明无论在客观指标还是主观效果上,都表现出了较好的性能,其在抑制噪声的同时,保证了语音的清晰度,提高了语音的质量。表1中的结果均为10次平均后的结果。

Claims (1)

1.一种基于非局部均值滤波的语音增强方法,包括如下步骤:
1)采集带噪语音y(i),以每帧256个语音点将带噪语音分为N帧,帧间重叠128个点,并逐帧加汉明窗,通过短时傅里叶变换获得逐帧的频谱Yλ(ω),进而得到带噪语音逐帧功率谱|Yλ(ω)|2,i表示时域信号离散点序列,i=1,2,...,m,m表示语音序号总数目,λ表示帧序列数,λ=1,2,...,N,ω表示离散频率点,ω=1,2,...,256;
2)根据带噪语音前n帧功率谱|Yλ(ω)|2,得到噪声估计功率谱|N(w)|2
| N ( ω ) | 2 = 1 / n Σ λ = 1 , 2 , ... , n | Y λ ( ω ) | 2
其中,n表示语音“寂静段”的功率谱帧序列;
3)根据噪声估计功率谱|N(w)|2与带噪语音功率谱|Yλ(ω)|2,逐帧计算带噪语音功率谱|Yλ(ω)|2的处理系数Kλ(ω):
Kλ(ω)={rλ(ω)|ω=1,2,...,256}
其中,rλ(ω)表示单个频率点系数:
式中,|d(ω)|2表示噪声功率谱上的离散频率点ω功率,|xλ(ω)|2表示语音功率谱上的离散频率点ω功率;
4)根据带噪语音功率谱|Yλ(ω)|2和其处理系数Kλ(ω),得到语音估计功率谱
| Y ^ λ ( ω ) | 2 = K λ ( ω ) | Y λ ( ω ) | 2 ;
5)根据语音估计功率谱得到语音估计频谱再对语音估计频谱进行短时傅里叶逆变换,得到预处理后的语音信号i=1,2,...,m;
6)用非局部均值滤波算法计算出语音信号内所有语音点的修正值再用修正值替代原始值,得到去噪语音信号
6a)对于语音点i,以其当前位置为中心,在语音点i的邻域内左右各取f个语音点构成一列向量再在其邻域内左右各取t个语音点构成搜索窗Δ,Δ内各语音点的位置依次用j标记,j=1,2,...,2t+1,对于搜索窗内第j个语音点,以其当前位置为中心,在其邻域内左右各取f个语音点构成另一列向量
6b)根据步骤6a)所取的两列向量,将语音点i与其搜索窗内语音点j的相似性权值表示为
w ( x → i , x → j ) = exp ( - | | x → i - x → j | | 2 2 h 2 ) ,
其中,h表示平滑参数,h=kσ,k=4.2,σ表示由语音开始“寂静段”直接估计出的噪声标准差,表示二阶范数,f=25,t=100;
6c)依次计算出语音点i和搜索窗内所有语音点的相似性权值,再对搜索窗内所有点加权平均,得到第i个语音点的修正值
y ~ ( i ) = 1 Z ( i ) Σ j ⋐ Δ V ( j ) w ( x → i , x → j )
其中,V(j)表示搜索窗内第j个语音点含噪信号值,Z(i)表示权值之和:
Z ( i ) = Σ j ∈ Δ exp ( - | | x → i - x → j | | 2 2 h 2 ) ;
6d)重复步骤6a)-6c),依次计算出语音信号内所有语音点的修正值
i=1,2,...,m,其中,m表示语音信号总数目。
CN201410227922.6A 2014-05-27 2014-05-27 基于非局部均值滤波的语音增强方法 Expired - Fee Related CN103971697B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410227922.6A CN103971697B (zh) 2014-05-27 2014-05-27 基于非局部均值滤波的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410227922.6A CN103971697B (zh) 2014-05-27 2014-05-27 基于非局部均值滤波的语音增强方法

Publications (2)

Publication Number Publication Date
CN103971697A CN103971697A (zh) 2014-08-06
CN103971697B true CN103971697B (zh) 2016-11-23

Family

ID=51241113

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410227922.6A Expired - Fee Related CN103971697B (zh) 2014-05-27 2014-05-27 基于非局部均值滤波的语音增强方法

Country Status (1)

Country Link
CN (1) CN103971697B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107315713B (zh) * 2017-06-06 2020-12-18 西安理工大学 一种基于非局部相似性的一维信号去噪增强方法
CN111751133B (zh) * 2020-06-08 2021-07-27 南京航空航天大学 一种基于非局部均值嵌入的深度卷积神经网络模型的智能故障诊断方法
CN117665788B (zh) * 2024-02-01 2024-04-05 湖南科技大学 一种基于微波测量数据的噪声处理方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Robust Speech Recognition by Nonlocal Means Denoising Processing;Haitian Xu et al;《IEEE SIGNAL PROCESSING LETTERS》;20081231;第15卷;全文 *
Speech De-noising System with Non Local Means Algorithm;Sorin Zoican;《Electronics and Telecommunications(ISETC),2010 9th International Symposium on》;20101231;全文 *
Suppression of Musical Noise Artifacts in Audio Noise Reduction by Adaptive 2D Filtering;Alexey Lukin et al;《AES 123rd Convention》;20071008;全文 *

Also Published As

Publication number Publication date
CN103971697A (zh) 2014-08-06

Similar Documents

Publication Publication Date Title
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
CN1750124B (zh) 带限音频信号的带宽扩展
CN108831499A (zh) 利用语音存在概率的语音增强方法
KR101266894B1 (ko) 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법
US8880396B1 (en) Spectrum reconstruction for automatic speech recognition
CN106340292B (zh) 一种基于连续噪声估计的语音增强方法
CN104067339B (zh) 噪音抑制装置
CN111128213A (zh) 一种分频段进行处理的噪声抑制方法及其系统
CN112735456A (zh) 一种基于dnn-clstm网络的语音增强方法
CN110808057A (zh) 一种基于约束朴素生成对抗网络的语音增强方法
CN103971697B (zh) 基于非局部均值滤波的语音增强方法
Odelowo et al. A study of training targets for deep neural network-based speech enhancement using noise prediction
Katsir et al. Evaluation of a speech bandwidth extension algorithm based on vocal tract shape estimation
CN109215635B (zh) 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法
CN117219102A (zh) 一种基于听觉感知的低复杂度语音增强方法
Rao et al. Speech enhancement using sub-band cross-correlation compensated Wiener filter combined with harmonic regeneration
Flynn et al. Combined speech enhancement and auditory modelling for robust distributed speech recognition
Dang et al. Noise reduction using modified phase spectra and Wiener Filter
Surendran et al. Variance normalized perceptual subspace speech enhancement
Mallidi et al. Robust speaker recognition using spectro-temporal autoregressive models.
Han et al. Perceptual improvement of deep neural networks for monaural speech enhancement
CN113066483A (zh) 一种基于稀疏连续约束的生成对抗网络语音增强方法
Liang et al. Real-time speech enhancement algorithm for transient noise suppression
Kumar et al. Speech quality evaluation for different pitch detection algorithms in LPC speech analysis–synthesis system
CN114401168B (zh) 适用复杂强噪声环境下短波莫尔斯信号的语音增强方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20161123

Termination date: 20210527

CF01 Termination of patent right due to non-payment of annual fee