CN106340292B

CN106340292B - 一种基于连续噪声估计的语音增强方法

Info

Publication number: CN106340292B
Application number: CN201610812074.4A
Authority: CN
Inventors: 吕勇
Original assignee: Hohai University HHU
Current assignee: Nanjing Saturn Information Technology Co ltd
Priority date: 2016-09-08
Filing date: 2016-09-08
Publication date: 2019-08-20
Anticipated expiration: 2036-09-08
Also published as: CN106340292A

Abstract

本发明公开一种基于连续噪声估计的语音增强方法，在对数谱域用预先训练的语音模型对背景噪声的参数进行连续估计，利用估得的噪声均值恢复纯净语音。首先，对输入语音进行声学预处理和快速傅里叶变换，得到每一帧数字语音的幅度和相位，幅度用于噪声估计和幅度谱减，相位用于恢复时域信号。然后，对数字语音的幅度谱进行子带滤波和取对数运算，得到对数谱，并利用预先训练得到的对数谱域语音模型从含噪语音的对数谱特征向量中实时提取噪声参数。最后，利用估得的噪声参数对含噪语音进行加权幅度谱减，并对增强语音的幅度和含噪语音的相位进行逆傅里叶变换和重叠相加，得到增强后的语音。本发明在含噪语音中对噪声参数按帧连续估计，实时跟踪噪声的变化。

Description

一种基于连续噪声估计的语音增强方法

技术领域

本发明涉及到在对数谱域用预先训练的语音模型对背景噪声的参数进行连续估计，利用估得的噪声均值恢复纯净语音的语音增强方法，属于语音信号处理技术领域。

背景技术

在语音通信中，输入语音通常会受到背景噪声的干扰，因此有必要采用语音增强算法抑制噪声干扰，从含噪语音中尽可能恢复纯净语音，增加语音的可懂度。

在语音增强中，通常需要采用端点检测算法判断语音段的起点和终点，从而将含噪语音划分为语音段和噪声段。在噪声段，利用不含语音的纯噪声谱估计背景噪声的均值；在语音段的每一帧，利用估得的噪声均值对含噪语音的幅度谱进行谱减，得到纯净语音幅度谱的估计值。噪声估计是语音增强的关键技术之一，对语音间隙期的纯噪声谱进行平滑，可以得到较为准确的噪声参数。然而，实际环境中的背景噪声往往是非平稳的，当语音段较长时，如果不及时更新噪声参数，就有可能导致语音增强的结果出现较大的偏差，因此有必要在语音段也对噪声的参数进行更新。目前，逐帧估计噪声的主要方法是搜索一段时间内含噪语音频谱的最小值，用含噪语音频谱的最小值代表噪声频谱的大小。该方法虽然可以在语音段估计噪声的参数，但是也存在较长的延迟，即在噪声的类型或强度发生变化后，通常在2～3秒之后才能检测出噪声的变化，得到新的噪声参数。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种基于连续噪声估计的语音增强方法。

技术方案：一种基于连续噪声估计的语音增强方法，首先，对输入语音进行声学预处理和快速傅里叶变换(FFT：Fast Fourier Transform)，得到每一帧数字语音的幅度和相位，幅度用于噪声估计和幅度谱减，相位用于恢复时域信号。然后，对数字语音的幅度谱进行子带滤波和取对数运算，得到对数谱。如果输入语音是纯净训练语音，则对数谱用于模型训练，得到高斯混合模型(GMM：Gaussian Mixture Model)；如果输入语音是待增强的含噪语音，则对数谱用于噪声估计，得到噪声的均值。得到噪声均值后，即可对含噪语音进行加权幅度谱减，得到增强后的幅度谱。最后，对含噪语音的相位和估得的纯净语音幅度进行IFFT(Inverse Fast Fourier Transform)运算，恢复时域信号，并用重叠相加法得到增强后的语音。

训练阶段的具体步骤包括：

(1)在语音预处理阶段对纯净训练语音进行加窗、分帧，将训练语音分解为若干帧信号；

(2)对每一帧训练语音进行FFT运算，得到每帧信号的幅度谱；

(3)将语音信号的频谱按照人耳的听觉特性划分为若干个不等宽且互不重叠的子带，并将每个子带内的幅度谱相加，得到子带谱；

(4)对训练语音的子带谱进行对数变换，得到训练语音的对数谱；

(5)对训练语音的对数谱进行聚类，训练，得到纯净训练语音的GMM；

语音增强阶段的具体步骤包括：

(6)在语音预处理阶段对含噪输入语音进行加窗、分帧，将含噪输入语音分解为若干帧信号；

(7)对每一帧含噪语音进行FFT运算，得到每帧含噪语音的幅度谱和相位谱；

(8)采用与训练阶段相同的子带划分方法，将每个子带内的幅度谱相加，得到子带谱；

(9)对含噪语音的子带谱进行对数变换，得到含噪语音的对数谱；

(10)利用训练阶段得到的GMM从含噪语音的对数谱中估计噪声的均值；

(11)利用估得的噪声均值，对含噪语音的幅度谱进行加权谱减，得到增强后的语音幅度谱；

(12)对每帧信号增强后的幅度谱和含噪语音的相位谱进行IFFT运算，得到每帧时域信号；

(13)对语音全部帧的时域信号进行重叠相加，得到增强后的语音。

附图说明

图1为基于连续噪声估计的语音增强框架图，主要包括预处理、FFT、子带滤波、取对数、模型训练、噪声估计、幅度谱减、IFFT和重叠相加9个模块。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

基于连续噪声估计的语音增强方法，首先，对输入语音进行声学预处理和快速傅里叶变换(FFT：Fast Fourier Transform)，得到每一帧数字语音的幅度和相位，幅度用于噪声估计和幅度谱减，相位用于恢复时域信号。然后，对数字语音的幅度谱进行子带滤波和取对数运算，得到对数谱。如果输入语音是纯净训练语音，则对数谱用于模型训练，得到高斯混合模型(GMM：Gaussian Mixture Model)；如果输入语音是待增强的含噪语音，则对数谱用于噪声估计，得到噪声的均值。得到噪声均值后，即可对含噪语音进行加权幅度谱减，得到增强后的幅度谱。最后，对含噪语音的相位和估得的纯净语音幅度进行IFFT(InverseFast Fourier Transform)运算，恢复时域信号，并用重叠相加法得到增强后的语音。

噪声估计在语音的对数谱域完成，噪声的对数谱域均值向量利用最大期望算法从含噪语音的对数谱特征向量中实时提取。

在噪声估计时，不区分含噪语音的语音段和非语音段，而是按帧连续估计噪声，因而可以实时跟踪噪声的变化。

假设每个子带内所有数字频率处的噪声特性相同，且每个子带内所有数字频率处的过减系数也相同。

每个子带的过减系数由该子带预增强语音的对数谱值决定，对数谱值越大，过减系数就越小；反之，过过减系数就越大。

如图1所示，基于连续噪声估计的语音增强方法主要包括预处理、FFT、子带滤波、取对数、模型训练、噪声估计、幅度谱减、IFFT和重叠相加等模块。下面逐一详细说明附图中主要模块的具体实施方案。

1、语音预处理：

在语音预处理阶段，对纯净训练语音或待增强的含噪输入语音进行加窗，分帧，得到帧信号。窗函数采用海明窗；分帧时，帧移长度为帧长的一半，即前后帧之间一半采样点重叠。

2、FFT：

FFT的点数由采样频率决定，使每帧信号的持续时间在20毫秒左右。对纯净训练语音，只需要保留幅度谱，丢弃相位谱；对于待增强的含噪输入语音，需要同时保留幅度谱和相位谱，幅度谱用于噪声估计和幅度谱减，相位谱用于在后端恢复时域信号。一般认为相位对听觉系统的影响很小，可以直接用含噪语音的相位作为纯净语音的相位。

3、子带滤波：

将语音信号的频谱按照人耳的听觉特性划分为若干个不等宽且互不重叠的子带，并将每个子带内的幅度谱相加，得到子带谱。

假设语音信号的采样频率为32kHz，语音信号的有效频带在20Hz～15.5kHz之间，则每个子带的中心频率和频率范围如下表所示：

表1子带的中心频率和频率范围

子带序号	中心频率(Hz)	频率范围(Hz)	子带序号	中心频率(Hz)	频率范围(Hz)
						1	50	20～100	13	1850	1720～2000
2	150	100～200	14	2150	2000～2320
						3	250	200～300	15	2500	2320～2700
4	350	200～400	16	2900	2700～3150
						5	450	400～510	17	3400	3150～3700
6	570	510～630	18	4000	3700～4400
						7	700	630～770	19	4800	4400～5300
8	840	770～920	20	5800	5300～6400
						9	1000	920～1080	21	7000	6400～7700
10	1170	1080～1270	22	8500	7700～9500
						11	1370	1270～1480	23	10500	9500～12000
12	1600	1480～1720	24	13500	12000～15500

4、取对数：

对每帧子带谱，按下式进行取对数操作：

其中，和x_t分别表示第t帧纯净训练语音的子带谱和对数谱。

5、模型训练：

在训练阶段，用纯净训练语音的对数谱训练生成一个GMM：

其中，c_m，μ_x,m和Σ_x,m分别表示该GMM第m个高斯单元的混合系数、均值向量和协方差矩阵；D表示语音频谱的子带数目，即向量x_t的维数。

6、噪声估计：

首先利用训练阶段得到的GMM从含噪语音的对数谱y_t中估计对数谱域的噪声均值μ_n：

其中，γ_m(t)＝P(k_t＝m|y_t,λ)表示给定GMM的先验参数λ时，第t帧含噪语音对数向量yt属于GMM第m个高斯单元的后验概率；和U_m为：

式(4)中，μ_n0表示μ_n的初值；式(5)中，diag()表示以括号中的向量元素为对角元素，生成对角矩阵。

得到对数谱域的噪声均值μ_n后，用下式将其变换回幅度谱域：

其中，μ_n,l是μ_n的第l个元素，即第l个子带上的分量，D_l是第l个子带包含的频点的个数，N(l)是第l个子带上所有频点的噪声均值。这里假设每个子带上所有频点的噪声均值相同，这样就可以得到每个频点处的噪声均值N(k)(k为FFT的数字频率序号)。

7、幅度谱减：

设|Y(k)|为含噪语音的幅度谱，先用下式对含噪语音进行预增强：

对预增强后的语音幅度谱进行子带滤波和取对数运算，得到预增强语音的对数谱有D个元素：将这D个元素的最小值和最大值分别记为和幅度谱减的过减系数α(l)用下式计算：

其中，α_min和α_max分别表示过减系数α(l)的最小值和最大值，通常可取0.5和6。假设每个子带内的所有频点具有相同的过减系数，这样就可以得到每个数字频率处的过减系数α(k)。因此，可以用下式估计纯净语音的幅度谱

其中，β(k)为噪声保留系数，通常可取常数0.01。根据式(7)估得的预增强信号小于阈值，则认为该帧为非语音帧，按下式进行处理：

9、IFFT：

将含噪语音相位作为纯净语音相位，与纯净语音幅度谱的估计值相乘，得到纯净语音的完整频谱，并对其进行IFFT运算，得到时域信号。

10、重叠相加：

将IFFT得到的每帧信号的时域信号进行重叠相加，得到增强后的语音。

Claims

1.一种基于连续噪声估计的语音增强方法，其特征在于：首先，对输入语音进行声学预处理和快速傅里叶变换，得到每一帧数字语音的幅度和相位，幅度用于噪声估计和幅度谱减，相位用于恢复时域信号；然后，对数字语音的幅度谱进行子带滤波和取对数运算，得到对数谱；如果输入语音是纯净训练语音，则对数谱用于模型训练，得到高斯混合模型；如果输入语音是待增强的含噪语音，则对数谱用于噪声估计，得到噪声的均值；得到噪声均值后，即可对含噪语音进行加权幅度谱减，得到增强后的幅度谱；最后，对含噪语音的相位和估得的纯净语音幅度进行IFFT运算，恢复时域信号，并用重叠相加法得到增强后的语音；

根据人耳的听觉特性将语音信号的频谱划分为若干个不等宽且互不重叠的子带，并将语音信号在每个子带内的幅度谱相加，得到子带谱；在训练阶段，对纯净训练语音的子带谱特征向量进行聚类，训练，得到纯净训练语音的GMM；利用纯净训练语音的GMM从含噪输入语音的对数谱特征中估计噪声均值，并将其变换回幅度谱域，得到背景噪声的均值向量；

对每帧子带谱，按下式进行取对数操作：

其中，和x_t分别表示第t帧纯净训练语音的子带谱和对数谱；

在训练阶段，用纯净训练语音的对数谱训练生成一个GMM：

其中，c_m，μ_x,m和Σ_x,m分别表示该GMM第m个高斯单元的混合系数、均值向量和协方差矩阵；D表示语音频谱的子带数目，即向量x_t的维数；利用训练阶段得到的GMM从含噪语音的对数谱y_t中估计对数谱域的噪声均值μ_n：

其中，γ_m(t)＝P(k_t＝m|y_t,λ)表示给定GMM的先验参数λ时，第t帧含噪语音对数向量y_t属于GMM第m个高斯单元的后验概率；和U_m为：

式(4)中，μ_n0表示μ_n的初值；式(5)中，diag()表示以括号中的向量元素为对角元素，生成对角矩阵；

其中，μ_n,l是μ_n的第l个元素，即第l个子带上的分量，D_l是第l个子带包含的频点的个数，N(l)是第l个子带上所有频点的噪声均值；这里假设每个子带上所有频点的噪声均值相同，这样就可以得到每个频点处的噪声均值N(k)，其中，k为FFT的数字频率序号。

2.如权利要求1所述的基于连续噪声估计的语音增强方法，其特征在于：噪声估计在语音的对数谱域完成，噪声的对数谱域均值向量利用最大期望算法从含噪语音的对数谱特征向量中实时提取。

3.如权利要求1所述的基于连续噪声估计的语音增强方法，其特征在于：在语音预处理阶段，对纯净训练语音或待增强的含噪输入语音进行加窗，分帧，得到帧信号；窗函数采用海明窗；分帧时，帧移长度为帧长的一半，即前后帧之间一半采样点重叠。

4.如权利要求1所述的基于连续噪声估计的语音增强方法，其特征在于：设|Y(k)|为含噪语音的幅度谱，先用下式对含噪语音进行预增强：

其中，α_min和α_max分别表示过减系数α(l)的最小值和最大值；假设每个子带内的所有频点具有相同的过减系数，这样就可以得到每个数字频率处的过减系数α(k)；因此，可以用下式估计纯净语音的幅度谱

其中，β(k)为噪声保留系数；根据式(7)估得的预增强信号小于阈值，则认为该帧为非语音帧，按下式进行处理：

将含噪语音相位作为纯净语音相位，与纯净语音幅度谱的估计值相乘，得到纯净语音的完整频谱，并对其进行IFFT运算，得到时域信号；