CN104464728A - 基于gmm噪声估计的语音增强方法 - Google Patents
基于gmm噪声估计的语音增强方法 Download PDFInfo
- Publication number
- CN104464728A CN104464728A CN201410704574.7A CN201410704574A CN104464728A CN 104464728 A CN104464728 A CN 104464728A CN 201410704574 A CN201410704574 A CN 201410704574A CN 104464728 A CN104464728 A CN 104464728A
- Authority
- CN
- China
- Prior art keywords
- noise
- speech
- spectrum
- gmm
- estimated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开一种基于高斯混合模型(GMM:Gaussian Mixture Model)噪声估计的语音增强方法,用GMM估计背景噪声和谱减系数,对含噪语音进行谱减,恢复纯净语音。首先,含噪语音经过预处理得到含噪语音的幅度和相位,幅度用于噪声估计和谱减,相位用于恢复时域信号;然后利用GMM从含噪语音中实时估计噪声参数和纯净语音倒谱特征,并根据估得的纯净语音倒谱特征计算谱减系数;最后,对含噪语音的频谱进行谱减,恢复时域信号,并用重叠相加法得到增强后的语音。本发明可以显著提高语音增强算法对非平稳噪声的跟踪能力。
Description
技术领域
本发明属于语音识别技术领域,具体涉及到用高斯混合模型(GMM:Gaussian Mixture Model)估计背景噪声和谱减系数,对含噪语音进行谱减,恢复纯净语音的语音增强方法。
背景技术
在实际应用中,语音通信不可避免地会受到环境噪声的干扰。为了减小噪声对语音信号的影响,在语音通信中,需要采用某些方法抑制噪声干扰,增强有用语音信号,增加语音的可懂度,这些方法就是语音增强。根据语音通道的个数,语音增强可以分为单通道语音增强、双通道语音增强和多通道语音增强。虽然双通道和多通道语音增强可以取得更好的增强效果,但是在很多情况下,只有一路语音信号可用,因此单通道语音增强的研究仍然具有重要的意义。
谱减法是一种基于短时谱估计的单通道语音增强方法,具有运算量小、易于实现的特点,因而受到广泛应用。在谱减法中,根据非语音段估得的噪声频谱均值,从含噪语音频谱中减去噪声频谱均值,即可得到纯净语音频谱。由于噪声的频谱是一个随机变量,在非语音段,只能估计其均值;对语音段的每一帧频谱,由于无法获得噪声频谱的分布信息,只能减去噪声频谱的均值,这就导致谱减后的语音存在较多的残留噪声,与实际纯净语音相差较大。因此,在谱减法中,通常设置谱减系数,其设置原则为:在纯噪声频段,谱减系数较大,减去较多的噪声;在含有语音的频段,谱减系数较小,避免损伤语音。
噪声估计一直是谱减法语音增强的关键技术之一,一般通过对语音间隙期的噪声功率谱进行平滑得到噪声频谱的均值。然而,环境噪声往往是非平稳的,在语音段,噪声的类型或强度也有可能发生变化,因此噪声估计不能仅仅局限于语音间隙期,在语音存在期间也应该连续更新噪声。目前,逐帧估计噪声的主要方法是搜索一段时间内含噪语音频谱的最小值,用含噪语音频谱的最小值代表噪声频谱大小。这种方法的主要缺点是噪声估计存在一定的延迟,无法实时跟踪非平稳噪声。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于高斯混合模型(GMM)噪声估计的语音增强方法。
技术方案:一种基于GMM噪声估计的语音增强方法,首先,含噪语音经过预处理得到含噪语音的幅度和相位,幅度用于噪声估计和谱减,相位用于恢复时域信号;然后利用GMM从含噪语音中实时估计噪声参数和纯净语音MFCC(Melfrequency cepstral coefficient),并根据估得的纯净语音特征MFCC计算谱减系数;最后,对含噪语音的频谱进行谱减,恢复时域信号,并用重叠相加法得到增强后的语音。
方法的具体过程如下:
(1)对含噪语音进行预处理,包括加窗、分帧和FFT(Fast FourierTransform),并将每帧信号的频谱分为幅度部分和相位部分;
(2)根据含噪语音幅度谱,提取含噪语音MFCC;
(3)利用训练阶段生成的GMM从含噪语音MFCC中估计噪声的均值和方差,在噪声估计中不区分非语音帧和语音帧;
(4)利用估得的噪声参数对GMM的均值和方差进行变换,使之与当前环境相匹配,并用最小均方误差算法估计纯净语音MFCC;
(5)将估得的纯净语音MFCC变换到线性谱域,计算人耳的掩蔽阈值,得到每个离散数字频率k处的掩蔽阈值T(k),并根据T(k)计算谱减系数;
(6)对每帧含噪语音进行端点检测,判断其是语音帧还是非语音帧;
(7)根据估得的噪声均值和谱减系数,对语音帧的含噪语音频谱进行幅度谱减,得到增强后的语音幅度谱;
(8)对非语音帧的幅度谱进行处理,一般只需要乘以一个较小的系数即可,系数值一般取0.01;
(9)对增强后的每帧信号进行IFFT(Inverse FFT)运算,得到每帧时域信号,在进行IFFT运算时,相位采用该帧含噪语音的相位;
(10)对语音全部帧的时域信号进行重叠相加,得到增强后的语音。
本发明采用上述技术方案,具有以下有益效果:在本发明的语音增强方法中,噪声估计不局限于语音间隙期的静音段,而是通过GMM模型逐帧估计噪声参数,不区分静音段和语音段,无需端点检测算法。因此,在非平稳环境中,基于GMM噪声估计的语音增强方法可以更好地跟踪环境噪声的变化,得到更加准确的纯净语音信号,优于传统的语音增强算法。
附图说明
图1为本发明实施例的方法流程图,该方法主要包括语音预处理、特征提取、噪声参数估计、纯净语音估计、谱减系数估计、端点检测、语音帧谱减、非语音帧处理、IFFT和重叠相加10个模块。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于GMM噪声估计的语音增强方法主要包括噪声估计、谱减系数估计、语音帧谱减、非语音帧处理等模块。下面逐一详细说明附图中各模块的具体实施方案。
1、语音预处理:
对含噪语音进行预处理,包括加窗、分帧和FFT。窗函数一般采用海明窗;分帧时,前后帧之间一般有部分采样点重叠;FFT的点数由采样频率决定,使每帧信号的持续时间在20毫秒左右。含噪语音经过预处理,可以得到其幅度谱和相位谱,幅度谱用于噪声估计和谱减,相位谱用于在后端恢复时域信号。一般认为相位对听觉系统的影响很小,可以直接用含噪语音的相位作为纯净语音的相位。
2、特征提取:
用标准MFCC提取算法,从含噪语音幅度谱中为每帧信号提取特征参数,得到含噪语音MFCC。
3、噪声参数估计:
在训练阶段,用一个GMM表示纯净语音特征向量的空间分布:
其中,xt表示第t帧纯净训练语音倒谱特征向量(MFCC);cm,μx,m和Σx,m分别表示该GMM第m个高斯单元的混合系数、均值向量和协方差矩阵。
在倒谱域,含噪语音特征向量y与纯净语音特征向量x的关系可以表示为:
y=x+Clog(1+exp(C-1(n-x))) (2)
其中,n表示加性噪声倒谱特征向量,C和C-1分别表示离散余弦变换(DCT:Discrete Cosine Transform)矩阵及其逆矩阵。将式(2)以x的均值μx和n的初始均值μn0为定点,用一阶VTS(Vector Taylor Series)展开,得到:
其中,I表示单位矩阵,和U为:
式(5)中,diag()表示以括号中的向量元素为对角元素,生成对角矩阵。
在式(3)的两边取均值和方差,可以得到:
Σy=(I-U)Σx(I-U)T+UΣnUT (7)
其中,μy、μx和μn分别表示含噪语音y、纯净语音x和加性噪声n的均值向量,Σy、Σx和Σn分别表示它们的协方差矩阵。
对GMM的第m个高斯单元,式(6)和式(7)表示为:
σy,m=(Vm·Vm)σx,m+(Um·Um)σn (9)
其中,Vm=I-Um,σy,m、σx,m和σn分别表示Σy,m、Σx,m和Σn的对角元素向量。
将式(8)和式(9)分别代入辅助函数,即可得到噪声参数μn和σn的最大似然估计:
其中,γm(t)=P(kt=m|yt,λ)表示给定GMM的先验参数λ时,第t帧含噪语音特征向量yt属于GMM第m个高斯单元的后验概率;Gm由下式给出:
式(12)中,σn0为σn的初值。
4、纯净语音估计:
估得噪声参数μn和σn后,首先用式(8)和式(9)对GMM的均值和方差进行参数变换,设μy,m和σy,m分别表示GMM第m个高斯单元的含噪语音均值和方差;然后用含噪语音参数μy,m和σy,m计算当前测试语音属于GMM第m个高斯单元的后验概率最后用下式得到纯净语音特征向量的最小均方误差估计
5、谱减系数估计:
虽然是估得的纯净语音,但并不能将其恢复到时域,作为增强后的语音,因为它丢失了说话人的信息。本发明将从倒谱域转换到线性谱域,计算人耳的掩蔽阈值,得到每个离散数字频率k处的掩蔽阈值T(k),然后根据下式估计离散数字频率k处的过减系数α(k)和噪声保留系数β(k):
其中,常数α0通常取6,β0的值通常在0.01~0.03之间,函数max()表示取括号中最大的值。
6、端点检测:
对每帧含噪语音进行端点检测,判断其是语音帧还是非语音帧。端点检测一般采用自相关函数法或谱熵法,以便进行逐帧判断。
7、语音帧谱减:
得到过减系数α(k)、噪声保留系数β(k)和噪声的均值N(k)后,即可根据下式对含噪语音幅度谱进行谱减运算:
其中,表示纯净语音幅度谱的估计值,|Y(k)2表示含噪语音的幅度谱。
8、非语音帧处理:
对非语音帧的噪声信号,按下式进行处理:
其中,β1为非语音帧的噪声保留系数,通常取0.01。
9、IFFT:
将含噪语音相位作为纯净语音相位,与纯净语音幅度谱的估计值相乘,得到纯净语音的完整频谱,并对其进行IFFT运算,得到时域信号。
10、重叠相加:
将IFFT得到的每帧信号的时域信号进行重叠相加,得到增强后的语音。
Claims (4)
1.一种基于GMM噪声估计的语音增强方法,其特征是用GMM从含噪语音中实时估计噪声参数和纯净语音特征参数,并根据估得的纯净语音特征参数计算谱减系数,对含噪语音的频谱进行谱减,恢复时域信号,得到增强后的语音;
具体包括:
(1)利用一个含有多个高斯单元的GMM描述纯净语音特征向量的分布,在训练阶段用纯净训练语音的特征向量训练生成该GMM;
(2)用于谱减的噪声均值通过GMM从含噪语音特征向量中实时估计,在噪声估计中,不区分语音帧和非语音帧,而是逐帧更新噪声的均值;
(3)在噪声参数估计中,除估计噪声均值外,还估计噪声的方差;
(4)利用估得的噪声均值和方差对GMM的均值和方差进行变换,使之与当前环境相匹配,并用最小均方误差算法估计纯净语音特征向量;
(5)将估得的纯净语音特征向量变换到线性谱域,计算人耳的掩蔽阈值,得到每个离散数字频率处的掩蔽阈值,并根据掩蔽阈值计算谱减系数;
(6)根据估得的噪声均值和谱减系数,对语音帧的含噪语音频谱进行幅度谱减,得到增强后的语音幅度谱,对非语音帧的噪声幅度谱乘以一个较小的噪声保留系数。
2.根据权利要求1所述的一种基于GMM噪声估计的语音增强方法,其特征在于:噪声的均值和方差通过最大期望算法和最大似然准则从若干帧含噪语音或噪声中估计,用于噪声估计的信号包括当前帧及其之前的若干帧,帧数一般取20~30帧。
3.根据权利要求1所述的一种基于GMM噪声估计的语音增强方法,其特征在于:纯净语音估计中得到纯净语音特征向量不直接作为增强后的语音,而是根据其计算人耳的掩蔽阈值,根据掩蔽阈值计算谱减法的过减系数和噪声保留系数。
4.根据权利要求1所述的一种基于GMM噪声估计的语音增强方法,其特征在于:谱减法的过减系数α(k)根据下式计算:
其中,k为离散数字频率,T(k)为掩蔽阈值,N(k)为噪声均值,α0为常数,α(k)为离散数字频率k处的过减系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410704574.7A CN104464728A (zh) | 2014-11-26 | 2014-11-26 | 基于gmm噪声估计的语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410704574.7A CN104464728A (zh) | 2014-11-26 | 2014-11-26 | 基于gmm噪声估计的语音增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104464728A true CN104464728A (zh) | 2015-03-25 |
Family
ID=52910679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410704574.7A Pending CN104464728A (zh) | 2014-11-26 | 2014-11-26 | 基于gmm噪声估计的语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104464728A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105355199A (zh) * | 2015-10-20 | 2016-02-24 | 河海大学 | 一种基于gmm噪声估计的模型组合语音识别方法 |
CN105355198A (zh) * | 2015-10-20 | 2016-02-24 | 河海大学 | 一种基于多重自适应的模型补偿语音识别方法 |
CN105575406A (zh) * | 2016-01-07 | 2016-05-11 | 深圳市音加密科技有限公司 | 一种基于似然比测试的噪声鲁棒性的检测方法 |
CN105741849A (zh) * | 2016-03-06 | 2016-07-06 | 北京工业大学 | 数字助听器中融合相位估计与人耳听觉特性的语音增强方法 |
CN106340292A (zh) * | 2016-09-08 | 2017-01-18 | 河海大学 | 一种基于连续噪声估计的语音增强方法 |
CN107580722A (zh) * | 2015-05-27 | 2018-01-12 | 英特尔公司 | 具有对应于各个数据流的直接存储器存取引擎的高斯混合模型加速器 |
CN107610712A (zh) * | 2017-10-18 | 2018-01-19 | 会听声学科技(北京)有限公司 | 一种结合改进的mmse和谱减法的语音增强方法 |
CN107871155A (zh) * | 2016-09-28 | 2018-04-03 | 成都理工大学 | 一种基于粒子群算法的光谱重叠峰分解方法 |
CN108053835A (zh) * | 2017-11-13 | 2018-05-18 | 河海大学 | 一种基于通道泰勒级数的噪声估计方法 |
CN108831500A (zh) * | 2018-05-29 | 2018-11-16 | 平安科技(深圳)有限公司 | 语音增强方法、装置、计算机设备及存储介质 |
CN109427340A (zh) * | 2017-08-22 | 2019-03-05 | 杭州海康威视数字技术股份有限公司 | 一种语音增强方法、装置及电子设备 |
CN110310656A (zh) * | 2019-05-27 | 2019-10-08 | 重庆高开清芯科技产业发展有限公司 | 一种语音增强方法 |
CN111916060A (zh) * | 2020-08-12 | 2020-11-10 | 四川长虹电器股份有限公司 | 一种基于谱减的深度学习语音端点检测方法和系统 |
CN113160845A (zh) * | 2021-03-29 | 2021-07-23 | 南京理工大学 | 基于语音存在概率和听觉掩蔽效应的语音增强算法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853661A (zh) * | 2010-05-14 | 2010-10-06 | 中国科学院声学研究所 | 基于非监督学习的噪声谱估计与语音活动度检测方法 |
CN103000174A (zh) * | 2012-11-26 | 2013-03-27 | 河海大学 | 语音识别系统中基于快速噪声估计的特征补偿方法 |
-
2014
- 2014-11-26 CN CN201410704574.7A patent/CN104464728A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853661A (zh) * | 2010-05-14 | 2010-10-06 | 中国科学院声学研究所 | 基于非监督学习的噪声谱估计与语音活动度检测方法 |
CN103000174A (zh) * | 2012-11-26 | 2013-03-27 | 河海大学 | 语音识别系统中基于快速噪声估计的特征补偿方法 |
Non-Patent Citations (2)
Title |
---|
吕勇 等: "基于最小统计和人耳掩蔽特性的语音增强算法", 《电声技术》 * |
杨钊 等: "VTS特征补偿算法在语音识别中的实用性研究", 《小型微型计算机系统》 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107580722A (zh) * | 2015-05-27 | 2018-01-12 | 英特尔公司 | 具有对应于各个数据流的直接存储器存取引擎的高斯混合模型加速器 |
CN107580722B (zh) * | 2015-05-27 | 2022-01-14 | 英特尔公司 | 具有对应于各个数据流的直接存储器存取引擎的高斯混合模型加速器 |
CN105355199A (zh) * | 2015-10-20 | 2016-02-24 | 河海大学 | 一种基于gmm噪声估计的模型组合语音识别方法 |
CN105355198A (zh) * | 2015-10-20 | 2016-02-24 | 河海大学 | 一种基于多重自适应的模型补偿语音识别方法 |
CN105355199B (zh) * | 2015-10-20 | 2019-03-12 | 河海大学 | 一种基于gmm噪声估计的模型组合语音识别方法 |
CN105355198B (zh) * | 2015-10-20 | 2019-03-12 | 河海大学 | 一种基于多重自适应的模型补偿语音识别方法 |
CN105575406A (zh) * | 2016-01-07 | 2016-05-11 | 深圳市音加密科技有限公司 | 一种基于似然比测试的噪声鲁棒性的检测方法 |
CN105741849A (zh) * | 2016-03-06 | 2016-07-06 | 北京工业大学 | 数字助听器中融合相位估计与人耳听觉特性的语音增强方法 |
CN105741849B (zh) * | 2016-03-06 | 2019-03-22 | 北京工业大学 | 数字助听器中融合相位估计与人耳听觉特性的语音增强方法 |
CN106340292B (zh) * | 2016-09-08 | 2019-08-20 | 河海大学 | 一种基于连续噪声估计的语音增强方法 |
CN106340292A (zh) * | 2016-09-08 | 2017-01-18 | 河海大学 | 一种基于连续噪声估计的语音增强方法 |
CN107871155B (zh) * | 2016-09-28 | 2021-02-02 | 成都理工大学 | 一种基于粒子群算法的光谱重叠峰分解方法 |
CN107871155A (zh) * | 2016-09-28 | 2018-04-03 | 成都理工大学 | 一种基于粒子群算法的光谱重叠峰分解方法 |
CN109427340A (zh) * | 2017-08-22 | 2019-03-05 | 杭州海康威视数字技术股份有限公司 | 一种语音增强方法、装置及电子设备 |
CN107610712B (zh) * | 2017-10-18 | 2020-07-03 | 会听声学科技(北京)有限公司 | 一种结合mmse和谱减法的语音增强方法 |
CN107610712A (zh) * | 2017-10-18 | 2018-01-19 | 会听声学科技(北京)有限公司 | 一种结合改进的mmse和谱减法的语音增强方法 |
CN108053835A (zh) * | 2017-11-13 | 2018-05-18 | 河海大学 | 一种基于通道泰勒级数的噪声估计方法 |
CN108053835B (zh) * | 2017-11-13 | 2021-07-09 | 河海大学 | 一种基于通道泰勒级数的噪声估计方法 |
CN108831500A (zh) * | 2018-05-29 | 2018-11-16 | 平安科技(深圳)有限公司 | 语音增强方法、装置、计算机设备及存储介质 |
CN110310656A (zh) * | 2019-05-27 | 2019-10-08 | 重庆高开清芯科技产业发展有限公司 | 一种语音增强方法 |
CN111916060A (zh) * | 2020-08-12 | 2020-11-10 | 四川长虹电器股份有限公司 | 一种基于谱减的深度学习语音端点检测方法和系统 |
CN111916060B (zh) * | 2020-08-12 | 2022-03-01 | 四川长虹电器股份有限公司 | 一种基于谱减的深度学习语音端点检测方法和系统 |
CN113160845A (zh) * | 2021-03-29 | 2021-07-23 | 南京理工大学 | 基于语音存在概率和听觉掩蔽效应的语音增强算法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104464728A (zh) | 基于gmm噪声估计的语音增强方法 | |
CN103000174B (zh) | 语音识别系统中基于快速噪声估计的特征补偿方法 | |
CN106340292B (zh) | 一种基于连续噪声估计的语音增强方法 | |
CN100543842C (zh) | 基于多统计模型和最小均方误差实现背景噪声抑制的方法 | |
Prasad et al. | Improved cepstral mean and variance normalization using Bayesian framework | |
CN103236260B (zh) | 语音识别系统 | |
CN102915742B (zh) | 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法 | |
CN102436809B (zh) | 英语口语机考系统中网络语音识别方法 | |
US9754608B2 (en) | Noise estimation apparatus, noise estimation method, noise estimation program, and recording medium | |
CN103440872B (zh) | 瞬态噪声的去噪方法 | |
CN102969000B (zh) | 一种多通道语音增强方法 | |
CN103559888A (zh) | 基于非负低秩和稀疏矩阵分解原理的语音增强方法 | |
US9520138B2 (en) | Adaptive modulation filtering for spectral feature enhancement | |
CN106875938A (zh) | 一种改进的非线性自适应语音端点检测方法 | |
CN104485103A (zh) | 一种基于矢量泰勒级数的多环境模型孤立词识别方法 | |
CN104900232A (zh) | 一种基于双层gmm结构和vts特征补偿的孤立词识别方法 | |
CN101853665A (zh) | 语音中噪声的消除方法 | |
US10431243B2 (en) | Signal processing apparatus, signal processing method, signal processing program | |
CN105355199A (zh) | 一种基于gmm噪声估计的模型组合语音识别方法 | |
CN106373559A (zh) | 一种基于对数谱信噪比加权的鲁棒特征提取方法 | |
Ma et al. | Perceptual Kalman filtering for speech enhancement in colored noise | |
CN101154383A (zh) | 噪声抑制、提取语音特征、语音识别及训练语音模型的方法和装置 | |
CN103730126A (zh) | 噪声抑制方法和噪声抑制器 | |
van Hout et al. | A novel approach to soft-mask estimation and log-spectral enhancement for robust speech recognition | |
Lee et al. | Statistical model‐based noise reduction approach for car interior applications to speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150325 |
|
RJ01 | Rejection of invention patent application after publication |