CN108053835A - 一种基于通道泰勒级数的噪声估计方法 - Google Patents

一种基于通道泰勒级数的噪声估计方法 Download PDF

Info

Publication number
CN108053835A
CN108053835A CN201711112773.9A CN201711112773A CN108053835A CN 108053835 A CN108053835 A CN 108053835A CN 201711112773 A CN201711112773 A CN 201711112773A CN 108053835 A CN108053835 A CN 108053835A
Authority
CN
China
Prior art keywords
mrow
mel
noise
passage
pure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711112773.9A
Other languages
English (en)
Other versions
CN108053835B (zh
Inventor
吕勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Saturn Vision Technology Co ltd
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201711112773.9A priority Critical patent/CN108053835B/zh
Publication of CN108053835A publication Critical patent/CN108053835A/zh
Application granted granted Critical
Publication of CN108053835B publication Critical patent/CN108053835B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明公开一种基于通道泰勒级数(CTS:Channel Taylor Series)的噪声估计方法,首先从纯净训练语音中提取美尔频率对数谱系数(MFLC:Mel Frequency Logarithm Coefficients);然后用所有语音单元的纯净MFLC训练生成一个高斯混合模型;最后,在每个Mel通道上用CTS逼近含噪测试语音与纯净训练语音之间的非线性关系,对纯净高斯混合模型的参数进行变换,得到含噪测试语音的噪声参数。本发明将传统噪声估计的矩阵运算简化为标量运算,可以在保证参数估计精度的前提下,显著减小系统的运算复杂度。

Description

一种基于通道泰勒级数的噪声估计方法
技术领域
本发明属于语音处理领域,具体涉及到在对数谱域提取语音信号的特征参数,通过高斯混合模型的参数自适应在每个Mel通道上估计环境噪声的均值和方差的噪声估计方法。
背景技术
在语音通信、语音识别等语音处理领域,环境噪声对语音的影响往往是不可避免的,这会导致语音质量的下降,影响语音处理系统的性能。
对测试环境下提取的含噪语音特征进行增强或者补偿,是提高语音质量的有效手段之一。而噪声参数的估计是语音增强和特征补偿的关键技术。在平稳的噪声环境中,可以在语音的间隙期提取噪声的均值和方差。然而,在实际应用中,环境噪声往往是非平稳的,需要在语音持续期间实时跟踪环境噪声参数的变化。
基于矢量泰勒级数(VTS:Vector Taylor Series)的特征补偿是一种有效的鲁棒语音识别技术,它可以从含噪语音中提取噪声的倒谱域均值向量和协方差矩阵,对预先训练得到的纯净语音高斯混合模型(GMM:Gaussian Mixture Model)进行参数变换,得到与测试环境相匹配的含噪语音GMM。但是,VTS噪声估计在倒谱域进行,涉及较为复杂的矩阵运算,计算量较大,这会影响其在移动终端等设备上的应用。
发明内容
本发明设计了一种基于通道泰勒级数(CTS:Channel Taylor Series)的噪声估计方法。在该方法中,首先从纯净训练语音中提取美尔频率对数谱系数(MFLC:Mel FrequencyLogarithm Coefficients);然后用所有语音单元的纯净MFLC训练生成一个高斯混合模型;最后,在每个Mel通道上用CTS逼近含噪测试语音与纯净训练语音之间的非线性关系,对纯净高斯混合模型的参数进行变换,得到含噪测试语音的噪声参数。
本发明的具体步骤如下:
(1)对每帧纯净训练语音的幅度谱进行Mel滤波,并取对数,得到纯净训练语音的MFLC;
(2)用所有语音单元的纯净MFLC训练生成一个协方差矩阵为对角阵的高斯混合模型;
(3)对每帧含噪测试语音的幅度谱进行Mel滤波,并取对数,得到含噪测试语音的MFLC;
(4)在每个Mel通道上用通道泰勒级数(CTS)逼近含噪测试语音与纯净训练语音之间的非线性关系,构建纯净训练语音、环境噪声和含噪测试语音之间的CTS关系式;
(5)用CTS关系式对纯净语音高斯混合模型进行参数自适应,从含噪测试语音中估计噪声的均值向量和协方差矩阵。
附图说明
图1为基于通道泰勒级数的噪声估计系统的总体框架,主要包括特征提取、模型训练和CTS噪声估计模块。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于通道泰勒级数的噪声估计方法主要包括训练阶段的特征提取、模型训练、测试阶段的特征提取和CTS噪声估计模块。下面逐一详细说明附图中各主要模块的具体实施方案。
1、特征提取
首先对加窗、分帧后的纯净训练语音或含噪测试语音进行快速傅里叶变换(FFT:FastFourierTransform),得到每帧信号的幅度谱;然后,对每帧信号的幅度谱进行Mel滤波,并取对数,得到纯净训练语音或含噪测试语音的MFLC。
2、模型训练
用全部训练语音的MFLC进行训练,生成协方差矩阵都是对角阵的高斯混合模型:
其中,xt(k)表示第t帧纯净语音对数谱特征向量(MFLC)xt在第k个Mel通道上的系数;cm(k)、ux,m(k)和Sx,m(k)分别表示该GMM的第m个高斯单元的混合系数、均值向量和协方差矩阵在第k个Mel通道上的系数。
3、CTS噪声估计
假设纯净语音与加性噪声是统计独立的,则在对数谱域,加性噪声对纯净语音的影响可用如下失配函数来描述:
y=log[exp(x)+exp(n)] (2)
其中,y、x和n分别表示含噪语音、纯净语音和加性噪声的对数谱特征向量(MFLC)。
为了从含噪语音中快速估计出噪声参数,减小计算复杂度,增强算法的实时性,这里假设语音和噪声在不同的Mel通道上互相独立,在每个Mel通道上独立估计噪声,将传统VTS的矩阵运算简化为标量运算。第k个Mel通道上的失配函数可以表示为:
y(k)=log[exp(x(k))+exp(n(k))] (3)
其中,y(k)、x(k)和n(k)分别表示y、x和n在第k个Mel通道上的系数。
设ux(k)和un0(k)分别为x(k)的均值和n(k)的初始均值,用一阶泰勒级数将式(3)在点(ux(k),un0(k))处展开,可以得到失配函数的如下一阶CTS近似:
其中,和φ(k)的表达式分别为:
φ(k)=log[exp(ux(k))+exp(un0(k))] (6)
在式(4)两边分别取各项的均值和方差,则含噪语音在第k个Mel通道上的均值uy(k)和方差Sy(k)可以分别表示为:
其中,un(k)表示n(k)的均值;Sx(k)和Sn(k)分别表示x(k)和n(k)的方差。
噪声参数un(k)和Sn(k)通过最大似然准则和最大期望算法,从含噪语音y(k)中估计。辅助函数定义如下:
其中,γm(t,k)=P(m|yt(k),λk)表示给定GMM的先验参数集λk,第t帧观测向量yt(k)属于GMM第m个高斯单元的后验概率;表示GMM均值和方差更新后的模型参数。
对GMM的第m个高斯单元,式(7)和(8)可以重写为:
将式(10)代入式(9),并求辅助函数关于un(k)的偏导数:
令式(12)等于零,即可得到噪声均值un(k)的计算公式:
将式(11)代入式(9),并求辅助函数关于Sn(k)的偏导数:
其中,gm(k)的表达式为
令式(14)等于零,即可得到噪声方差Sn(k)的计算公式:

Claims (4)

1.一种基于通道泰勒级的噪声估计方法,其特征在于,在每个Mel通道上用CTS逼近含噪测试语音与纯净训练语音之间的非线性关系,用高斯混合模型从含噪语音中估计该Mel通道的噪声参数。
2.根据权利要求1所述的一种基于通道泰勒级数的噪声估计方法,其特征在于,具体包括:
(1)对每帧纯净训练语音的幅度谱进行Mel滤波,并取对数,得到纯净训练语音的美尔频率对数谱系数MFLC;
(2)用所有语音单元的纯净MFLC训练生成一个协方差矩阵都是对角矩阵的高斯混合模型;
(3)对每帧含噪测试语音的幅度谱进行Mel滤波,并取对数,得到含噪测试语音的MFLC;
(4)在每个Mel通道上用通道泰勒级数(CTS)逼近含噪测试语音与纯净训练语音之间的非线性关系,构建纯净训练语音、环境噪声和含噪测试语音之间的CTS关系式;
(5)用CTS关系式对纯净语音高斯混合模型进行参数自适应,从含噪测试语音中估计每个Mel通道上的噪声的均值和方差。
3.根据权利要求2所述的一种基于通道泰勒级数的噪声估计方法,其特征在于,噪声参数的估计在对数谱域进行,每个Mel通道的噪声参数独立估计,将传统噪声估计的矩阵运算简化为标量运算,显著减小了系统的运算复杂度。
4.根据权利要求2所述的一种基于通道泰勒级数的噪声估计方法,其特征在于,
用全部训练语音的MFLC进行训练,生成协方差矩阵都是对角阵的高斯混合模型:
<mrow> <mi>b</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>t</mi> </msub> <mo>(</mo> <mi>k</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msub> <mi>c</mi> <mi>m</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>{</mo> <msup> <mrow> <mo>(</mo> <mn>2</mn> <mi>&amp;pi;</mi> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> <mo>/</mo> <mn>2</mn> </mrow> </msup> <msup> <mrow> <mo>|</mo> <msub> <mi>S</mi> <mrow> <mi>x</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>|</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> <mo>/</mo> <mn>2</mn> </mrow> </msup> <mi>exp</mi> <mo>&amp;lsqb;</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>t</mi> </msub> <mo>(</mo> <mi>k</mi> <mo>)</mo> <mo>-</mo> <msub> <mi>u</mi> <mrow> <mi>x</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> <mo>(</mo> <mi>k</mi> <mo>)</mo> <mo>)</mo> </mrow> <mn>2</mn> </msup> <msubsup> <mi>S</mi> <mrow> <mi>x</mi> <mo>,</mo> <mi>m</mi> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> <mo>}</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
其中,xt(k)表示第t帧纯净语音对数谱特征向量(MFLC)xt在第k个Mel通道上的系数;cm(k)、ux,m(k)和Sx,m(k)分别表示该GMM的第m个高斯单元的混合系数、均值向量和协方差矩阵在第k个Mel通道上的系数。
CN201711112773.9A 2017-11-13 2017-11-13 一种基于通道泰勒级数的噪声估计方法 Active CN108053835B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711112773.9A CN108053835B (zh) 2017-11-13 2017-11-13 一种基于通道泰勒级数的噪声估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711112773.9A CN108053835B (zh) 2017-11-13 2017-11-13 一种基于通道泰勒级数的噪声估计方法

Publications (2)

Publication Number Publication Date
CN108053835A true CN108053835A (zh) 2018-05-18
CN108053835B CN108053835B (zh) 2021-07-09

Family

ID=62119987

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711112773.9A Active CN108053835B (zh) 2017-11-13 2017-11-13 一种基于通道泰勒级数的噪声估计方法

Country Status (1)

Country Link
CN (1) CN108053835B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113113167A (zh) * 2021-04-27 2021-07-13 上海核工程研究设计院有限公司 一种核电站主设备振动响声检测数据快速定位的方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101154383A (zh) * 2006-09-29 2008-04-02 株式会社东芝 噪声抑制、提取语音特征、语音识别及训练语音模型的方法和装置
US20090076813A1 (en) * 2007-09-19 2009-03-19 Electronics And Telecommunications Research Institute Method for speech recognition using uncertainty information for sub-bands in noise environment and apparatus thereof
US7983230B1 (en) * 2007-07-11 2011-07-19 Itt Manufacturing Enterprises, Inc. Adaptive power and data rate control for ad-hoc mobile wireless systems
CN103000174A (zh) * 2012-11-26 2013-03-27 河海大学 语音识别系统中基于快速噪声估计的特征补偿方法
CN104464728A (zh) * 2014-11-26 2015-03-25 河海大学 基于gmm噪声估计的语音增强方法
CN104485108A (zh) * 2014-11-26 2015-04-01 河海大学 一种基于多说话人模型的噪声与说话人联合补偿方法
CN104900232A (zh) * 2015-04-20 2015-09-09 东南大学 一种基于双层gmm结构和vts特征补偿的孤立词识别方法
CN105355199A (zh) * 2015-10-20 2016-02-24 河海大学 一种基于gmm噪声估计的模型组合语音识别方法
CN106384588A (zh) * 2016-09-08 2017-02-08 河海大学 基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法
CN106971741A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 实时将语音进行分离的语音降噪的方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101154383A (zh) * 2006-09-29 2008-04-02 株式会社东芝 噪声抑制、提取语音特征、语音识别及训练语音模型的方法和装置
US7983230B1 (en) * 2007-07-11 2011-07-19 Itt Manufacturing Enterprises, Inc. Adaptive power and data rate control for ad-hoc mobile wireless systems
US20090076813A1 (en) * 2007-09-19 2009-03-19 Electronics And Telecommunications Research Institute Method for speech recognition using uncertainty information for sub-bands in noise environment and apparatus thereof
CN103000174A (zh) * 2012-11-26 2013-03-27 河海大学 语音识别系统中基于快速噪声估计的特征补偿方法
CN104464728A (zh) * 2014-11-26 2015-03-25 河海大学 基于gmm噪声估计的语音增强方法
CN104485108A (zh) * 2014-11-26 2015-04-01 河海大学 一种基于多说话人模型的噪声与说话人联合补偿方法
CN104900232A (zh) * 2015-04-20 2015-09-09 东南大学 一种基于双层gmm结构和vts特征补偿的孤立词识别方法
CN105355199A (zh) * 2015-10-20 2016-02-24 河海大学 一种基于gmm噪声估计的模型组合语音识别方法
CN106971741A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 实时将语音进行分离的语音降噪的方法及系统
CN106384588A (zh) * 2016-09-08 2017-02-08 河海大学 基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ZHANG YAO: "Multipath time-delay estimate based on homomorphic filtering in logarithm domain", 《OCEANS 2014 - TAIPEI》 *
吕勇: "基于最大似然多项式回归的鲁棒语音识别", 《声学学报》 *
吕勇: "基于矢量泰勒级数的鲁棒语音识别", 《天津大学学报》 *
杜俊: "自动语音识别中的噪声鲁棒性方法", 《中国博士论文全文数据库》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113113167A (zh) * 2021-04-27 2021-07-13 上海核工程研究设计院有限公司 一种核电站主设备振动响声检测数据快速定位的方法

Also Published As

Publication number Publication date
CN108053835B (zh) 2021-07-09

Similar Documents

Publication Publication Date Title
Yin et al. Phasen: A phase-and-harmonics-aware speech enhancement network
CN104392718B (zh) 一种基于声学模型阵列的鲁棒语音识别方法
WO2020177371A1 (zh) 一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质
US11024324B2 (en) Methods and devices for RNN-based noise reduction in real-time conferences
CN106340292A (zh) 一种基于连续噪声估计的语音增强方法
CN100543842C (zh) 基于多统计模型和最小均方误差实现背景噪声抑制的方法
CN107452389A (zh) 一种通用的单声道实时降噪方法
CN106971740A (zh) 基于语音存在概率和相位估计的语音增强方法
CN106971741A (zh) 实时将语音进行分离的语音降噪的方法及系统
CN110148420A (zh) 一种适用于噪声环境下的语音识别方法
CN110070880B (zh) 用于分类的联合统计模型的建立方法及应用方法
US9754608B2 (en) Noise estimation apparatus, noise estimation method, noise estimation program, and recording medium
CN103559888A (zh) 基于非负低秩和稀疏矩阵分解原理的语音增强方法
CN109767782A (zh) 一种提高dnn模型泛化性能的语音增强方法
CN104464728A (zh) 基于gmm噪声估计的语音增强方法
CN102436809A (zh) 英语口语机考系统中网络语音识别方法
CN106373559A (zh) 一种基于对数谱信噪比加权的鲁棒特征提取方法
CN106384588A (zh) 基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法
CN106356058A (zh) 一种基于多频带特征补偿的鲁棒语音识别方法
CN111508518A (zh) 一种基于联合字典学习和稀疏表示的单通道语音增强方法
Hsu et al. Higher order cepstral moment normalization (HOCMN) for robust speech recognition
CN107248414A (zh) 一种基于多帧频谱和非负矩阵分解的语音增强方法与装置
CN104392719B (zh) 一种用于语音识别系统的中心子带模型自适应方法
CN108053835A (zh) 一种基于通道泰勒级数的噪声估计方法
Farooq et al. Wavelet-based denoising for robust feature extraction for speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230327

Address after: 210000 2f05-a, block B, jiangdao zhicube, No. 3, Xiankun Road, Jiangxinzhou, Jianye District, Nanjing, Jiangsu Province

Patentee after: Nanjing Saturn Vision Technology Co.,Ltd.

Address before: Xikang Road, Gulou District of Nanjing city of Jiangsu Province, No. 1 210098

Patentee before: HOHAI University