CN101089952A - 噪声抑制、平滑语音谱、提取语音特征、语音识别、及训练语音模型的方法和装置 - Google Patents
噪声抑制、平滑语音谱、提取语音特征、语音识别、及训练语音模型的方法和装置 Download PDFInfo
- Publication number
- CN101089952A CN101089952A CNA2006100922461A CN200610092246A CN101089952A CN 101089952 A CN101089952 A CN 101089952A CN A2006100922461 A CNA2006100922461 A CN A2006100922461A CN 200610092246 A CN200610092246 A CN 200610092246A CN 101089952 A CN101089952 A CN 101089952A
- Authority
- CN
- China
- Prior art keywords
- noise
- speech
- speech manual
- ratio
- manual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 135
- 238000009499 grossing Methods 0.000 title claims description 47
- 238000012549 training Methods 0.000 title claims description 30
- 238000012886 linear function Methods 0.000 claims abstract description 51
- 230000001629 suppression Effects 0.000 claims abstract description 34
- 230000003595 spectral effect Effects 0.000 claims description 88
- 239000000284 extract Substances 0.000 claims description 47
- 238000000605 extraction Methods 0.000 claims description 44
- 238000001228 spectrum Methods 0.000 claims description 24
- 238000012986 modification Methods 0.000 claims description 22
- 230000004048 modification Effects 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000001131 transforming effect Effects 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 7
- 230000003247 decreasing effect Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 2
- 230000001276 controlling effect Effects 0.000 abstract 1
- 230000001105 regulatory effect Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 23
- 230000009467 reduction Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 16
- 206010038743 Restlessness Diseases 0.000 description 10
- 238000007796 conventional method Methods 0.000 description 3
- 238000011946 reduction process Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000002386 leaching Methods 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明提供了噪声抑制方法,平滑语音谱的方法,提取语音特征的方法,语音识别方法及训练语音模型的方法和装置。本发明的噪声抑制方法通过最小均方误差估计进行,其中采用分段线性函数来近似合流超几何函数,从而能够极大的减少计算量,同时保持抑制噪声性能。此外,本发明为了避免产生能量极低的语音谱成分,在最小均方误差估计之后利用几何数列权重对语音谱在时间轴和频率轴进行平滑。此外,本发明通过调整先验SNR来控制噪声抑制和语音失真之间的平衡。
Description
技术领域
本发明涉及语音识别技术,以及语音谱的噪声抑制技术和语音谱平滑技术。
背景技术
目前流行的语音识别系统对纯净语音能够获得非常高的识别精度,但由于噪声带来声学模型和声学特征之间的失配,在噪声环境下现有的语音识别系统的性能会急剧下降。
在噪声稳健性方面的工作主要集中在前端设计,目的是减少噪声带来的在语音特征空间的失配。最小均方误差(Minimum Mean-Square Error,MMSE)估计是一种语音增强算法,其能够有效地抑制背景噪声,从而提高输入信号的信噪比(Signal-to-Noise Ratio,SNR)。对于最小均方误差估计,在Y.Ephraim和D.Malah的文献″Speech enhancement using aminimum mean-square error short-time spectral amplitude estimator″,IEEE Trans.Acoustic,Speech,and Signal Processing,Vol.ASSP-32,PP.1109-1121,1984中进行了详细的描述。在该文献中,利用MMSE估计对短时谱幅度(Short-Time Spectral Amplitude,STSA)进行了估计,并提出了利用MMSE STSA估计的系统,以及将该系统与广泛使用的基于Wiener滤波和减谱算法(Spectral Subtraction Algorithm)的系统进行了比较。以上文献的全部内容以引用方式包含于此,以供参考。
在前端采用MMSE增强对提高稳健性是有积极作用,但在此框架中,有三个问题必须解决:
1.对合流超几何函数的计算(通过泰勒级数求和计算)会导致巨大的计算量。
2.由于对噪声的过渡抑制,在某些频段存在的极低能量会造成识别性能的下降。
3.在MMSE估计中的策略对语音识别来说并不是最优的。
发明内容
为了解决上述现有技术中存在的问题,本发明提供了噪声抑制方法,平滑语音谱的方法,提取语音特征的方法,语音识别方法和训练语音模型的方法,以及噪声抑制装置,平滑语音谱的装置,提取语音特征的装置,语音识别装置和训练语音模型的装置。
根据本发明的一个方面,提供了一种用于含噪声语音谱的噪声抑制方法,包括:根据噪声估计谱,对所述含噪声语音谱进行最小均方误差估计,以降低所述含噪声语音谱的噪声;其中,用分段线性函数代替合流超几何函数来进行所述最小均方误差估计。
根据本发明的另一个方面,提供了一种用于含噪声语音谱的噪声抑制方法,包括:根据先验信噪比,对所述含噪声语音谱进行最小均方误差估计,以降低所述含噪声语音谱的噪声;以及调整所述先验信噪比以获得合适的噪声抑制。
根据本发明的另一个方面,提供了一种用于平滑语音谱的方法,包括:利用几何数列权重计算上述语音谱中每个谱分量及其相邻谱分量的能量的加权平均;以及用上述计算出的加权平均修正该谱分量的能量。
根据本发明的另一个方面,提供了一种用于提取语音特征的方法,包括:将含噪声语音变换成含噪声语音谱;利用上面所述的噪声抑制方法,降低所述含噪声语音谱的噪音;以及从所述噪声降低的语音谱提取语音特征。
根据本发明的另一个方面,提供了一种用于提取语音特征的方法,包括:将语音变换成语音谱;利用上面所述的平滑语音谱的方法,平滑所述语音谱;以及从所述平滑的语音谱提取语音特征。
根据本发明的另一个方面,提供了一种语音识别方法,包括:利用上面所述的提取语音特征的方法,提取语音特征;以及根据所述提取出的语音特征,识别语音。
根据本发明的另一个方面,提供了一种训练语音模型的方法,包括:利用上面所述的提取语音特征的方法,提取语音特征;以及根据所述提取出的语音特征,训练所述语音模型。
根据本发明的另一个方面,提供了一种语音识别方法,包括:将含噪声语音变换成含噪声语音谱;利用上面所述的噪声抑制方法,降低所述含噪声语音谱的噪音;从所述噪声降低的语音谱提取所述语音特征;根据所述提取出的语音特征,识别所述含噪声语音;以及根据语音识别的结果确定所述先验信噪比的最优值。
根据本发明的另一个方面,提供了一种用于含噪声语音谱的噪声抑制装置,包括:估计单元(estimation unit),根据噪声估计谱,对所述含噪声语音谱进行最小均方误差估计,以降低所述含噪声语音谱的噪声;其中,所述估计单元使用分段线性函数代替合流超几何函数来进行所述最小均方误差估计。
根据本发明的另一个方面,提供了一种用于含噪声语音谱的噪声抑制装置,包括:估计单元(estimation unit),根据先验信噪比,对所述含噪声语音谱进行最小均方误差估计,以降低所述含噪声语音谱的噪声;以及调整单元(adjusting unit),用于调整所述先验信噪比以获得合适的噪声抑制。
根据本发明的另一个方面,提供了一种用于平滑语音谱的装置,包括:加权平均单元(weight-averaging unit),利用几何数列权重计算语音谱中多个相邻谱分量的能量的加权平均;以及平滑修正单元(smooth-correctingunit),对语音谱中每个谱分量的能量,利用所述加权平均单元计算出的该谱分量及其相邻谱分量的能量的加权平均来进行修正。
根据本发明的另一个方面,提供了一种用于提取语音特征的装置,包括:变换单元(transforming unit),将含噪声语音变换成含噪声语音谱;上面所述的噪声抑制装置,用于降低所述含噪声语音谱的噪音;以及提取单元(extracting unit),从所述噪声降低的语音谱提取所述语音特征。
根据本发明的另一个方面,提供了一种用于提取语音特征的装置,包括:变换单元(transforming unit),将语音变换成语音谱;上面所述的平滑语音谱的装置,用于平滑所述语音谱;以及提取单元(extracting unit),从所述平滑的语音谱提取所述语音特征。
根据本发明的另一个方面,提供了一种语音识别装置,包括:上面所述的提取语音特征的装置,用于提取语音特征;以及语音识别单元(speechrecognition unit),根据所述提取出的语音特征,识别语音。
根据本发明的另一个方面,提供了一种训练语音模型的装置,包括:上面所述的提取语音特征的装置,用于提取语音特征;以及模型训练单元(model-training unit),根据所述提取出的语音特征,训练所述语音模型。
根据本发明的另一个方面,提供了一种语音识别装置,包括:变换单元(transforming unit),将含噪声语音变换成含噪声语音谱;上面所述的噪声抑制装置,用于降低所述含噪声语音谱的噪音;提取单元(extractingunit),从所述噪声降低的语音谱提取所述语音特征;语音识别单元(speechrecognition unit),根据所述提取出的语音特征,识别所述含噪声语音;以及确定装置(determination unit),根据语音识别的结果来确定所述先验信噪比的最优值。
附图说明
相信通过以下结合附图对本发明具体实施方式的说明,能够使人们更好地了解本发明上述的特点、优点和目的。
图1是根据本发明的一个实施例的噪声抑制方法的流程图;
图2A-2D示出了设置分段线性函数的分割点的过程的一个实例,其中图2A示出了一个合流超几何函数的曲线,图2B示出了合流超几何函数的导数的曲线,图2C示出了合流超几何函数和分段线性函数之间的差别的曲线,以及图2D示出了分割后的分段线性函数的曲线;
图3是根据本发明的另一个实施例的噪声抑制方法的流程图;
图4A-4C示出了控制噪声抑制和语音失真之间的平衡的一个实例,其中图4A示出了对先验SNR没有调整的初始MMSE增强谱,图4B示出了通过降低先验SNR调整得到的语音谱,以及图4C示出了通过增加先验SNR调整得到的语音谱;
图5是根据本发明的另一个实施例的平滑语音谱的方法的流程图;
图6A-6B示出了平滑语音谱的一个实例,其中图6A示出了平滑前的语音谱,以及图6B示出了平滑后的语音谱;
图7是根据本发明的另一个实施例的提取语音特征的方法的流程图;
图8是根据本发明的另一个实施例的提取语音特征的方法的流程图;
图9是根据本发明的另一个实施例的语音识别方法的流程图;
图10是根据本发明的另一个实施例的训练语音模型的方法的流程图;
图11是根据本发明的另一个实施例的语音识别方法的流程图;
图12是根据本发明的一个实施例的噪声抑制装置的方框图;
图13是根据本发明的另一个实施例的噪声抑制装置的方框图;
图14是根据本发明的另一个实施例的平滑语音谱的装置的方框图;
图15是根据本发明的另一个实施例的提取语音特征的装置的方框图;
图16是根据本发明的另一个实施例的提取语音特征的装置的方框图;
图17是根据本发明的另一个实施例的语音识别装置的方框图;
图18是根据本发明的另一个实施例的训练语音模型的装置的方框图;以及
图19是根据本发明的另一个实施例的语音识别装置的方框图。
具体实施方式
为了便于后面实施例的理解,首先简要介绍一下最小均方误差估计的原理。
最小均方误差估计是一种语音增强算法,它利用背景噪声的估计谱,对含噪声语音谱中的噪声进行抑制。具体地,最小均方误差估计通过以下公式(1)进行:
其中
其中
表示噪声得到抑制的语音谱,Rk表示含噪声语音谱,C是常数,ξk是根据噪声估计谱获得的先验信噪比,γk是根据噪声估计谱和含噪声语音谱获得的后验信噪比,M(υk)是合流超几何函数,以及k表示第k个谱分量。具体细节参见上述Y.Ephraim和D.Malah的文献。
下面就结合附图对本发明的各个实施例进行详细的说明。
图1是根据本发明的一个实施例的噪声抑制方法的流程图。如图1所示,首先,在步骤101,输入含噪声语音谱。含噪声语音谱是根据包含背景噪声和语音的声音数据,例如利用快速傅里叶变换得到的语音谱,因此是背景噪声和语音叠加在一起的语音谱。
接着,在步骤105,根据预先估计的噪声估计谱,对含噪声语音进行最小均方误差估计。噪声估计谱是对没有语音的背景噪声进行预先估计得到的。获得噪声估计谱的方式很多,例如,对多次采集的背景噪声谱进行平均等等,本发明对此并没有特别的限制。具体地,根据上述公式(1)和公式(2)进行最小均方误差估计,其中利用分段线性函数代替公式(1)中的合流超几何函数M(υk),变换后的公式为:
其中
表示噪声得到抑制的语音谱,Rk表示含噪声语音谱,C是常数,υk如公式(2)所定义,ξk是根据噪声估计谱获得的先验信噪比,γk是根据噪声估计谱和含噪声语音谱获得的后验信噪比,L(υk)是分段线性函数,以及k表示第k个谱分量。
在本实施例中,可以利用预先设定分割点的分段线性函数L(υk)近似合流超几何函数M(υk)。例如,可以通过以下步骤进行分段线性函数L(υk)近似合流超几何函数M(υk)的过程。
具体地,图2A-2D示出了设置分段线性函数的分割点的过程的一个实例,其中图2A示出了一个合流超几何函数h(v)的曲线,图2B示出了合流超几何函数的导数的曲线,图2C示出了合流超几何函数和分段线性函数之间的差别的曲线,以及图2D示出了分割后的分段线性函数pwlf(v)的曲线。具体的分割过程如下。
首先,计算合流超几何函数h(v)的导数,如图2B所述。为了方便,在本实例中,只取导数值在0.05-0.50范围内的曲线作为示例。
接着,设定分段线性函数pwlf(v)的初始分割点,如图2B所述。例如在本实例中,初始分割点设在导数值为0.10、1.15、0.20、0.25、0.30、0.35、0.40、0.45处。
接着,计算在初始分割点的每两个连续分割点之间的分段线性函数pwlf(v)和合流超几何函数h(v)之间的差别,如图2C所示。
接着,将计算出的每两个连续分割点之间的函数值的差别与预先设定的阈值进行比较,例如,在本实例中,阈值设定为0.037。通过比较,如果差别大于0.037,则在两个连续分割点之间插入一个新的分割点,例如,在分割点0.10和0.15之间,例如在它们的中点处插入一个新的分割点。
重复上述计算差别的步骤及其之后的步骤,直到没有所述差别大于所述阈值。从而,得到如图2D所示的分段线性函数。
返回到图1,在利用分段线性函数L(υk)代替合流超几何函数M(υk)进行最小均方误差估计之后,在步骤110,输出通过MMSE估计降低噪声的语音谱。
通过本实施例的噪声抑制方法,利用分段线性函数代替合流超几何函数,极大地降低了MMSE估计的计算量,同时保持了噪声抑制性能。
在同一发明构思下,图3是根据本发明的另一个实施例的噪声抑制方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图3所示,首先,在步骤301,输入含噪声语音谱。含噪声语音谱包括背景噪声和语音。
接着,在步骤305,对含噪声语音进行最小均方误差估计。具体地,在本实施例中,将上述公式(2)中的先验信噪比ξ代替为aξ进行最小均方误差估计,即通过公式(1)和公式(4)进行最小均方误差估计:
类似地,在本实施例中,也可以利用分段线性函数L(υk)代替合流超几何函数M(υk)进行最小均方误差估计,即利用公式(3)和公式(4)进行最小均方误差估计。
接着,在步骤310,输出通过MMSE估计降低噪声的语音谱。
接着,在步骤315,判断语音谱是否最优,即判断噪声降低和语音扭曲是否达到最佳平衡。如果语音谱最优,则在步骤320结束。如果语音谱不是最优,则调整系数a,返回步骤305继续进行MMSE估计,直到达到满意的结果。
具体地,图4A-4C示出了控制噪声抑制和语音失真之间的平衡的一个实例,其中图4A示出了对先验SNR没有调整的初始MMSE增强谱,图4B示出了通过降低先验SNR调整得到的语音谱,以及图4C示出了通过增加先验SNR调整得到的语音谱。
从图中可以清楚看出,如果降低系数a,即降低先验信噪比ξ,则噪声抑制增加,语音扭曲同时增加,如在图4B中所示。反之,如果增加系数a,即增加先验信噪比ξ,则噪声抑制降低,语音扭曲同时降低,如在图4C中所示。其中,判断调整合适的依据是识别正确率。如果识别正确率大于预先设定的阈值,则调整结束。
通过以上的说明可知,由于本实施例的噪声抑制方法可以利用aξ代替先验信噪比ξ对先验信噪比ξ进行调整,所以,可以控制噪声降低和语音扭曲之间的平衡,从而达到满意的结果。
此外,本实施例的噪声抑制方法也可以使用上述噪声抑制方法中的分段线性函数代替合流超几何函数,从而极大地降低了MMSE估计的计算量,同时保持了噪声抑制性能。
在同一发明构思下,图5是根据本发明的另一个实施例的平滑语音谱的方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图5所示,首先,在步骤501,输入语音谱,例如纯净的语音谱,上述实施例中的含噪声语音谱,或者通过上述实施例进行了噪声抑制之后的语音谱,本实施例对语音谱没有特别限制。
接着,在步骤505,利用几何数列权重,对输入的语音谱进行平滑。其中,对于语音谱的每个谱分量,将它和其相邻谱分量的能量的加权平均作为其能量,其中权重是几何数列权重。
具体地,图6A-6B示出了平滑语音谱的一个实例,其中图6A示出了平滑前的语音谱,以及图6B示出了平滑后的语音谱。例如,在图6A中,对时间t=10,频率k=30处的谱分量E(10,30)进行平滑,其中E(10,30)表示该谱分量的能量。具体的平滑方法包括以下三种:
(1)在时间轴上,即对于每个频率,将每一帧和其相邻帧的能量的加权平均作为该频率、该帧的能量。例如对于频率k=30,将帧t=10处的谱分量的能量平滑为:
(E(10,30)×d1+E(9,30)×d2+E(11,30)×d2+E(8,30)×d3+E(12,30)×d3+...)/(d1+2d2+2d3+...)
其中d1,d2,d3,...为递减的几何数列权重。对于其它帧的谱分量,同样进行平滑。
(2)在频率轴上,即对于每个帧,将每一频率和其相邻频率的能量的加权平均作为该帧、该频率的能量。例如对于帧t=10,将频率k=30处的谱分量的能量平滑为:
E(10,30)=(E(10,30)×d1+E(10,29)×d2+E(10,31)×d2+E(10,28)×d3+E(10,32)×d3+...)/(d1+2d2+2d3+...)
其中d1,d2,d3,...为递减的几何数列权重。对于其它频率的谱分量,同样进行平滑。
(3)同时在时间轴和频率轴上,将每一频率、每一帧和其相邻频率、相邻帧的能量的加权平均作为该频率、该帧的能量。例如将帧t=10,频率k=30处的谱分量的能量平滑为:
E(10,30)=(E(10,30)×d1+E(9,30)×d2+E(11,30)×d2+E(10,29)×d2+E(10,31)×d2+E(8,30)×d3+E(12,30)×d3+E(10,28)×d3+E(10,32)×d3+...)/(d1+4d2+4d3+...)
其中d1,d2,d3,...为递减的几何数列权重。对于其它频率和帧的谱分量,同样进行平滑。此外,对于频域和时域,也可以使用不同的几何数列权重。
图6B示出了平滑后的语音谱,可以看出平滑后的谱能量对于原来能量极低的谱分量的能量可以起到增加的作用。
返回到图5,在利用几何数列权重对输入的语音谱进行平滑之后,在步骤510,输出平滑后的语音谱。
通过以上的说明可知,由于本实施例的平滑语音谱的方法利用相邻谱分量的能量加权平均来平滑每个谱分量,这样对于原来能量极低的谱分量,将相邻谱分量的能量填入,从而能够提高语音谱的质量。
在同一发明构思下,图7是根据本发明的另一个实施例的提取语音特征的方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图7所示,首先,在步骤701,输入含噪声语音,该含噪声语音包括说话人说出的语音和背景噪声。
接着,在步骤705,将所述含噪声语音变换成含噪声语音谱,例如通过快速傅立叶变换(Fast Fourier Transform,FFT)将时域上的语音变换成频域上的语音谱。
接着,在步骤710,利用上面根据图1和图2的实施例所述的噪声抑制方法,降低所述含噪声语音谱的噪音。所述噪声抑制方法是根据上述公式(3)和公式(2)进行最小均方误差估计,其中,利用分段线性函数代替了合流超几何函数。具体的降噪过程与上述实施例中的相同,在此不再赘述。
此外,也可以利用上面根据图3和图4的实施例所述的噪声抑制方法,降低所述含噪声语音谱的噪音。所述噪声抑制方法是根据上述公式(1)和公式(4)或公式(3)和公式(4)进行最小均方误差估计,其中,利用aξ代替先验信噪比ξ。具体的降噪过程与上述实施例中的相同,在此不再赘述。
最后,在步骤715,从噪声降低的语音谱中提取语音特征。具体地,可以通过Mel频率倒谱系数(Mel Frequency ceptral Coefficient,MFCC)或线性预测倒谱系数(Linear Predictive Cepstral Coefficient,LPCC)等常规方法提取语音特征,本发明对此没有特别限制。
通过以上的说明可知,由于本实施例的提取语音特征的方法可以在从含噪声语音谱中提取语音特征之前,通过上述公式(3)和公式(2)进行最小均方误差估计来降低噪声,其中利用分段线性函数代替合流超几何函数,极大地降低了MMSE估计的计算量,同时保持了噪声抑制性能,从而可以提高语音特征的质量。
此外,本实施例的提取语音特征的方法也可以在从含噪声语音谱中提取语音特征之前,通过上述公式(1)和公式(4)进行最小均方误差估计来降低噪声,其中利用aξ代替先验信噪比ξ对先验信噪比ξ进行调整来控制噪声降低和语音扭曲之间的平衡,从而可以提高语音特征的质量。
此外,本实施例也可以通过公式(3)和公式(4)进行最小均方误差估计来降低噪声,从而不仅可以降低MMSE估计的计算量,同时可以控制噪声降低和语音扭曲之间的平衡。因此,可以提高语音特征的质量。
在同一发明构思下,图8是根据本发明的另一个实施例的提取语音特征的方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图8所示,首先,在步骤801,输入语音,例如纯净的语音,或者含噪声的语音,本实施例对语音没有特别限制。
接着,在步骤805,将所述语音变换成语音谱,例如通过快速傅立叶变换(Fast Fourier Transform,FFT)将时域上的语音变换成频域上的语音谱。在此,如果所述语音包括噪声,可以利用上述实施例中的噪声抑制方法对变换后的语音谱进行噪声抑制。
接着,在步骤810,利用上面所述的平滑语音谱的方法,平滑所述语音谱。具体地,可以利用上述三种平滑方法中的任何一种或其组合对语音谱进行平滑。具体的平滑过程与上述实施例中的相同,在此不再赘述。
最后,在步骤815,从所述平滑的语音谱提取所述语音特征。具体地,例如可以通过Mel频率倒谱系数(Mel Frequency ceptral Coefficient,MFCC)或线性预测倒谱系数(Linear Predictive Cepstral Coefficient,LPCC)等常规方法提取语音特征,本发明对此没有特别限制。
通过以上的说明可知,由于本实施例的提取语音特征的方法可以在从语音谱中提取语音特征之前,通过上述实施例的平滑语音谱的方法将相邻谱分量的能量加权平均到每个谱分量,这样对于原来能量极低的谱分量,将相邻谱分量的能量填入,从而能够提高语音谱的质量。因此,可以提高语音特征的质量。
此外,在本实施例中,如果所述语音包括噪声,可以利用上述参考附图1和2的实施例中的噪声抑制方法,根据通过上述公式(3)和公式(2)进行最小均方误差估计来降低噪声,其中利用分段线性函数代替合流超几何函数,极大地降低了MMSE估计的计算量,同时保持了噪声抑制性能,从而可以提高语音特征的质量。
此外,在本实施例中,如果所述语音包括噪声,也可以利用上述参考附图3和4的实施例中的噪声抑制方法,通过上述公式(1)和公式(4)进行最小均方误差估计来降低噪声,其中利用aξ代替先验信噪比ξ对先验信噪比ξ进行调整来控制噪声降低和语音扭曲之间的平衡,从而可以提高语音特征的质量。
此外,本实施例也可以通过公式(3)和公式(4)进行最小均方误差估计来降低噪声,从而不仅可以降低MMSE估计的计算量,同时可以控制噪声降低和语音扭曲之间的平衡。因此,可以提高语音特征的质量。
在同一发明构思下,图9是根据本发明的另一个实施例的语音识别方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图9所示,首先,在步骤901,利用上面参考图7或图8的实施例所述的提取语音特征的方法,提取语音特征。具体的提取过程与上述实施例中的相同,在此不再赘述。
然后,在步骤905,根据所述提取出的语音特征,进行语音识别。具体地,例如,将提取出的语音特征和预先训练好的模板进行比较,从而识别出所述语音的内容信息,本发明对此没有特别限制。
通过以上的说明可知,在本实施例的语音识别方法中,可以在从语音谱中提取语音特征之前,通过上述实施例的平滑语音谱的方法将相邻谱分量的能量加权平均到每个谱分量,这样对于原来能量极低的谱分量,将相邻谱分量的能量填入,从而能够提高语音谱的质量。因此,可以提高语音识别的性能。
此外,在本实施例中,如果所述语音包括噪声,可以在从含噪声语音谱中提取语音特征之前,通过上述公式(3)和公式(2)进行最小均方误差估计来降低噪声,其中利用分段线性函数代替合流超几何函数,极大地降低了MMSE估计的计算量,同时保持了噪声抑制性能,从而可以提高语音识别的性能。
此外,可选地,本实施例的语音识别方法也可以在从含噪声语音谱中提取语音特征之前,通过上述公式(1)和公式(4)进行最小均方误差估计来降低噪声,其中利用aξ代替先验信噪比ξ对先验信噪比ξ进行调整来控制噪声降低和语音扭曲之间的平衡,从而可以提高语音识别的性能。
此外,本实施例的语音识别方法也可以通过公式(3)和公式(4)进行最小均方误差估计来降低噪声,从而不仅可以降低MMSE估计的计算量,同时可以控制噪声降低和语音扭曲之间的平衡。因此,可以提高语音识别的性能。
在同一发明构思下,图10是根据本发明的另一个实施例的训练语音模型的方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图10所示,首先,在步骤1001,利用上面参考图7或图8的实施例所述的提取语音特征的方法,提取语音特征。具体的提取过程与上述实施例中的相同,在此不再赘述。
然后,在步骤1005,根据所述提取出的语音特征,训练所述语音模型。
通过以上的说明可知,在本实施例的训练语音模型的方法中,可以在从语音谱中提取语音特征之前,通过上述实施例的平滑语音谱的方法将相邻谱分量的能量加权平均到每个谱分量,这样对于原来能量极低的谱分量,将相邻谱分量的能量填入,从而能够提高语音谱的质量。因此,可以提高训练出的模型的质量。
此外,在本实施例中,如果所述语音包括噪声,可以在从含噪声语音谱中提取语音特征之前,通过上述公式(3)和公式(2)进行最小均方误差估计来降低噪声,其中利用分段线性函数代替合流超几何函数,极大地降低了MMSE估计的计算量,同时保持了噪声抑制性能,从而可以提高训练出的模型的质量。
此外,可选地,本实施例的训练语音模型的方法也可以在从含噪声语音谱中提取语音特征之前,通过上述公式(1)和公式(4)进行最小均方误差估计来降低噪声,其中利用aξ代替先验信噪比ξ对先验信噪比ξ进行调整来控制噪声降低和语音扭曲之间的平衡,从而可以提高训练出的模型的质量。
此外,本实施例的训练语音模型的方法也可以通过公式(3)和公式(4)进行最小均方误差估计来降低噪声,从而不仅可以降低MMSE估计的计算量,同时可以控制噪声降低和语音扭曲之间的平衡。因此,可以提高训练出的模型的质量。
在同一发明构思下,图11是根据本发明的另一个实施例的语音识别方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图11所示,首先,在步骤1101,输入含噪声语音,该含噪声语音包括说话人说出的语音和背景噪声。
接着,在步骤1105,将所述含噪声语音变换成含噪声语音谱,例如通过快速傅立叶变换(Fast Fourier Transform,FFT)将时域上的语音变换成频域上的语音谱。
接着,在步骤1110,利用上面参考图3和4的实施例所述的噪声抑制方法,降低所述含噪声语音谱的噪音。所述噪声抑制方法是根据上述公式(1)和公式(4)或公式(3)和公式(4)进行最小均方误差估计。具体的降噪过程与上述实施例中的相同,在此不再赘述。
接着,在步骤1115,从所述噪声降低的语音谱提取所述语音特征。具体地,可以通过Mel频率倒谱系数(Mel Frequency ceptral Coefficient,MFCC)或线性预测倒谱系数(Linear Predictive Cepstral Coefficient,LPCC)等常规方法提取语音特征,本发明对此没有特别的限制。
接着,在步骤1120,根据所述提取出的语音特征,进行语音识别。具体地,例如将提取出的语音特征和预先训练好的模板进行比较,以获取所述语音的信息,本发明对此没有特别的限制。
接着,在步骤1125,根据识别正确率判断语音识别的结果是否最优,即判断识别正确率是否大于预先设定的阈值,如果判断是最优,在步骤1130结束。如果判断不是最优,则根据语音识别的结果来调整系数a,返回步骤1110继续进行MMSE估计,直到达到满意的结果。具体的调整过程如上述参考图3和4所示的实施例所述,在此不再赘述。
通过以上的说明可知,由于本实施例的语音识别方法能够有效地针对语音识别的结果对MMSE估计进行调整,从而提高了语音识别的性能。
在同一发明构思下,图12是根据本发明的一个实施例的噪声抑制装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图12所示,本实施例的用于含噪声语音谱的噪声抑制装置1200包括最小均方误差估计单元(minimum mean-square error estimation unit)1201,其根据噪声估计谱,对所述含噪声语音谱进行最小均方误差估计,以降低所述含噪声语音谱的噪声。所述最小均方误差估计单元1200利用分段线性函数代替合流超几何函数,根据上述公式(3)和公式(2)进行最小均方误差估计,具体细节与上述参考图1和2的实施例中关于噪声抑制方法的描述相同,在此不再赘述。
本实施例的噪声抑制装置1200还可以包括分割点保存单元1205,用于保存所述分段线性函数的分割点;以及噪声估计保存单元1210,用于保存对背景噪声进行预先估计获得的噪声估计。此外,所述噪声估计也可以从外部输入所述最小均方误差估计单元1201。
通过以上的说明可知,由于本实施例的噪声抑制装置1200利用分段线性函数代替合流超几何函数,极大地降低了MMSE估计的计算量,同时保持了噪声抑制性能。
在同一发明构思下,图13是根据本发明的另一个实施例的噪声抑制装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图13所示,本实施例的用于含噪声语音谱的噪声抑制装置1300包括:最小均方误差估计单元(minimum mean-square error estimation unit)1301,其根据先验信噪比,对所述含噪声语音谱进行最小均方误差估计,以降低所述含噪声语音谱的噪声;以及调整单元(adjusting unit)1305,用于调整所述先验信噪比以获得合适的噪声抑制。具体细节与上述参考图3和4的实施例中关于噪声抑制方法的描述相同,在此不再赘述。
通过以上的说明可知,由于本实施例的噪声抑制装置1300可以对先验信噪比进行调整,所以,可以控制噪声降低和语音扭曲之间的平衡,从而达到满意的噪声抑制。
此外,本实施例的噪声抑制装置1300也可以利用上述噪声抑制方法中的分段线性函数代替合流超几何函数来进行最小均方误差估计,从而极大地降低了MMSE估计的计算量,同时保持了噪声抑制性能。
在同一发明构思下,图14是根据本发明的另一个实施例的平滑语音谱的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图14所示,本实施例的用于平滑语音谱的装置1400包括:加权平均单元(weight-averaging unit)1401,利用几何数列权重计算语音谱中多个相邻谱分量的能量的加权平均;以及平滑修正单元(smooth-correctingunit)1405,对语音谱中每个谱分量的能量,利用所述加权平均单元计算出的该谱分量及其相邻谱分量的能量的加权平均来进行修正。具体细节与上述参考图5和6的实施例中关于平滑语音的方法的描述相同,在此不再赘述。
通过以上的说明可知,由于本实施例的平滑语音谱的装置1400将相邻谱分量的能量填入每个谱分量,这样对于原来能量极低的谱分量,将相邻谱分量的能量填入,从而能够提高语音谱的质量。
在同一发明构思下,图15是根据本发明的另一个实施例的提取语音特征的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图15所示,本实施例的用于提取语音特征的装置1500包括:输入单元(inputting unit)1501,输入含噪声语音;变换单元(transforming unit)1505,将所述含噪声语音变换成含噪声语音谱;上面所述的噪声抑制装置1200或噪声抑制装置1300,用于降低所述含噪声语音谱的噪音;以及提取单元(extracting unit)1510,从所述噪声降低的语音谱提取所述语音特征。具体细节与上述参考图7的实施例中关于提取语音特征的方法的描述相同,在此不再赘述。
通过以上的说明可知,由于本实施例的提取语音特征的装置1500可以通过上述公式(3)和公式(2)进行最小均方误差估计来降低噪声,其中利用分段线性函数代替合流超几何函数,极大地降低了MMSE估计的计算量,同时保持了噪声抑制性能,从而可以提高语音特征的质量。
此外,可选地,本实施例的提取语音特征的装置1500的噪声抑制装置1300可以通过上述公式(1)和公式(4)进行最小均方误差估计来降低噪声,其中利用aξ代替先验信噪比ξ对先验信噪比ξ进行调整来控制噪声降低和语音扭曲之间的平衡,从而可以提高语音特征的质量。
此外,本实施例提取语音特征的装置1500的噪声抑制装置1300也可以通过公式(3)和公式(4)进行最小均方误差估计来降低噪声,从而不仅可以降低MMSE估计的计算量,同时可以控制噪声降低和语音扭曲之间的平衡。因此,可以提高语音特征的质量。
在同一发明构思下,图16是根据本发明的另一个实施例的提取语音特征的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图16所示,本实施例的用于提取语音特征的装置1600包括:输入单元(inputting unit)1601,输入语音;变换单元(transforming unit)1605,将所述语音变换成语音谱;上面所述的平滑语音谱的装置1400,用于平滑所述语音谱;以及提取单元(extracting unit)1610,从所述平滑的语音谱提取所述语音特征。具体细节与上述参考图8的实施例中关于提取语音特征的方法的描述相同,在此不再赘述。
通过以上的说明可知,由于本实施例的提取语音特征的装置1600可以通过上述实施例的平滑语音谱的方法将相邻谱分量的能量加权平均到每个谱分量,这样对于原来能量极低的谱分量,将相邻谱分量的能量填入,从而能够提高语音谱的质量。因此,可以提高语音特征的质量。
此外,在本实施例中,如果所述语音包括噪声,可以利用上述参考附图1和2的实施例中的噪声抑制方法,根据通过上述公式(3)和公式(2)进行最小均方误差估计来降低噪声,其中利用分段线性函数代替合流超几何函数,极大地降低了MMSE估计的计算量,同时保持了噪声抑制性能,从而可以提高语音特征的质量。
此外,在本实施例中,如果所述语音包括噪声,也可以利用上述参考附图3和4的实施例中的噪声抑制方法,通过上述公式(1)和公式(4)进行最小均方误差估计来降低噪声,其中利用aξ代替先验信噪比ξ对先验信噪比ξ进行调整来控制噪声降低和语音扭曲之间的平衡,从而可以提高语音特征的质量。
此外,本实施例也可以通过公式(3)和公式(4)进行最小均方误差估计来降低噪声,从而不仅可以降低MMSE估计的计算量,同时可以控制噪声降低和语音扭曲之间的平衡。因此,可以提高语音特征的质量。
在同一发明构思下,图17是根据本发明的另一个实施例的语音识别装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图17所示,本实施例的语音识别装置1700包括:上面所述的提取语音特征的装置1500或提取语音特征的装置1600,用于提取语音特征;以及语音识别单元(speech recognition unit)1701,根据所述提取出的语音特征,进行语音识别。具体细节与上述参考图9的实施例中关于语音识别方法的描述相同,在此不再赘述。
通过以上的说明可知,由于本实施例的语音识别装置1700可以在从语音谱中提取语音特征之前,通过上述实施例的平滑语音谱的方法将相邻谱分量的能量加权平均到每个谱分量,这样对于原来能量极低的谱分量,将相邻谱分量的能量填入,从而能够提高语音谱的质量。因此,可以提高语音识别的性能。
此外,在本实施例中,如果所述语音包括噪声,可以在从含噪声语音谱中提取语音特征之前,通过上述公式(3)和公式(2)进行最小均方误差估计来降低噪声,其中利用分段线性函数代替合流超几何函数,极大地降低了MMSE估计的计算量,同时保持了噪声抑制性能,从而可以提高语音识别的性能。
此外,可选地,本实施例的语音识别装置1700也可以在从含噪声语音谱中提取语音特征之前,通过上述公式(1)和公式(4)进行最小均方误差估计来降低噪声,其中利用aξ代替先验信噪比ξ对先验信噪比ξ进行调整来控制噪声降低和语音扭曲之间的平衡,从而可以提高语音识别的性能。
此外,本实施例的语音识别装置1700也可以通过公式(3)和公式(4)进行最小均方误差估计来降低噪声,从而不仅可以降低MMSE估计的计算量,同时可以控制噪声降低和语音扭曲之间的平衡。因此,可以提高语音识别的性能。
在同一发明构思下,图18是根据本发明的另一个实施例的训练语音模型的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图18所示,本实施例的训练语音模型的装置1800包括:上面所述的提取语音特征的装置1500或提取语音特征的装置1600,用于提取语音特征;以及模型训练单元(model-training unit)1801,根据所述提取出的语音特征,训练所述语音模型。具体细节与上述参考图10的实施例中关于训练语音模型的方法的描述相同,在此不再赘述。
通过以上的说明可知,由于本实施例的训练语音模型的装置1800可以在从语音谱中提取语音特征之前,通过上述实施例的平滑语音谱的方法将相邻谱分量的能量加权平均到每个谱分量,这样对于原来能量极低的谱分量,将相邻谱分量的能量填入,从而能够提高语音谱的质量。因此,可以提高训练出的模型的质量。
此外,在本实施例中,如果所述语音包括噪声,可以在从含噪声语音谱中提取语音特征之前,通过上述公式(3)和公式(2)进行最小均方误差估计来降低噪声,其中利用分段线性函数代替合流超几何函数,极大地降低了MMSE估计的计算量,同时保持了噪声抑制性能,从而可以提高训练出的模型的质量。
此外,可选地,本实施例的训练语音模型的装置1800也可以在从含噪声语音谱中提取语音特征之前,通过上述公式(1)和公式(4)进行最小均方误差估计来降低噪声,其中利用aξ代替先验信噪比ξ对先验信噪比ξ进行调整来控制噪声降低和语音扭曲之间的平衡,从而可以提高训练出的模型的质量。
此外,本实施例的训练语音模型的装置1800也可以通过公式(3)和公式(4)进行最小均方误差估计来降低噪声,从而不仅可以降低MMSE估计的计算量,同时可以控制噪声降低和语音扭曲之间的平衡。因此,可以提高训练出的模型的质量。
在同一发明构思下,图19是根据本发明的另一个实施例的语音识别装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图19所示,本实施例的语音识别装置1900包括:输入单元(inputtingunit)1901,输入含噪声语音;变换单元(transforming unit)1905,将所述含噪声语音变换成含噪声语音谱;上面所述的噪声抑制装置1300,用于降低所述含噪声语音谱的噪音;提取单元(extracting unit)1910,从所述噪声降低的语音谱提取所述语音特征;以及语音识别单元(speechrecognition unit)1915,根据所述提取出的语音特征,进行语音识别;其中,根据语音识别的结果来确定所述先验信噪比的最优值。具体细节与上述参考图11的实施例中关于语音识别方法的描述相同,在此不再赘述。
通过以上的说明可知,由于本实施例的语音识别装置1900能够有效地针对语音识别的结果对MMSE估计进行调整,从而提高了语音识别的性能。
以上虽然通过一些示例性的实施例详细地描述了本发明的噪声抑制方法,平滑语音谱的方法,提取语音特征的方法,语音识别方法和训练语音模型的方法,以及噪声抑制装置,平滑语音谱的装置,提取语音特征的装置,语音识别装置和训练语音模型的装置,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明的范围仅由所附权利要求为准。
Claims (46)
1.一种用于含噪声语音谱的噪声抑制方法,包括:
根据噪声估计谱,对所述含噪声语音谱进行最小均方误差估计,以降低所述含噪声语音谱的噪声;
其中,用分段线性函数代替合流超几何函数来进行所述最小均方误差估计。
2.根据权利要求1所述的噪声抑制方法,其中,利用预先设定的分割点将所述合流超几何函数变换为所述分段线性函数,进行所述最小均方误差估计。
3.根据权利要求2所述的噪声抑制方法,其中,所述分段线性函数的所述预先设定的分割点通过以下步骤获得:
计算所述合流超几何函数的导数;
设定所述分段线性函数的初始分割点;
计算在所述初始分割点的每两个连续分割点之间的所述分段线性函数和所述合流超几何函数之间的差别;
如果所述差别大于一阈值,在所述两个连续分割点之间插入一个新的分割点;以及
重复所述计算差别的步骤及其之后的步骤,直到没有所述差别大于所述阈值。
5.一种用于含噪声语音谱的噪声抑制方法,包括:
根据先验信噪比,对所述含噪声语音谱进行最小均方误差估计,以降低所述含噪声语音谱的噪声;以及
调整所述先验信噪比以获得合适的噪声抑制。
6.根据权利要求5所述的噪声抑制方法,其中,所述先验信噪比根据噪声估计谱获得。
7.根据权利要求5或6所述的噪声抑制方法,其中所述调整步骤增加所述先验信噪比以减小所述噪声抑制,或减小所述先验信噪比以增加所述噪声抑制。
8.根据权利要求5-7中的任意一项所述的噪声抑制方法,其中用分段线性函数代替合流超几何函数来进行所述最小均方误差估计。
9.根据权利要求8所述的噪声抑制方法,其中,利用预先设定的分割点将所述合流超几何函数变换为所述分段线性函数,进行所述最小均方误差估计。
10.根据权利要求9所述的噪声抑制方法,其中,所述分段线性函数的所述预先设定的分割点通过以下步骤获得:
计算所述合流超几何函数的导数;
设定所述分段线性函数的初始分割点;
计算在所述初始分割点的每两个连续分割点之间的所述分段线性函数和所述合流超几何函数之间的差别;
如果所述差别大于一阈值,在所述两个连续分割点之间插入一个新的分割点;以及
重复所述计算差别的步骤及其之后的步骤,直到没有所述差别大于所述阈值。
12.一种用于平滑语音谱的方法,包括:
利用几何数列权重计算上述语音谱中每个谱分量及其相邻谱分量的能量的加权平均;以及
用上述计算出的加权平均修正该谱分量的能量。
13.根据权利要求12所述的平滑语音谱的方法,其中,所述几何数列权重在所述谱分量处最大,在远离所述谱分量的方向上以几何数列递减。
14.根据权利要求12或13所述的平滑语音谱的方法,其中上述计算加权平均的步骤包括:计算该谱分量和其时间上相邻的同一频率的谱分量的能量的加权平均。
15.根据权利要求12或13所述的平滑语音谱的方法,其中上述计算加权平均的步骤包括:计算该谱分量和其频率上相邻的同一帧内的谱分量的能量的加权平均。
16.根据权利要求12或13所述的平滑语音谱的方法,其中上述计算加权平均的步骤包括:计算该谱分量、其时间上相邻的同一频率的谱分量以及其频率上相邻的同一帧内的谱分量的能量的加权平均。
17.根据权利要求12-16中的任意一项所述的平滑语音谱的方法,还包括,在上述计算加权平均的步骤之前,利用上述权利要求1-11中的任意一项所述的噪声抑制方法对所述语音谱进行噪声抑制。
18.一种用于提取语音特征的方法,包括:
将含噪声语音变换成含噪声语音谱;
利用上述权利要求1-11中的任意一项所述的噪声抑制方法,降低所述含噪声语音谱的噪音;以及
从所述噪声降低的语音谱提取语音特征。
19.根据权利要求18所述的提取语音特征的方法,其中,所述变换步骤包括快速傅立叶变换。
20.一种用于提取语音特征的方法,包括:
将语音变换成语音谱;
利用上述权利要求12-17中的任意一项所述的平滑语音谱的方法,平滑所述语音谱;以及
从所述平滑的语音谱提取语音特征。
21.根据权利要求20所述的提取语音特征的方法,其中,所述变换步骤包括快速傅立叶变换。
22.一种语音识别方法,包括:
利用上述权利要求18-21的任意一项所述的提取语音特征的方法,提取语音特征;以及
根据所述提取出的语音特征,识别语音。
23.一种训练语音模型的方法,包括:
利用上述权利要求18-21的任意一项所述的提取语音特征的方法,提取语音特征;以及
根据所述提取出的语音特征,训练所述语音模型。
24.一种语音识别方法,包括:
将含噪声语音变换成含噪声语音谱;
利用上述权利要求5-11中的任意一项所述的噪声抑制方法,降低所述含噪声语音谱的噪音;
从所述噪声降低的语音谱提取所述语音特征;
根据所述提取出的语音特征,识别所述含噪声语音;以及
根据语音识别的结果确定所述先验信噪比的最优值。
25.一种用于含噪声语音谱的噪声抑制装置,包括:
估计单元(estimation unit),根据噪声估计谱,对所述含噪声语音谱进行最小均方误差估计,以降低所述含噪声语音谱的噪声;
其中,所述估计单元使用分段线性函数代替合流超几何函数来进行所述最小均方误差估计。
26.根据权利要求25所述的噪声抑制装置,其中,利用预先设定的分割点将所述合流超几何函数变换为所述分段线性函数,进行所述最小均方误差估计。
28.一种用于含噪声语音谱的噪声抑制装置,包括:
估计单元(estimation unit),根据先验信噪比,对所述含噪声语音谱进行最小均方误差估计,以降低所述含噪声语音谱的噪声;以及
调整单元(adjusting unit),用于调整所述先验信噪比以获得合适的噪声抑制。
29.根据权利要求28所述的噪声抑制装置,其中,所述先验信噪比的初值根据噪声估计谱获得。
30.根据权利要求28或29所述的噪声抑制装置,其中所述调整装置配置为增加所述先验信噪比以减小所述噪声抑制,或减小所述先验信噪比以增加所述噪声抑制。
31.根据权利要求28-30中的任意一项所述的噪声抑制装置,其中所述估计单元使用分段线性函数代替合流超几何函数来进行所述最小均方误差估计。
32.根据权利要求31所述的噪声抑制装置,其中,所述估计单元利用预先设定的分割点将所述合流超几何函数变换为所述分段线性函数,进行所述最小均方误差估计。
34.一种用于平滑语音谱的装置,包括:
加权平均单元(weight-averaging unit),利用几何数列权重计算语音谱中多个相邻谱分量的能量的加权平均;以及
平滑修正单元(smooth-correcting unit),对语音谱中每个谱分量的能量,利用所述加权平均单元计算出的该谱分量及其相邻谱分量的能量的加权平均来进行修正。
35.根据权利要求34所述的平滑语音谱的装置,其中,所述几何数列权重在所述谱分量处最大,在远离所述谱分量的方向上以几何数列递减。
36.根据权利要求34或35所述的平滑语音谱的装置,其中所述加权平均单元计算该谱分量和其时间上相邻的同一频率的谱分量的能量的加权平均。
37.根据权利要求34或35所述的平滑语音谱的装置,其中所述加权平均单元计算该谱分量和其频率上相邻的同一帧内的谱分量的能量的加权平均。
38.根据权利要求34或35所述的平滑语音谱的装置,其中所述加权平均单元计算该谱分量、其时间上相邻的同一频率的谱分量以及其频率上相邻的同一帧内的谱分量的能量的加权平均。
39.根据权利要求34-38中的任意一项所述的平滑语音谱的装置,还包括根据上述权利要求25-33中的任意一项所述的噪声抑制装置,用于在所述加权平均单元进行计算之前,对所述语音谱进行噪声抑制。
40.一种用于提取语音特征的装置,包括:
变换单元(transforming unit),将含噪声语音变换成含噪声语音谱;
根据上述权利要求25-33中的任意一项所述的噪声抑制装置,用于降低所述含噪声语音谱的噪音;以及
提取单元(extracting unit),从所述噪声降低的语音谱提取所述语音特征。
41.根据权利要求40所述的提取语音特征的装置,其中,所述变换单元配置为通过快速傅立叶变换进行变换。
42.一种用于提取语音特征的装置,包括:
变换单元(transforming unit),将语音变换成语音谱;
根据上述权利要求34-39中的任意一项所述的平滑语音谱的装置,用于平滑所述语音谱;以及
提取单元(extracting unit),从所述平滑的语音谱提取所述语音特征。
43.根据权利要求42所述的提取语音特征的装置,其中,所述变换单元配置为通过快速傅立叶变换进行变换。
44.一种语音识别装置,包括:
根据上述权利要求40-43的任意一项所述的提取语音特征的装置,用于提取语音特征;以及
语音识别单元(speech recognition unit),根据所述提取出的语音特征,识别语音。
45.一种训练语音模型的装置,包括:
根据上述权利要求40-43的任意一项所述的提取语音特征的装置,用于提取语音特征;以及
模型训练单元(model-training unit),根据所述提取出的语音特征,训练所述语音模型。
46.一种语音识别装置,包括:
变换单元(transforming unit),将含噪声语音变换成含噪声语音谱;
根据上述权利要求28-33中的任意一项所述的噪声抑制装置,用于降低所述含噪声语音谱的噪音;
提取单元(extracting unit),从所述噪声降低的语音谱提取所述语音特征;
语音识别单元(speech recognition unit),根据所述提取出的语音特征,识别所述含噪声语音;以及
确定装置(determination unit),根据语音识别的结果来确定所述先验信噪比的最优值。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2006100922461A CN101089952B (zh) | 2006-06-15 | 2006-06-15 | 噪声抑制、提取特征、训练模型及语音识别的方法和装置 |
US11/758,855 US20080059163A1 (en) | 2006-06-15 | 2007-06-06 | Method and apparatus for noise suppression, smoothing a speech spectrum, extracting speech features, speech recognition and training a speech model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2006100922461A CN101089952B (zh) | 2006-06-15 | 2006-06-15 | 噪声抑制、提取特征、训练模型及语音识别的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101089952A true CN101089952A (zh) | 2007-12-19 |
CN101089952B CN101089952B (zh) | 2010-10-06 |
Family
ID=38943281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006100922461A Expired - Fee Related CN101089952B (zh) | 2006-06-15 | 2006-06-15 | 噪声抑制、提取特征、训练模型及语音识别的方法和装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20080059163A1 (zh) |
CN (1) | CN101089952B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101154383B (zh) * | 2006-09-29 | 2010-10-06 | 株式会社东芝 | 噪声抑制、提取语音特征、语音识别及训练语音模型的方法和装置 |
CN102723081A (zh) * | 2012-05-30 | 2012-10-10 | 林其灿 | 语音信号处理方法、语音和声纹识别方法及其装置 |
CN106356071A (zh) * | 2016-08-30 | 2017-01-25 | 广州市百果园网络科技有限公司 | 一种噪声检测方法,及装置 |
CN106796802A (zh) * | 2014-09-03 | 2017-05-31 | 马维尔国际贸易有限公司 | 用于经由非线性衰减/增益函数来消除音乐噪声的方法和装置 |
CN108550365A (zh) * | 2018-02-01 | 2018-09-18 | 北京云知声信息技术有限公司 | 离线语音识别的阈值自适应调整方法 |
CN108600130A (zh) * | 2017-12-29 | 2018-09-28 | 南京理工大学 | 一种基于频谱带信噪比的电网频率估计方法 |
CN109817201A (zh) * | 2019-03-29 | 2019-05-28 | 北京金山安全软件有限公司 | 一种语言学习方法、装置、电子设备及可读存储介质 |
CN110970015A (zh) * | 2018-09-30 | 2020-04-07 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和电子设备 |
CN111124108A (zh) * | 2019-11-22 | 2020-05-08 | Oppo广东移动通信有限公司 | 模型训练方法、手势控制方法、装置、介质及电子设备 |
CN111883164A (zh) * | 2020-06-22 | 2020-11-03 | 北京达佳互联信息技术有限公司 | 模型训练方法、装置、电子设备及存储介质 |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1953052B (zh) * | 2005-10-20 | 2010-09-08 | 株式会社东芝 | 训练时长预测模型、时长预测和语音合成的方法及装置 |
US8949120B1 (en) | 2006-05-25 | 2015-02-03 | Audience, Inc. | Adaptive noise cancelation |
US8185389B2 (en) * | 2008-12-16 | 2012-05-22 | Microsoft Corporation | Noise suppressor for robust speech recognition |
GB2471875B (en) * | 2009-07-15 | 2011-08-10 | Toshiba Res Europ Ltd | A speech recognition system and method |
KR101587844B1 (ko) * | 2009-08-26 | 2016-01-22 | 삼성전자주식회사 | 마이크로폰의 신호 보상 장치 및 그 방법 |
US20110178800A1 (en) | 2010-01-19 | 2011-07-21 | Lloyd Watts | Distortion Measurement for Noise Suppression System |
US9558755B1 (en) | 2010-05-20 | 2017-01-31 | Knowles Electronics, Llc | Noise suppression assisted automatic speech recognition |
US9640194B1 (en) | 2012-10-04 | 2017-05-02 | Knowles Electronics, Llc | Noise suppression for speech processing based on machine-learning mask estimation |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
US10149047B2 (en) * | 2014-06-18 | 2018-12-04 | Cirrus Logic Inc. | Multi-aural MMSE analysis techniques for clarifying audio signals |
CN106797512B (zh) | 2014-08-28 | 2019-10-25 | 美商楼氏电子有限公司 | 多源噪声抑制的方法、系统和非瞬时计算机可读存储介质 |
EP3574499B1 (en) | 2017-01-26 | 2022-01-05 | Cerence Operating Company | Methods and apparatus for asr with embedded noise reduction |
US10224053B2 (en) * | 2017-03-24 | 2019-03-05 | Hyundai Motor Company | Audio signal quality enhancement based on quantitative SNR analysis and adaptive Wiener filtering |
CN109599102A (zh) * | 2018-10-24 | 2019-04-09 | 慈中华 | 识别经络状态的方法及装置 |
CN111429931B (zh) * | 2020-03-26 | 2023-04-18 | 云知声智能科技股份有限公司 | 一种基于数据增强的降噪模型压缩方法及装置 |
US20220199102A1 (en) * | 2020-12-18 | 2022-06-23 | International Business Machines Corporation | Speaker-specific voice amplification |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5546459A (en) * | 1993-11-01 | 1996-08-13 | Qualcomm Incorporated | Variable block size adaptation algorithm for noise-robust acoustic echo cancellation |
GB9905788D0 (en) * | 1999-03-12 | 1999-05-05 | Fulcrum Systems Ltd | Background-noise reduction |
JP2004198810A (ja) * | 2002-12-19 | 2004-07-15 | Denso Corp | 音声認識装置 |
CN1281003C (zh) * | 2004-02-26 | 2006-10-18 | 上海交通大学 | 基于导频矩阵的时域自适应信道估计方法 |
CN100349383C (zh) * | 2004-04-14 | 2007-11-14 | 华为技术有限公司 | 一种信道估计的方法和装置 |
-
2006
- 2006-06-15 CN CN2006100922461A patent/CN101089952B/zh not_active Expired - Fee Related
-
2007
- 2007-06-06 US US11/758,855 patent/US20080059163A1/en not_active Abandoned
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101154383B (zh) * | 2006-09-29 | 2010-10-06 | 株式会社东芝 | 噪声抑制、提取语音特征、语音识别及训练语音模型的方法和装置 |
CN102723081A (zh) * | 2012-05-30 | 2012-10-10 | 林其灿 | 语音信号处理方法、语音和声纹识别方法及其装置 |
CN102723081B (zh) * | 2012-05-30 | 2014-05-21 | 无锡百互科技有限公司 | 语音信号处理方法、语音和声纹识别方法及其装置 |
CN106796802B (zh) * | 2014-09-03 | 2021-06-18 | 马维尔亚洲私人有限公司 | 用于经由非线性衰减/增益函数来消除音乐噪声的方法和装置 |
CN106796802A (zh) * | 2014-09-03 | 2017-05-31 | 马维尔国际贸易有限公司 | 用于经由非线性衰减/增益函数来消除音乐噪声的方法和装置 |
CN106356071B (zh) * | 2016-08-30 | 2019-10-25 | 广州市百果园网络科技有限公司 | 一种噪声检测方法,及装置 |
CN106356071A (zh) * | 2016-08-30 | 2017-01-25 | 广州市百果园网络科技有限公司 | 一种噪声检测方法,及装置 |
CN108600130A (zh) * | 2017-12-29 | 2018-09-28 | 南京理工大学 | 一种基于频谱带信噪比的电网频率估计方法 |
CN108600130B (zh) * | 2017-12-29 | 2020-12-18 | 南京理工大学 | 一种基于频谱带信噪比的电网频率估计方法 |
CN108550365A (zh) * | 2018-02-01 | 2018-09-18 | 北京云知声信息技术有限公司 | 离线语音识别的阈值自适应调整方法 |
CN108550365B (zh) * | 2018-02-01 | 2021-04-02 | 云知声智能科技股份有限公司 | 离线语音识别的阈值自适应调整方法 |
CN110970015A (zh) * | 2018-09-30 | 2020-04-07 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和电子设备 |
CN110970015B (zh) * | 2018-09-30 | 2024-04-23 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和电子设备 |
CN109817201A (zh) * | 2019-03-29 | 2019-05-28 | 北京金山安全软件有限公司 | 一种语言学习方法、装置、电子设备及可读存储介质 |
CN109817201B (zh) * | 2019-03-29 | 2021-03-26 | 北京金山安全软件有限公司 | 一种语言学习方法、装置、电子设备及可读存储介质 |
CN111124108A (zh) * | 2019-11-22 | 2020-05-08 | Oppo广东移动通信有限公司 | 模型训练方法、手势控制方法、装置、介质及电子设备 |
CN111883164A (zh) * | 2020-06-22 | 2020-11-03 | 北京达佳互联信息技术有限公司 | 模型训练方法、装置、电子设备及存储介质 |
CN111883164B (zh) * | 2020-06-22 | 2023-11-03 | 北京达佳互联信息技术有限公司 | 模型训练方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN101089952B (zh) | 2010-10-06 |
US20080059163A1 (en) | 2008-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101089952B (zh) | 噪声抑制、提取特征、训练模型及语音识别的方法和装置 | |
CN101154383B (zh) | 噪声抑制、提取语音特征、语音识别及训练语音模型的方法和装置 | |
EP2151821B1 (en) | Noise-reduction processing of speech signals | |
EP1638083B1 (en) | Bandwidth extension of bandlimited audio signals | |
CN103238183B (zh) | 噪音抑制装置 | |
CN108831499A (zh) | 利用语音存在概率的语音增强方法 | |
CN102132343B (zh) | 噪声抑制装置 | |
CN103578477B (zh) | 基于噪声估计的去噪方法和装置 | |
CN103000174A (zh) | 语音识别系统中基于快速噪声估计的特征补偿方法 | |
CN107610712B (zh) | 一种结合mmse和谱减法的语音增强方法 | |
CN108108357A (zh) | 口音转换方法及装置、电子设备 | |
CN103544961A (zh) | 语音信号处理方法及装置 | |
Su et al. | Speech enhancement using generalized maximum a posteriori spectral amplitude estimator | |
CN103594093A (zh) | 基于信噪比软掩蔽语音增强方法 | |
Alam et al. | Robust feature extraction for speech recognition by enhancing auditory spectrum | |
CN106128480B (zh) | 一种对带噪语音进行语音活动检测的方法 | |
CN102637438A (zh) | 一种语音滤波方法 | |
Elshamy et al. | Two-stage speech enhancement with manipulation of the cepstral excitation | |
US20080228477A1 (en) | Method and Device For Processing a Voice Signal For Robust Speech Recognition | |
Dimitriadis et al. | An alternative front-end for the AT&T WATSON LV-CSR system | |
Li et al. | Sub-band based log-energy and its dynamic range stretching for robust in-car speech recognition | |
Arakawa et al. | Model-basedwiener filter for noise robust speech recognition | |
Esch et al. | Wideband noise suppression supported by artificial bandwidth extension techniques | |
Son et al. | Improved speech absence probability estimation based on environmental noise classification | |
Kawamura et al. | Impact and high-pitch noise suppression based on spectral entropy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20101006 Termination date: 20140615 |
|
EXPY | Termination of patent right or utility model |