CN106373559A - 一种基于对数谱信噪比加权的鲁棒特征提取方法 - Google Patents

一种基于对数谱信噪比加权的鲁棒特征提取方法 Download PDF

Info

Publication number
CN106373559A
CN106373559A CN201610808691.7A CN201610808691A CN106373559A CN 106373559 A CN106373559 A CN 106373559A CN 201610808691 A CN201610808691 A CN 201610808691A CN 106373559 A CN106373559 A CN 106373559A
Authority
CN
China
Prior art keywords
spectrum
voice
logarithmic spectrum
logarithmic
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610808691.7A
Other languages
English (en)
Other versions
CN106373559B (zh
Inventor
吕勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201610808691.7A priority Critical patent/CN106373559B/zh
Publication of CN106373559A publication Critical patent/CN106373559A/zh
Application granted granted Critical
Publication of CN106373559B publication Critical patent/CN106373559B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开一种基于对数谱信噪比加权的鲁棒特征提取方法,首先,对输入语音进行声学预处理、短时谱估计和Mel滤波,得到每一帧的短时Mel子带谱;再利用改进的对数函数对Mel子带谱进行非线性变换,得到对数谱,同时从Mel子带谱中估计输入语音的对数谱域信噪比;然后,利用估得的对数谱域后验信噪比对输入语音的对数谱进行加权,得到加权对数谱;最后,对加权对数谱进行离散余弦变换并作时域差分,得到输入语音的特征参数。本发明提高了噪声环境中提取的特征参数的环境鲁棒性,减小加性噪声对语音识别系统的影响,具有计算量较小、易于实时实现的优点。

Description

一种基于对数谱信噪比加权的鲁棒特征提取方法
技术领域
本发明涉及利用改进的对数函数对语音的Mel谱进行非线性变换,用对数谱后验信噪比对非线性变换后的对数谱进行加权,减小噪声对语音识别系统影响的鲁棒特征提取方法,属于语音识别技术领域。
背景技术
由于语音信号具有变异性,实际环境中的语音识别系统的识别性能可能会急剧恶化。加性背景噪声、线性信道失真和说话人的改变是导致语音变异的最重要的因素。一般可以从三个方面减小语音失配的影响:一是提取对噪声不敏感的抗噪声特征参数;二是从含噪语音中估计纯净语音特征,使之与纯净训练语音的声学模型相匹配;三是调整预先训练的声学模型的参数,使其与当前测试环境相匹配。
目前的语音识别系统多数以美尔频率倒谱系数(MFCC:Mel Frequency CepstralCoefficients)为语音的特征参数。作为声学特征,倒谱参数有两个优点:首先,倒谱参数的高维部分包含的有效信息较少,可以忽略部分高维系数,进一步减少特征向量维数;其次,倒谱特征向量各维之间的相关性较小,因此在后端声学建模时一般不考虑各维之间的相关性,取对角协方差矩阵即可,这可以大大减小后端处理的计算量。在实验室安静的环境中,MFCC可以很好地收集纯净语音的频谱特征,因而可以取得很高的识别率。然而,由于语音变异性的影响,在实际环境中提取的特征参数的特性与纯净训练语音可能存在较大的差异,这会导致系统性能的下降,甚至不可用。虽然基于模型的特征补偿和模型自适应可以较好地对语音变形进行补偿,减小环境失配的影响,但是它们的算法一般较为复杂,运算量较大,因而难以应用在计算能力较小的手持终端中。
MFCC的一个主要缺点是对加性噪声非常敏感,这是因为传统MFCC直接用自然底数的对数对Mel滤波后的子带谱进行非线性压缩。对数函数对较小的输入值非常敏感,较小的输入变化就会导致输出的极大振荡。而在MFCC中,较小的输入值正是能量较小的Mel子带语音,它们极易受到加性噪声的影响。因此,有必要研究对加性背景噪声更加鲁棒的声学特征,以提高语音识别系统的环境鲁棒性,增强其实际应用能力。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于对数谱信噪比加权的鲁棒特征提取方法,利用改进的对数函数对语音的Mel谱进行非线性变换,用对数谱后验信噪比对非线性变换后的对数谱进行加权,减小加性噪声对语音识别系统的影响。
技术方案:一种基于对数谱信噪比加权的鲁棒特征提取方法,首先,对输入语音进行声学预处理、短时谱估计和Mel滤波,得到每一帧的短时Mel子带谱;再利用改进的对数函数对Mel子带谱进行非线性变换,得到对数谱,同时从Mel子带谱中估计输入语音的对数谱域信噪比;然后,利用估得的对数谱域后验信噪比对输入语音的对数谱进行加权,得到加权对数谱;最后,对加权对数谱进行离散余弦变换(DCT:Discrete Cosine Transform)并作时域差分,得到输入语音的特征参数。
具体步骤如下:
(1)在声学预处理阶段对输入语音进行加窗、分帧,将输入语音分解为若干帧信号;
(2)对每一帧训练语音进行FFT运算,得到每帧信号的幅度谱;
(3)采用传统MFCC中的Mel滤波器组对每帧信号的幅度谱进行滤波,得到每帧信号的Mel子带谱;
(4)用改进的对数函数对Mel子带谱进行非线性变换,得到输入语音的对数谱g;
(5)用最小统计方法(Minimum Statistics)从输入语音的子带谱中估计噪声的均值,并将其变换到对数谱域,估计输入语音的对数谱域后验信噪比;
(6)用估得的对数谱域后验信噪比对非线性变换后的对数谱进行加权,减小加性背景噪声对语音特征参数的影响;
(7)对加权后的对数谱进行离散预先变换,得到语音的倒谱参数,并只保留倒谱参数的低13维系数,忽略其高维系数;
(8)对DCT后的静态倒谱特征作一阶差分和二阶差分,得到动态倒谱参数,静态参数和动态参数共同组成语音的39维倒谱特征向量。
本发明采用上述技术方案,具有以下有益效果:本发明可以提高噪声环境中提取的特征参数的环境鲁棒性,减小加性噪声对语音识别系统的影响,具有计算量较小、易于实时实现的优点。
附图说明
图1为基于对数谱信噪比加权的鲁棒特征提取框架图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于对数谱信噪比加权的鲁棒特征提取方法,主要包括预处理、短时谱估计、Mel滤波、非线性变换、信噪比估计、对数信噪比加权、DCT和时域差分模块。下面逐一详细说明附图中各模块的具体实施方案。
1、预处理:
在语音预处理阶段,对输入语音进行加窗,分帧,得到帧信号s。窗函数采用海明窗;分帧时,帧移长度为帧长的一半,即前后帧之间一半采样点重叠。
2、短时谱估计:
对预处理的每一帧信号s,通过快速傅里叶变换(FFT:Fast Fourier Transform)求s的幅度谱S:
S ( k ) = | Σ n = 0 N - 1 s ( n ) exp ( - j 2 π k n N ) | , k = 0 , 1 , ... , N - 1 - - - ( 1 )
其中,N为帧长,s(n)为向量s的第n维元素。
3、Mel滤波:
对每帧信号的幅度谱S,采用传统MFCC中的Mel滤波器组对每帧信号的幅度谱进行加权求和:
S ‾ ( m ) = Σ k = 0 N - 1 S ( k ) W m ( k ) , m = 1 , ... , M - - - ( 2 )
其中,Wm(k)为Mel滤波器组第m个三角滤波器在频率k处的加权因子;M为滤波器的个数;为第m个滤波器的输出。
4、非线性变换:
在传统MFCC中,用于非线性压缩的对数函数对较小的输入值非常敏感,因此在语音能量较小的Mel子带上,噪声会引起输出的极大变化,这会导致噪声环境下提取的特征参数与纯净训练语音的声学模型严重失配。为了提高特征参数对加性噪声的鲁棒性,本发明采用如下函数对每帧信号的Mel子带谱进行非线性变换:
g = l o g ( S ‾ + 1 ) - - - ( 3 )
其中,g表示对数谱特征参数。
5、信噪比估计:
本发明采用最小统计方法从输入语音的子带谱中估计噪声的均值并根据估得的计算输入语音的对数谱域后验信噪比τ:
τ = l o g ( S ‾ - n ‾ + 1 ) l o g ( n ‾ + 1 ) - - - ( 4 )
6、对数信噪比加权:
设gy、gx、gn分别表示含噪语音、纯净语音、加性噪声的对数谱特征参数,则gy和gx的关系可以表示为:
gy=log(exp(gx)+exp(gn)-1)=gx+log(1+exp(gn-gx)-exp(-gx))(5)
gx和gy的比值η可以表示为:
η = g x g y = g x g x + l o g ( 1 + exp ( g n - g x ) - exp ( - g x ) ) - - - ( 6 )
当gn>>gx时,当gn<<gx时,η≈1。因此,用如下表达式近似表示η:
η ≈ g x g x + g n = 1 1 + ( g x g n ) - 1 - - - ( 7 )
因为加性噪声是随机信号,所以其对数谱特征向量gn也是随机的,因此用输入语音的对数谱域后验信噪比τ近似
η ≈ 1 1 + 1 τ - - - ( 8 )
用η对语音的对数谱特征g进行加权后,就可以对加性背景噪声进行抑止,近似恢复纯净语音的对数谱特征
7、DCT:
因为对数谱特征的维数较高,且各维系数的相关性较强,不利于声学解码,所以需要用DCT将输入语音的加权对数谱特征变换到倒谱域:
c ( l ) = 2 M Σ m = 1 M l o g [ g ^ ( m ) ] c o s π ( 2 m - 1 ) l 2 M , l = 0 , ... , L - 1 - - - ( 9 )
其中,L是倒谱特征向量c的维数,通常取13,为向量的第m维元素。
8、时域差分:
除静态参数c外,输入语音的特征向量还包括c的一阶和二阶时域差分:
Δc t = Σ τ = - T T τc t + τ Σ τ = - T T τ 2 - - - ( 10 )
ΔΔc t = Σ τ = - Γ Γ τΔc t + τ Σ τ = - Γ Γ τ 2 - - - ( 11 )
其中,Τ和Γ为常数,分别表示一阶差分和二阶差分时,当前帧前后参与差分运算的帧数,ct+τ指第t+τ帧静态向量,t+τ为帧序号。
将ct,Δct和ΔΔct拼接,即可得到第t帧语音的39维特征向量。

Claims (5)

1.一种基于对数谱信噪比加权的鲁棒特征提取方法,其特征在于:首先,对输入语音进行声学预处理、短时谱估计和Mel滤波,得到每一帧的短时Mel子带谱;再利用改进的对数函数对Mel子带谱进行非线性变换,得到对数谱,同时从Mel子带谱中估计输入语音的对数谱域信噪比;然后,利用估得的对数谱域后验信噪比对输入语音的对数谱进行加权,得到加权对数谱;最后,对加权对数谱进行离散余弦变换(DCT:Discrete Cosine Transform)并作时域差分,得到输入语音的特征参数。
2.如权利要求1所述的基于对数谱信噪比加权的鲁棒特征提取方法,其特征在于:具体步骤如下:
(1)在声学预处理阶段对输入语音进行加窗、分帧,将输入语音分解为若干帧信号;
(2)对每一帧训练语音进行FFT运算,得到每帧信号的幅度谱;
(3)采用传统MFCC中的Mel滤波器组对每帧信号的幅度谱进行滤波,得到每帧信号的Mel子带谱;
(4)用改进的对数函数对Mel子带谱进行非线性变换,得到输入语音的对数谱g;
(5)用最小统计方法(Minimum Statistics)从输入语音的子带谱中估计噪声的均值,并将其变换到对数谱域,估计输入语音的对数谱域后验信噪比;
(6)用估得的对数谱域后验信噪比对非线性变换后的对数谱进行加权,减小加性背景噪声对语音特征参数的影响;
(7)对加权后的对数谱进行离散预先变换,得到语音的倒谱参数,并只保留倒谱参数的低13维系数,忽略其高维系数;
(8)对DCT后的静态倒谱特征作一阶差分和二阶差分,得到动态倒谱参数,静态参数和动态参数共同组成语音的39维倒谱特征向量。
3.如权利要求2所述的基于对数谱信噪比加权的鲁棒特征提取方法,其特征在于:采用如下函数对每帧信号的Mel子带谱进行非线性变换:
g = l o g ( S ‾ + 1 ) - - - ( 3 )
其中,g表示对数谱特征参数;
采用最小统计方法从输入语音的子带谱中估计噪声的均值并根据估得的计算输入语音的对数谱域后验信噪比τ的估计公式为
4.如权利要求3所述的基于对数谱信噪比加权的鲁棒特征提取方法,其特征在于:设gy、gx、gn分别表示含噪语音、纯净语音、加性噪声的对数谱特征参数,则gy和gx的关系可以表示为:
gy=log(exp(gx)+exp(gn)-1)=gx+log(1+exp(gn-gx)-exp(-gx)) (5)
gx和gy的比值η可以表示为:
η = g x g y = g x g x + l o g ( 1 + exp ( g n - g x ) - exp ( - g x ) ) - - - ( 6 )
当gn>>gx时,当gn<<gx时,η≈1。因此,用如下表达式近似表示η:
&eta; &ap; g x g x + g n = 1 1 + ( g x g n ) - 1 - - - ( 7 )
因为加性噪声是随机信号,所以其对数谱特征向量gn也是随机的,因此用输入语音的对数谱域后验信噪比τ近似
&eta; &ap; 1 1 + 1 &tau; - - - ( 8 )
用η对语音的对数谱特征g进行加权后,就可以对加性背景噪声进行抑止,近似恢复纯净语音的对数谱特征
5.如权利要求4所述的基于对数谱信噪比加权的鲁棒特征提取方法,其特征在于:用DCT将输入语音的加权对数谱特征变换到倒谱域:
c ( l ) = 2 M &Sigma; m = 1 M l o g &lsqb; g ^ ( m ) &rsqb; c o s &pi; ( 2 m - 1 ) l 2 M , l = 0 , ... , L - 1 - - - ( 9 )
其中,L是倒谱特征向量c的维数;
除静态参数c外,输入语音的特征向量还包括c的一阶和二阶时域差分:
&Delta;c t = &Sigma; &tau; = - T T &tau;c t + &tau; &Sigma; &tau; = - T T &tau; 2 - - - ( 10 )
&Delta;&Delta;c t = &Sigma; &tau; = - &Gamma; &Gamma; &tau;&Delta;c t + &tau; &Sigma; &tau; = - &Gamma; &Gamma; &tau; 2 - - - ( 11 )
其中,Τ和Γ为常数,分别表示一阶差分和二阶差分时,当前帧前后参与差分运算的帧数;
将ct,Δct和ΔΔct拼接,即可得到第t帧语音的39维特征向量。
CN201610808691.7A 2016-09-08 2016-09-08 一种基于对数谱信噪比加权的鲁棒特征提取方法 Active CN106373559B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610808691.7A CN106373559B (zh) 2016-09-08 2016-09-08 一种基于对数谱信噪比加权的鲁棒特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610808691.7A CN106373559B (zh) 2016-09-08 2016-09-08 一种基于对数谱信噪比加权的鲁棒特征提取方法

Publications (2)

Publication Number Publication Date
CN106373559A true CN106373559A (zh) 2017-02-01
CN106373559B CN106373559B (zh) 2019-12-10

Family

ID=57899338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610808691.7A Active CN106373559B (zh) 2016-09-08 2016-09-08 一种基于对数谱信噪比加权的鲁棒特征提取方法

Country Status (1)

Country Link
CN (1) CN106373559B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108877146A (zh) * 2018-09-03 2018-11-23 深圳市尼欧科技有限公司 一种基于智能语音识别的乘驾安全自动报警装置及其方法
CN108922514A (zh) * 2018-09-19 2018-11-30 河海大学 一种基于低频对数谱的鲁棒特征提取方法
CN109346106A (zh) * 2018-09-06 2019-02-15 河海大学 一种基于子带信噪比加权的倒谱域基音周期估计方法
CN109584888A (zh) * 2019-01-16 2019-04-05 上海大学 基于机器学习的鸣笛识别方法
CN112233658A (zh) * 2020-10-14 2021-01-15 河海大学 一种基于对数谱平滑滤波的特征提取方法
CN112927716A (zh) * 2021-01-22 2021-06-08 华东交通大学 一种基于改进mfcc的工地特种车辆识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101577116A (zh) * 2009-02-27 2009-11-11 北京中星微电子有限公司 一种语音信号的MFCC系数提取方法、装置及一种Mel滤波方法
CN102290048A (zh) * 2011-09-05 2011-12-21 南京大学 一种基于mfcc远距离差值的鲁棒语音识别方法
CN102290047A (zh) * 2011-09-22 2011-12-21 哈尔滨工业大学 基于稀疏分解与重构的鲁棒语音特征提取方法
US8306817B2 (en) * 2008-01-08 2012-11-06 Microsoft Corporation Speech recognition with non-linear noise reduction on Mel-frequency cepstra
CN103778914A (zh) * 2014-01-27 2014-05-07 华南理工大学 基于信噪比加权模板特征匹配的抗噪语音识别方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8306817B2 (en) * 2008-01-08 2012-11-06 Microsoft Corporation Speech recognition with non-linear noise reduction on Mel-frequency cepstra
CN101577116A (zh) * 2009-02-27 2009-11-11 北京中星微电子有限公司 一种语音信号的MFCC系数提取方法、装置及一种Mel滤波方法
CN102290048A (zh) * 2011-09-05 2011-12-21 南京大学 一种基于mfcc远距离差值的鲁棒语音识别方法
CN102290047A (zh) * 2011-09-22 2011-12-21 哈尔滨工业大学 基于稀疏分解与重构的鲁棒语音特征提取方法
CN103778914A (zh) * 2014-01-27 2014-05-07 华南理工大学 基于信噪比加权模板特征匹配的抗噪语音识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘敬伟: "实用环境语音识别鲁棒技术研究与展望", 《计算机工程与应用》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108877146A (zh) * 2018-09-03 2018-11-23 深圳市尼欧科技有限公司 一种基于智能语音识别的乘驾安全自动报警装置及其方法
CN109346106A (zh) * 2018-09-06 2019-02-15 河海大学 一种基于子带信噪比加权的倒谱域基音周期估计方法
CN109346106B (zh) * 2018-09-06 2022-12-06 河海大学 一种基于子带信噪比加权的倒谱域基音周期估计方法
CN108922514A (zh) * 2018-09-19 2018-11-30 河海大学 一种基于低频对数谱的鲁棒特征提取方法
CN109584888A (zh) * 2019-01-16 2019-04-05 上海大学 基于机器学习的鸣笛识别方法
CN112233658A (zh) * 2020-10-14 2021-01-15 河海大学 一种基于对数谱平滑滤波的特征提取方法
CN112927716A (zh) * 2021-01-22 2021-06-08 华东交通大学 一种基于改进mfcc的工地特种车辆识别方法

Also Published As

Publication number Publication date
CN106373559B (zh) 2019-12-10

Similar Documents

Publication Publication Date Title
CN106373559A (zh) 一种基于对数谱信噪比加权的鲁棒特征提取方法
CN103000174B (zh) 语音识别系统中基于快速噪声估计的特征补偿方法
CN104392718B (zh) 一种基于声学模型阵列的鲁棒语音识别方法
CN102436809B (zh) 英语口语机考系统中网络语音识别方法
CN102483916B (zh) 声音特征量提取装置和声音特征量提取方法
CN100543842C (zh) 基于多统计模型和最小均方误差实现背景噪声抑制的方法
CN102968990B (zh) 说话人识别方法和系统
CN106340292A (zh) 一种基于连续噪声估计的语音增强方法
CN104464728A (zh) 基于gmm噪声估计的语音增强方法
CN109767781A (zh) 基于超高斯先验语音模型与深度学习的语音分离方法、系统及存储介质
CN106024010A (zh) 一种基于共振峰曲线的语音信号动态特征提取方法
CN105355199A (zh) 一种基于gmm噪声估计的模型组合语音识别方法
Astudillo et al. An uncertainty propagation approach to robust ASR using the ETSI advanced front-end
CN104732972A (zh) 一种基于分组统计的hmm声纹识别签到方法及系统
CN106356058A (zh) 一种基于多频带特征补偿的鲁棒语音识别方法
Shrawankar et al. Feature extraction for a speech recognition system in noisy environment: A study
CN103258537A (zh) 利用特征结合对语音情感进行识别的方法及其装置
Astudillo et al. Uncertainty propagation
Gupta et al. Speech enhancement using MMSE estimation and spectral subtraction methods
CN104392719A (zh) 一种用于语音识别系统的中心子带模型自适应方法
Kaur et al. Optimizing feature extraction techniques constituting phone based modelling on connected words for Punjabi automatic speech recognition
Das et al. Robust front-end processing for speech recognition in noisy conditions
Pardede et al. Generalized-log spectral mean normalization for speech recognition
Hassani et al. Speech enhancement based on spectral subtraction in wavelet domain
CN115472168A (zh) 耦合bgcc和pwpe特征的短时语音声纹识别方法、系统及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant