CN1431650A - 基于局部能量加权的抗噪声语音识别方法 - Google Patents

基于局部能量加权的抗噪声语音识别方法 Download PDF

Info

Publication number
CN1431650A
CN1431650A CN03104874A CN03104874A CN1431650A CN 1431650 A CN1431650 A CN 1431650A CN 03104874 A CN03104874 A CN 03104874A CN 03104874 A CN03104874 A CN 03104874A CN 1431650 A CN1431650 A CN 1431650A
Authority
CN
China
Prior art keywords
noise
weighting
state
local energy
likelihood function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN03104874A
Other languages
English (en)
Other versions
CN1182513C (zh
Inventor
许超
曹志刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CNB031048749A priority Critical patent/CN1182513C/zh
Publication of CN1431650A publication Critical patent/CN1431650A/zh
Application granted granted Critical
Publication of CN1182513C publication Critical patent/CN1182513C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

基于局部能量加权的抗噪声语音识别方法属于抗噪声语音识别领域,其特征在于它是在Viterbi识别器中,用具抗噪性能的似然函数来计算特征向量对应于个跳转目标状态的似然值,即在似然函数中引入基于局部能量的可靠性因子。为简化起见,把对数谱域的模板的状态参数μm作为可靠性因子,即加权系数,直接在对数谱域作加权,加权后的似然函数为右上式,其中,wm表示第m个正态混合分量的权重,Δm为加权矩阵,上标l表示对数谱域,μm l为对数谱域的均值向量,xl表示对数谱域特征向量,DCT表示离散余弦变换。它不需要噪声或者信噪比的估计,只对似然函数作修正,对识别系统算法框架并无改动,易实现,而且能改善抗噪声性能。

Description

基于局部能量加权的抗噪声语音识别方法
技术领域
基于局部能量加权的抗噪声识别方法属于噪声环境中的自动语音识别技术领域。
背景技术
背景技术包括(1)现有语音识别系统中最常用的基于HMM(Hidden Markov Model)的模型框架(2)现有的主要抗噪声技术。HMM能很好的刻画语音信号整体特征,所以被广泛应用于语音识别系统中。目前基于HMM的语音识别系统能很好的工作于安静的环境,但是当有环境噪声存在时,识别性能则急剧下降,所以急需融入抗噪声技术,而本技术正是针对这一应用而设计的。
HMM是个应用广泛的数学模型,因其能很好的用作语音信号的模型,所以成为语音识别的最常用的模型。基于HMM的语音识别框架详述如下。
首先,一段观测到的数字语音信号被分为若干帧,记为向量o1,o2,…。然后对每帧信号提取出相应特征,记为向量x1,x2,…,以供模型训练和识别。其典型做法如下(以下步骤中省略向量的下标,也即帧序号):
(1)对每帧离散信号ol(n)做离散傅立叶变换得到频域特征xf(i);
(2)应用滤波器组分析: x b ( k ) = Σ i = L k H k w k b ( i ) | x f ( i ) | ,即第k个滤波器输出为频域幅度从Lk
到Hk的加权和;
(3)将滤波器组输出变换到对数谱域:xl(k)=log(xb(k));
(4)去相关处理,一般做法是做离散余弦变换(DCT),得到倒谱域的MFCC特征:x=DCT(xl)。
得到一串语音信号的特征后,就可以用HMM来描述这串特征的属性和关系。用HMM描述语音信号时,语音分为音素单元(可以是元音辅音的音节,也可以是整个字的发音),每个音素单元(记为一个HMM)又分为若干个串联的状态,记为C1,C2,…。“状态”是HMM中一个基本单元。状态间的关系用马尔可夫(Markov)模型来描述,也即每个状态会以一定概率跳到本状态或者其他某个状态实现一步跳转,比如当前状态是Ci,则下一个状态是Cj的概率为P(Cj|Ci),一段观测到的语音信号的内在表现即为这样的状态跳转。而状态和观测向量之间的关系则由一“输出概率”来描述,比如当前状态为Cj而观测到的特征向量为xi用输出概率P(xi|Cj)来表示。状态间的关系、状态与观测到数据间的关系两者合在一起则为隐含马尔可夫模型HMM。而这两者需要的参数主要就是转移概率P(Cj|Ci)组成的矩阵,和输出概率P(xi|Cj)的表达式中的参数。用标注好的语音来调整训练这些参数,则得到可用于识别的模型参数;反过来有了模型参数,对任给的语音,则可求其属于某一状态序列的概率,并以概率最大的作为识别出的结果。前一过程即为语音识别中的模型训练,后一过程即为识别过程。一般叫语音识别系统中实现后一过程的部分为识别器,而我们的技术主要在识别器中,所以模型训练的具体过程将略去,这里主要叙述识别器的具体流程。
HMM给出了语音信号的数学描述后,语音识别过程则变成一模型匹配问题,即判断给出的一段语音信号的特征x1,x2,...究竟和怎样排列的状态串Ci(1),Ci(2)、...最匹配。假设判定序列 ( x n ) n = 1 N 对应为状态序列 ( C i ( n ) ) n = 1 N ,求最佳匹配可用公式表示为: ( C i ( n ) ) n = 1 N = arg max ( C i ( n ) ) { P ( C i ( n ) ) P ( x N | C i ( N ) ) Π n = 1 N - 1 P ( x n | C i ( n ) ) P ( C i ( n + 1 ) | C i ( n ) ) } . . . . ( 1 ) 这里,P(Ci(1))为初始状态为Ci(1)的概率,P(Ci(n+1)|Ci(n))为从状态Ci(n)转移到Ci(n+1)的一步转移概率,这两者都是给出的模型参数。而未知语音在公式中的反映即为输出概率P(xn|Ci(n)),所以这里的关键就是求这一输出概率,这一概率也叫似然值,而求似然值的数学表达式叫似然函数。
语音识别系统中,一般用混合正态分布来表示输出概率,也即似然值c的表达式为(公式中省略了下标):
    c=F(x,C) = Σ m w m N ( x , μ m , Σ m ) . . . . . . . ( 2 ) = Σ m w m · exp ( - 1 2 ( x - μ m ) T Σ m - 1 ( x - μ m ) ) ( 2 π ) K / 2 | | Σ m | | 这里,x=[x1,...,xK]T表示待处理某一帧语音信号的特征:F(x,C)为计算x属于某个状态C的似然值的表达式,即似然函数;N(x,μ,∑)表示均值向量为μ,协方差矩阵为∑的正态分布;下标m表示第m个正态混合分量的参数;wm表示第m个正态混合分量的权重。
有了似然函数,(1)式的最佳状态序列则可解了。当然,如果代入所有可能的状态序列寻找最优序列计算量将无比巨大,所以还需要Viterbi算法来简化运算。
基于HMM的语音识别框架是语音识别历史上的一个里程碑。这一基础技术较成功地解决了安静环境下的语音识别(纯净语音识别),但是当存在环境噪声影响时,也即待识别的语音是带噪语音时,其性能急剧下降。所以抗噪声问题仍然是人们研究的热点。噪声问题集中体现在纯净语音信号和噪声的混合。假设纯净语音受到噪声污染,那么得到的信号是一种混合了噪声和语音的信号,即
    y(t)=s(t)n(t)                                                        (3)这里y(t)表示带噪语音,s(t)表示纯净语音,n(t)表示噪声。运算表示语音信号和噪声的混合,比如,在加性背景噪声情况下,这种混合为加法运算,在通信的信道卷积噪声的情况下,这种混合为卷积运算。
目前的抗噪声技术普遍针对如何抑制噪声。比如,谱减法设法估计出噪声的频谱幅度,然后从带噪语音的频谱幅度中减去噪声的,得到增强的语音然后再做识别,并行模型合并法则设法训练噪声的模型,然后在识别时模型纯净模型和噪声模型的合并再与待识别的带噪语音比较。但实际环境中的噪声千变万化,只有在“平稳”、“慢变”等限制下,或者特定环境中才能得到较好的估计和建模,这很大限制了谱减法等方法的普遍有效性。
另外,Cooke等人提出了数据丢弃(Missing Data)法,该方法强调抛弃带噪语音中语音信号受损较严重的部分而只用受损较轻的部分来识别。但是那些部分是受损严重的呢?他们于是根据带噪语音的局部信噪比来判断语音受损程度,而估计信噪比即估计信号和噪声的比例,于是又回到了噪声估计上。
发明内容
本发明的目的在于提供一种不依赖于具体噪声类型也不需要估计噪声的基于局部能量加权函数的抗噪声语音识别方法。
针对一般的基于HMM语音识别系统在噪声环境中性能急剧下降,我们对语音信号的不同频域子带(比如滤波器组中各个滤波器的输出)做不同的处理。而针对现有处理方法中的噪声或者信噪比难以估计的问题,我们转而根据语音模板的各个频域子带的特性在识别中对其做不同的处理。频域子带的局部能量较大的被认为对识别结果影响较大,或者说该子带对于该状态的判断具有更重要的意思,局部能量较小的被认为对识别结果影响较小,因而在识别中我们根据语音模型的局部能量大小做不同的可靠性加权。所以,本技术的特征为在输出概率(似然函数)中引入了反映局部能量的可靠性因子(比如对数谱域的模型的混合分量均值 )。因为,语音受到噪声干扰时,表现在识别中的主要的受破坏参数为输出概率,即似然函数的表达式。
本发明的特征在于:
在维特比识别流程中,用更具抗噪声性能的似然函数来计算特征向量对应于各跳转目标状态的似然值,也就是说在下述似然函数中引入基于局部能量的可靠性因子λ:
    c'=F(x,C,λ)                                                     (4)其中,c'为改进后的x相对于某个状态C的似然函数;x为待处理某一帧语音信号的特征,用x=[x1,…,xK]T表示;C为某个状态。
它视对数谱域的模板的状态参数μm为局部能量的对数,把μm作为加权系数,即可靠性因子直接在对数谱对下述似然函数作加权: c = F ( x , C ) = Σ m w m N ( x , μ m , Σ m ) . . . . . . ( 5 )
其中,N(x,μ,∑)表示均值向量为μ、协方差矩阵为∑的正态分布,下标m表示第m个正态混合分量的参数,wm表示第m个正态混合分量的权重。上述加权过程依次含有以下步骤:
(1)把待识别特征x和若干模板的状态参数μm变换到对数谱域:
其中,上标l,表示对数谱域的参数,IDCT表示离散余弦反变换;
(2)确定可靠性加权因子:它用根据线性加权法则构成的加权矩阵Δm表示: λ i = a μ m l + b ,i=1,…,K,a、b为常数;
Figure A0310487400064
(3)加权后再变换回倒谱域求似然值: c ′ = Σ m w m N ( DCT ( Δ m x l ) , DCT ( Δ m μ m l ) , Σ m ) . . . . . . ( 7 )
其中,DCT表示离散余弦变换,wm表示第m个正态混合分量的权重。
本方法不需要任何噪声或者信噪比的信息,简单易实现,并能很好的改善识别系统的抗噪声性能。另外,在可以获得可用的噪声估计时,本方法还可以与谱减技术、数据丢弃法等结合起来使用以获得更好的抗噪声性能。
附图说明
图1:HMM示意图(引自Steven Young,etc.,HTK Book version2.2,1999)。图中,aij为状态间的转移概率,bj(ok)为观测值ok对应状态j的似然值。
图2:基于HMM的语音识别程序框架。程序的输入为一段语音信号;第一个模块对输入的语音信号进行预处理(包括分帧和加窗等),得到一串观测向量:接下来进入特征提取模块,比如计算MFCC系数及其差分系数和加速系数,经过这一模块,得到一串特征向量,以供识别或模型训练;如果用作模型训练的话,特征向量序列外加对应的语音单元标准被送入模型训练模块,进行HMM的参数(包括转移概率和输出概率所需的参数)计算和更新;如果要对该段语音进行识别的话,则将特征向量序列和已有的模型参数输入到Viterbi识别器,计算最匹配的状态序列,从而确定出对应的语音内容(字串,或者音节串等)。
图3:MFCC特征提取模块的算法流程图。该图为MFCC系数计算的一般流程。
图4:Viterbi识别算法流程图。该图为本发明Viterbi识别流程,其中预处理包括语法词法等规则生成和识别器的一些初始化处理。核心部分则是计算一步跳转概率和特征向量对应于各跳转目标状态的似然值,本技术发明的改进点即在于用更具抗噪声性能的似然函数来计算该似然值。
图5:实施实例的效果图。其中baseline为基线识别结果,KD为改进后的识别结果,(a)~(d)分别为对地铁噪声、人群噪声、汽车噪声、展览馆噪声的识别结果。图中横轴为全局信噪比(global SNR),纵轴为字误识率(Word Error Rate)。
具体实施方式实验用的语料库:
本实验中的语音数据都取自Aurora 2数据库。其中的语音为连续的数字串录音,所有数据为8kHz采样,16bit量化。我们取其中的纯净训练集作为训练语料(共8440句纯净的语句)。A测试集则用作测试语料(为1001句语句分别在地铁噪声、人群噪声、汽车噪声、展览馆噪声4种环境噪声的不同信噪比情况下的语料),我们测试的噪声等级为20dB、15dB、10dB、5dB和0dB,所以测试语句共为1000×4×5=20000句。实验步骤:(a)特征提取
实验中提取的特征为MFCC_0,即带第0阶倒谱系数的MFCC系数。具体做法及参数设置如下:(1)分帧加窗。每帧长度取25ms,每隔10ms取一帧(相邻两帧重叠15ms),然后每帧数据乘上Hamming窗。(2)对每帧数据做256点离散傅立叶变换得到频域的数据。(3)滤波器组分析。滤波器组由23个Mel频率上(Mel频标和线性频标的关系为 f mel = 1127 ln ( 1 + f Hz 700 ) , 其中fmel和fHz分别表示Mel频标和线性频标)均匀分布的三角滤波器构成,每个三角滤波器的单边带宽等于滤波器间的中心间隔,滤波器组的分析范围为64Hz到8000Hz。(4)对23维的滤波器组输出向量作离散余弦变换,取变换后的0-12维(即前13个变换系数)数据则为MFCC_0特征。(b)模型训练
模型训练所用特征为MFCC_0_D_A,即上面的提取的MFCC_0特征加上其一阶差分(称差分系数)和二阶差分(称加速系数)。第t帧的每一维差分系数dt和加速系数at分别计算如下:其中c表示相应维的静态倒谱系数(即MFCC_0系数)。这样13维的MFCC_0系数形成了39维的MFCC_0_D_A系数作为训练用特征数据。
训练的主要对象为10个英文数字的11种发音(one,two,……,nine;zero,oh),所以我们为这11个发音各训练1个18个状态,每个状态为3阶高斯混合分布的HMM模型。另外,训练了含5个状态,每个状态为6阶高斯混合分布的静音(Silence,sil)模型,和一个捆绑在静音模型第三个状态的短停(Short Pause,sp)模型(该模型只有一个有效状态,且该状态的参数始终和sil模型的第三个状态的参数相同)。(c)识别器测试
本实验中,比较了不使用本技术发明的基线识别器和使用本技术发明的改进识别器对测试语料的识别效果,实验结果分别用baseline和KD来代表。基线识别器为HTK软件包提供的标准的Viterbi识别算法,参加前面的介绍。改进识别器则是在基线识别器算法上对似然函数的计算做了改动,本实验中对静态倒谱特征用(5)至(8)式求似然概率(其中(7)式参数取为a=1/30,b=0.4),对差分特征和加速特征仍用原似然函数计算似然概率,然后将这两者相乘(取对数后则为相加)得到某状态下出现该观测特征向量的似然值。识别性能评价标准:
对于语音识别系统来说,评价系统性能的主要是识别的正确率(Accuracy)或者错误率(Error Rate)。对于WN个要识别的单元,识别系统出现了WS个替代错误,WD个删除错误以及WI个插入错误,正确率定义和错误率的定义分别为:所以,正确率和错误率的度量是等价的。由于本实验的HMM单元为字(Word),所以衡量标准为字正确率或者字错误率。实验结果:
下表为基线识别器(baseline)和改进识别器(KD)的识别正确率结果(其中N1到N4依次表示地铁、人群、汽车、展览馆四种噪声环境下的识别结果):
    Acc%   20db   15db   10db   5db   0db   Average
baseline   N1   96.35   90.14   71.66   42.22   18.76   63.826
  N2   85.97   67.59   43.32   21.61   8.4   45.378
  N3   94.72   82.05   54.49   25.74   10.98   53.596
  N4   95.62   87.81   66.99   33.51   12.28   59.242
KD   N1   96.22   94.26   87.26   70.95   39.79   77.696
  N2   97.31   93.86   82.92   57.38   24.7   71.234
  N3   97.14   95.76   88.07   61.88   23.32   73.234
  N4   96.08   93.3   85.53   64.61   28.54   73.612
为了便于比较,将实验结果的错误率画为折线图,见图5,其中baseline为基线识别结果,KD则为改进后识别器的结果。(a)到(d)分别为对地铁噪声、人群噪声、汽车噪声、展览馆噪声等环境噪声情况下的识别结果。横轴为全局信噪比(global SNR),纵轴则为字误识率结果。
对比基线和改进后的两组识别结果,可见引入本技术发明后,在这四种噪声环境中的平均字正确率分别改进了21.7%,57.0%,36.6%和24.3%,换算成错误率则分别降低了38.3%、47.3%、42.3%、35.3%,可见本技术发明在不同的噪声环境中均能很好地改善识别系统的抗噪声性能。

Claims (2)

1.基于局部能量加权的抗噪声语音识别方法,含有基于隐含马尔可夫模型(HMM)的语音识别程序,其特征在于:在维特比(Viterbi)识别流程中,用更具抗噪声性能的似然函数来计算特征向量对应于各跳转目标状态的似然值,也就是说在下述似然函数中引入基于局部能量的可靠性因子λ:
c'=F(x,C,λ),
其中,c'为改进后的x相对于某个状态C的似然函数;x为待处理某一帧语音信号的特征,用x=[x1,…,xK]T。表示;C为某个状态。
2.根据权利要求1所述的基于局部能量加权的抗噪声语音识别方法,其特征在于:它视对数谱域的模板的状态参数μm为局部能量的对数,把μm作为加权系数,即可靠性因子直接在对数谱对下述似然函数作加权: c = F ( x , C ) = Σ m w m N ( x , μ m , Σ m ) ,
其中,N(x,μ,∑)表示均值向量为μ、协方差矩阵为∑的正态分布,下标m表示第m个正态混合分量的参数,wm表示第m个正态混合分量的权重。上述加权过程依次含有以下步骤:
(1)把待识别特征x和若干模板的状态参数μm变换到对数谱域:
其中,上标l表示对数谱域的参数,IDCT表示离散余弦反变换:
(2)确定可靠性加权因子:它用根据线性加权法则构成的加权矩阵Δm表示: λ i = a μ mi l + b , i=1,…,K,a、b为常数;
(3)加权后再变换回倒谱域求似然值: c ′ = Σ m w m N ( DCT ( Δ m x l ) , DCT ( Δ m μ m l ) , Σ m ) ,
其中,DCT表示离散余弦变换,wm表示第m个正态混合分量的权重。
CNB031048749A 2003-02-21 2003-02-21 基于局部能量加权的抗噪声语音识别方法 Expired - Fee Related CN1182513C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB031048749A CN1182513C (zh) 2003-02-21 2003-02-21 基于局部能量加权的抗噪声语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB031048749A CN1182513C (zh) 2003-02-21 2003-02-21 基于局部能量加权的抗噪声语音识别方法

Publications (2)

Publication Number Publication Date
CN1431650A true CN1431650A (zh) 2003-07-23
CN1182513C CN1182513C (zh) 2004-12-29

Family

ID=4790079

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB031048749A Expired - Fee Related CN1182513C (zh) 2003-02-21 2003-02-21 基于局部能量加权的抗噪声语音识别方法

Country Status (1)

Country Link
CN (1) CN1182513C (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314883A (zh) * 2010-06-30 2012-01-11 比亚迪股份有限公司 一种判断音乐噪声的方法以及语音消噪方法
WO2012055113A1 (zh) * 2010-10-29 2012-05-03 安徽科大讯飞信息科技股份有限公司 录音结束点检测方法及系统
CN102862587A (zh) * 2012-08-20 2013-01-09 泉州市铁通电子设备有限公司 一种铁路车机联控语音分析方法和设备
CN101533642B (zh) * 2009-02-25 2013-02-13 北京中星微电子有限公司 一种语音信号处理方法及装置
CN104428832A (zh) * 2012-07-09 2015-03-18 Lg电子株式会社 语音识别装置及其方法
CN105845139A (zh) * 2016-05-20 2016-08-10 北方民族大学 一种离线语音控制方法和装置
CN105895082A (zh) * 2016-05-30 2016-08-24 乐视控股(北京)有限公司 声学模型训练方法、语音识别方法及装置
CN105989834A (zh) * 2015-02-05 2016-10-05 宏碁股份有限公司 语音辨识装置及语音辨识方法
CN106716528A (zh) * 2014-07-28 2017-05-24 弗劳恩霍夫应用研究促进协会 用于对音频信号中的噪声进行估计的方法、噪声估计器、音频编码器、音频解码器、以及用于传输音频信号的系统
CN108235181A (zh) * 2016-12-13 2018-06-29 奥迪康有限公司 在音频处理装置中降噪的方法
CN109346106A (zh) * 2018-09-06 2019-02-15 河海大学 一种基于子带信噪比加权的倒谱域基音周期估计方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101533642B (zh) * 2009-02-25 2013-02-13 北京中星微电子有限公司 一种语音信号处理方法及装置
CN102314883B (zh) * 2010-06-30 2013-08-21 比亚迪股份有限公司 一种判断音乐噪声的方法以及语音消噪方法
CN102314883A (zh) * 2010-06-30 2012-01-11 比亚迪股份有限公司 一种判断音乐噪声的方法以及语音消噪方法
WO2012055113A1 (zh) * 2010-10-29 2012-05-03 安徽科大讯飞信息科技股份有限公司 录音结束点检测方法及系统
US9330667B2 (en) 2010-10-29 2016-05-03 Iflytek Co., Ltd. Method and system for endpoint automatic detection of audio record
CN104428832A (zh) * 2012-07-09 2015-03-18 Lg电子株式会社 语音识别装置及其方法
CN102862587A (zh) * 2012-08-20 2013-01-09 泉州市铁通电子设备有限公司 一种铁路车机联控语音分析方法和设备
CN102862587B (zh) * 2012-08-20 2016-01-27 泉州市铁通电子设备有限公司 一种铁路车机联控语音分析方法和设备
CN106716528A (zh) * 2014-07-28 2017-05-24 弗劳恩霍夫应用研究促进协会 用于对音频信号中的噪声进行估计的方法、噪声估计器、音频编码器、音频解码器、以及用于传输音频信号的系统
US11335355B2 (en) 2014-07-28 2022-05-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Estimating noise of an audio signal in the log2-domain
CN105989834A (zh) * 2015-02-05 2016-10-05 宏碁股份有限公司 语音辨识装置及语音辨识方法
CN105845139A (zh) * 2016-05-20 2016-08-10 北方民族大学 一种离线语音控制方法和装置
CN105895082A (zh) * 2016-05-30 2016-08-24 乐视控股(北京)有限公司 声学模型训练方法、语音识别方法及装置
CN108235181A (zh) * 2016-12-13 2018-06-29 奥迪康有限公司 在音频处理装置中降噪的方法
CN108235181B (zh) * 2016-12-13 2021-06-08 奥迪康有限公司 在音频处理装置中降噪的方法
CN109346106A (zh) * 2018-09-06 2019-02-15 河海大学 一种基于子带信噪比加权的倒谱域基音周期估计方法
CN109346106B (zh) * 2018-09-06 2022-12-06 河海大学 一种基于子带信噪比加权的倒谱域基音周期估计方法

Also Published As

Publication number Publication date
CN1182513C (zh) 2004-12-29

Similar Documents

Publication Publication Date Title
Okawa et al. Multi-band speech recognition in noisy environments
US8468016B2 (en) Speech feature extraction apparatus, speech feature extraction method, and speech feature extraction program
US7571095B2 (en) Method and apparatus for recognizing speech in a noisy environment
US20080167862A1 (en) Pitch Dependent Speech Recognition Engine
CN1182513C (zh) 基于局部能量加权的抗噪声语音识别方法
Mporas et al. Comparison of speech features on the speech recognition task
Kotnik et al. Robust MFCC feature extraction algorithm using efficient additive and convolutional noise reduction procedures
JP4571871B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
Yusnita et al. Classification of speaker accent using hybrid DWT-LPC features and K-nearest neighbors in ethnically diverse Malaysian English
Ishizuka et al. A feature extraction method using subband based periodicity and aperiodicity decomposition with noise robust frontend processing for automatic speech recognition
Yapanel et al. Robust digit recognition in noise: an evaluation using the AURORA corpus.
Tavanaei et al. Mel-scaled discrete wavelet transform and dynamic features for the Persian phoneme recognition
Shao et al. A versatile speech enhancement system based on perceptual wavelet denoising
US20070219796A1 (en) Weighted likelihood ratio for pattern recognition
Rajnoha et al. Modified feature extraction methods in robust speech recognition
Ganchev et al. Speaker verification based on wavelet packets
Bhowmick et al. Performance evaluation of psycho-acoustically motivated front-end compensator for TIMIT phone recognition
Morales et al. Adding noise to improve noise robustness in speech recognition.
Darling et al. Feature extraction in speech recognition using linear predictive coding: an overview
Ishizuka et al. Speech feature extraction method using subband-based periodicity and nonperiodicity decomposition
Mammone et al. Robust speech processing as an inverse problem
Mandel et al. Analysis-by-synthesis feature estimation for robust automatic speech recognition using spectral masks
Thangarajan et al. A robust front-end processor combining mel frequency cepstral coefficient and sub-band spectral centroid histogram methods for automatic speech recognition
Zigelboim et al. A comparison study of cepstral analysis with applications to speech recognition
Tan et al. Speech feature extraction and reconstruction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee