CN1299127A - 用于自动语音识别的优化的局部特征提取 - Google Patents

用于自动语音识别的优化的局部特征提取 Download PDF

Info

Publication number
CN1299127A
CN1299127A CN00128331.6A CN00128331A CN1299127A CN 1299127 A CN1299127 A CN 1299127A CN 00128331 A CN00128331 A CN 00128331A CN 1299127 A CN1299127 A CN 1299127A
Authority
CN
China
Prior art keywords
node
sound
coefficient
group
dissociation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN00128331.6A
Other languages
English (en)
Other versions
CN1152367C (zh
Inventor
卢卡斯·里加兹奥
戴维·克莱泽
特德·艾波保
让-克劳德·詹卡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1299127A publication Critical patent/CN1299127A/zh
Application granted granted Critical
Publication of CN1152367C publication Critical patent/CN1152367C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

将语言声信号分解成以非对称树数据结构排列的子波,从树中可以选择节点以便最佳地提取局部特征,这是在模型化特定类别声音单元时所需要的。通过积分可以平滑子波分组变换,并且在进行离散的余弦变换之前对子波行组压缩来应用非线性运算。然后可以使用产生的诸如倒频谱系数等子频带特征来构造语音识别器的语音模型。使用以此方式提取的局部特征信息使单个识别器相对于几个不同类别的声音单元是最优的,这样就不需要并行识别器。

Description

用于自动语音识别的优化的局部特征提取
本发明一般涉及语音识别系统,具体地说,涉及用于提取识别特征的基于子波的系统,该系统对于不同的声音类别是优化的。
当分析语音信号时,第一步是提取表征信号的有用的信息的特征。通常,该特征提取过程涉及将语音信号分割成预定帧大小的重叠窗口,然后在该信号窗口上计算快速付立叶变换(FFT)。然后通过放弃对数频谱的付立叶变换中高阶项来提取倒频谱系数的有限集合。然后可以使用产生的倒频谱系数构造语音模型,通常为隐藏式马尔科夫模型。
通常的FFT分析的最大缺点是它的固定时间频率分辩率。在分析语音时,希望使用多个不同的时间频率分辩率,以更好地识别时间频率平面上非线性分布的语音信息。换句话说,希望在为诸如元音等慢速变化结构提供较低时间分辩率时,为快速变化的摩擦音和辅音提供更陡的时间分辩率。不幸的是,当前的技术难于达到。尽管有可能并行地构造和使用一组识别器(每一识别器设计成用于一特定语音特征),这样的方案仍会带来繁重的计算负担。
本发明应用子波技术提供一分析办法,它覆盖了较宽范围的不同语音类别。使用本发明的子波技术,可以构造和使用单一的识别器,其中的语音模型已经通过唯一特征提取过程对于不同类别的声音是优化的。于是本发明的识别器在不增加识别分析过程的复杂性的情况下对于不同的语音类别是优化的。
参照以下结合附图的说明可以完整地理解本发明的目的和优点。
图1是用于说明语音声信号的子波分组变换的当前优选实施例的概念性硬件或软件图;
图2说明了在子频带分析中实施的当前优选时间频率分解;
图3是根据本发明的用于实施子频带特征提取的优选实施例的方框图;
图4描述了用于处理高通滤波器的混叠效应的当前优选技术;以及
图5是一流程图说明了为特定类别声音选择优化的子波树的过程。
本发明的局部特征提取系统使用声波型的子波分解。子波分解可以借助时间上和频率上为局部的函数来表示声信息。于是,子波分解不同于传统的付立叶序列分解。在传统的付立叶分析中,正弦和余弦在频率上是局部的,但在时间和空间上是全局的。例如,一短脉冲具有较慢的衰减系数,难于测量和使用FFT表示。为了表示这样的脉冲,付立叶序列必须完全依靠消除技术。将函数属性与系数属性关联起来的整个付立叶分析是难于通过正弦波函数提供的非局部支持来进行。
给定向量空间S,基是一组向量(e1,…en),ei←S,覆盖空间S。如果对于i≠j,ei与ej线性无关,则基称作完全的并且来自线性代数的每一向量x∈S可以分解在基中(以及重构),只要标量积<x,y>:S→R被定义(R是实数集)为: x = &Sigma; i = 1 n < e i , x < e i
其中<ei,x>ei称为沿着ei的向量的分量,并且集合<ei,x>ei,i=1,…n称为向量在基(e1,...en)上的投影。
函数和信号是一向量空间,只要标量积定义为:
<f,g>=∫f(x)g(x)*dx
其中f,g是函数(或信号,数学上这是用于相同对象的两个名称)并且g*是g的共轭。这意味着能够构造函数空间的基,将函数投影在这样的基中并使用等式1和2重新构造信号。
具体地说,从称为母子波的原型函数W(x)的变换W(x)→W(x+b)和扩展W(x)→W(ax)中构造子波基。一旦母子波满足一些基本属性,通过变换和扩展母子波,如前所述,就可以获得函数空间的基。
本发明的目标是提供一种表示函数,特别是在时间和频率上是局部函数的新方式。如果我们和付立叶序列比较,可以得出正弦和余弦在频率上是局部的,但在时间或空间上是全局的。
本发明利用子波获得在时间和频率上的局部支持。尽管有一些方式可以进行子波分解,当前优选的技术是使用基于在低通和高通分量中对信号进行分解的递归算法。替代地,可以使用迭代过程。
为了说明,图1示出了如何使用按级联树结构排列的低通和高通滤波器来进行子波分解。树中的每个节点包括一个单元块,由高通滤波器10和相应的低通滤波器12组成。在每个滤波器之后是下降采样处理器14,用于提供非冗余表示。原始信号在16输入并且通过反向操作能够由子信号优选地重组。
系统借助分层的时间频率分辩率分析以优化的方式提取局部特征。通过以非平衡方式扩展子波分解树18可以实现该分析过程。就此方面,请注意,在树的底部(在20处)的节点表示的频率分辩率要优于在树的顶部(在22处)的节点表示的频率分辩率。
图2描述了时间频率平面的分解。对于图2底部的最低频率,在0和1kHz之间,其中需要最高频率分辩率,可以在通过七级滤波和下降采样之后得到子信号。对于(以16kHz)采样的信号相应的子波长度为24ms并且频率分辩率为125Hz,相反,对于6KHz之上的最高频率(图2的顶部),其中出现的语音信息较少并且不详细,在通过三级滤波和下降采样之后可以得到子信号。相应的子波长度为3ms并且频率分辩率为1kHz。
图3描述了当前优选的特征提取系统。首先将语音信号提供给子波分组变换块32,该块以如上图1所述的非平衡方式将信号分解成子波。通过将信号馈送到级联的滤波器组中可以在连续的基础上进行对语音信号30的处理。产生的子波变换提供了局部支持,从而可以直接对原始信号进行处理。换句话说,不需要象通常对FFT处理那样应用窗口技术。
优选实施例应用的滤波器是通过理想的低通(或高通)滤波器的频率响应与长度15的Kaiser窗口的频率响应的卷积来设计的,以使滤波器的脉动最小化。目标是在通带和阻带之间获得陡的变换,这样要求滤波器最小重叠。这又导致在滤波器组的输出中较低的相关。在以此方式计算了低通滤波器之后,使用对离散的Dirac函数的脉冲响应和可以确定高通滤波器。
图3中,在34处描述了变换块32的输出,作为表示时间频率分解,其详细情况见图2。
尽管在下降采样之后可以直接使用低通滤波器的输出,优选实施例对高通滤波器的输出进行的附加的处理以反向某种混叠效应(所谓的“Gray code(灰码)”效应)。图4说明了混叠方案。注意,低通滤波和下降采样步骤产生了范围从null频率至Nyquist频率的频率。这一般描述在40。相反,在高通滤波和下降采样之后,维持在从null频率至Nyquist频率范围内的频谱是滤波的信号的高频带频谱的镜像。于是,为了提取高频带的高频带(逐一地应用两个高通滤波器),有必要采用高通滤波器的输出的低频带。这样在高通滤波器工作之后产生了不想要的高通和低通滤波器的反相。
为了弥补,优选实施例对于高通滤波级之下的每个滤波级进行了反相操作,直至进行另一高通滤波级。两个相继的混叠组合效应将抵消。在图4中,在42处示出反相的高频带。
一旦校正了混叠,叶节点滤波器的输出通过进行方框36描述的积分过程被平滑。对于每个子频带1,系统对于相应的子信号x1(n)计算平均幅值(如果∝=1)或平均能量(如果∝=2),称作e1
等式1: e l = 1 N &Sigma; n = l N | x l ( n ) | &Proportional; , l = 1,2 , &CenterDot; &CenterDot; &CenterDot; &CenterDot; , L
可以在每个子频带的相同数目N的系数上计算上述平均值。由于对于树结构每向下一级都将采样速率除2,分层时间分辩率被如图2所示地保存。较大的平均窗口(相应于最低子频带)的大小称为窗口的大小。然后将平均窗口偏移一帧大小以便以帧速率传递子频带幅值。对于最高子频带可以调整平均的子信号采样的数目N,这样平均窗口时间扩展不会小于一帧。然后,如框37所示,进行压缩操作。完成的压缩操作的类型取决于语音信号的属性。对于清洁的语音,可以进行非线性对数运算。对于噪声干扰语音,可以使用开方压缩运算。这些运算对e1进行非线性运算。尽管上述的对数运算是优选的,可以应用其他非线性运算。
如框38所示,通过应用等式2中的离散余弦变换(DCT)可以提取倒频谱系数:
等式2: C K = &Sigma; l = 1 L log ( e l ) cos ( k ( l - 0.5 ) L &pi; ) , k = 0,1 , &CenterDot; &CenterDot; &CenterDot; , K
该结果是一组子频带特征39,可以在构造诸如隐藏马尔科夫模型等语音模型时,表示原语音信号30。
子频带分析提供了许多自由度。必要的话,可以选择滤波器组树中的任意的节点来提供对特定声音类别的时间频率分解。换句话说,不必要仅将叶子节点用在子波分解中。相反地,可以使用叶子节点和中间节点的任何组合。选择哪节点用于特定的声音类别(例如摩擦音、爆破音、其他辅音、元音等)是局部特征提取系统如何为这些不同类别的声音提供优化的结果。
寻找哪节点组合最适合于给定的声音类别的过程是按如下工作的一个迭代过程。
参见图5,用于对给定的声音类别选择优化的树结构的过程运行在标记为100的语料库上。第一步(步骤102)从标记数据中提取感兴趣的声音类别。于是,如果该树对于摩擦音将是最优的,则从标记的训练数据中提取所有表示摩擦音的音素。然后在104,如前所述地计算子波树。在计算完子波树,下一步确定如何最佳地裁剪该树以优化地和考虑的声音类别匹配。描述的过程继续地以递归或迭代方式检验每个节点。
于是在步骤106,对于树的每个节点,计算规一的能量。通过适当的换算使能量(或能量的变换)规一化,这样所有节点的能量之和等于1。如果当前测试的节点的能量低于一预定阈值,如在108测试,则树裁剪算法丢弃该节点以及其子节点。否则,通过使用合适的距离计算其鉴别能量来进一步检验该节点。这描述在步骤110。于是,如步骤112所示,相近似的鉴别能量计算构成了父节点的所有子节点。
对于已计算的父节点和子节点的鉴别能量,步骤114将父节点的鉴别能量与子节点的鉴别能量之和进行比较。如步骤116所示,如果子节点的鉴别能量之和大于父节点的鉴别能量,则该子节点被包括在树中。否则,在步骤118,通过丢弃子节点和这些子节点的后代来裁剪树。
图5描述的过程继续直到每个节点或者被如上所述地测试或由于是一个被排除的节点的子节点而被排除。结果产生一子波树,对于考虑的声音类别是最优化的。在以此方式扩展了一树之后,系统可以继续对不同的声音类别扩展其他树(使用不同的裁剪)。
不同的树可以是最优地鉴别一定的声音组。从一过生长树中提取所有的这些树,这样对于计算希望的特征所使用的优化子树的节点来说,只需一个分解。
可以在这些专门的特征的每个上训练专门的隐藏马尔科夫模型。例如,一组从辅音中鉴别元音的专门模型可以从专门属性中构造,以优化地在这样的声音中高精度地鉴别。
于是通过先识别范围广的(例如辅音对元音),然后再识别该类别中的特定声音,在多通识别范例中实现模型的粗-细分辩率。替代地,在一通系统中可以一起使用所有模型(粗和细分辩率)来产生提供关于发音信息的范围广和范围精细的声音的系列。
尽管,以优选实施例的形式说明了本发明,应理解,在不背离由所附权利要求书限定的本发明的精神实质和范围的条件下,可以对本发明进行许多修改和变型。

Claims (22)

1.一种为自动语音识别提取特征的方法,包括:
使用一组子波分解语言声信号;
定义和选择子波基以加强对特定声音类别的鉴别;和
将所述基应用于所述子波组以产生多个表示从所述语言声信号中提取的特征的分解系数。
2.根据权利要求1的方法,进一步包括将所述子波组表示成分解系数,并且后置处理所述系数以去相关和压缩它们。
3.根据权利要求1的方法,其中语言声信号被采样和以数字形式表示的。
4.根据权利要求1的方法,其中所述子波组被组织成树结构。
5.根据权利要求4的方法,其中所述树结构是从级联的基本处理块得出的二叉树结构。
6.根据权利要求5的方法,其中所述基本处理块在下降采样之后进行高通和低通滤波。
7.根据权利要求4的方法,其中所述树结构定义了多个叶节点,每一个叶节点提供分解系数。
8.根据权利要求4的方法,其中所述树结构定义了根节点,其中所述方法进一步包括连续地将所述语言声信号馈送到所述根节点。
9.根据权利要求4的方法,其中所述树结构定义了多个叶节点,选择叶节点以使预定的声类别的鉴别最大化。
10.根据权利要求1的方法,进一步包括在时间窗口上积分所述分解系数。
11.根据权利要求1的方法,进一步包括对所述分解系数进行非线性运算。
12.根据权利要求11的方法,其中非线性运算包括压缩分解系数。
13.根据权利要求1的方法,其中所述子波组被组织成具有多个节点的数据结构。
14.根据权利要求13的方法,进一步包括计算每个节点的平均幅值。
15.根据权利要求13的方法,进一步包括对选定的节点进行离散余弦变换以提取倒频谱系数。
16.根据权利要求13的方法,进一步包括通过计算表明每个节点上的能量的值并且在计算值低于一预定阈值时裁剪节点,来选择所述节点的一部分。
17.根据权利要求16的方法,其中表明能量的值是一压缩后的能量。
18.根据权利要求4的方法,进一步包括通过计算所述节点的一个第一节点的鉴别能量,并且进一步计算所述节点的所述第一节点的子节点的鉴别能量,并且如果所述子节点的鉴别能量之和小于所述节点的所述第一节点的鉴别能量则裁剪所述子节点,来选择所述节点的一部分。
19.根据权利要求1的方法,包括产生第一多个分解系数以表示第一类别声音和产生第二多个分解系数以表示第二类别声音,并且使用所述第一和第二分解分量产生在语音识别中使用的第一和第二组专用模型。
20.根据权利要求19的方法,其中将所述第一和第二组模型用于多通配置,从而对于识别结果首先使用第一组模型,之后使用第二组模型进行处理。
21.根据权利要求19的方法,其中同时使用所述第一组和第二组模型以提供相应于第一和第二声音类别两者的识别结果。
22.根据权利要求19的方法,其中所述第一类别声音对应于广的声音的类别之间的第一级鉴别,并且其中所述第二类别声音对应于窄的声音类别之间的第二级鉴别。
CNB001283316A 1999-11-24 2000-11-24 用于自动语音识别的优化的局部特征提取 Expired - Lifetime CN1152367C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/449,053 1999-11-24
US09/449,053 US6513004B1 (en) 1999-11-24 1999-11-24 Optimized local feature extraction for automatic speech recognition

Publications (2)

Publication Number Publication Date
CN1299127A true CN1299127A (zh) 2001-06-13
CN1152367C CN1152367C (zh) 2004-06-02

Family

ID=23782687

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB001283316A Expired - Lifetime CN1152367C (zh) 1999-11-24 2000-11-24 用于自动语音识别的优化的局部特征提取

Country Status (7)

Country Link
US (1) US6513004B1 (zh)
EP (1) EP1103951B1 (zh)
JP (1) JP3654831B2 (zh)
CN (1) CN1152367C (zh)
DE (1) DE60018886T2 (zh)
ES (1) ES2240019T3 (zh)
TW (1) TW546630B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1308910C (zh) * 2002-01-30 2007-04-04 摩托罗拉公司 用于构成语音识别参数的方法
CN1312656C (zh) * 2002-09-24 2007-04-25 松下电器产业株式会社 说话人标准化方法及用该方法的语音识别装置
CN1783213B (zh) * 2004-12-01 2010-06-09 纽昂斯通讯公司 用于自动语音识别的方法和装置
CN101996628A (zh) * 2009-08-21 2011-03-30 索尼株式会社 提取语音信号的韵律特征的方法和装置

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7076315B1 (en) 2000-03-24 2006-07-11 Audience, Inc. Efficient computation of log-frequency-scale digital filter cascade
US7337114B2 (en) * 2001-03-29 2008-02-26 International Business Machines Corporation Speech recognition using discriminant features
US20050228518A1 (en) * 2002-02-13 2005-10-13 Applied Neurosystems Corporation Filter set for frequency analysis
KR100436305B1 (ko) * 2002-03-22 2004-06-23 전명근 웨이블렛변환을 이용한 외부노이즈에 강인한 화자식별
ITTO20020306A1 (it) * 2002-04-09 2003-10-09 Loquendo Spa Metodo per l'estrazione di caratteristiche di un segnale vocale e relativo sistema di riconoscimento vocale.
US7940844B2 (en) 2002-06-18 2011-05-10 Qualcomm Incorporated Video encoding and decoding techniques
TW564375B (en) * 2002-09-17 2003-12-01 Ind Tech Res Inst Amplitude phase shift information embedding and detecting method based on phase features
US7343284B1 (en) 2003-07-17 2008-03-11 Nortel Networks Limited Method and system for speech processing for enhancement and detection
JP4649859B2 (ja) * 2004-03-25 2011-03-16 ソニー株式会社 信号処理装置および方法、記録媒体、並びにプログラム
US7729909B2 (en) * 2005-03-04 2010-06-01 Panasonic Corporation Block-diagonal covariance joint subspace tying and model compensation for noise robust automatic speech recognition
US7729908B2 (en) * 2005-03-04 2010-06-01 Panasonic Corporation Joint signal and model based noise matching noise robustness method for automatic speech recognition
US9042461B2 (en) 2005-03-10 2015-05-26 Qualcomm Incorporated Efficient employment of digital upsampling using IFFT in OFDM systems for simpler analog filtering
JP4760179B2 (ja) * 2005-07-15 2011-08-31 ヤマハ株式会社 音声特徴量算出装置およびプログラム
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
US8194880B2 (en) 2006-01-30 2012-06-05 Audience, Inc. System and method for utilizing omni-directional microphones for speech enhancement
US8204252B1 (en) 2006-10-10 2012-06-19 Audience, Inc. System and method for providing close microphone adaptive array processing
US8744844B2 (en) 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
US9185487B2 (en) 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
KR100655953B1 (ko) 2006-02-06 2006-12-11 한양대학교 산학협력단 웨이블릿 패킷 변환을 이용한 음성 처리 시스템 및 그 방법
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8150065B2 (en) * 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
US8204253B1 (en) 2008-06-30 2012-06-19 Audience, Inc. Self calibration of audio device
US8849231B1 (en) 2007-08-08 2014-09-30 Audience, Inc. System and method for adaptive power control
US8934641B2 (en) * 2006-05-25 2015-01-13 Audience, Inc. Systems and methods for reconstructing decomposed audio signals
KR100798056B1 (ko) 2006-10-24 2008-01-28 한양대학교 산학협력단 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성처리 방법
KR100789084B1 (ko) 2006-11-21 2007-12-26 한양대학교 산학협력단 웨이블릿 패킷 영역에서 비선형 구조의 과중 이득에 의한음질 개선 방법
KR20080053739A (ko) * 2006-12-11 2008-06-16 삼성전자주식회사 적응적으로 윈도우 크기를 적용하는 부호화 장치 및 방법
US8259926B1 (en) 2007-02-23 2012-09-04 Audience, Inc. System and method for 2-channel and 3-channel acoustic echo cancellation
US8189766B1 (en) 2007-07-26 2012-05-29 Audience, Inc. System and method for blind subband acoustic echo cancellation postfiltering
US8631060B2 (en) * 2007-12-13 2014-01-14 Qualcomm Incorporated Fast algorithms for computation of 5-point DCT-II, DCT-IV, and DST-IV, and architectures
US8180064B1 (en) 2007-12-21 2012-05-15 Audience, Inc. System and method for providing voice equalization
US8143620B1 (en) 2007-12-21 2012-03-27 Audience, Inc. System and method for adaptive classification of audio sources
US8194882B2 (en) 2008-02-29 2012-06-05 Audience, Inc. System and method for providing single microphone noise suppression fallback
US8355511B2 (en) 2008-03-18 2013-01-15 Audience, Inc. System and method for envelope-based acoustic echo cancellation
US8521530B1 (en) 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
US8774423B1 (en) 2008-06-30 2014-07-08 Audience, Inc. System and method for controlling adaptivity of signal modification using a phantom coefficient
US8655811B2 (en) * 2009-01-29 2014-02-18 Raytheon Company Method and system for data stream identification by evaluation of the most efficient path through a transformation tree
US8359195B2 (en) * 2009-03-26 2013-01-22 LI Creative Technologies, Inc. Method and apparatus for processing audio and speech signals
WO2011037587A1 (en) * 2009-09-28 2011-03-31 Nuance Communications, Inc. Downsampling schemes in a hierarchical neural network structure for phoneme recognition
US9008329B1 (en) 2010-01-26 2015-04-14 Audience, Inc. Noise reduction using multi-feature cluster tracker
US8423516B2 (en) * 2010-09-15 2013-04-16 International Business Machines Corporation Speculative execution in a real-time data environment
GB201203717D0 (en) 2012-03-02 2012-04-18 Speir Hunter Ltd Fault detection for pipelines
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
CN108535636A (zh) * 2018-05-16 2018-09-14 武汉大学 一种模拟电路基于参数随机分布邻近嵌入胜者为王的故障特征提取方法
CN110174281B (zh) * 2019-06-05 2021-08-13 北京博识创智科技发展有限公司 一种机电设备故障诊断方法及系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4805219A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech recognition
US5321776A (en) * 1992-02-26 1994-06-14 General Electric Company Data compression system including successive approximation quantizer
US5715367A (en) * 1995-01-23 1998-02-03 Dragon Systems, Inc. Apparatuses and methods for developing and using models for speech recognition
WO1997015145A1 (en) * 1995-10-18 1997-04-24 Philips Electronics N.V. Region-based texture coding and decoding method, and corresponding systems
US5926791A (en) * 1995-10-26 1999-07-20 Sony Corporation Recursively splitting the low-frequency band with successively fewer filter taps in methods and apparatuses for sub-band encoding, decoding, and encoding and decoding
US5852806A (en) * 1996-03-19 1998-12-22 Lucent Technologies Inc. Switched filterbank for use in audio signal coding
US6026359A (en) 1996-09-20 2000-02-15 Nippon Telegraph And Telephone Corporation Scheme for model adaptation in pattern recognition based on Taylor expansion
US6058205A (en) * 1997-01-09 2000-05-02 International Business Machines Corporation System and method for partitioning the feature space of a classifier in a pattern classification system
JPH11191153A (ja) * 1997-12-26 1999-07-13 Ricoh Co Ltd ウェーブレット変換係数の符号化方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1308910C (zh) * 2002-01-30 2007-04-04 摩托罗拉公司 用于构成语音识别参数的方法
CN1312656C (zh) * 2002-09-24 2007-04-25 松下电器产业株式会社 说话人标准化方法及用该方法的语音识别装置
CN1783213B (zh) * 2004-12-01 2010-06-09 纽昂斯通讯公司 用于自动语音识别的方法和装置
CN101996628A (zh) * 2009-08-21 2011-03-30 索尼株式会社 提取语音信号的韵律特征的方法和装置

Also Published As

Publication number Publication date
EP1103951A2 (en) 2001-05-30
US6513004B1 (en) 2003-01-28
ES2240019T3 (es) 2005-10-16
EP1103951A3 (en) 2001-09-26
TW546630B (en) 2003-08-11
JP3654831B2 (ja) 2005-06-02
DE60018886D1 (de) 2005-04-28
DE60018886T2 (de) 2006-02-09
CN1152367C (zh) 2004-06-02
EP1103951B1 (en) 2005-03-23
JP2001184083A (ja) 2001-07-06

Similar Documents

Publication Publication Date Title
CN1152367C (zh) 用于自动语音识别的优化的局部特征提取
Févotte et al. Sparse linear regression with structured priors and application to denoising of musical audio
US20030236661A1 (en) System and method for noise-robust feature extraction
JP2001356791A (ja) 変換行列を用いた自動音声認識の雑音適応化方法
Trivedi et al. Speech recognition by wavelet analysis
Sunny et al. Recognition of speech signals: an experimental comparison of linear predictive coding and discrete wavelet transforms
Krishnan et al. Features of wavelet packet decomposition and discrete wavelet transform for malayalam speech recognition
KR20090063202A (ko) 감정 인식 장치 및 방법
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Sunny et al. Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam
Farooq et al. Mel-scaled wavelet filter based features for noisy unvoiced phoneme recognition
Karam A comprehensive approach for speech related multimedia applications
Karam Various speech processing techniques for speech compression and recognition
Mirhassani et al. Fuzzy decision fusion of complementary experts based on evolutionary cepstral coefficients for phoneme recognition
CN117975994B (zh) 嗓音数据的质量分类方法、装置以及计算机设备
CN117935826B (zh) 音频升采样方法、装置、设备及存储介质
JP3012994B2 (ja) 音韻識別方法
Hua Do WaveNets Dream of Acoustic Waves?
Eshaghi et al. A New VAD Algorithm using Sparse Representation in Spectro-Temporal Domain
JP3218681B2 (ja) 背景雑音検出方法及び高能率符号化方法
Karam et al. New wavelet packet model for automatic speech recognition system
Abou-Loukh et al. Isolated Word Speech Recognition Using Mixed Transform
Al-Hassani et al. A New Robust Resonance Based Wavelet Decomposition Cepstral Features for Phoneme Recoszgnition
Vassallo et al. Phoneme recognition using neural networks
Alak Speech signal denoising with wavelets

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20140714

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140714

Address after: California, USA

Patentee after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Osaka Japan

Patentee before: Matsushita Electric Industrial Co.,Ltd.

CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20040602