CN1299127A

CN1299127A - 用于自动语音识别的优化的局部特征提取

Info

Publication number: CN1299127A
Application number: CN00128331.6A
Authority: CN
Inventors: 卢卡斯·里加兹奥; 戴维·克莱泽; 特德·艾波保; 让－克劳德·詹卡
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 1999-11-24
Filing date: 2000-11-24
Publication date: 2001-06-13
Anticipated expiration: 2020-11-24
Also published as: DE60018886D1; EP1103951A2; EP1103951B1; JP3654831B2; EP1103951A3; CN1152367C; TW546630B; ES2240019T3; DE60018886T2; JP2001184083A; US6513004B1

Abstract

将语言声信号分解成以非对称树数据结构排列的子波,从树中可以选择节点以便最佳地提取局部特征,这是在模型化特定类别声音单元时所需要的。通过积分可以平滑子波分组变换,并且在进行离散的余弦变换之前对子波行组压缩来应用非线性运算。然后可以使用产生的诸如倒频谱系数等子频带特征来构造语音识别器的语音模型。使用以此方式提取的局部特征信息使单个识别器相对于几个不同类别的声音单元是最优的,这样就不需要并行识别器。

Description

用于自动语音识别的优化的局部特征提取

本发明一般涉及语音识别系统，具体地说，涉及用于提取识别特征的基于子波的系统，该系统对于不同的声音类别是优化的。

当分析语音信号时，第一步是提取表征信号的有用的信息的特征。通常，该特征提取过程涉及将语音信号分割成预定帧大小的重叠窗口，然后在该信号窗口上计算快速付立叶变换(FFT)。然后通过放弃对数频谱的付立叶变换中高阶项来提取倒频谱系数的有限集合。然后可以使用产生的倒频谱系数构造语音模型，通常为隐藏式马尔科夫模型。

通常的FFT分析的最大缺点是它的固定时间频率分辩率。在分析语音时，希望使用多个不同的时间频率分辩率，以更好地识别时间频率平面上非线性分布的语音信息。换句话说，希望在为诸如元音等慢速变化结构提供较低时间分辩率时，为快速变化的摩擦音和辅音提供更陡的时间分辩率。不幸的是，当前的技术难于达到。尽管有可能并行地构造和使用一组识别器(每一识别器设计成用于一特定语音特征)，这样的方案仍会带来繁重的计算负担。

本发明应用子波技术提供一分析办法，它覆盖了较宽范围的不同语音类别。使用本发明的子波技术，可以构造和使用单一的识别器，其中的语音模型已经通过唯一特征提取过程对于不同类别的声音是优化的。于是本发明的识别器在不增加识别分析过程的复杂性的情况下对于不同的语音类别是优化的。

参照以下结合附图的说明可以完整地理解本发明的目的和优点。

图1是用于说明语音声信号的子波分组变换的当前优选实施例的概念性硬件或软件图；

图2说明了在子频带分析中实施的当前优选时间频率分解；

图3是根据本发明的用于实施子频带特征提取的优选实施例的方框图；

图4描述了用于处理高通滤波器的混叠效应的当前优选技术；以及

图5是一流程图说明了为特定类别声音选择优化的子波树的过程。

本发明的局部特征提取系统使用声波型的子波分解。子波分解可以借助时间上和频率上为局部的函数来表示声信息。于是，子波分解不同于传统的付立叶序列分解。在传统的付立叶分析中，正弦和余弦在频率上是局部的，但在时间和空间上是全局的。例如，一短脉冲具有较慢的衰减系数，难于测量和使用FFT表示。为了表示这样的脉冲，付立叶序列必须完全依靠消除技术。将函数属性与系数属性关联起来的整个付立叶分析是难于通过正弦波函数提供的非局部支持来进行。

给定向量空间S，基是一组向量(e₁,…e_n),e_i←S，覆盖空间S。如果对于i≠j,e_i与e_j线性无关，则基称作完全的并且来自线性代数的每一向量x∈S可以分解在基中(以及重构)，只要标量积<x,y>：S→R被定义(R是实数集)为：

x = Σ_{i = 1}^{n} < e_{i}, x < e_{i}

其中<e_i,x>e_i称为沿着e_i的向量的分量，并且集合<e_i,x>e_i,i=1,…n称为向量在基(e₁,...e_n)上的投影。

函数和信号是一向量空间，只要标量积定义为：

<f,g>=∫f(x)g(x)^*dx

其中f,g是函数(或信号，数学上这是用于相同对象的两个名称)并且g^*是g的共轭。这意味着能够构造函数空间的基，将函数投影在这样的基中并使用等式1和2重新构造信号。

具体地说，从称为母子波的原型函数W(x)的变换W(x)→W(x+b)和扩展W(x)→W(ax)中构造子波基。一旦母子波满足一些基本属性，通过变换和扩展母子波，如前所述，就可以获得函数空间的基。

本发明的目标是提供一种表示函数，特别是在时间和频率上是局部函数的新方式。如果我们和付立叶序列比较，可以得出正弦和余弦在频率上是局部的，但在时间或空间上是全局的。

本发明利用子波获得在时间和频率上的局部支持。尽管有一些方式可以进行子波分解，当前优选的技术是使用基于在低通和高通分量中对信号进行分解的递归算法。替代地，可以使用迭代过程。

为了说明，图1示出了如何使用按级联树结构排列的低通和高通滤波器来进行子波分解。树中的每个节点包括一个单元块，由高通滤波器10和相应的低通滤波器12组成。在每个滤波器之后是下降采样处理器14，用于提供非冗余表示。原始信号在16输入并且通过反向操作能够由子信号优选地重组。

系统借助分层的时间频率分辩率分析以优化的方式提取局部特征。通过以非平衡方式扩展子波分解树18可以实现该分析过程。就此方面，请注意，在树的底部(在20处)的节点表示的频率分辩率要优于在树的顶部(在22处)的节点表示的频率分辩率。

图2描述了时间频率平面的分解。对于图2底部的最低频率，在0和1kHz之间，其中需要最高频率分辩率，可以在通过七级滤波和下降采样之后得到子信号。对于(以16kHz)采样的信号相应的子波长度为24ms并且频率分辩率为125Hz，相反，对于6KHz之上的最高频率(图2的顶部)，其中出现的语音信息较少并且不详细，在通过三级滤波和下降采样之后可以得到子信号。相应的子波长度为3ms并且频率分辩率为1kHz。

图3描述了当前优选的特征提取系统。首先将语音信号提供给子波分组变换块32，该块以如上图1所述的非平衡方式将信号分解成子波。通过将信号馈送到级联的滤波器组中可以在连续的基础上进行对语音信号30的处理。产生的子波变换提供了局部支持，从而可以直接对原始信号进行处理。换句话说，不需要象通常对FFT处理那样应用窗口技术。

优选实施例应用的滤波器是通过理想的低通(或高通)滤波器的频率响应与长度15的Kaiser窗口的频率响应的卷积来设计的，以使滤波器的脉动最小化。目标是在通带和阻带之间获得陡的变换，这样要求滤波器最小重叠。这又导致在滤波器组的输出中较低的相关。在以此方式计算了低通滤波器之后，使用对离散的Dirac函数的脉冲响应和可以确定高通滤波器。

图3中，在34处描述了变换块32的输出，作为表示时间频率分解，其详细情况见图2。

尽管在下降采样之后可以直接使用低通滤波器的输出，优选实施例对高通滤波器的输出进行的附加的处理以反向某种混叠效应(所谓的“Gray code(灰码)”效应)。图4说明了混叠方案。注意，低通滤波和下降采样步骤产生了范围从null频率至Nyquist频率的频率。这一般描述在40。相反，在高通滤波和下降采样之后，维持在从null频率至Nyquist频率范围内的频谱是滤波的信号的高频带频谱的镜像。于是，为了提取高频带的高频带(逐一地应用两个高通滤波器)，有必要采用高通滤波器的输出的低频带。这样在高通滤波器工作之后产生了不想要的高通和低通滤波器的反相。

为了弥补，优选实施例对于高通滤波级之下的每个滤波级进行了反相操作，直至进行另一高通滤波级。两个相继的混叠组合效应将抵消。在图4中，在42处示出反相的高频带。

一旦校正了混叠，叶节点滤波器的输出通过进行方框36描述的积分过程被平滑。对于每个子频带1，系统对于相应的子信号x₁(n)计算平均幅值(如果∝=1)或平均能量(如果∝=2)，称作e₁：

等式1：

e_{l} = \frac{1}{N} Σ_{n = l}^{N} {| x_{l} (n) |}^{&Proportional;}, l = 1,2, \cdot \cdot \cdot \cdot, L

可以在每个子频带的相同数目N的系数上计算上述平均值。由于对于树结构每向下一级都将采样速率除2，分层时间分辩率被如图2所示地保存。较大的平均窗口(相应于最低子频带)的大小称为窗口的大小。然后将平均窗口偏移一帧大小以便以帧速率传递子频带幅值。对于最高子频带可以调整平均的子信号采样的数目N，这样平均窗口时间扩展不会小于一帧。然后，如框37所示，进行压缩操作。完成的压缩操作的类型取决于语音信号的属性。对于清洁的语音，可以进行非线性对数运算。对于噪声干扰语音，可以使用开方压缩运算。这些运算对e₁进行非线性运算。尽管上述的对数运算是优选的，可以应用其他非线性运算。

如框38所示，通过应用等式2中的离散余弦变换(DCT)可以提取倒频谱系数：

等式2：

C_{K} = Σ_{l = 1}^{L} \log (e_{l}) \cos (\frac{k (l - 0.5)}{L} π), k = 0,1, \cdot \cdot \cdot, K

该结果是一组子频带特征39，可以在构造诸如隐藏马尔科夫模型等语音模型时，表示原语音信号30。

子频带分析提供了许多自由度。必要的话，可以选择滤波器组树中的任意的节点来提供对特定声音类别的时间频率分解。换句话说，不必要仅将叶子节点用在子波分解中。相反地，可以使用叶子节点和中间节点的任何组合。选择哪节点用于特定的声音类别(例如摩擦音、爆破音、其他辅音、元音等)是局部特征提取系统如何为这些不同类别的声音提供优化的结果。

寻找哪节点组合最适合于给定的声音类别的过程是按如下工作的一个迭代过程。

参见图5，用于对给定的声音类别选择优化的树结构的过程运行在标记为100的语料库上。第一步(步骤102)从标记数据中提取感兴趣的声音类别。于是，如果该树对于摩擦音将是最优的，则从标记的训练数据中提取所有表示摩擦音的音素。然后在104，如前所述地计算子波树。在计算完子波树，下一步确定如何最佳地裁剪该树以优化地和考虑的声音类别匹配。描述的过程继续地以递归或迭代方式检验每个节点。

于是在步骤106，对于树的每个节点，计算规一的能量。通过适当的换算使能量(或能量的变换)规一化，这样所有节点的能量之和等于1。如果当前测试的节点的能量低于一预定阈值，如在108测试，则树裁剪算法丢弃该节点以及其子节点。否则，通过使用合适的距离计算其鉴别能量来进一步检验该节点。这描述在步骤110。于是，如步骤112所示，相近似的鉴别能量计算构成了父节点的所有子节点。

对于已计算的父节点和子节点的鉴别能量，步骤114将父节点的鉴别能量与子节点的鉴别能量之和进行比较。如步骤116所示，如果子节点的鉴别能量之和大于父节点的鉴别能量，则该子节点被包括在树中。否则，在步骤118，通过丢弃子节点和这些子节点的后代来裁剪树。

图5描述的过程继续直到每个节点或者被如上所述地测试或由于是一个被排除的节点的子节点而被排除。结果产生一子波树，对于考虑的声音类别是最优化的。在以此方式扩展了一树之后，系统可以继续对不同的声音类别扩展其他树(使用不同的裁剪)。

不同的树可以是最优地鉴别一定的声音组。从一过生长树中提取所有的这些树，这样对于计算希望的特征所使用的优化子树的节点来说，只需一个分解。

可以在这些专门的特征的每个上训练专门的隐藏马尔科夫模型。例如，一组从辅音中鉴别元音的专门模型可以从专门属性中构造，以优化地在这样的声音中高精度地鉴别。

于是通过先识别范围广的(例如辅音对元音)，然后再识别该类别中的特定声音，在多通识别范例中实现模型的粗-细分辩率。替代地，在一通系统中可以一起使用所有模型(粗和细分辩率)来产生提供关于发音信息的范围广和范围精细的声音的系列。

尽管，以优选实施例的形式说明了本发明，应理解，在不背离由所附权利要求书限定的本发明的精神实质和范围的条件下，可以对本发明进行许多修改和变型。

Claims

1．一种为自动语音识别提取特征的方法，包括：

使用一组子波分解语言声信号；

定义和选择子波基以加强对特定声音类别的鉴别；和

将所述基应用于所述子波组以产生多个表示从所述语言声信号中提取的特征的分解系数。

2．根据权利要求1的方法，进一步包括将所述子波组表示成分解系数，并且后置处理所述系数以去相关和压缩它们。

3．根据权利要求1的方法，其中语言声信号被采样和以数字形式表示的。

4．根据权利要求1的方法，其中所述子波组被组织成树结构。

5．根据权利要求4的方法，其中所述树结构是从级联的基本处理块得出的二叉树结构。

6．根据权利要求5的方法，其中所述基本处理块在下降采样之后进行高通和低通滤波。

7．根据权利要求4的方法，其中所述树结构定义了多个叶节点，每一个叶节点提供分解系数。

8．根据权利要求4的方法，其中所述树结构定义了根节点，其中所述方法进一步包括连续地将所述语言声信号馈送到所述根节点。

9．根据权利要求4的方法，其中所述树结构定义了多个叶节点，选择叶节点以使预定的声类别的鉴别最大化。

10．根据权利要求1的方法，进一步包括在时间窗口上积分所述分解系数。

11．根据权利要求1的方法，进一步包括对所述分解系数进行非线性运算。

12．根据权利要求11的方法，其中非线性运算包括压缩分解系数。

13．根据权利要求1的方法，其中所述子波组被组织成具有多个节点的数据结构。

14．根据权利要求13的方法，进一步包括计算每个节点的平均幅值。

15．根据权利要求13的方法，进一步包括对选定的节点进行离散余弦变换以提取倒频谱系数。

16．根据权利要求13的方法，进一步包括通过计算表明每个节点上的能量的值并且在计算值低于一预定阈值时裁剪节点，来选择所述节点的一部分。

17．根据权利要求16的方法，其中表明能量的值是一压缩后的能量。

18．根据权利要求4的方法，进一步包括通过计算所述节点的一个第一节点的鉴别能量，并且进一步计算所述节点的所述第一节点的子节点的鉴别能量，并且如果所述子节点的鉴别能量之和小于所述节点的所述第一节点的鉴别能量则裁剪所述子节点，来选择所述节点的一部分。

19．根据权利要求1的方法，包括产生第一多个分解系数以表示第一类别声音和产生第二多个分解系数以表示第二类别声音，并且使用所述第一和第二分解分量产生在语音识别中使用的第一和第二组专用模型。

20．根据权利要求19的方法，其中将所述第一和第二组模型用于多通配置，从而对于识别结果首先使用第一组模型，之后使用第二组模型进行处理。

21．根据权利要求19的方法，其中同时使用所述第一组和第二组模型以提供相应于第一和第二声音类别两者的识别结果。

22．根据权利要求19的方法，其中所述第一类别声音对应于广的声音的类别之间的第一级鉴别，并且其中所述第二类别声音对应于窄的声音类别之间的第二级鉴别。