CN1132147C

CN1132147C - 语音识别系统中的特征提取方法

Info

Publication number: CN1132147C
Application number: CN00102407A
Authority: CN
Inventors: 丹尼尔·查尔斯·鲍伯特
Original assignee: Motorola Inc
Current assignee: Motorola Mobility LLC; Google Technology Holdings LLC
Priority date: 1999-02-23
Filing date: 2000-02-23
Publication date: 2003-12-24
Anticipated expiration: 2020-02-23
Also published as: KR100321464B1; KR20000071366A; US6182036B1; CN1264889A; GB2347775B; JP4912518B2; GB2347775A; JP2000250576A; GB0003949D0

Abstract

用于语音识别系统的特征提取方法包括从数字化信号中产生表示性系数(204)。从表示性系数产生差分系数(304、305)。表示性系数和差分系数的一部分被提取出来构成特征矢量(307)。

Description

语音识别系统中的特征提取方法

技术领域

本发明是关于语音识别的，更具体地说，是关于语音识别系统中的特征提取。

背景技术

在一个依赖于说话者的语音识别系统中，使用者必须登录他们在使用系统时所希望得到的词汇词，一个词汇“词”可以是单个的被说出的词或一个短语，而所选择的词汇词依赖于具体的应用。例如，在便携式无线电话中语音识别的实现可能需要使用者提供经常被呼叫者的名字和地址(例如“Fred办公室”)，或者用户界面中通常可得到的常用特性所用的命令(例如“蓄电池安时计”，“消息”或“电话锁定”)。

在登录(enrollment)过程中，语音识别系统响应使用者的输入，对每个词汇词提取出代表样板。在一些系统中，这种样板由一个含有一系列状态的隐式马尔科夫模型(HMM)表示。每个状态表示一个语言发音(speech utterance)的有限一段：这里使用“发音”表示一个“词汇词”，它可以包含一个或多个词。HMM的每个状态的统计表示是使用由使用者发音的具体词汇词的一个或多个登录语音样本计算出来的。这里通过帧的状态赋值(frame-to-state assignment)来完成的。

这种状态赋值用于训练和语音识别两种操作方式。具体地说，被赋值的状态用于在训练方式中建立模型，该模型在语音识别方式过程中作为比较基准。在语音识别操作方式中，对输入发音的赋值能用于产生得分(score)信息和把输入的发音与所存储参考模型进行比较。

对位算法(alignment algorithm)，例如Viterbi算法，用于发音的帧到状态对位。这种对位算法提供了语言发音对模型的最好匹配，用于把词汇词发音的每一帧赋予该模型的单个状态。利用这一赋值能改善对每个状态的统计表示。

因为信息量大，所以大多数语音识别系统需要大量的易失性存储器(如随机存取存储器(RAM))和非易失性存储器(NVM)(如闪烁ROM或电可擦只读存储器(EEPROM))。对于成本敏感的应用，如便携式无线通信装置，这些存储器需求会是致命性地昂贵。此外，语音识别系统需要显著的计算要求，这种要求以每秒数百万条指令(MIPS)来计量。对于训练和语音识别，需要大量MIPS。这一大量MIPS需求，会由于使用有用的资源和降低操作速度而从负面影响使用语音识别的装置的性能。

为了在一便携式装置上实现依赖于说话者的训练和识别算法，例如在无线通信装置上，其中只有很小的随机存取存储器(RAM)能被利用，因此需要有一种方法，它能支持一个较小的存储器和使用较少的MIPS，而不会在所有环境中对识别产生显著的负面影响。

发明内容

本发明公开了一种用于语音识别系统的提取特征的方法，包含以下步骤：输入一数字化信号；从数字化信号产生各表示性系数；从表示性系数产生各差分系数；以及选择性地仅使用表示性系数和差分系数的一部分，以通过使用间隔的系数构成特征集来构成特征集。

附图说明

图1是以方框图形式说明一无线电话的电路图。

图2是以方框图形式说明一语音识别输入的电路图。

图3是特征提取电路的功能方框图。

图4是说明特征提取算法的流程图。

图5是说明使用不同的缩短矢量长度方法时语音识别系统的性能。

具体实施方式

一种新的特征提取技术产生较小的特征矢量以用于代表输入的声音，从而减小了为代表一个发音(utterance)所需要的存储器大小。该方法通过使用一个较小的特征矢量来代表每个发音，从而显著地减小了：易失性存储器(如RAM)需求；NVM(如EEPROM)需求；以及语音识别算法的MIPS需求。虽然这里给出的描述是使用隐式马尔科夫模型(HMM)的孤立词依赖于说话者的语音识别系统的一个举例，本发明能应用于广泛多样的语音识别系统，包括不依赖于说话者的，连接词的语音识别系统，还能应用于其他语音识别系统，如动态时间偏离(dynamie time warping)。

图1中公开的装置100中能有利地利用本发明。为了说明的目的，这里把装置100描述为一个便携式无线电话，但它可以是一个计算机、一个个人数字助理或任何其他能有利地利用语音识别的装置，特别是能利用高效存储语音识别系统优点的装置。图示的无线电话包括发射机102和接收机104，它们连于天线106。发射机102和接收机104连于一个呼叫处理器108，它完成呼叫处理功能。可以用数字信号处理器(DSP)、微处理器、微控制器、可编程逻辑单元、上述两种或多种的组合、或任何其他适当的数字电路，来实现呼叫处理器108。

呼叫处理器108与存储器110相连。存储器110包含RAM、电可擦可编程只读存储器(EEPROM)、只读存储器(ROM)、闪烁ROM、或类似存储器、或者这些存储器类型的两种或多种的组合。存储器110支持呼叫处理器108的操作，包括语音识别操作，而且应该包括一个电子可变存储器以支持状态转移路径存储器。可提供ROM用于存储该装置的操作程序。

音频电路112向呼叫处理器108提供来自送话器114的数字化信号。音频电路112驱动扬声器116响应来自呼叫处理器108的数字信号。

呼叫处理器108与一显示处理器120相连。显示处理器是可选的，如果希望对装置100有附加的处理器支持的话。具体地说，显示处理器120向显示器126提供显示控制信号和接收来自各键124的输入。显示处理器120能由微处理器、微控制器、数字信号处理器、可编程逻辑单元。它们的组合或类似装置来实现。存储器122与显示处理器相连以支持其中的数字逻辑。存储器122能用RAM、EEPROM、ROM、闪烁ROM、或其类似物、或两种或多种这些类型存储器的组合来实现。

参考图2，由送话器114接收的音频信号在音频电路112的模-数转换器202中被转换成数字信号。本领域技术人员将会理解，音频电路112提供额外的信号处理，如滤波，为了简练，这里将不予描述。呼叫处理器108在被处理的数字信号表示上完成特征提取204，这数字信号表示是送话器输出的模拟信号的代表，并产生一组代表使用者发音的特征矢量。对每个短时分析窗产生一个特征矢量。短时分析窗是一帧，在这里所举的实例中是20ms。这样，每帧有一个特征矢量。处理器108把这些特征用于语音识别206或训练207。

在训练过程中，发音的特征矢量被用于建立HMM形式的样板，它们存储在存储器208中。在语音识别过程中，代表输入发音的特征矢量与在存储器208中存储的词汇词样板作比较，以确定使用者说了什么。系统可以输出一个最好匹配、一组最好匹配、或可选地无匹配输出。存储器208最好是存储器110(图1)的非易失存储器部分，例如可以是EEPROM或闪烁ROM。如这里所用的那样，“词”可以是不只一个词，例如“John Doe”，或单个词，如“call(呼叫)”。

特征提取器204通常完成对输入语音帧的信号处理，并以帧速率输出代表每帧的特征矢量。帧速率通常为10到30ms之间，其持续时间可以是例如20ms。训练器207使用从词或短语的一个或多个发音(utterance)的取样语音(speech)中提取出的特征来产生那个词或短语的模型参数。然后这个模型被存储在模型存储非易失存储器208中。模型的大小直接依赖于特征矢量长度，所以较长的特征矢量长度需要较大的存储器。

然后，在存储器208中存储的模型被用于识别过程206。识别系统完成未知发音特征与所存储模型参数的比较，以确定最好匹配。然后最好的匹配模型从识别系统中输出，作为结果。

如框204所示，若干类型的特征已被有效地用作为特征提取的输出。某些早期的语音识别系统作用滤波器库能量(filter bank energy)。例如，对于每个数据帧，一个滤波器库的14个滤波器的每一个中的能量将以帧速率传送到训练或识别软件，这个速率是每20ms一帧。线性预测代码(LPC)参数也被有效地利用。许多现代系统使用Mel-频率倒谱系数(MFCC)，它们是使用偏离的(warped)Mel-频率标度计算出的倒谱系数。通过附加使用δ-MFCC(delta-MFCC)能改善识别结果，δ-MFCC只不过是MFCC时间导数的估计值。

在语音识别系统中使用MFCC和δ-MFCC是众所周知的。如下文中要说明的那样，希望有这样的特征矢量，它给出的识别性能与MFCC和δ-MFCC组合特征矢量的识别性能等价，但同时比MFCC和δ-MFCC组合特征矢量要短得多。

已知几种类型的倒谱系数，其中任何一种都能被使用。例如，LPC倒谱系数，而且有多种方式计算这些系数。本领域技术人员将会理解，这些方式中的任何一种都能用于替代MFCC。

在图3中特征提取被扩展以说明特征提取的MFCC和δ-MFCC举例。采样语音(模数转换器202的输出)被输入到滤波器301，其中进行滤波，例如预加重(pre-emphasis)，以在频谱上使语音信号变平并去掉语音频谱中不希望要的部分。然后，被滤波的信号进入可选的噪声压低器，它压低背景噪声，例如在一个不用手的汽车应用中的发动机噪声。被压低噪声的输出被输入到滤波器库303，它完成滤波器库能量估计。滤波器库输出对整个语音帧的M个频段的一个滤波器库k的能量估计Sn(k)，这里n是20ms语音数据，在本描述中n以此为例。

滤波器库可基于Mel-频率标度，该标度是基于一种感性的频率标度。这一标度在低频是线性的(例如低于阈值1KHz)，而在此阈值以上是对数的。然后，在帧n的滤波器库能量估计被放入倒谱系数计算器304。它对于帧n，由滤波器库能量计算代表性系数，这里表示为倒谱系数Cn(i)，

C_{n} (i) = Σ_{K = 1}^{M} \log | S_{n} (k) | \cos (Π (k - 0.5) i / M)

这里i是倒谱矢量的脚标，其范围是0到N，这里N+1是倒谱特征的希望长度，且N+1≤M。然后倒谱特征被输入到差分器305，在这里可以估计出导数δ_n(i)，例如由下式得出：

δ_{n} (i) = Σ_{k = 1}^{D} a_{k} (C_{n + k} (i) - C_{n - k} (i))

这里

Σ_{K = 1}^{D} a_{k} = 1 .

本领域技术人员将会理解，存在许多其他途径计算倒谱型特征和估计它们的导数，但这些方法以举例方式提供。

本发明通过减小特征矢量长度来减小语音识别系统所需存储量，又不对可能得到的信息量造成有害影响。本发明者发现，特征矢量的大多数相邻元素是相关的，诸如发现C_n(i)与C_n(i+1)和C_n(i-1)相关，发现δ_n(i)与δ_n(i+1)和δ_n(i-1)相关。还有，发现在δ-倒谱特征中的元素与它们对应的倒谱特征元素相关，换句话说，发现C_n(i)与δ_n(i)相关。

利用这一信息，用6个倒谱特征Cm_n(i)＝C_n(2i-1)，其中i＝1到6，和7个δ-倒谱特征δm_n(i)＝δ_n(2i)，其中，i＝0到6，来构成一个新的特征矢量。提取器307去掉特征矢量的相关元素，并留下由系数发生器304和差分器305输出的系数的这些部分。如从公式中能看到的那样，特征矢量的相邻元素已被去掉，而且对每个i已去掉了C_n(i)和δ_n(i)二者当中的一个。由连接器(concatenator)306输出的结果特征矢量f_n(i)是表示性系数和δ系数二者的子集，而且能例如是这样的输出矢量，它含有系数Cm_n(i)后接系数δm_n(i)，在该例中它代表13个特征而不是25个，但包括来自系数发生器304的表示性系数和来自差分器305的δ系数二方面。

在操作过程中，特征提取器204能在处理器108(图1)中有利地实现，处理器108产生如框402中所示的倒谱系数。在提取器307中提取奇系数，如在框404中所示。δ-倒谱系数在差分器305中产生，如在框406中所示。在提取器307中提取偶的δ-倒谱系数，如框408中所示。含有所提取的倒谱和δ-倒谱系数的特征矢量作为特征集输出。本领域技术人员将会理解，可以代之以使用δ-倒谱奇系数和倒谱偶系数。

一些先有技术的倒谱和δ-倒谱特征被连结成单个特征矢量，在这刻丢弃原始的倒谱系数，因为它代表的是该帧中的对数能量；然而，δ-能量特征δ_n(i)被留在其中。在已知的系统中，最后的特征矢量f_n(i)是构成为f_n(i)＝δ_n(i)，n＝0到N-1，和C_n(I-N+1)，i＝N到2N-1(没有C_n(o))。例如，一个N＝12的倒谱变换，结果特征矢量会构成为13个δ-倒谱元素和12个倒谱元素，在特征矢量中总共为25个元素。在本领域技术人员将会理解，C_n(o)也能被留在其中。

根据先有技术，典型的训练算法需要先对2个或多个所收集的发音给出特征矢量，然后才能完成训练。对于这里举例的特征矢量，如果它有一个10ms的帧，在一个允许长达2秒发音的系统中，这将需要(25特征/帧*100帧/秒*2秒/发音*2发音)＝10,000特征，它们必须存储在易失存储器，例如RAM中。因为特征矢量所需存储量直接与特征矢量的长度成比例，对于成本敏感的应用，如蜂窝电话，这一存储量会是致命昂贵的。本发明优化了特征矢量长度，从而减小了在训练过程中所需RAM量。

训练207为捕获的发音生成模型参数。对于大多数模型，包括连续密度(continuous-density)HMM，绝大多数模型参数被特征矢量手段所消耗。对于一个使用25元素特征矢量的12状态HMM，这需要(12状态*25特征/状态)＝300特征要存储在非易失存储器(如闪烁存储器或EEPROM)。对于成本敏感的应用，这又是很昂贵的存储器。通过把特征矢量长度减小到13，本发明减小了为语音识别系统所需非易失存储器的存储量。

在测试中，新的特征矢量给出与全25个元素特征矢量几乎完全相同的识别结果。在一个数据库上，它的性能降低1％，而在另一个数据库上，它产生同样的总识别率。对于训练过程中产生的模型中的特征矢量手段，这个新的13元素特征矢量只需要原来特征矢量RAM需求的52％和原来NVM存储需求的52％。它还显著地减少了在识别算法中所需MIPS。

把特征矢量长度减小为13元素的其他已知方法是简单地切掉特征矢量(例如用N＝6代替N＝12)，或根本不包括δ-倒谱特征。在平静操作方式时，这些方法都能产生类似的识别结果，如图5所示。然而，当在高噪声的不用手的汽车环境中使用语音识别时，使用上述方法产生的特征矢量显著地比其他被切掉的或只有倒谱的特征矢量工作得好。

把发音帧加到模型状态上所用技术的举例在题为“语音识别系统中的逆向追踪矩阵存储方法”的待决专利申请(该专利申请报告号为CS10103，以Jeffrey Arthur Meunier等人的名字在本申请的同一日期被受理)和题为“有选择地把一罚值赋予语音识别系统所伴随概率的方法”的待决专利申请(该专利申请报告号为CS10104，以DanielPoppert的名字在本申请的同一日期被受理)中作了公开，它们的说明在这里被纳入作为参考。

这样，可以看出，这里公开了一种新的特征矢量，其输出值用于语音识别和训练，它允许以小的特征矢量长度产生好的性能。较小的特征矢量显著地减小了为支持语音识别过程所需的MIPS数量和存储器大小。

尽管在上述描述和附图中已描述和图示了本发明，但应该理解，这一描述只是一种举例，本领域技术人员能做出大量的改变和修改而不离开本发明的精神和范围。尽管本发明在便携无线装置(如蜂窝无线电话)中找到了具体应用，但本发明能被应用于利用语音识别的任何装置，包括寻呼机、电子组织器(electronic organizer)、计算机、以及电话装备。本发明只应受权利要求书的限制。

Claims

1.一种用于语音识别系统的提取特征的方法，包含以下步骤：

输入一数字化信号；

从数字化信号产生各表示性系数；

从表示性系数产生各差分系数；以及

选择性地仅使用表示性系数和差分系数的一部分，以通过使用间隔的系数构成特征集来构成特征集。

2.如权利要求1中定义的方法，其中产生表示性系数的步骤包括产生倒谱系数的步骤。

3.如权利要求2中定义的方法，其中产生差分系数的步骤包括产生δ倒谱系数的步骤。

4.如权利要求3中定义的方法，其中首先输出倒谱特征，然后输出δ倒谱特征。

5.如权利要求1中定义的方法，其中在特征矢量中使用隔一个的表示性系数。

6.如权利要求5中定义的方法，其中在特征矢量中使用隔一个的差分系数。

7.如权利要求2中定义的方法，其中的倒谱系数是mel频率倒谱系数。

8.如权利要求1中定义的方法，其中的语音识别被包括在一个无线通信装置中，该装置包含：

用于输入可听见的声音的送话器；

与送话器相连输出数字信号的模数转换器；

与模数转换器相连并产生表示性系数的系数发生器；

与系数发生器相连产生差分系数的差分器；以及

输出表示性系数和差分系数的一部分作为特征矢量用于语音识别的提取器。