CN1112670C

CN1112670C - 语音识别方法

Info

Publication number: CN1112670C
Application number: CN98126606A
Authority: CN
Inventors: 张育贤
Original assignee: LG Information and Communications Ltd
Current assignee: Ericsson LG Co Ltd
Priority date: 1997-12-30
Filing date: 1998-12-29
Publication date: 2003-06-25
Anticipated expiration: 2018-12-29
Also published as: CN1229971A; KR19990059297A

Abstract

所公开的是一种用于语音识别的装置及方法，其包括如下步骤：转换一个初始模型参数，利用所转换的模型参数进行一次初步语音识别，利用所识别的语音调整模型参数，及利用所调整的模型参数进行一次语音识别操作。通过在识别的过程中转换模型参数，可以在多种有噪声环境中进行有效的语音识别。

Description

语音识别方法

技术领域

本发明涉及语音识别，更具体地说其涉及利用一种用于调整现有模型参数以适应新环境的模型参数补偿技术所进行的语音识别。

背景技术

随着信息及通信领域的快速发展，语音识别技术近年来也有了较大的发展。语音识别技术使得人们可以仅仅通过语音即话音来操作电子设备。例如，可以通过语音来方便地进行电话呼叫或计算机操作。因为可以将语音识别集成到任何需要控制的设备中去，该项技术仍将继续不断地发展。

然而，电子设备所检测到的声音通常既包括语音又包括汽车，地铁以及飞机内的背景噪声。在办公室中，家里以及街道上存在无数的由机器，电器以及人群所产生的噪声源。因此，从声音中分离出话音或清除掉噪声是一次有效语音识别中最重要的方面。为了从所检测到的具有背景噪声的声音中准确地识别出语音而在此技术方面作了不间断的研究，并仍在进行之中。

接下来将以移动电话为例对现有技术的语音识别方法进行说明。移动电话的一个CPU能够识别一种输入话音并将识别结果提交给适当元件以进行利用。移动电话中具有噪声鲁棒性的识别器可以由多种算法来实现，其中一种是模型参数补偿。因为模型参数补偿十分抗噪声环境，因此正在研制多种使用模型参数补偿的算法。基于模型参数补偿的典型算法是一种并行模型组合(PMC)和一种向量泰勒级数(VTS)。一种算法被分类为PMC还是被分类为VTS是根据其估计隐含马尔科夫模型(HMM)参数的方法来决定的。

参照图1，现有技术中的一种PMC语音识别算法由一个清晰语音模型参数M和一个噪声模型参数N开始(S1)。参数M是从无声环境中的一个语音中推导出来的，而参数N是从一个具有利用语音中的噪声统计产生的背景噪声以及现有噪声的环境中估计出的一个噪声模型中推导出来的。噪声模型参数N被加到或组合到模型参数M上以产生新的识别模型参数(S2)。随后将利用这个新识别模型参数开始一次语音识别(S3)，而识别结果将被用来执行一种功能(S4)。

然而，识别及模型参数转换处理的分离使得语音识别算法十分繁琐。具体地说，在开始语音识别处理之前必须事先准备好一个用于一种环境的新的噪声模型参数，并将其与参数M组合以产生一个新的识别模型参数。另外，由于在模型参数组合处理的过程中进行了许多近似，其使得不能获得可靠及准确的模型参数。而且，如果不能事先准备好或估计出一个用于一种新环境的新噪声模型，则可能会将同样的噪声模型任意地应用于任何环境的语音识别。其结果是，即使对于一种没有很多噪声的环境，也会对清晰语音模型参数进行不必要的调整以产生模型参数，由此降低了识别器的性能。

图2所示为现有技术中的一种VTS语音识别算法。该VTS算法以利用初始环境参数及语音信号进行的VTS近似而得到的近似环境模型开始(S11)。接着，进行一次判断以确定该近似环境模型是否已收敛(S12)。如果确定此环境模型已经收敛。则接受所估计的环境参数以对识别器的清晰语音模型参数进行调整(S13)。此后，利用所调整的HMM模型参数开始语音识别(S14)，而其结果被用于执行一种功能。如果在步骤S12中确定环境模型没有收敛，则处理将返回到步骤S11。

VTS语音识别算法还将识别处理与环境模型近似分离开来，并迭代执行识别及近似处理直到环境模型收敛。由于其所需的计算量十分巨大，因此不可能利用VTS算法来实施一个在线识别器。而且，与所需的计算量相比，迭代并未产生明显的改进。另外，利用较少量的数据来调整噪声明模型的协方差而产生的在准确近似环境参数方面的不足降低了识别的性能。

实现具有噪声鲁棒性的语音识别需要有关于背景噪声的正确信息。已经开发出或正在研制多种技术以产生并向具有噪声鲁棒性的语音识别提供精确的背景噪声统计信息。这些识别器的大多数，从早期的频谱减法技术到近期的模型参数补偿技术，在应用到语音识别器上之前均提供一个事先利用环境中的多种噪声的统计特性准备好的噪声模型。尽管在某些环境中可以使这些语音识别器得到对背景噪声的精确估计，但其不适宜将这些识别器应用于多种噪声环境，而且这样做的效率也很低，尤其是对于移动电话来说。

发明内容

因此，本发明的一个目的是至少解决现有技术中的问题及缺点。

本发明的一个目的是提供一种抗任何环境的噪声干扰的具有噪声鲁棒性的识别器。

本发明的其它优点，目的及特点部分地将在接下来的说明中被阐明，而部分地在接下来的审查以后可由普通的技术熟练者所了解或从本发明的实践中被领会。如同附加的权利要求中所特别指出地，可以实现及获得本发明的目的和优点。

根据本发明的一个方面，提供了一种语音识别方法，其特征在于包括如下步骤：(a)对隐含马尔科夫模型中的每种状态进行模型参数的补偿；(b)利用所补偿的模型参数进行初步语音识别；(c)将由初步语音识别所识别的语音解码为预定基本单位的语音，从每个基本单位中提取出识别信息，利用提取出的识别信息调整所补偿的模型参数；及(d)利用所调整的模型参数进行语音识别。

为了实现本发明的目的并根据本发明的用途，正如本文中所实施的并被详细说明的，一种用于语音识别的方法包括如下步骤：利用一个初始相关因子补偿一个语音模型参数，利用所补偿的模型参数进行一次语音的初步识别，利用语音识别操作的结果估计出一个最优的相关因子，利用所估计的最优相关因子调整模型参数，及利用所调整的模型参数进行语音识别。

在本发明的另一个实施例中，一种用于识别语音的方法包括如下步骤：利用一个初始环境模型调整模型参数，利用最初所调整的模型参数进行一次初步语音识别，利用语音识别的结果重新调整环境参数，利用重新调整的环境参数及清晰语音模型参数重新估计模型参数，及利用重新补偿的HMM模型参数进行语音识别操作。

根据本发明的另一个方面，还提供了一种语音识别系统，其特征在于包括：用于将输入语音信号转化为PCM语音信号的声码器；用于从PCM语音信号中提取一系列特征向量的向量提取电路；利用所提取出的特征向量序列及由初始噪声模型参数所补偿的模型参数对输入语音进行初步语音识别，并从初步语音识别的结果中估计出噪声模型参数，以及利用所提取的特征向量序列及由所估计的噪声模型参数进行补偿的调整模型参数进行二级语音识别的识别器；用于存储初始噪声模型参数及将被识别字句的数据库的存储器。

附图说明

接下来将参照附图对本发明进行详细地说明，其中相似的旁注数码指示相似的元件，其中：

图1所示为现有技术中利用一种PMC算法识别语音的流程图；

图2所示为现有技术中利用一种VTS算法识别语音的流程图；

图3所示为根据本发明的一种语音识别器的一个优选实施例的方框图；

图4所示为根据本发明的利用一种状态相关的模型参数转换算法进行的语音识别的流程图；及

图5所示为根据本发明的利用一种使用环境参数估计技术的模型参数转换算法进行的语音识别的流程图。

具体实施方式

图3所示为根据本发明的一个语音识别器的一个优选实施例，其包括一个将语音信号转化为一种脉冲代码调制(PCM)语音数据的声码器30；一个从声码器30的PCM语音信号中提取出一系列特征向量的向量提取单元31；一个利用所提取出的特征向量估计新的模型参数以重新估计初始模型参数，并利用重新估计的模型参数进行语音识别的中央处理单元(CPU)；一个以16位PCM数据存储初始模型参数及识别器候选者的数据库，并根据CPU32所识别的结果传送所识别的语音的存储器单元33；及一个输出由CPU32所识别出的语音信号的扬声器34。

CPU32的识别器使用的是一种基于HMM的算法，HMM是人类话音及话音发生处理的一个统计模型。HMM由M.J.F Gales和S.Young在“An Improved Approach to the Hidden Markov Model Decompositionof speech andNoise”，Speech Communication，no.3，pp233-236，1992中公开并被完整地并入本说明书中。通常，一种类型的HMM可以利用多种不同的拓扑结构来建模，而这些拓扑结构的每一个又可以有许多种状态。而且，HMM状态的观察概率由多种分布构成。本发明的CPU32使用的是一个具有三种状态而每种状态又有三种高斯分布观察的从左到右连续的HMM。

在识别处理的过程中，CPU32使用一种定向搜索以利用HMM来对输入语音与存储在存储器单元33中的单词进行匹配。CPU32利用音素作为语音的基本单位来进行语音识别。具体地说，一个给定的时间段从在一个给定时间段内所输入的语音中提取出一系列特征向量。对每个连续的特征向量计算每种HMM状态的对数相似性，并选出具有最大值的三到五个HMM状态。这三到五个HMM状态被称作激活状态。从前一个特征向量的激活HMM状态开始对给定时间段内的每个连续特征向量均计算每种HMM状态的对数相似性，并选出具有最大值的三到五个HMM状态。

在给定的时间段内对每个连续的特征向量重复进行HMM状态计算和选择处理直到输入语音被全部处理完毕。此处理便是众所周知的定向搜索。一旦搜索结束，便根据一种维特比解码处理进行反向跟踪。将具有最高对数相似性并对应于某个语音的HMM选作识别的结果。接下来将对模型参数转化处理进行说明。通常，语音识别器的模型参数转化处理的是由平均值和协方差所代表的高斯混合。

本发明的一个实施例使用的是一种具有一个状态相关相关因子的PMC方法。基本上，用于建立识别器周围环境的背景噪声模型的是对应于由向量提取单元31所提取的特征向量级数的3～5帧(等价于30～50ms)的数据。背景噪声被建模成一个具有1-高斯混合(如果必要其可以被扩展为2或3HMM状态)的1-状态HMM。利用所估计的背景噪声模型，将一个清晰语音模型参数转换为更适合于当前环境的新模型参数。转换处理中所用的算法是具有状态相关相关因子的PMC方法。因此，CPU32利用一种模型参数转换算法重新地估计识别器的模型参数，并提交利用重新估计的模型参数所识别的结果。

接下来将参照图3和图4对根据本发明的一个使用一种具有一个相关因子的状态相关PMC算法的语音识别器进行说明。声码器30以8KHz的采样速率将输入语音转化为一个16位的PCM数据(ST1)。向量提取单元31将来自声码器30的语音信号转化为一个倒频谱，即作为特征向量的Mel-频率倒频谱系数(MFCC)。

具体地说，向量提取单元31由一个具有一个30ms窗口及一个0.97的预修正系数的滤波器对所转换的信号进行处理，其产生一个频率范围频谱。该频率范围被划分为17个mel-刻度的频带，而每个频带内的频谱被求和以产生一个频带能量。对该频带能量将进行一次反向离散余弦变换(IDCT)以获得MFCC。

在具有状态相关相关因子的PMC方法中，相关因子被定义为确定一个HMM的每种状态的模型参数中的变化，如下式表示：

b_{1 i} = {\hat{μ}}_{i} - μ_{i}, i = 0,1,2,3 . . ., M - 1 . . . . (1)

b_{2} = \frac{1}{M} Σ_{i = 0}^{M - 1} ({\hat{μ}}_{i} - μ_{i}) E {b_{1}} . . . (2)

b＝(1-λ)b_1i+λb₂……………………………………………(3)

其中向量b_1i是第(i)个混合的平均向量的变化量，常数M是一种状态中的高斯混合的数目。

表示由一个预定噪声模型参数所补偿的一个平均向量，而μ_i表示第i个高斯混合中的清晰语音模型参数的平均向量。向量b是在每种用于补偿清晰语音与由噪声语音之间的平均向量的状态中的偏置向量，即模型参数的变化量；λ为相关因子。

相关因子λ是一个未知常数，其被用来对偏置向量b求值以对模型参数进行补偿，以适应识别器的环境。在利用由初始量b补偿的模型参数所进行的一次初步语音识别之后，可以从公式(1)到(3)中得到相关因子λ的一个最优值。为了对初始量b求值，相关因子λ被设置为一个预定的初始值。一旦得到最优相关因子λ，则其便被用作用于对新环境中的初始量b求值的初始值。

为了应用公式(1)到(3)，首先通过参照图1所讨论的现有技术的PMC方法对清晰语音模型参数进行补偿。因此由一个利用预定噪声模型参数及预定初始相关因子λ所求值的初始量b对清晰语音模型参数进行调整(ST3)。利用原先补偿的模型参数，进行一次初始语音识别(ST4)。通过维特比解码对步骤ST4所识别的语音的结果进行分段，其将所要识别的字句划分为音素的多个单元(ST5)。利用所识别的音素信息，可以估计出一个最优相关因子λ。

为了估计最优相关因子，在对由初步语音识别所识别的语音进行完维特比解码之后，提取出用于每个被识别音素的信息。因此，利用每个被识别音素的提取信息便可以得到HMM状态序列及偏置向量b。使所得HMM状态序列的对数相似性值最大的相关因子λ被确定为最优相关因子(ST6)。尽管有许多用于找出最优相关因子的方法，本发明所使用的是一种期望值极大化(EM)算法及一种最速下降方法。在本优选实施例中，使用的是只需一次迭代便可收敛的最快下降驱动PMC(EM驱动PMC)以使算量及识别时间最小。

最优相关因子被用于对一个确定了模型参数的平均向量的变化量的偏置向量求值。每种HMM状态的平均向量中的变化量随PMC算法不同而互不相同。因此，每种HMM状态的平均向量将由一个利用公式(1)到(3)单独计算的数量b调整，b的变化量被加到原先所补偿的每种音素的模型参数的平均向量上。也可以根据PMC算法来改变原先的模型参数的协方差，或者模型参数的初始协方差也可以保持不变。因而，利用所估计的相关因子来调整所补偿的模型参数，并进行一次语音识别(ST7)。识别的结果被用于执行一种功能(ST8)。

图5所示为根据本发明的另一个实施例进行识别语音的流程图。在本第二实施例中，模型参数转换算法使用的是一种基于VTS近似的环境参数估计技术。接下来将参照图3到5对根据本发明的利用一种基于VTS近似的环境参数估计技术的语音识别器进行说明。

与PMC方法相同，声码器30将一个输入语音信号转化为一个PMC语音数据(ST11)，而向量提取单元31从声码器30中提取出一个特征向量(ST12)。另外，CPU32的识别器以与参照上述PMC方法所讨论的相同方式进行操作。然而，在第二实施例中，利用一种预定任意环境模型首先对清晰语音模型参数进行调整(ST13)。

该预定任意环境模型可以是一个由初始环境参数所估计的现有环境模型或一个由一个任意常量所估计的环境模型。为了准备环境模型，使用的是对应于由向量提取单元31所提取的特征向量的输入数据的第一个3～5帧(等价于30～50ms)。该环境模型代表了一种附加噪声和信道失真。另外，首先通过估计初始环境参数的平均值来准备环境模型。环境参数通常是一种噪声向量及频谱转置向量。

利用第一次估计的初始环境模型进行一次初步语音识别(ST14)。类似于第一实施例，一旦得到了初始环境模型，则重新估计出的模型便被用作在新环境中进行识别处理的初始环境模型。通过一次维特比解码将所识别的语音划分为基本单位，即音素(ST15)。与第一实施例相同，利用所识别的音素估计出环境参数。为了估计这些参数，可以执行一种利用EM算法的第(0)阶或第一阶VTS近似(ST16)。

在本优选实施例中，为了减少计算量只进行一次迭代。利用重新估计的环境参数对清晰语音HMM模型参数进行调整，并执行一次语音识别操作(ST17)。在本算法中，模型参数的平均向量的变化大小为第(0)阶VTS近似，但平均向量及模型参数的协方差均的变化大小为第一阶VTS近似协方差。

根据本发明，可以精确地估计出用于对应于不同音素的每种HMM状态的模型参数中的变化量。因而，便不再需要通过一个单独的估计噪声模型来对所有识别目标字句进行全部的调整。其结果是，可以避免对并没有因噪声而严重失真的语音部分进行不必要的调整。而且，在建立环境参数的过程中，将不再需要由于模型收敛之前的反复估计而产生的大量计算。尽管如此，由于环境参数是利用初步识别处理来估计的，因而仍可以得到一个更加精确的估计。

总之，可以在识别过程中执行根据本发明的模型参数转化方法，而不必需要对背景噪声的事先统计。因此，即使在一种多噪声的环境中，也能够将其应用于任何需要语音识别的装置。

上述实施例仅仅是示范性的，而不应理解为对本发明的限制。可以很容易地将本方法应用于其它类型的装置。本发明的说明仅起例示作用，而不限制权利要求的范围。对于那些技术熟练者来说，多种替代方案，修正及变动是显而易见的。

Claims

1.一种语音识别方法，其特征在于包括如下步骤：

(a)对隐含马尔科夫模型中的每种状态进行模型参数的补偿；

(b)利用所补偿的模型参数进行初步语音识别；

(c)将由初步语音识别所识别的语音解码为预定基本单位的语音，从每个基本单位中提取出识别信息，利用提取出的识别信息调整所补偿的模型参数；及

(d)利用所调整的模型参数进行语音识别。

2.一种如权利要求1所述的方法，另外包括如下步骤：

在步骤(a)中，根据初始相关因子进行模型参数补偿；

在步骤(c)中，将使每个基本单位的识别信息的对数相似性值最大的相关因子确定为所估计的最优相关因子，并根据最优相关因子调整所补偿的模型参数。

3.一种如权利要求2所述的方法，其中补偿的量是利用清晰语音模型参数，噪声模型参数及所述初始相关因子来求得的。

4.一种如权利要求3所述的方法，其中噪声模型参数是利用输入语音帧的初始段来产生的。

5.一种如权利要求1所述的方法，其中在解码步骤中使用的是维特比解码方法。

6.一种如权利要求1所述的方法，其中语音的预定基本单位为音素。

7.一种如权利要求2所述的方法，其中在确定相关因子的步骤中，使用的是期望值极大化算法或最速下降方法。

8.一种如权利要求7所述的方法，其中期望值极大化算法及最速下降方法只迭代一次。

9.一种如权利要求2所述的方法，其中最优相关因子被用作在新环境中进行语音识别的初始最优相关因子。

10.一种如权利要求1所述的方法，其中步骤(b)及(d)中的语音识别是通过定向搜索来进行的。

11.一种如权利要求1所述的方法，另外包括如下步骤：

在步骤(a)中，根据利用初始环境参数所估计的初始环境模型对模型参数进行补偿；

在步骤(c)中，利用提取出的识别信息来对每个基本单位估计环境参数；并根据估计的环境参数来调整所补偿的模型参数。

12.一种如权利要求11所述的方法，其中环境模型是利用输入语音帧的初始段来产生。

13.一种如权利要求11所述的方法，其中环境参数是通过第(0)阶或第一阶VTS近似方法来估计的。

14.一种如权利要求13所述方法，其中如果使用的是第(0)阶VTS近似方法，则将改变环境参数的平均向量，而如果使用的是第一阶近似方法，则将改变环境参数的平均向量及协方差。

15.一种如权利要求13所述的方法，其中在VTS近似中使用的是期望值极大化算法。

16.一种如权利要求11所述的方法，其中所调整的环境参数被用作在新环境中进行语音识别的初始环境参数。

17.一种语音识别系统，其特征在于包括：

用于将输入语音信号转化为PCM语音信号的声码器；

用于从PCM语音信号中提取一系列特征向量的向量提取电路；

利用所提取出的特征向量序列及由初始噪声模型参数所补偿的模型参数对输入语音进行初步语音识别，并从初步语音识别的结果中估计出噪声模型参数，以及利用所提取的特征向量序列及由所估计的噪声模型参数进行补偿的调整模型参数进行二级语音识别的识别器；

用于存储初始噪声模型参数及将被识别字句的数据库的存储器。