CN1234110C

CN1234110C - 语音识别噪声自适应系统及方法

Info

Publication number: CN1234110C
Application number: CNB2004100284724A
Authority: CN
Inventors: 张志鹏; 大辻清太; 杉村利明; 古井贞熙
Original assignee: Furui Zhenxi; NTT Docomo Inc
Current assignee: Furui Zhenxi; NTT Docomo Inc
Priority date: 2003-03-12
Filing date: 2004-03-12
Publication date: 2005-12-28
Anticipated expiration: 2024-03-12
Also published as: JP2004279466A; US20040204937A1; US7552049B2; CN1542737A; DE602004000716T2; DE602004000716D1; EP1457968B1; EP1457968A1; JP4033299B2

Abstract

本发明公开了语音识别噪声自适应系统、方法及程序，目的在于能够对许多类型的噪声数据进行最优聚类并且提高对输入语音的语音模型序列估计的精确度。根据信噪比条件向语音加入噪声以产生出加有噪声的语音(S1)，从所产生出的加有噪声的语音中减去语音倒频谱的平均值(步骤S2)；产生出每个加有噪声语音片断的高斯分布模型(步骤S3)，并且计算出这些加有噪声语音片断的似然性以产生出一似然性矩阵(步骤S4)，从而获得一聚类结果。选择出最优模型(步骤S7)，并且进行线性变换以提供最大似然性(步骤S8)。因为加有噪声的语音一直用在聚类和模型学习中，所以可以实现对许多类型的噪声数据进行聚类并且精确估计出语音模型序列。

Description

语音识别噪声自适应系统及方法

技术领域

本发明涉及一种语音模型噪声自适应系统、噪声自适应方法以及语音识别噪声自适应程序。具体地说，本发明涉及采用所要识别的有嘈语音来使利用隐马尔可夫模型(HMM)对语音特征进行建模而产生出的净语音(clean speech)模型适应，从而改善有噪环境下的识别速率的语音模型噪声自适应系统、噪声自适应方法以及语音识别噪声自适应程序。

背景技术

在下面的非专利文献1中描述了一种树形结构分段线性变换方法。根据在该文献中所披露的方法，将噪声聚类，并且根据聚类的结果产生出树形结构有噪语音模型空间，提取出所要识别的输入有嘈语音的语音特征参数，从树形结构有噪语音模型空间中选择出最优模型，并且对所选的模型进行线性变换以便提高所选模型的似然性，由此提高输入语音的精确度。

(非专利文献1)

Zhipeng Zhang等人的“Effects of tree-structure clustering innoise adaptation using piecewise linear transformation”(2002 AutumnMeeting of the Acoustical Society of Japan，第29-30页)

在上述文献中的生成加有噪声的语音模型的过程中，只将噪声数据聚类，然后将该噪声加入到语音中，并且学习该加有噪声的语音模型。该方法的问题在于，在聚类过程中的噪声的特征和在模型学习过程中的加有噪声的语音模型中的特征之间出现偏差。

发明内容

本发明克服了现有技术的这个缺点，并且本发明的第一目的在于提供能够对各种类型的噪声数据进行最优聚类的语音模型噪声自适应系统、噪声自适应方法以及语音识别噪声自适应程序。

本发明的第二目的在于提供可以利用聚类的结果来提高语音识别速率的语音模型噪声自适应系统、噪声自适应方法以及语音识别噪声自适应程序。

根据本发明的第一方面，提供一种使针对任意噪声的语音模型适应在有噪环境中所要识别的语音的语音模型噪声自适应系统，通过采用净语音数据来学习该语音模型，该系统包括：聚类部件，用于将加有噪声的语音聚类；语音模型空间产生部件，用于根据由聚类部件进行的聚类结果产生出树形结构有噪语音模型空间；参数提取部件，用于提取出所要识别的输入有噪语音的语音特征参数；选择部件，用于从由语音模型空间产生部件产生出的树形结构有噪语音模型空间中选择出最优模型；以及线性变换部件，用于对由选择部件所选的模型进行线性变换，从而进一步提高该模型的似然性(likelihood)。因为加有噪声的语音始终用在聚类过程和模型学习过程中，所以可以实现对许多类型的噪声数据进行最优聚类并且提高对输入语音的语音模型序列估计的精确度。

根据本发明的第二方面，提供一种如第一方面所述的语音模型噪声自适应系统，其中所述聚类部件通过根据信噪比条件将噪声加入到语音中来产生出加有噪声的语音，减去所产生出的加有噪声的语音的语音倒频谱(speech cepstral)的平均值，产生出每个所产生出的加有噪声语音片断的高斯分布模型，并且计算出在这些加有噪声的语音片断之间的似然性以产生出一似然性矩阵，从而提供一聚类结果。这使得能够将加有噪声的语音聚类。

根据本发明的第三方面，提供一种如第一方面或第二方面所述的噪声自适应系统，其中所述选择部件选择对于参数提取部件所提取的语音特征参数具有最大似然性的模型。通过选择提供了最大似然性的模型，从而可以提高语音识别的精确度。

根据本发明的第四方面，提供一种如第三方面所述的噪声自适应系统，其中所述选择部件通过从最高级向下至最低级对该树形结构有噪语音模型空间进行搜索来选择一模型。通过从最高级到最低级对该树形结构进行搜索，从而可以选择出最优模型。

根据本发明的第五方面，提供一种如前面任一方面所述的噪声自适应系统，其中所述线性变换部件根据由选择部件所选的模型来进行线性变换以提高似然性。通过进行线性变换，从而可以使似然性最大。

根据本发明的第六方面，提供一种用于使针对任意噪声的语音模型适应要在有噪环境中识别的语音的语音模型噪声自适应方法，通过采用净语音数据来对该语音模型进行学习，该方法包括：聚类步骤，用来将加有噪声的语音聚类；语音模型空间产生步骤，用来根据在聚类步骤所进行的聚类的结果产生出树形结构有噪语音模型空间；参数提取步骤，用来提取出所要识别的输入有噪语音的语音特征参数；选择步骤，从在语音模型空间产生步骤所产生出的树形结构噪声语音模型空间中选择出最优模型；以及线性变换步骤，用于对在选择步骤所选的模型进行线性变换，从而进一步提高该模型的似然性。因为加有噪声的语音始终用在聚类过程和模型学习过程中，所以可以实现对输入语音的语音模型序列的估计的精确度的提高。

根据本发明的第七方面，提供一种语音识别噪声自适应程序，该程序控制计算机来使针对任意噪声的语音模型适应在有噪环境中所要识别的语音，通过采用净语音数据来对该语音模型进行学习，该程序包括：聚类步骤，用来将加有噪声的语音聚类；语音模型空间产生步骤，用来根据在聚类步骤所进行的聚类的结果产生出树形结构有噪语音模型空间；参数提取步骤，用来提取出所要识别的输入有噪语音的语音特征参数；选择步骤，从在语音模型空间产生步骤所产生出的树形结构噪声语音模型空间中选择出最优模型；以及线性变换步骤，用于对在选择步骤所选的模型进行线性变换，从而进一步提高该模型的似然性。因为加有噪声的语音始终用在聚类过程和模型学习过程中，所以可以实现提高对输入语音的语音模型序列估计的精确度。

总之，本发明采用了噪声数据库来根据SNR状况(后面所述的步骤S1)来向净语音加入噪声。将加有噪声的语音聚类以建立一树形结构加有噪声的语音模型空间。在该加有噪声的语音模型空间中，将在每个节点处的噪声加入到所述净语音中以构建出加有噪声的语音(后面所述的步骤S3)。在加有噪声的语音的树形结构模型空间中计算出似然性(后面所述的步骤S4)，然后从顶部向下对该树形结构进行搜索以选择出最优模型(后面所述的步骤S7)。根据这样选择的自适应语音自适应模型序列的模型参数进行线性变换以便使似然性最大(后面所述的步骤S8)。

因此，该加有噪声的语音不仅用在模型学习过程中，而且用在聚类过程中。因为加有噪声的语音始终用在聚类过程和模型学习过程中，所以可以学习到最合适的加有噪声的语音模型。因此，可以实现更高的识别精确度。

附图说明

图1为一方框图，显示出根据本发明一个实施方案的语音模型噪声自适应系统的结构；

图2为一功能方框图，其中在图1中所示的部件根据在该系统中的操作流程进行排列；

图3为由该系统进行的过程的流程图；

图4为一原理图，显示出在树形结构有噪语音模型空间中选择最优模型的过程；并且

图5显示出通过采用由该系统适应的语音HMM而实现的字精确度。

具体实施方式

下面将参照附图对本发明的实施方案进行说明。在以下说明书中所参照的附图中相同的元件标有相同的参考标号。

在本发明中，根据信噪比(SNR)和声音质量将有噪语音模型空间构建成一树形结构。通过树形结构来表示噪声特性提供了一模型，其中在较高层表示噪声的整体特征，而在较低层表示局部特征。可以按照由顶部至下的方式从根部向下搜寻该树形结构来选择最优的分段空间，从而选择出最优模型。

因为加有噪声的语音始终用在聚类过程和模型学习过程中，所以可以学习到提供最高似然性的加有噪声的语音模型，并且可以实现识别精确度的提高。

(系统配置)

下面将参照图1对实施该过程的结构进行说明。图1为一方框图，显示出根据本发明的噪声自适应系统的实施方案。根据本发明的该噪声自适应系统包括一树形结构模型存储器1、一特征提取单元2、一语音识别单元3、一模型选择和确定单元4、一模型线性变换自适应单元5以及一识别结果存储器6。

该树形结构模型存储器1存储有加有噪声的语音HMM，该HMM由于加有噪声的语音中的聚类而已经构建成一两级(SNR和噪声特性等级)树形结构。

特征提取单元2对输入给它的语音数据进行分析并且将它转换成特征向量。

语音识别单元3对从输入数据转换成的时间序列特征向量时间进行Viterbi算法以获得提供最高似然性功能的模型序列。

模型选择和确定单元4从存储在树形结构模型存储器中的模型中选择出具有最高似然性的最优模型。

模型线性变换自适应单元5对由模型选择和确定单元4所选的模型进行线性变换以便使其似然性最大。

识别结果存储器6存储有语音识别结果。

(该系统的操作)

下面将参照图2和3对具有上述结构的系统的操作进行说明。图2为一功能方框图，其中根据该系统中的操作流程将在图1中所示的部件重新排列。图3为由该系统进行的过程的流程图。

在该系统中进行语音识别的过程遵循如下所述的步骤S1至S9。

步骤S1(产生加有噪声的语音的步骤)：采用噪声数据库根据SNR状况向净语音加入噪声以产生出加有噪声的语音，其中在该实施例中SNR＝5、10和15dB。

步骤S2(减去加有噪声的语音的平均值)：对在步骤S1产生的加有噪声的语音进行CMS(倒频谱平均减法，cepstral mean substraction)。CMS是一种用来减去语音倒频谱的平均值的技术。也就是说，计算出在一定间隔中的所有语音数据帧的数值的平均倒频谱，并且从每帧的向量中减去该平均值。倒频谱(cepstral)是由傅立叶变换所获得的功率谱的对数的傅立叶变换。在Furui的题目为“Cepstral AnalysisTechique For Automatic Speaker Verification”(IEEE Transaction onAcoustical Speech and Signal Processing，Vol.ASSP-29，第254-272页，1981)的文献中披露了该CMS。

步骤S3(产生加有噪声的语音模型的步骤)：通过鲍姆-韦尔奇(Baum-Welch)算法产生出每个加有噪声的语音的高斯混合模型(GMM)。鲍姆-韦尔奇(Baum-Welch)算法为从适当的初始值开始逐渐接近最优数值的重复方法。在Seiiich Nakagawa的题目为“Speechrecognition with probabilistic model”(Institute ofElectronics，Information and Communication Engineers，1988)的文献中披露了该鲍姆-韦尔奇(Baum-Welch)算法。

步骤S4(将加有噪声的语音聚类的步骤)：然后采用GMM来计算出在加有噪声的语音片段之间的似然性以产生出一似然性矩阵。采用基于似然性的SPLIT方法来连续地将加有噪声的语音聚类。在该SPLIT方法中，顺序将具有最大畸变的聚类分开。因此，可以产生出任意数量的聚类。可以简单地通过给出聚类数量来完全自动地获得聚类的结果。在Sugamura等人的Speech Committee document中披露了该SPLIT方法。

步骤S5(用于分段线性变换自适应)：通过步骤S4提供加有噪声的语音的树形结构聚类结果。将聚类结果存储在树形结构模型存储器1中。聚类结果采用树形结构的形式表示特征。因此，该加有噪声的语音的整体特征在该树形结构的较高层标识出，而该语音的局部特征表示在较低层。

将聚类结果应用于分段线性变换。在Zhang等人的文章(Proceedings of the 2002 Autumn Meeting of the Acoustical Society ofJapan，第29-30页)中披露了该分段线性变换。具体地说，进行下面所述的步骤S6至S9。

步骤S6(提取特征数值)：特征提取单元2从所要识别的加有噪声的语音数据中提取特征数值。在该特征数值提取中，对输入的语音数据的每一帧进行LPC(线性预测编码，Linear Prediction Coding)分析以获得时间序列特征参数向量例如倒频谱或Δ倒频谱作为特征参数序列。

步骤S7(选择最优模型)：下面将参照图4对选择最优模型的步骤进行说明。在图4的顶部处的节点(根节点)表示净语音模型。在该根节点下面，有针对每个SNR的N个模型。N个模型就是模型SNR-1至模型SNR-N。这N个模型SNR-1至SNR-N表示通过从在特定SNR条件下加入所有类型的噪声而产生出的语音学习到的模型。

在它们下面的子节点表示从通过根据聚类结果加入一些选定类型的噪声而产生出的语音数据中学习到的模型。在该树形结构的底部处为从通过只加入某个类型的噪声而产生出的语音中学习到的模型。因此，整体噪声特性表示在该树形结构的较高层，而局部噪声特性表示在较低层。

为了进行识别，首先通过采用在步骤S4处获得的特征参数序列来计算出在根节点处所给出的净模型的似然性。这是通过在图1中所示的语音识别单元3来进行的。

然后，语音识别单元3采用根节点下面的模型来计算出似然性。这样计算出的似然性数值由模型选择和确定单元4用来选择一最优模型。具体地说，这是按照以下程序来实现的。保留提供比在根节点处的净模型的似然性更高的似然性的模型。然后，使用在它们下面的子节点处的模型来计算出在这些SNR条件下的似然性。将两个子节点模型的似然性与父节点的似然性进行比较。如果子节点模型提供了最大似然性，则计算出在那个节点下面的子节点模型的似然性。另一方面，如果父节点的似然性高于子节点模型的似然性，则不再进行进一步的计算，并且将父节点确定为最优节点。

在图4中，搜索路径由实线表示。可以重复进行该计算以找出最优空间。另外，将在不同SNR条件下的最高似然性模型的似然性相互进行比较以确定在它们中提供了最高似然性的模型作为在整个有噪语音空间中的最优模型。在图4中所示的实施例中，第四节点提供了在条件NR-1下的最高似然性。将在不同SNR条件下的最高似然性模型的似然性相互进行比较以选择出在这些最高似然性节点中提供了最高似然性的模型。

步骤S8(线性回归)：模型线性变换自适应单元5对所选模型进行最大似然性回归(Maximum Likelihood Regression，下面缩写为MLLR)以便进一步提高似然性。在题目为“Mean and variance adaptation withinthe MLLR framework”(M.J.F Gales等人，Computer Speech andLanguage，第240-264页，1996)的文献中披露了MLLR。具体地说，采用从识别中得到的音素序列来根据最大似然性原则估计出线性变换矩阵，并且HMM高斯分布的平均值和差值由线性变换(线性回归)来适应。

步骤S9(再识别)：当输出语音识别的结果时，语音识别单元3采用在步骤S8处所获得的模型来进行再识别，并且将再识别结果存储在识别结果存储器6中。

(该系统的效果)

根据本发明，如上所述，对已经通过利用噪声数据库向语音加入噪声而产生出的加有噪声的语音模型进行学习。计算出在这些噪声模型之间的距离，并且对噪声进行聚类。根据噪声聚类的结果，产生出具有树形结构的语音模型。

首先，根据SNR将加有噪声的语音聚类，然后为每个SNR条件提供树形结构模型，并且产生出树形结构有噪语音模型空间。在特征提取过程中，对所要识别的输入有噪语音进行分析以提取出特征参数序列，并且从树形结构有噪语音模型空间中选择出最优模型。对所选的有噪语音模型空间进行线性变换以便进一步提高似然性。

如上所述，根据本发明的噪声自适应系统采用了所要识别的有噪语音来使与说话者无关的语音模型适应。产生出加有噪声的语音的树形结构模型空间，通过向下搜寻该树形结构来选择最优模型，进行线性变换(线性递归)来产生出经过适应的模型。

本发明对由本发明系统进行的有噪模拟语音的识别效果进行了检验。下面将对这些试验的实施例进行说明。

在这些试验中所使用的语音HMM为通过采用基于树的聚类而产生出的共享状态、与说话者无关而与内容相关的语音HMM。采用总共25个维作为特征数值：MFCC(唛耳频率倒频谱系数)12、其导数12以及功率对数的一次导数。“唛耳频率”为基于人耳的灵敏度的数值，并且通常用于表示声音的可听度水平。MFCC按如下产生：对声波数据进行离散傅立叶变换，并且将所得到的数值转换成其对数表达式。然后，对以预定间隔采样的生成波形的对数进行反向离散傅立叶变换。

下面将参照图5对本系统的效果进行说明。图5显示出通过采用所给出的语音HMM所实现的字精确度和通过采用由根据本发明实施方案的方法所采取的语音HMM所实现的字精确度(本发明的方法)。在图5中的纵轴表示字精确度(％)，而横轴表示SNR(dB)。图5中的半色调点网柱表示基准精确度，而条形柱表示本系统的精确度。

从在图5中所示的结果中可以看出，根据本发明的方法比普通方法更有效。在该实施例中，本系统的字误差比例比基准低36.1％。

语音模型噪声自适应方法

下面的噪声自适应方法应用在上述噪声自适应系统中。该方法是用来使已经通过采用净语音数据学习的针对任意噪声的语音模型适应在有噪环境中要识别的语音的噪声自适应方法。该方法包括：聚类步骤，用来将加有噪声的语音聚类；语音模型空间产生步骤，用来根据在聚类步骤所进行的聚类的结果产生出树形结构有噪语音模型空间；参数提取步骤，用来提取出所要识别的输入有噪语音的语音特征参数；选择步骤，从在语音模型空间产生步骤所产生出的树形结构噪声语音模型空间中选择出最优模型；以及线性变换步骤，用于对在选择步骤所选的模型进行线性变换，从而进一步提高该模型的似然性。因为加有噪声的语音始终用在聚类过程和模型学习过程中，所以可以提高对输入语音的语音模型序列估计的精确度。

在聚类步骤处，根据信噪比条件向语音加入噪声以产生出加有噪声的语音，并且减去加有噪声的语音的语音倒频谱的平均值，产生出加有噪声的语音的高斯分布模型，并且计算出在这些加有噪声的语音片断之间的似然性以产生出似然性矩阵，因此提供聚类。这样，可以实现加有噪声的语音的聚类。

在选择步骤处，选择对于在参数提取步骤处所提取的特征参数具有最高似然性的模型。通过选择和使用具有最高似然性的模型来提高语音识别的精确度。

在选择步骤处，从顶部向底部对该树形结构有噪语音模型空间进行搜索以选择出模型。通过这样向下搜索该树形结构，从而可以选择最优的模型。

在线性变换步骤处，根据在选择步骤处所选的模型来进行线性变换以便进一步提高似然性。因此，可以使似然性最大。

(语音模型噪声自适应程序)

可以提供用于进行在图3中所示的过程的程序，该程序用来控制计算机提供与上面所述那些相同的效果。该程序为一语音识别噪声自适应程序，它控制计算机来使已经通过采用净语音数据学到的针对任意噪声的语音模型适应要在有噪环境中识别的语音。该程序包括：聚类步骤，用来将加有噪声的语音聚类；语音模型空间产生步骤，用来根据在聚类步骤处所进行的聚类的结果产生出树形结构有噪语音模型空间；参数提取步骤，用来提取出所要识别的输入有噪语音的语音特征参数；选择步骤，从在语音模型空间产生步骤处所产生出的树形结构噪声语音模型空间中选择出最优模型；以及线性变换步骤，用于对在选择步骤处所选的模型进行线性变换，从而进一步提高该模型的似然性。因为加有噪声的语音始终用在聚类过程和模型学习过程中，所以可以提高对输入语音的语音模型序列估计的精确度。

用于存储该程序的存储介质可以为半导体、存储器、磁盘、光盘或任意其它存储介质。

如上所述，根据本发明的第一和第六方面，本发明的优点在于，因为加有噪声的语音始终用在聚类过程和模型学习过程中，所以可以实现对许多类型的噪声数据进行最优聚类并且提高对输入语音的语音模型序列估计的精确度。

根据本发明的第二方面，本发明的优点在于，可以通过以下步骤将加有噪声的语音聚类：根据信噪比条件向语音加入噪声，减去每个所产生出的加有噪声的语音片断的语音倒频谱的平均值，产生出每个加有噪声的语音片断的高斯分布模型，并且计算出在这些加有噪声的语音片断之间的似然性以产生出似然性矩阵。

根据本发明的第三方面，本发明的优点在于，可以通过选择对于所提取的语音特征参数具有最高似然性的模型来提高语音识别的精确度。

根据本发明的第四方面，本发明的优点在于，可以通过从最高层开始对树形结构有噪语音模型进行搜索来选择出最优模型。

根据本发明的第五方面，本发明的优点在于，可以通过根据所选模型来进行线性变换来加大似然性以提高该似然性。

Claims

1.一种使针对任意噪声的语音模型适应要在有噪环境中识别的语音的语音模型噪声自适应系统，通过采用净语音数据来学习该语音模型，该系统包括：

聚类部件，用于对加有噪声的语音进行聚类；

语音模型空间产生部件，用于根据由聚类部件进行的聚类的结果产生出树形结构有噪语音模型空间；

参数提取部件，用于提取出所要识别的输入有噪语音的语音特征参数；

选择部件，用于从由语音模型空间产生部件产生出的树形结构有噪语音模型空间中选择出最优模型；以及

线性变换部件，用于对由选择部件选择的模型进行线性变换，从而使该模型提供进一步提高的似然性。

2.如权利要求1所述的语音模型噪声自适应系统，其中所述聚类部件通过根据信噪比条件将噪声加入到语音中来产生出所述加有噪声的语音，计算所产生出的加有噪声的语音的一定间隔中的语音数据的所有帧的值的平均倒频谱，并从每一个帧的向量中减去该平均值，产生出每个所产生出的加有噪声的语音片断的高斯分布模型，并且计算出在这些加有噪声的语音片断之间的似然性以产生出一似然性矩阵，从而提供一聚类结果。

3.如权利要求1或2所述的噪声自适应系统，其中所述选择部件选择对于所述参数提取部件所提取的语音特征参数提供最大似然性的模型。

4.如权利要求3所述的噪声自适应系统，其中所述选择部件通过从最高层向下至最低层对该树形结构噪声模型空间进行搜索来选择一模型。

5.一种用于使针对任意噪声的语音模型适应要在有噪环境中识别的语音的语音模型噪声自适应方法，通过采用净语音数据来对该语音模型进行学习，该方法包括：

聚类步骤，用来对加有噪声的语音进行聚类；

语音模型空间产生步骤，用来根据在聚类步骤所进行的聚类的结果产生出树形结构有噪语音模型空间；

参数提取步骤，用来提取出所要识别的输入有噪语音的语音特征参数；

选择步骤，从在语音模型空间产生步骤所产生出的树形结构噪声语音模型空间中选择出最优模型；以及

线性变换步骤，用于对在选择步骤选择的模型进行线性变换，从而使该模型提供进一步的似然性。