CN105810192A

CN105810192A - 语音识别方法及其系统

Info

Publication number: CN105810192A
Application number: CN201410854831.5A
Authority: CN
Inventors: 孙廷玮; 林福辉
Original assignee: Spreadtrum Communications Shanghai Co Ltd
Current assignee: Spreadtrum Communications Shanghai Co Ltd
Priority date: 2014-12-31
Filing date: 2014-12-31
Publication date: 2016-07-27
Anticipated expiration: 2034-12-31
Also published as: CN105810192B

Abstract

一种为语音信号建立语音模型的方法及其系统，该方法包括：接收训练样本；选定所述训练样本中的一个矢量，并计算所述矢量相对于预设GMM的最大似然值；选择预设数量的GMM，并将这些GMM中包含的PDF的参数建立成高斯参数表，其中GMM的选择是根据其对应的最大似然值进行的；将所述选定的GMM对应的最大似然值分配于HMM中的一个状态，其中，所述最大似然值即为所述矢量为所述HMM状态的概率；以及HMM状态组成序列，生成HMM状态模型，以执行对语音信号的识别。因此，在建立语音模型以进行语音识别时，不需要输入语音信号对应的，可被计算机理解的信息，同时不需要额外的存储空间存储这些信息。从而，在实际应用中，操作更方便，占用的存储空间更少。

Description

语音识别方法及其系统

技术领域

本发明涉及语音识别技术，尤其涉及一种基于隐马尔可夫模型的语音识别方法及其系统。

背景技术

现有利用隐马尔可夫模型(HiddenMarkovModel，HMM)进行声音识别的系统，引入了概率统计模型，是一种有效的语音识别的算法，因此，得到了广泛的应用，例如，可用于识别孤立的词或者连续的语言。

现有HMM算法生成的语音模型必须配合相应的标签才能实现语音识别的功能。具体的说，通过训练过程生成的语音模型本身不具有可被计算机识别的信息，因此需要通过标签或关键字等信息对其进行标注，以实现语音识别。所以，在实际应用中，就需要用户通过键盘等输入装置将这些标签或关键字信息输入。由此可见，现有HMM算法生成的语音模型，在被用于语音识别系统中时，会造成操作不方便的问题。同时，还需要额外的存储空间用于存储这些输入的标注信息，从而对存储空间的容量有更高的要求。

发明内容

本发明解决的问题是使得语音信号模型的建立不需要输入标签即可被计算机理解。

为解决上述问题，本发明提供了一种为语音信号建立识别模型的方法，包括：接收所述语音信号的训练样本；计算所述训练样本中的矢量相对于多个预设高斯混合模型的最大似然值；在所述多个预设高斯混合模型中选择第一组高斯混合模型，其中所述第一组高斯混合模型的选择是根据所述多个预设高斯混合模型对应的最大似然值进行的；将选定的所述第一组高斯混合模型对应的最大似然值分别分配于隐马尔可夫模型中的状态，其中，每个所述最大似然值即为所述矢量为对应状态的概率；以及，将所述训练样本的多个矢量对应的状态组成序列，生成隐马尔可夫状态模型。

可选地，所述第一组高斯混合模型的数量为N，所述第一组高斯混合模型为所述多个预设高斯混合模型中最大的N个最大似然值对应的高斯混合模型，N为正整数。

可选地，所述第一组高斯混合模型为所述多个预设高斯混合模型中最大似然值大于预设阈值的所有高斯混合模型。

可选地，所述多个预设高斯混合模型是通过语音数据库训练而来的。

可选地，所述方法还进一步包括，将所述第一组高斯混合模型中包含的概率密度函数的参数建立成高斯参数表；以及，对所述高斯参数表进行聚类，将相近似的高斯聚为一类，以生成高斯边界。

可选地，所述高斯参数表的聚类是通过相邻栏之间的距离进行的。

可选地，所述方法还进一步包括，从高斯边界表的一类中选择第二组高斯混合模型，并将选定的所述第二组高斯混合模型对应的最大似然值分别分配于隐马尔可夫模型中的状态。

本发明还提供了一种为语音信号建立识别模型的系统，包括：接收单元，用于接收所述语音信号的多个训练样本；和训练单元，被配置成可：计算所述训练样本中的矢量相对于多个预设高斯混合模型的最大似然值；在所述多个预设高斯混合模型中选择第一组高斯混合模型，其中所述第一组高斯混合模型的选择是根据所述多个预设高斯混合模型对应的最大似然值进行的；将选定的所述第一组高斯混合模型对应的最大似然值分别分配于隐马尔可夫模型中的状态，其中，每个所述最大似然值即为所述矢量为对应状态的概率；以及，将所述训练样本的多个矢量对应的状态组成序列，生成隐马尔可夫状态模型。

可选地，所述训练单元进一步被配置成可：将所述第一组高斯混合模型中包含的概率密度函数的参数建立成高斯参数表；以及，对所述高斯参数表进行聚类，将相近似的高斯聚为一类，以生成高斯边界。

可选地，所述训练单元进一步被配置成可：从高斯边界表的一类中选择第二组高斯混合模型，并将选定的所述第二组高斯混合模型对应的最大似然值分别分配于隐马尔可夫模型中的状态。

与现有技术相比，本发明的技术方案具有以下优点：

首先，通过本发明提供的方法，可以在语音信号和状态(可被计算机理解的信息)建立关联关系，从而在进行语音识别时，只要输入语音信号即可完成整个语音识别过程，而不需要像现有语音识别系统那样，预先通过键盘等装置输入关键字，标签等信息，因此，操作更加简便。同时，不需要额外的存储空间用于存储关键字，标签等信息，从而占用较少的存储空间。

其次，通过对高斯系数表中的栏进行聚类，建立了高斯边界表，从而在进行语音识别时，可以把判断的范围限定在高斯边界表的一个类中，进而，减少了识别时的运算量，提高了运算速度。

附图说明

图1是本发明一实施例的建立语音模型的方法示意图；和

图2是本发明一实施例的建立语音模型的系统示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

参照图1，阐释了本发明一实施例的建立语音模型的方法100，该方法100包括以下步骤。

S101，接收语音信号的多个训练样本。

该语音信号可以为特定用户的语音信号，也可以为不特定用户的语音信号。本发明对此不作限制，在实际应用中，可以根据需要进行选择。训练样本的数量与识别的精度有关，训练样本数量的确定可以是识别精度与计算量之间的折中。

S103，选定所述多个训练样本中任意一个样本的一个矢量，并分别计算所述矢量相对于多个预设高斯混合模型(GaussianMixtureModel，GMM)的最大似然值。

通过计算最大似然，可以得出与该矢量最接近的GMM模型。该GMM模型可以在非语音模型中，通过现有方式，比如训练加EM(Expectation-Maximization)过程得出。而且该GMM模型与非语音模型中的一个可被计算机理解的语音信息相对应，比如该GMM模型可对应一个音素，一个单词，一个汉字等信息，本发明对此不作限制，用户可以根据需求自由选择。

如此一来，该矢量为GMM模型对应的信息的概率即可以得出，也就是说该训练样本为某一状态的概率，该状态是可被计算机理解的信息。例如，当一个GMM模型代表的状态是单词“open”对应的信息时，矢量相对于该GMM模型的最大似然值为0.8，则意味着该训练样本信号对应的状态为“open”对应的信息的概率为80％。

值得注意的是，所述训练样本可包括多个矢量，每个矢量又可包括多个特征向量，每个特征向量分别对应GMM模型中的一个概率密度函数(ProbabilityDensityFunction，PDF)。

S105，选择第一组GMM模型，并将所述第一组GMM模型中包含的概率密度函数的参数建立成高斯参数表。

一个矢量相对于不同GMM的似然值可能是一样的，也就是说此时不能确定训练样本为哪一个状态的概率最大，所以GMM模型的数量可能不止一个。另外，最大似然计算的也只是一个概率，不是绝对的是或不是，如果每次只选择一个GMM模型或者只选择输出的最大似然为最大值的GMM模型，就需要更多的训练样本，以最大程度的确定该矢量代表的语音信息。因此，通过选择预设数量的GMM模型，可以减少训练样本的数量。

所述第一组GMM的选择可根据所述多个预设GMM对应的最大似然值进行。在一些实施例中，可以通过设定似然值的预设阈值，以确定第一组GMM。例如，将似然值的预设阈值设定为0.7，则输出的似然值大于0.7的所有GMM模型即为第一组GMM模型。在一些实施例中，也可以通过设定第一组GMM的数量，以确定第一组GMM。例如，设定第一组GMM的数量为N，则该第一组GMM包括所述多个预设GMM中最大的N个最大似然值对应的GMM，N为正整数。

GMM模型是由多个PDF函数以PDF函数的参数构成的，因此高斯参数表中包含该矢量对应的第一组GMM模型中的参数(GMM中每个PDF对应的参数)。

S107，对高斯参数表进行聚类，以生成高斯边界表。

通过聚类将相近似的高斯聚为一类，从而在应用该方法进行识别时，可以将识别的范围限制在一个类中，从而减少计算量，提高计算速度。

在一些实施例中，高斯参数表的聚类可以基于相邻栏之间的距离进行，例如，可以采用巴氏(Bhattacharya)距离进行计算。

S109，从高斯边界表的一类中选定第二组GMM模型，将选定的所述第二组GMM对应的最大似然值分别分配于隐马尔可夫模型(HiddenMarkovModel，HMM)中的状态，其中，每个所述最大似然值即为所述矢量为对应的状态的概率。

第二组GMM模型的选择可参照第一组GMM模型的选择。至此，HMM中的每个状态发生的概率即可获得。HMM中的状态即为计算机可以理解的，且与输入的矢量相对应的信息，也就是相当于现有方法中的标签等信息。

用户可以根据需求自定义HMM中的状态，其可以为一个音素，一个单词，一个汉字，或一个短语对应的，可被计算机识别的信息。HMM中的状态与GMM模型有关，即用户可以通过在非语音模块中对大量的语音信息进行训练以确定。当训练GMM时，如果使用语音数据是音素，则HMM中的状态即为音素对应的可被计算机理解的状态。类似的，如果训练GMM时，使用的语音数据是汉字，则HMM中对应的状态即为汉字对应的可被计算机理解的状态。

S111，将所述状态组成序列，生成HMM状态模型。

本发明中提供的方法，HMM中一个状态发生的概率不仅和其总的发生概率有关，还和其前一个状态发生的概率有关，即状态之间的转移概率有关。状态之间的转移概率可由用户在非语音模型中进行设定。

各状态之间的转移概率即为前一个状态发生时，后一个状态发生的概率。在利用上述方法进行识别时，在步骤S109中计算的只是单独一个状态出现的概率，还需要获得从前一个(左边)状态到后一个(右边)状态的转移概率，才能确定输入的信号是否为注册的信息。例如，注册的信息包括“openfacebook”，当步骤S109中确定待识别的语音信号中一个矢量为“open”的概率为90％，另一个矢量为“facebook”的概率是85％，要想确定待识别的语音信号为“openfacebook”的概率，还需要进一步计算当出现“open”时出现“facekook”的概率，才能生成识别结果。值得注意的是，输出的识别结果输也为概率，即可以把输出概率最大的状态模型作为待识别语音信号(可观察的)对应的状态(不可观察的)。对应的状态模型即所述语音信息对应的可被计算机理解的信息。在识别时，用户可以按照识别的精度确定输出概率的阈值，输出概率的阈值设定为98％，如果待识别的语音信号相对于状态模型的输出概率小于98％，则该语音信号不会触发该状态对应的动作或操作。

生成的HMM状态模型可被用于识别语音信号。具体的，可通过输入待识别的语音信号，计算得出相对于HMM状态模型(包括状态和概率)的输出概率，从而得出待识别语音信号为HMM状态模型中的状态的概率，该状态是可被计算机理解的信息。从而基于输出概率和状态，可生成识别结果并触发相应的动作。例如，当被识别的语音信号相对于HMM状态模型的输出概率为99％，状态模型中的状态为“openfacebook”对应的可被计算机理解的信息(触发打开facebook网页)，预设的概率阈值为95％，则待识别语音信号被识别为是要执行打开facebook网页。

在一些实施例中，生成的HMM状态模型为自左向右的状态模型。从而将语音信号(可观察的)和状态(不可观察的)之间相关联，以使得计算机可以识别所述语音信号。

因此，利用方法100建立的语音识别模型时，不需要通过输入装置输入标签等信息，用于标记模型以使得计算机可以识别语音信号。应用时，更加方法，用户只需要输入语音信号对模型进行训练，就可以产生可被计算机理解的语音状态模型。

参照图2，阐释了本发明一实施例的为语音信号建立识别模型的系统200。该系统包括：接收单元201，用于接收语音信号的多个训练样本，训练单元203用于训练所述多个样本以获得音频信号对应的状态。

训练单元203被配置成：选定所述多个训练样本中任意一个样本的一个矢量，并分别计算所述矢量相对于多个预设GMM的最大似然值。通过计算最大似然，可以得出与该矢量最接近的GMM模型。该GMM模型可以在非语音模型中，通过现有方式，比如训练加EM过程得出。如此一来，该矢量为GMM模型对应的信息的概率即可以得出，也就是说该训练样本为某一状态的概率，该状态是可被计算机理解的信息。

训练单元203还被进一步配置成：在所述多个预设GMM中选择第一组GMM，其中所述第一组GMM的选择是根据所述多个预设GMM对应的最大似然值进行的。

在一些实施例中，可以通过设定似然值的预设阈值，以确定第一组GMM。在另一些实施例中，也可以通过设定第一组GMM的数量，以确定第一组GMM。

GMM模型是由多个PDF函数以PDF函数的参数构成的，因此高斯参数表中包含该矢量对应的预设数量的GMM模型中的参数(GMM中每个PDF对应的参数)。

训练单元203还被进一步配置成：对高斯参数表进行聚类，以生成高斯边界表。

通过聚类将相近似的高斯聚为一类，从而在应用该方法进行识别时，可以将识别的范围限制在一个类中，从而减少计算量，提高计算速度。在一些实施例中，高斯参数表的聚类可以基于相邻栏之间的距离进行，例如，可以采用巴氏(Bhattacharya)距离进行计算。

训练单元203还被进一步配置成，从每一类中选择第二组GMM对应的最大似然值并分别分配于隐马尔可夫模型(HiddenMarkovModel，HMM)中的状态，其中，每个所述最大似然值即为所述矢量为对应的状态的概率。从而获得HMM中的每个状态发生的概率即可获得，HMM中的状态即为计算机可以理解的，且与输入的矢量相对应的信息，也就是相当于现有方法中的标签等信息。

用户可以根据需求自定义HMM中的状态，HMM中的状态与GMM模型有关，即用户可以通过在非语音模块中对大量的语音信息进行训练以确定。当训练GMM时，如果使用语音数据是音素，则HMM中的状态即为音素对应的可被计算机理解的状态。类似的，如果训练GMM时，使用的语音数据是汉字，则HMM中对应的状态即为汉字对应的可被计算机理解的状态。

训练单元203还被进一步配置成：将所述状态组成序列，生成HMM状态模型。

通过各状态发生的概率，以及状态之间的转移概率即可获得输入的语音信号(可观察的)对状态模型(不可观察的)的输出概率。在识别时，用户可以按照识别的精度确定输出概率的阈值，输出概率的阈值设定为98％，如果待识别的语音信号相对于状态模型的输出概率小于98％，则该语音信号不会触发该状态对应的动作或操作。

系统200还可包括触发单元205，其被配置成可基于生成的状态模型(包括状态和概率)，触发相应的动作或操作。例如，当被识别的语音信号相对于状态模型的输出概率为99％，状态模型中的状态为“openfacebook”对应的可被计算机理解的信息，预设的概率阈值为95％，则触发系统会触发执行单元打开facebook的网页。

因此，可以看出，本系统建立的语音识别模型，不需要通过输入装置输入标签等信息，用于标记模型以使得计算机可以识别语音信号。应用时，更加方法，用户只需要输入语音信号对模型进行训练，就可以产生可被计算机理解的语音状态模型。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种为语音信号建立识别模型的方法，其特征在于，包括：

接收所述语音信号的训练样本；

计算所述训练样本中的矢量相对于多个预设高斯混合模型的最大似然值；

在所述多个预设高斯混合模型中选择第一组高斯混合模型，其中所述第一组高斯混合模型的选择是根据所述多个预设高斯混合模型对应的最大似然值进行的；

将选定的所述第一组高斯混合模型对应的最大似然值分别分配于隐马尔可夫模型中的状态，其中，每个所述最大似然值即为所述矢量为对应状态的概率；以及，

将所述训练样本的多个矢量对应的状态组成序列，生成隐马尔可夫状态模型。

2.根据权利要求1所述的方法，其特征在于，所述第一组高斯混合模型的数量为N，所述第一组高斯混合模型为所述多个预设高斯混合模型中最大的N个最大似然值对应的高斯混合模型，N为正整数。

3.根据权利要求2所述的方法，其特征在于，所述第一组高斯混合模型为所述多个预设高斯混合模型中最大似然值大于预设阈值的所有高斯混合模型。

4.根据权利要求1所述的方法，其特征在于，所述多个预设高斯混合模型是通过语音数据库训练而来的。

5.根据权利要求1所述的方法，其特征在于，所述方法还进一步包括，将所述第一组高斯混合模型中包含的概率密度函数的参数建立成高斯参数表；以及，对所述高斯参数表进行聚类，将相近似的高斯聚为一类，以生成高斯边界。

6.根据权利要求5所述的方法，其特征在于，所述高斯参数表的聚类是通过相邻栏之间的距离进行的。

7.根据权利要求5所述的方法，其特征在于，所述方法还进一步包括，从高斯边界表的一类中选择第二组高斯混合模型，并将选定的所述第二组高斯混合模型对应的最大似然值分别分配于隐马尔可夫模型中的状态。

8.一种为语音信号建立识别模型的系统，其特征在于，包括：

接收单元，用于接收所述语音信号的多个训练样本；以及

训练单元，被配置成可：

9.根据权利要求8所述的系统，其特征在于，所述第一组高斯混合模型的数量为N，所述第一组高斯混合模型为所述多个预设高斯混合模型中最大的N个最大似然值对应的高斯混合模型，N为正整数。

10.根据权利要求9所述的系统，其特征在于，所述第一组高斯混合模型为所述多个预设高斯混合模型中最大似然值大于预设阈值的所有高斯混合模型。

11.根据权利要求8所述的系统，其特征在于，所述多个预设高斯混合模型是通过语音数据库训练而来的。

12.根据权利要求8所述的系统，其特征在于，所述训练单元进一步被配置成可：将所述第一组高斯混合模型中包含的概率密度函数的参数建立成高斯参数表；以及，对所述高斯参数表进行聚类，将相近似的高斯聚为一类，以生成高斯边界。

13.根据权利要求12所述的系统，其特征在于，所述高斯参数表的聚类是通过相邻栏之间的距离进行的。

14.根据权利要求12所述的系统，其特征在于，所述训练单元进一步被配置成可：从高斯边界表的一类中选择第二组高斯混合模型，并将选定的所述第二组高斯混合模型对应的最大似然值分别分配于隐马尔可夫模型中的状态。