CN101950560A

CN101950560A - 一种连续语音声调识别方法

Info

Publication number: CN101950560A
Application number: CN2010102790904A
Authority: CN
Inventors: 刘常亮; 潘复平; 董滨; 颜永红
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2010-09-10
Filing date: 2010-09-10
Publication date: 2011-01-19

Abstract

本发明涉及一种连续语音声调识别方法，1)提取已知语音段中每一个语音帧的频谱特征和基频特征，所述基频特征至少包括：当前语音帧的基频值，当前连续基频段的长度，以及当前帧基频值与前一个连续基频段的后N帧基频平均值的差值；2)对所提取出的基频特征流和频谱特征流，分别采用多空间概率分布和普通的隐马尔可夫模型来进行建模；3)采用特征流相关的决策树聚类方法建立决策树，分别得到聚类后的基频特征模型和频谱特征模型；4)对每一句待识别语音进行语音识别；5)根据已得出的音节内容，基于步骤3)所得出模型和建立声调识别网络，并在所述声调识别上进行Viterbi搜索，得其最优路径，并从最优路径中提取声调序列，作为最终的声调识别结果。

Description

一种连续语音声调识别方法

技术领域

本发明属于语音识别技术领域，具体的说，本发明涉及对有调语言(如汉语)中的连续语音的声调识别方法。

背景技术

在有调语言中，比如汉语普通话，粤语等，对同样的发音，不同的声调表示不同的含义。在语音识别，以及计算机辅助语言学习领域，声调识别都是一个非常重要部分。在计算机辅助语言学习中，声调识别可以给予学习者有效的反馈，帮助他们更快更好的学习声调。目前，对孤立音节的声调识别可以达到较好的性能，但对连续语音的声调识别效果还不是很理想。孤立音节的声调不受上下文的影响，其识别相对比较简单；而连续语音的声调受上下文的影响很大，甚至还有情感等更高层次的因素的影响，变化丰富，识别起来相对比较困难。

目前已有的声调识别方法大致可以分为两类，显式建模的方法和嵌入式建模的方法。显式建模方法，也称为两步式建模，它一般是首先通过强制对齐技术将连续的语音切分成音节片段，然后针对每一个音节片段，将其当作孤立音节来处理，采用孤立音节声调识别中的方法来处理。典型的方法如TRUES(Tone Recognition UsingExtended Segments)方法。这种方法对强制对齐切分的准确性要求很高，如果切分准确性不高，就很难获得令人满意的性能。然而在很多情况下，切分的准确性难以保证。现有技术中还有一种嵌入式建模方法，也称为一步式建模，这种方法基于隐马尔可夫模型语音识别方法，在语音识别的谱特征矢量中，嵌入若干能表征声调的基频特征。目前，嵌入式声调建模方法的应用大多作为语音识别的辅助技术，帮助提高语音识别的准确性，尚未单独应用于声调识别。将嵌入式声调建模应用于声调识别时，需要从识别网络构建，模型选择等多个方面进行优化，以达到较好的效果。因此，当前迫切需要一种基于嵌入式声调建模的能够有效提高了声调识别正确率的声调识别方法。

发明内容

本发明的目的在于提出一种声调能够提高连续语音声调识别的准确率的声调识别的方法。

为实现上述发明目的，本发明提供了一种连续语音声调识别方法，包括训练步骤和识别步骤，其特征在于，所述训练步骤包括：

1)提取已知语音段中每一个语音帧的频谱特征和基频特征，对于每一个语音帧，所述基频特征至少包括：当前语音帧的基频值，当前连续基频段的长度，以及当前帧基频值与前一个连续基频段的后N帧基频平均值的差值；所述频谱特征是MFCC特征或者MF-PLP特征，或者是二者的组合；

2)对所提取出的多个语音帧的基频特征所组成的基频特征流，采用多空间概率分布隐马尔可夫模型来进行建模，对所提取出的多个语音帧的频谱特征所组成的频谱特征流，采用普通隐马尔可夫模型建模；其中，组成识别单元的元素包括当前音节，当前声调以及前一个字的声调；

3)采用特征流相关的决策树聚类方法，根据所述识别单元中的当前音节和前一个字声调来建立决策树；其中，对频谱特征流和基频特征流分别建立不同的决策树，分别得到聚类后的基频特征模型和频谱特征模型；

所述识别步骤包括：

4)对每一句待识别语音，进行语音识别得出其音节内容；

5)根据已得出的音节内容，基于训练步骤所得出的聚类后的基频特征模型和频谱特征模型，建立声调识别网络，并在所述声调识别上进行Viterbi搜索，得其最优路径，并从最优路径中提取声调序列，作为最终的声调识别结果。

其中，所述步骤1)中，所述基频特征还包括：当前帧与相邻帧的基频一阶差分值；和/或当前帧与相邻帧的基频二阶差分值。

其中，所述步骤2)中，所述识别单元由当前音节，当前声调，前一个字的声调，以及后一个字的声调组成。

其中，所述步骤2)中，采用多空间概率分布隐马尔可夫模型来进行建模时，0维子空间描述清音部分的基频，多维连续子空间描述浊音部分的基频，此处的基频是实际意义的基频，并非基频特征。

其中，所述步骤3)中，决策树根据当前音节，前字声调和后字声调来建立，对所识别的有调语言中每一类声调各建立一个决策树。

其中，所述步骤5)还包括：在建立所述声调识别网络时，所述声调识别网络中每一个音节含有N个声调候选，声调识别网络有一个开始节点和一个结束节点，声调识别网络经过声调上下文扩展转换为识别单元网络，识别单元网络最终再转换为隐马尔可夫模型状态网络，供识别时使用。

相对于现有技术，本发明能够有效地提高了声调识别正确率。

附图说明

图1是本发明一个实施例中提出的声调识别方法的流程图；

图2是本发明一个实施例中提出的声调识别方法中声调识别模型训练时的特征流相关的决策树聚类示例；

图3是本发明一个实施例中提出的声调识别方法中所用到的声调网络；

图4是本发明一个实施例中提出的声调识别方法中所用到的声调网络的上下文扩展及模型转换示意图。

具体实施方式

本发明所提到的连续语音声调识别方法的流程框图如图1所示。本流程包含两个过程，训练过程和识别过程。在训练过程中，采用大规模语料训练得到基于多空间概率分布的HMM模型；在识别过程中，基于已训练好的MSD-HMM模型和一个专门为声调识别所设计的声调识别网络，采用Viterbi搜索算法得到最佳的声调序列。

在本方法中，所选用的语音特征包含频谱特征和基频特征，频谱特征为语音识别中常用的特征，包含MFCC(Mel-frequency cepstral coefficient)、MF-PLP(Mel-frequency perceptual linear prediction)等等；基频特征用于表征声调特性，本发明选用了5维的基频特征，这五个基频特征分别是：

1)语音帧的基频值；

2)相邻帧的基频一阶差分值；

3)相邻帧的基频二阶差分值；

4)当前连续基频段的长度；

5)当前帧基频值与前一个连续基频段的后N帧基频平均值的差值，N通常选为10。

这五维的基频特征是在实践中证明能够取得较好的特征组合，但本发明所涉及的方法并不限于此五维特征组合，增加或减少特征数量并不影响本发明的应用，但可能不能得到最好的结果。比如可选择上述五个基频特征中的第1、4、5特征构成三维的特征，等等。

在语音信号中，基频值只存在于浊音段，在清音段上不存在基频。实际语音中的浊音段和清音段是交替存在的，因此，基频序列并非一个完全连续的序列。传统的HMM只能处理完全连续的矢量序列，因此，在对基频进行建模的时候，本发明采用了多空间概率分布的HMM模型。关于多空间概率分布的HMM的技术细节可参照Multi-space probability distribution HMM(K.Tokuda，T.Masuko，N.Miyazaki，and T.Kobayashi，IEICE TRANSACTIONS on Information and Systems，vol.85，no.3，pp.455-464，2002)。多空间概率分布将整个特征分布空间分为不同的子空间，每个子空间可以有不同的维数。基于多空间概率分布的基频建模认为浊音段和清音段的基频特征来源于不同的子空间，浊音段基频特征来源于一个连续的子空间，清音段基频特征来源于一个0维的子空间(清音段基频值无实际意义)。当频谱特征和基频特征联合建模时，采用了特征流相关的建模方法，频谱特征和基频特征分属于不同的流，并且采用不同的建模方式。对频谱特征流采用传统的HMM建模方式，对基频特征流则采用MSD-HMM建模方式。

在建模单元的选取上，考虑到此处无需识别出具体的音素，而且当前音节的声调主要受其声调上下文的影响，因此选取当前音节、当前声调、前一个字的声调、后一个字的声调共同构成一个建模单元。一个建模单元示例如下所示：

3^ba@1＝2

其中ba表示当前的音节，@1表示当前声调为一声，3^表示前一个字的声调为三声，＝2表示后一个字的声调为二声。每一个建模单元由一个含有四个状态的隐马尔可夫模型来建模。

此处包含四个部分的建模单元是在实践中发现效果较好的方式，但本发明中所采用的方法并不限于此种建模单元，比如建模单元可只选取当前音节、当前声调、前一个字的声调三部分，构成如3^ba@1的方式，等等。

为了解决数据稀疏问题，在建模中采用了基于决策树的聚类方式，决策树的建立根据前一个音节的声调，后一个音节的声调，当前的音节来建立。针对这三个部分，设计了不同的问题，问题的示例如下：

1.前一个音节声调是一声？

2.后一个音节声调是一声？

3.当前音节的韵母是单元音？

......

对每一个声调建立一个决策树，最后的结果中共包含N个决策树，N为声调的总数。以汉语为例，N＝5(一声，二声，三声，四声，轻声)。

在聚类中，针对特征中的频谱参数流和基频参数流，还采用了特征流相关的决策树聚类方法。即针对不同的特征流，建立不同的决策树。因为不同的特征流所反映出的是语音的不同的特征，比如频谱特征流更多的跟当前音节的发音有关，而基频参数流更多的受前后声调的影响。采用特征流相关的聚类方法可以建立更准确的模型。特征流相关的决策树聚类示例如图2所示。频谱流决策树的建立过程更多的和发音有关的问题有关，而基频流决策树的建立过程更多的和声调有关的问题有关。

在识别过程中，因为本发明专注于声调识别，因此假设音节内容是已知的。基于已知的音节内容，构建了如图3所示的声调识别网络。每个音节有五个候选声调，分别用1，2，3，4，5来表示。从开始节点到结束节点的整个网络构成完整的一句话。在实际解码之前，这个网络经过上下文扩展，模型转换，最终转化成为一个由隐马尔可夫模型状态构成的状态图。图4展示了网络中某条边的一条扩展路径及转换过程。在这个状态图上，采用Viterbi搜索算法搜索得到累积概率最高的路径，从这条路径中，可以得到声调序列，即为声调识别结果序列。

下面结合附图及具体实施例对本发明做进一步描述：

实施例

本实施例以汉语连续语音声调识别为例，描述本发明的具体实施步骤，包括训练步骤和识别步骤。

训练步骤包含如下子步骤：

1)语音数据特征提取：对语料库中的语音数据进行分帧，加窗，预加重等预处理，提取所需频谱特征和基频特征；

在本实施例中，语音数据以16K，16bit，单声道数字化格式存放，所提取的频谱特征为MFCC(mel-frequency cepstral coefficient)特征矢量及其一阶和两阶差分矢量；基频特征包括5维，5维基频特征分别是：

a)语音帧的基频值；

b)相邻帧的基频一阶差分值；

c)相邻帧的基频二阶差分值；

d)当前连续基频段的长度；

e)当前帧基频值与前一个连续基频段的后N帧基频平均值的差值，N通常选为10。

2)准备语音数据的标注文本：准备训练隐马尔可夫模型所需的语音数据标注文本；

隐马尔科夫模型训练需要与语音相对应的内容文本，这些文本需要人工标注得到。在本实施例中，标注文本采用音节拼音标注，比如某句语音的标注如下所示：

chuang1 wai4 xia4 qi3 le5 piao1 yang2 de5 xue3 hua1

(窗外下起了飘扬的雪花)

拼音后的数字表示当前字的声调。在实际模型训练过程中，拼音标注需要进行上下文扩展，以得到包含当前音节、当前声调、前一个字的声调、后一个字的声调的建模单元。对上述标注示例进行上下文扩展后，得到的建模单元序列为：

0^chuang@1＝1 1^wai@4＝4 4^xia@4＝3 4^qi@3＝5 3^le@5＝1 5^piao@1＝21^yang@2＝5 2^de@5＝3 5^xue@3＝1 3^hua@1＝0

3)模型训练：根据以上准备的语音特征数据以及相应的标注数据训练MSD-HMM模型；

模型训练采用最大似然训练准则，训练算法采用Baum-Welch算法。为了避免数据稀疏问题，所有的识别单元采用特征流相关的决策树聚类方法聚类。对频谱参数流和基频参数流，分别建立不同的决策树。决策树的建立根据前一个音节的声调，后一个音节的声调，当前的音节来建立。汉语总共有五个声调(包含了轻声)，对每一个声调建立一个决策树。

识别步骤包含如下子步骤：

1)语音数据特征提取：对待识别的语音数据进行分帧，加窗，预加重等预处理，提取所需频谱特征和基频特征；

所述频谱特征和基频特征与训练步骤中的步骤1)完全一致，不再赘述。

2)准备声调识别网络：对每一句待识别的语音，根据已知的音节内容构建识别网络；

识别网络如图3所示。图中表示的是“我爱地球”的声调识别网络，句中的每个音节(wo ai di qiu)，包含5个可选的声调：1，2，3，4，5，分别表示汉语中的一声，二声，三声，四声，轻声。

此声调识别网络经过上下文扩展，模型转换过程，最终转化成包含隐马尔可夫模型状态的状态网络。此过程如图4所示，对图3中的每一条边，根据其前面音节和后面音节的声调进行上下文扩展，得到建模单元网络。比如对“ai5”这条边，扩展为“1^ai@5＝1”，“2^ai@5＝1”，“3^ai@5＝1”，“1^ai@5＝2”等边。然后，每个建模单元用相应的隐马尔科夫模型来替换，就得到了最终的声调识别网络。

3)声调序列搜索：通过有效的搜索算法得到最终的声调识别序列；

在本实施例中，采用Viterbi搜索算法根据已得到的隐马尔可夫模型和声调识别状态网络搜索得到最优的识别单元路径。从这个识别单元路径中，提取出声调序列，即为声调识别结果。

检测试验：

使用中华人民共和国国家863汉语普通话大词汇量连续语音识别评测数据库对本发明所提出的连续语音声调识别方法进行了实验。实验中选用大约80个小时的数据作为训练集，包含84个男性和84个女性的录音；另有大约5个小时的数据作为测试集，包含7个男性和7个女性的录音，大约8000句话。最终训练的得到的模型总共包含约5000个状态得，每个状态由含16个高斯的高斯混合模型描述。实验结果如表1所示，包含5个声调分别的实验正确率和总的识别正确率。与显式声调建模方法相比，本发明中的方法在大部分声调上都取得了更好的识别结果，最终的声调识别正确率比TRUES方法提高了约3.7个百分点。

表1

最后，需要说明的是，虽然上述实施例以汉语为例进行说明，但本领域技术人员易于理解，本发明可以用于对其它有调语言进行声调识别。

Claims

1.一种连续语音声调识别方法，包括训练步骤和识别步骤，其特征在于，所述训练步骤包括：

所述识别步骤包括：

4)对每一句待识别语音，进行语音识别得出其音节内容；

2.根据权利要求1所述的连续语音声调识别方法，其特征在于，所述步骤1)中，所述基频特征还包括：当前帧与相邻帧的基频一阶差分值；和/或当前帧与相邻帧的基频二阶差分值。

3.根据权利要求1所述的连续语音声调识别方法，其特征在于，所述步骤2)中，所述识别单元由当前音节，当前声调，前一个字的声调，以及后一个字的声调组成。

4.根据权利要求1所述的连续语音声调识别方法，其特征在于，所述步骤2)中，采用多空间概率分布隐马尔可夫模型来进行建模时，0维子空间描述清音部分的基频，多维连续子空间描述浊音部分的基频。

5.根据权利要求3所述的连续语音声调识别方法，其特征在于，所述步骤3)中，决策树根据当前音节，前字声调和后字声调来建立，对所识别的有调语言中每一类声调各建立一个决策树。

6.根据权利要求3所述的连续语音声调识别方法，其特征在于，所述步骤5)还包括：在建立所述声调识别网络时，所述声调识别网络中每一个音节含有N个声调候选，声调识别网络有一个开始节点和一个结束节点，声调识别网络经过声调上下文扩展转换为识别单元网络，识别单元网络最终再转换为隐马尔可夫模型状态网络，供识别时使用。