CN1141697C

CN1141697C - 一种带调三音子模型及训练方法

Info

Publication number: CN1141697C
Application number: CNB00124972XA
Authority: CN
Inventors: 波徐; 徐波; 高升; 黄泰翼
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2000-09-27
Filing date: 2000-09-27
Publication date: 2004-03-10
Anticipated expiration: 2020-09-27
Also published as: CN1346126A

Abstract

一种带调三音子模型及训练方法提出了一种新的包含声调信息的声学模型及其相应的训练方法，该方法的最基本特征是不对声调进行直接的分类和建模，而是把本体及其左右声调当作一种上下文语境因素进行考虑，根据语境对包含有声调信息的声学特征的影响程度来确认是否需要对模型进行细分类，从而真正根据连续语音中的区分信息对声调和声韵母等上下文语境进行建模。

Description

一种带调三音子模型及训练方法

本发明提出了一种新的包含有声调信息的声学模型及训练方法，以解决有调语言连续语音识别中声韵母、声调及其变体的统一建模问题，属于自动语音识别领域。

为了在语音识别中充分应用声调特征，必须解决声调模式的声学建模问题，目前比较典型的可以归纳为以下二大类方法：1)声调识别与音节识别独立进行

该方案对声调特征(例如基频特征)和其他声学特征(如倒谱和能量特征)分别建模，训练出独立的两套声学模型，即声调模型和无调的声学模型；在语音识别时，分别用声调模型和无调的声学模型分别对输入语音进行解码。2)声调相关声学模型

这个方法特点是把声调特征作为整个特征空间的一部分进行处理，和倒谱及能量特征一起构成多维的特征矢量，训练一套声调相关的声学模型。在大多数的实现方案中，最典型的是在基本单元的选择时就把声调信息含在模型中，例如把韵母按照5个声调分成5个模型(例如a模型可以分为a1，a2，a3，a4，a5)；在解码阶段，直接用有调的声学模型解码，产生输出句子。

对于方法1)由于声调是单独建模和解码的，在一定程度上削弱了声调信息对识别的贡献以及对搜索空间的约束作用。另外，一般地可以认为目前的倒谱系数只同通道特性有关，而与激励关系不大，所以韵母的建模往往忽略声调的影响，但从倒谱的角度看，它只是对实际语音生成模型的一种近似，它不可能非常准确地反映通道特性，反映的也不可能仅仅就是通道特性。所以机械地把二者分离开来不是一种理想的模式。方法2)比较明显地克服了第一种方法的缺点，能有效地发挥声调在汉语语音识别中的作用。但由于基本模型数大大增加(韵母基本模型数扩充了5倍，一般是把37个无调的韵母模型扩展成185个有调的韵母模型)使得对训练数据的要求增加；另外一个缺陷在于连续语音中某些条件下并不需要区分某些声调，如在某些语境中的上声和阳平，在基本模型中强硬地把它们加以区分，就无法反映这种在连续语音中普遍存在的现象。实际上这种方法是对声调进行了硬判决。

本发明的目的在于发明的基本特征在于不对声调进行直接的分类和建模，而是把本体声调和上下文声调当作与其它上下文信息一样的语境因素，根据声调以及其它语境对特征的影响程度来确认是否需要对当前模型进行细分类，从而真正根据区分信息对声韵母、声调以及上下文变化进行建模。

本发明的技术要点在于不把声调当作一个独立因素，而是当作语境中的一个因素体现对特征的影响，其地位与作用就象要对左边、右边的声韵母对本体的影响一样。在已经掌握的语音学和语言学知识的基础上，把有关声调变化的知识，都以模式分类指导的体系形式在问题库中表示出来。在语音识别中广泛采用的决策树工具进行模型分类阶段，利用这些已知的知识指导分类；同时，它又是数据驱动的，声调模式之间的区分是由数据决定的。如果在训练语音数据库中，某些声调模式在决策树中是不可分的，则就不把它们分开。因此，分类的结果在一定程度上反映了在连续语音中实际声调模式的变化和区分情况。在此情况下，相对于硬判决建模，该思路是一种软判决建模方法。本方法同上面所述的方法1)有着本质的不同；同方法2)相比，有如下不同点：

1)基本模型层次上不区分声调；

2)模式分类体系中把本体声调左、右边声调作为语境因素之一。

说明本方法的框图如图1所示，其主要有6个步骤组成，具体说明如下：1.特征提取

不同声调在声学上最明显的表现在于它们的基频不同，因此在语音识别中常常从语音中直接提取基频作为声调的特征。对于单音节结构的汉语来讲，每个音节都是由声母和韵母组成，声调信息是附加在韵母上的，而声母则不载有声调信息，所以在声调特征提取时，直接从韵母中提取基频作为声调特征。而对于声母段，则采用平滑算法把它和相邻的韵母段连接起来。上面所述的基频特征加上12阶Mel倒谱、归一化能量构成共14维作为基本特征，加上其一阶差分及二阶差分共42维作为最后特征，基本方法同一般语音识别，其流程如图2所示。2.无调单音子模型

在汉语连续语音识别中，一般选择声母和韵母作为基本的建模单元，每个建模单元都用连续密度的隐马尔可夫模型(HMM)来表示。在本发明中，基本建模单元有22个声母HMM模型、37个韵母HMM模型和1个静音HMM模型，声韵母清单见图5。每个HMM的状态由混合高斯函数来表示，共训练60个无调的单音子模型。从上面描述可以看到本发明同方法2)不一样在于在基本模型是声调无关的，该类模型称为无调单音子模型，其训练方法同一般的语音识别过程。3.声调有关模式分类指导体系

基本模式分类体系是根据汉语的发音方式和发音部位来分类并进行相应的组合，例如有关爆破音本身，进一步分解出两个问题：即是否是送气爆破音还是不送气爆破音？又如对韵头音，根据发音方式和发音部位又进一步组合成撮口呼、开口呼和闭口呼等。声韵母的基本分类可参考图6和图7。

除了上述基本分类模式中同左右声韵母有关的分类指导问题外，模式分类指导体系中加入了左右韵母声调和本体有关的声调类型问题，并根据语音学的知识进行了相应的组合。假设有音节串如下图：

..................C_i-1V_i-1T_i-1C_iV_iT_i...C_i+1V_i+1T_i+1.............

在上式中，V_i作为本体，在常规的声学模型建模中V_i仅受C_i以及C_i+1的影响；T_i受T_i-1以及T_i+1的影响，二者是独立进行的；而在本发明中，V_i同时受C_i，C_i+1，T_i，T_i-1，T_i+1五个因素的影响。

声调的组合非常之多，参考了有关声调相互作用的一些文献后，本发明概括基本要点如下：1)阴平基本不受前后音节的影响；2)去声主要受音节的位置影响；3)阳平和上声比较复杂，受前影响，上声和去声可以归一类，阴平和阳平可以归成一类可以；4)阳平和上声比较复杂，受右影响，阴平和去声可以归为一类，阳平和上声可以归为一类。

为了更好的描述声调在连续语音中的相互影响，除了汉语本身所有的5种声调外，又特别设计了一种声调来表示不对其它声调产生影响，叫无声调。这样，韵母本身有5种声调类型，而左边或右边则可能有6种声调类型；对于声母或静音模型对应的语音段来说，则不必标记其本身、左边或右边的声调；如果相邻音节之间有静音段并且静音段的长度超过预设的值，则认为左右边音节的声调不对本体音节的声调产生影响，即标记本体左、右边音节韵母段语境声调为无调；一句话的第一个韵母左边语境声调和最后一个韵母右边的语境声调标记为无调。对声调设计了共计30多个问题，部分同声调有关的分类指导体系问题示意如下：QT1自身为阴平或轻声？QT2自身为阳平？QT3自身为上身？QT4自身为去声？QT5左边是阴平或轻声？QT6左边是阳平？QT7左边是上声？QT8左边是去声？QT9左边是上声或去声？QT10左边是阴平或阳平？QT11右边是阴平或轻声？QT12右边是阳平？QT13右边是上声？QT14右边是去声？QT15右边是阴平或去声？QT16右边是阳平或上声？QT17本身韵母是轻声和1声？QT18左边韵母是轻声和1声？QT19左边韵母是无声？QT20右边韵母是轻声和2和3声？QT21右边韵母是无声？4.训练数据的切割和标记

用单音子模型切割训练数据库采用了通用的Viterbi算法，即把所有语音帧对应到相应的HMM状态中去。这里切分数据的主要目的是需要对每一帧的语音数据进行标记，标记每一帧语音的属性；假设有训练语音其拼音表示为：C₁V₁T₁ C₂V₂T₂...C_i-1V_i-1T_i-1 C_iV₁T_i C_i+1V_i+1T_i+1....CnVnTn这儿C表示声母，V表示韵母，T表示声调，则在决策树中需要用到的语境信息包括：1)该帧语音对应的基本模型号2)该帧语音对应的状态3)该帧语音本身的声调，左边韵母的声调和右边韵母的声调：例如该帧语音所对应的V_i，则声调信息标记为T_i-1T_iT_i+14)该帧语音左边和右边的语境信息，包括该帧语音所属模型的左边和右边模型。同上，若该帧对应的语音属Vi，则其语境信息标记为C_i-1C_i+1

对于1)2)以上两个信息根据Viterbi对位结果可以得到，在本发明中上述两个信息并不记录在文件中，而是体现在数据文件名中。假设基本模型号是N，该帧所对应的语音状态是M，则我们把所有处于N个模型M个状态的语音帧以及相关信息都放在文件**N_M中，例如DecisionTreeN_M.dat。也就是说，本发明为所有音素所对应的状态输出分布创建一个语音数据文件，因为分裂过程是针对相应的分布进行的，所以每个文件可以独立地进行装入。如图9所示，如共有60个模型，每个模型有3个输出分布，则共生成180个文件，命名为P_k1-1.dat，P_k1-2.dat，.....，P_k60-3.dat。

对于信息3)4)对所拥有的语音数据库进行标记，在本发明中，事实上我们不直接记录3)、4)信息，而是转化为对模式分类指导体系中所有问题的回答。作为二元决策树，只需回答“是”还是“不是”即可。如果模式分类指导体系中问题的个数小于128个，就用一个128bits的长整数记录，每一位代表对一个模式分类指导体系问题的状态。如果是Yes，则记为1，若为No，则记为0。所以**N_N.dat文件的数据结果如图8所示。5.HMM状态的决策和聚类

决策树是按照HMM模型的状态生成的，也就是每个模型的每个状态都对应一个决策树，决策树的根节点对应着该模型的指定状态所拥有的所有标记过的训练矢量样本。从根节点开始根据最优问题进行节点的分裂，对于非叶结点，计算该节点按照问题库中某个问题分裂为两个节点时所产生的似然度的增量，选择产生似然度增量最大的问题，并把该节点按照这个最优的问题分裂为两个子节点。如果某个节点的样本数量小于预设值或某个节点分裂时所产生的最大似然度增量小于预设的门限，则标记该节点为叶结点。处理所有的节点，直到决策树生成，即所有的节点都变成叶结点。决策树算法可以描述如下：

1)从根节点(所有数据)开始进行分裂。根节点包含某个基本模型所有状态的语音数据及这些数据的模型估算。

2)对没有分裂过的非叶节点n

a.计算按模式分类体系中问题q进行分裂的概率增加值P(q，n)

b.如果满足终止条件，例如P(q，n)小于某一个门限TC，或其数据帧数小于某值RC，则标记该节点为叶节点；

c.根据P(q，n)最大的一个问题q_max，创建节点n的两个子节点。左节点为不满足问题q_max的数据帧集合，右边为满足问题q_max的数据帧集合。分别估算它们的分布参数；

d.直至所有节点都被分裂或成为叶节点。

评估准则是用来度量样本之间相似性的大小，评估函数一般采用距离测度。在决策树分裂时，首先计算父节点的样本之间的相似度，然后对于问题库中的任何一个问题，都计算父节点按照这个问题分裂时所产生的两个子节点的相似度并计算以及把父节点分裂成两个子节点所产生的相似度的增量。从中选择一个增量最大的问题把父节点分裂成两个子节点。本发明采用混合高斯函数作为评估函数，决策树如图3所示。6.带调三音子模型的生成

上述决策树是对每个基本模型的单个状态输出分布进行的。如果有两个三音子模型的对应分布皆位于决策树的同一个叶节点，则认为这两个模型是相同的，可以合并这两个三音子模型。这一步不影响任何识别率，但能大大降低识别时的搜索复杂度。

指定某个单音子b在某种语境情况下对应的有调三音子标记为1+b-r。对于声母和静音模型，因为不考虑声调的影响，b表示某个声母或静音，1表示b左边的语境(韵母或静音)，r表示b右边的语境(韵母)。对于韵母模型，因为考虑声调的影响，b表示某个有调的韵母，1表示b左边的语境(声母及b左边音节的声调)，r表示b右边的语境(声母或静音及其b右边音节的声调)。根据b及左右语境遍历相应的决策树，找到决策树的叶结点，产生该有调三音子模型所有的模型参数。在所有可能的有调三音子模型产生后，再对模型参数相同的三音子模型合并，产生最终的有调类三音子模型。如图10所示，1₁，b₁，，r₁及l₂，b₂，，r₂它们不同，但同属于同一基本模型。

在图1所示的训练过程中，还可以看到训练的迭代反馈过程。进一步提高模型精度，可利用上述得到的有调类三音子模型，对语音特征数据重新切割并标记，回到第4步，进行新一轮的迭代。7.并行训练系统

具体地，为了提高训练速度，设计图9所示的训练框图，该框图的特点在于采用了上述的独立文件后，使得决策树的聚类过程可以利用多台计算机进行平行处理。整个系统在PC平台上实现。

本发明的优点在于由于在基本模型中没有按照声调对元音进行分类，因而降低了对训练数据的要求；由于在基本模型中没有按照声调进行分类，而是根据实际上下文对语音特征的影响进行分类，从而使得建立的模型同实际连续语音中的变调更加接近。同时声调和三音子模型一体化的建立方式，也更加有利于系统的集成搜索和对识别率产生实际的贡献。

需要说明的是本发明的保护范围不受基本建模单元大小以及数量的限制，也不受模型类型的限制，其概念和方法适合于所有有调语言如普通话、广东话和泰语等。

附图说明：图1：带调三音子模型的建立过程图2：特征提取算法示意图图3：决策树示例图4：同音不同调例子图5：声韵母模型表图6：声母分类表图7：韵母分类表图8：**N_M.dat的数据存储格式图9：并行训练框图图10：三音子模型合并示意图

实施例：

汉语语音识别和英语语音识别的最大不同就在于汉语是单音节结构的有调语言，声调在汉语的识别和理解中是一个很重要的信息载体，如果不考虑声调，大约30％的词都有同音词；如果考虑了声调信息，则同音词的数目将大大降低。图4给出了一个发音都是ShiShi，但声调不同的一组单词。从中可以看到，为了提高汉语语音识别系统的性能，声调特征是必须要考虑的。

但在连续语音中，由于发音变异和协同发音的影响，同一个词的声调常常会因为语境的不同或词在句子中的位置的不同而变化，因此声调的变化模式是很多的，有语音学家总结出汉字两字调就有16中变化模式，连续语音中的变化更是不胜枚举。因而要对这些变化进行准确的建模并对识别率有所帮助不是容易的事情。

采用上述训练模型后，使得识别错误率有20％左右的下降。充分说明了本模型的有效性。

本建模方法还可以用在孤立语音识别，由于在词中声调的作用更加巨大，因而本建模方式可以发挥更大的优势。同时该建模方式还可用在对语音识别结果是否可靠进行判断的可信度恒量上面。

本方法适合所有有调语言的声学模型建模。

Claims

1.一种带调三音子模型及训练方法提出了一种新的包含声调信息的声学模型及其训练方法，其特征在于，首先利用无调单音子模型对训练语音数据进行切分并根据声调有关模式分类指导体系进行标记，然后利用决策树和分类标记，聚类产生有调类三音子模型；其具体步骤如下：

1)语音特征提取，计算12阶Mel倒谱特征，计算短时能量及基频共14维作为基本特征，加上其一阶差分及二阶差分，最后特征维数为42，过程同一般语音识别；

2)建立无调单音子模型，选择声母和韵母作为基本的建模单元，每个建模单元用一个隐马尔可夫模型(HMM)来表示，每个隐马尔可夫模型(HMM)的状态由混合高斯函数来表示；训练若干个同声调无关的单音子模型；

3)建立声调有关模式分类指导体系，基本模式分类体系是根据汉语的发音方式和发音部位来分类并进行相应的组合；除了基本模式分类指导体系外，加入左右韵母声调分类类型和本体的声调分类类型，根据语音学的知识进行相应的组合；

4)语境信息的标记即训练数据的切割和标记，采用通用的Viterbi算法和单音子模型切割训练数据库，即把所有语音帧对应到相应的HMM状态中去；切分数据的主要目的是需要对每一帧的语音数据进行标记，标记每一帧语音的属性；

5)隐马尔可夫模型(HMM)状态的决策和聚类，每个模型的每个状态都对应一个决策树，决策树的根节点对应着该模型的指定状态所拥有的所有标记过的训练矢量样本；从根节点开始进行节点的分裂，对于非叶结点，计算该节点按照模式分类指导体系中某个问题分裂为两个节点时所产生的似然度的增量，按照产生似然度增量最大的分类把该节点分裂为两个子节点，处理所有的节点，直到决策树生成，即所有的节点都变成叶结点；

6)带调三音子模型的生成：决策树是对每个基本模型的单个状态输出分布独立进行的，如果有两个三音子模型的所有分布皆位于决策树的同一个叶节点，则认为这两个模型是相同的，可以合并这两个三音子模型；

7)用三音子模型重新切分训练数据并标记，然后回到步骤第5)步。

2.如权利要求1所述的一种带调三音子模型及训练方法，其特征在于，不对声调进行直接的分类和建模，而是根据语境对包含有声调信息的声学特征的影响程度，把声调当作一个语境因素，结合语境建模的决策树技术隐式地对声调进行必要的分类，从而真正根据区分信息对声调进行建模，在音节串......C_i-1V_i-1T_i-1C_iV_iT_i...C_i+1V_i+1T_i+1......中，若V_i作为本体，V_i则同时受C_i，C_i+1，T_i，T_i-1，T_i+1五个因素的影响，即语境包括左、右声韵母、本体声调以及左、右韵母的声调；其中C表示声母，V表示韵母，T表示声调，上述符号的下标表示音节在句子中的位置。

3.如权利要求1所述的一种带调三音子模型及训练方法，其特征在于，其具体实现采用基于决策树的模型分类体系；在决策树的模式分类指导体系中，除了包含一般汉语语音识别用的语音学模式分类外，同时包含大量同声调以及其组合有关的模式分类指导体系，使得分类出的声学模型与声调有关，声调有关模式分类体系包括本体声调、左右边声调、左边声调与本体声调的组合、本体声调与右边声调的组合以及左右边与本体声调的组合关系。

4.如权利要求3所述的一种带调三音子模型及训练方法，其特征在于，所述声调有关模式分类体系，为了更好的描述声调在连续语音中的相互影响，基本声调模式除了阴平、阳平、上声、去声和轻声外，引入了一个无声声调类型，表示其不对其它声调产生影响；因而韵母本身有5种声调，而左边或右边则可能有6种声调。

5.如权利要求3所述的一种带调三音子模型及训练方法，其特征在于，所述在决策树声调有关模式分类体系中，需要用到的语境信息包括：

1)该帧语音对应的基本模型号；

2)该帧语音对应的HMM状态；

3)该帧语音本身的声调，左边韵母的声调和右边韵母的声调；

4)该帧语音左边的声母或韵母，该帧语音右边的声母或韵母。

6.如权利要求5所述的一种带调三音子模型及训练方法，其特征在于，所述语境信息标记，对于声母或静音模型对应的语音段，则不必标记其本身、左边或右边的声调；如果相邻音节之间有静音段并且静音段的长度超过预设的值，则认为左右边音节的声调不对本体音节的声调产生影响，即标记本体左、右边音节韵母段语境声调为无调；一句话的第一个韵母左边语境声调和最后一个韵母右边的语境声调标记为无调。

7.如权利要求5所述的一种带调三音子模型及其训练方法，其特征在于，所述语境信息标记，对所拥有的语音数据库进行信息标记时，直接转化为对模式分类指导体系中所有问题的回答；作为二元决策树，只需回答“是”还是“不是”即可，具体根据模式分类指导体系中问题的个数用一个或几个整数作为单元，每一位代表对一个模式分类指导体系问题的状态，如果是Yes，则记为1，若为No，则记为0。

8.如权利要求5所述的一种带调三音子模型及其训练方法，其特征在于，所述语境信息标记，在训练方法对训练数据切割标记后，把每一个HMM的每一个状态对应的特征数据建立独立的文件，该文件内含属于该模型该状态的语音帧的所有信息，通过相互独立的数据存放，使得决策树的产生过程可以由多台计算机并行处理完成。