CN1112269A

CN1112269A - 基于汉语发音特点的hmm语音识别技术

Info

Publication number: CN1112269A
Application number: CN 94105340
Authority: CN
Inventors: 肖熙; 王作英; 战普明; 姜进
Original assignee: Chaofan Electronic Sci & Tech Co Ltd Beijing
Current assignee: Chaofan Electronic Sci & Tech Co Ltd Beijing
Priority date: 1994-05-20
Filing date: 1994-05-20
Publication date: 1995-11-22

Abstract

本发明基于汉语发音特点的HMM语音识别技术，属于语音信号处理和识别技术领域。本发明将基于段长的隐含马尔可夫模型方法具体应用于计算机汉语语音识别，从而使计算机既能对特定人或非特定人汉语语音特点进行识别，又可识别孤立汉字、词组以及连续语音，而且在计算机语音识别系统中进行足够的语音训练后，达到语音识别的高识别率，高稳定性。

Description

本发明基于汉语发音特点的HMM语音识别技术属于语音信号处理和识别技术领域。

目前利用计算机汉语语音识别技术，在语音识别实用化、产品化方面做的比较好是四达公司的STAR-863语音识别系统，它属于特定人孤立字全字表语音识别系统，采用DTW（动态时间变形法），特别适合于特定人的语音识别系统，而且识别精确度比较高，但由DTW方法所限，其模型的延续性特征的积累能力不强，因此很难推广应用到非特定人的语音系统。

本发明的目的：解决语音特征的提取问题，即解决由于汉语语音的不平衡性和多变性使得语音信号处理困难的问题，使语音识别系统既可应于特定人语音识别系统，又可应用于非特定人语音识别系统，既能识别孤立字音，又能识别词组和连续语音，并避免前述技术之不足，以达到语音识别系统广泛应用的目的。

本发明基于汉语发音特点的HMM语音识别技术的基本技特征：把HMM模型加以改进并按汉语发音特征进行模型训练来完成汉语语音特征的提取和识别。HMM模型是由一个状态概率π，状态转移A和状态相关联的概率分布阵B组成的三元组（π，A，B）。设状态数N，则：

π＝（π₁，π₂，…，π_N），A＝｛a_ij｝_NXN，B＝｛b₁，b₂…b_N｝

经典HMM中（π，A）是一个齐次Markov过程，其中a_ii是一个与时间无关的常数，从而状态i的驻留长度τ是指数分布：

这与语音的物理事实不符。事实上语音识别之所以成为可能就在于语音基本单位（如音素）对应的特征具有聚类性。在物理上HMM的状态必与某个语音单位相对应。本发明从状态驻留长度的概率分布函数出发，导出了一个基长段长分布的非齐次HMM模型，称为DDBHMM（Duration Distribution Based Markov Model）。

语音Markov模型的驻留长度相对稳定，而且不同字对应状态具有不同的驻留长度这一点，说明状态驻留长度信息对语音识别是非常重要。状态驻留长度的概率分布P_i（i＝1，…，N）和状态转移概率a_ij（i，j＝1，2，…，N）是一一对应的。因此，更合理的确定Markov模型的状态驻留长度分布函数｛P_i（τ）｝从而导出转移阵｛a_ij｝_NXN。已知｛P_i（τ）｝则：

a_ii（k）＝P_i（τ≥K/τ≥K-1）

＝ (P_i[(τ≥K∩(τ≥K-1)])/(P_i(τ≥K-1))

= (P_i（τ≥K))/(P_i（τ≥K-1))

设每状态相互独立：

a_ij（k）＝P_i（τ≥k/τ≥k-1）P_（i+1）（τ＝0）…P_j-1（τ＝0）P_j（τ≥1）

＝[1-a_ii（k）]P_（i+1）（τ＝0）…P_j-1（τ＝0）P_j（τ≥1）

a_ij（k）表示K时刻由i转j的概率，a_ii（k）表示K时刻驻留原始状态i的概率，一般a_ii与驻留时间有关，从而a_ij必与K有关。

任何字或词的模型都是一组参数M＝｛π，A，B｝，为对识别器进行训练，必须为每一个字词建立一个模型库。对每一个字词确定状态转移阵A，状态概率π及特征参数B，识别时系统给出一个观测序列0，那个字词模型产生这一观测序列的概率最大，就把未知字词判为这个字或词，识别结果定义为：

其中语音的观测序列0＝（0₁，…，0_T），K_j（j）＝1，2，…，N对应于最优分割的状态驻留长度。

模型训练的训练方法采用迭代法：先对A.B和π都假设一初始值，然后用待识别语音的观测序列以一定的方法对这些估值提纯;对提纯的值要接着进一步提纯，这个过程一直进行下去，直到没有改进余地为止，得到库存模型。

选取训练方法训练集中的部分能充分表达汉语发音特点的字或词，通过Viterbi算法做状态分割：

以此为初始值序列，对其它的字进行分割。提纯过程同样也采用Viterbi算法，在分割状态时，根据每个字或词的发音特点，使用相应的初始矢量序列的组合作为初始值，对该字或词进行分割，分割后的结果再按该字或词的发音特点，将各状态分解到相应的初始值序列，并与初始值序列中相应的矢量进行聚类，产生新的初始值。将这种算法应用于所有可能的库存模型。

上述发明的模型和算法已在用于特定人的语音识别系统-知音文书处理系统上实现。

本发明的优点：

与DTM相比，本发明真实地反映了作为语音编码的语音信号的随机性和状态的隐含性，因而更能反映语音信号的产生过程及其内在规律。具有如下优点：

1.它作为一种概率参数模型，在识别时无须进行距离计算，用Viterbi识别算法速度很快，易于在现有技术条件下，以低廉的价格实现。

2.改进的模型具有比较大的适应性，当训练足够广，足够大时，易于实现与特定人无关的识别系统。

3.易于由孤立字系统向连续语音识别过渡。

4.DDBHMM是根据语音基本单位对应的特征具有聚类性这一物理事实导出的非齐次HMM，识别效果较优，且稳定性好。

Claims

1、本发明基于汉语发音特点的HMM语音识别技术，其基本特征在于：用基于段长的DDBHMM模型进行模型训练来完成汉语语音特征的提取和识别。

2、根据权利要求1所述，基于汉语发音特点的HMM语音识别技术的特征在于：因为状态驻留长度的概率分布P_i（i＝1，…，N）和状态转移概率a_ij（i，j＝1，2，…，N）是一一对应的，因此更合理的确定Markov模型的状态驻留长度分布函数｛P_i（τ）｝从而导出转移阵｛a_ij｝_NXNO已知｛P_i（τ）｝则：

a_ii（k）＝P_i（τ≥K/τ≥K-1）

＝ (P_i[(τ≥K∩(τ≥K-1)])/(P_i(τ≥K-1))

= (P_i（τ≥K))/(P_i（τ≥K-1))

设每状态相互独立：

＝[1-a_ii（k）]P_（i+1）（τ＝0）…P_j-1（τ＝0）P_j（τ≥1）

3、根据权利要求1所述，基于汉语发音特点的HMM语音识别技术的特征在：任何字或词的模型都是一组参数M＝｛π，A，B｝，为对识别器进行训练，必须为每一个字词建立一个模型库。

4、根据权利要求1或3所述，基于汉语发音特点的HMM语音识别技术的特征在于：对每一个字词确定状态转移阵A，状态概率π及特征参数B。识别时系统给出一个观测序列0，那个字词模型产生这一观测序列的概率最大，就把未知字词判为这个字或词，识别结果定义为：

其中语音的观测序列0＝（0₁…，0_T），K_j（j＝1，2，…，N）对应于最优分割的状态驻留长度。

5、根据权利要求1或3所述，基于汉语发音特点的HMM语音识别技术的特征在于：模型训练的训练方法采用迭代法，即先对A.B和π都假设一初始值，然后用待识别语音的观测序列以一定的方法对这些估值提纯;对提纯的值要接着进一步提纯，这个过程一直进行下去，直到没有改进余地为止，得到库存模型。

6、根据权利要求1或4所述，基于汉语发音特点的HMM语音识别技术的特征在于：选取训练方法训练集中的部分能充分表达汉语发音特点的字或词，通过Viterbi算法做状态分割：

以此为初始值序列，对其它的字进行分割。

7、根据权利要求1或4所述，基于汉语发音特点的HMM语音识别技术的特征在于：提纯过程也采用Viterbi算法，在分割状态时，根据每个字或词的发音特点，使用相应的初始矢量序列的组合作为初始值，对该字或词进行分割，分割后的结果再按该字或词的发音特点，将各状态分解到相应的初始值序列，并与初始值序列中相应的矢量进行聚类，产生新的初始值，这种算法应用于所有可能的库存模型。