CN1499484A

CN1499484A - 汉语连续语音识别系统

Info

Publication number: CN1499484A
Application number: CNA021461007A
Authority: CN
Inventors: 王作英; 吴及; 肖熙; 孙甲松; 王侠
Original assignee: TIANLANG SPEECH SOUND SCI-TECH Co Ltd BEIJING
Current assignee: TIANLANG SPEECH SOUND SCI-TECH Co Ltd BEIJING
Priority date: 2002-11-06
Filing date: 2002-11-06
Publication date: 2004-05-26

Abstract

本发明提供了一种采用基于段长分布的隐含马尔可夫模型的汉语连续语音识别系统，包括语音采集装置、前端处理模块、特征提取模块、基音特征提取模块、声调识别模块、训练模块、声学层识别模块、拼音文法理解模块、语言理解模块；通过训练模块得到码本和模型参数；通过声学层识别模块对MFCC语音特征序列的搜索算法，产生拼音格形式的识别结果，同时，语音信号的基音特征矢量也被提取出来，送入声调识别模块，声调识别模块利用基音特征信息和拼音的分割点信息，得到拼音的声调信息并加入到拼音格中，接着，通过拼音文法理解模块对拼音格进行修剪，送入语言理解模块，转化为拼音图和词图，并在词图中进行搜索，得到最后的理解结果。

Description

汉语连续语音识别系统

技术领域

本发明涉及一种汉语连续语音识别系统，尤其是一种采用基于段长分布的隐含马尔可夫模型的汉语连续语音识别系统。

背景技术

语音识别就是从人的语音波形中提取信息并确定其语言含义的过程。语音识别作为一门交叉学科，涉及到了信号处理、统计模式识别、人工智能、计算机科学、语言学和认知科学等众多学科。语音识别技术大致可以分为以下几类：语音信号检测和特征提取技术，语音信号发生机理和数学模型建立，语音识别单元选择，训练和识别搜索算法，语言模型处理技术，语法和语义分析技术等等。

隐含马尔可夫模型(Hidden Markov Model-HMM)是目前非特定人语音识别的最重要的方法，HMM模型是语音产生机理的一种符合自然的描述，早在1913年A.A.Markov就提出了将Markov模型用于字符串的匹配，HMM数学理论方面的工作主要由Baum等人所完善，70年代中期Baker和Jelinik等人首次把HMM用于语音识别，当时他们研究的是连续语音的识别问题。随着语音识别的研究由连续语音转向孤立词和70年代末80年代初矢量量化(Vector quantification-VQ)技术的出现，Rabiner和Levinson等人把HMM用于与人无关的孤立词识别获得了成功，随着语音识别研究工作的深入开展，HMM语音识别方法愈来愈受到人们的重视，但与此同时，人们也愈来愈认识到经典HMM语音识别模型在一些重要方面存在严重缺陷，这就是：

第一、经典HMM是一个齐次的Markov模型，状态转移概率与状态驻留长度无关，与语音的实际过程不符；

第二、经典HMM模型用于大词汇表的识别系统时，其模型的训练量是灾难性的；

第三、无法自适应，从而对于进一步提高系统的识别率将是困难的；

第四、模型的存储量太大。

由于上述方面的缺陷，导致采用经典HMM模型的语音识别系统的识别率低下，同时因为系统运算量和存储量巨大使得系统工作效率不高，自我学习能力降低，系统开发成本偏高，难以普及到广泛的应用当中去。

发明内容

本发明的目的在于提出了一种采用基于段长分布的隐含马尔可夫模型的汉语连续语音识别系统，该语音识别系统比现有语音识别系统的识别率有显著提高，更重要的是该语音识别系统的训练算法比经典HMM的Baum-Welch训练算法要快近二个数量级，存储量也小得多，解决了所谓的训练灾难，同时提高了系统学习能力，从而可以在使用过程当中不断地提高语音识别率。

为达到上述目的，本发明是这样实现的：本发明包括语音采集装置、前端处理模块、特征提取模块、基音特征提取模块、声调识别模块、训练模块、声学层识别模块、拼音文法理解模块、语言理解模块九个部分，该声学层识别模块采用以状态的段长概率来表示的隐含马尔可夫模型，即基于段长分布的隐含马尔可夫模型，简称DDBHMM模型，该模型的段长服从具有凸性的分布，其中，该模型中的状态与语音中的音素或音节等语音单元相对应，而这些语音单元读音的语音信号特征作为对应语音单元的观测量；

该训练模块的训练方法步骤如下：对训练模块输入一个或多个包含有若干特定词的读音样本文件，该文件中的每句话的一系列帧的特征向量以帧为单位，通过训练模块中的训练搜索算法，对每帧语音信号中的每个词的每个状态进行搜索比较，得到语音信号特征矢量的矢量量化码本(VQ码本)和该特定词的DDBHMM模型参数，输入给声学层识别模块；

所述的汉语连续语音识别系统的语音识别方法步骤如下：通过语音采集装置接收人们的语音信号，对于输入的语音信号进行前端处理，并进行MFCC语音特征(基于Mel倒谱系数的语音特征，Mel-Frequency CepstralCoefficients)序列的提取，得到的该MFCC语音特征序列被送入声学层识别模块，通过声学层识别模块的搜索算法，产生拼音格形式的识别结果，同时，语音信号的基音特征矢量也被提取出来，送入声调识别模块，声调识别模块利用基音特征信息和拼音的分割点信息，得到拼音的声调信息并加入到拼音格中，接着，通过拼音文法理解模块对拼音格进行修剪，精简后的音节格被送入语言理解模块，转化为拼音图和词图，并在词图中进行搜索，得到最后的理解结果。

对语音信号的前端处理包括先进行语音信号检测，滤去确认为静音或杂声的信号，然后进行包括高频预加重、加窗、分帧的预处理操作。

该基于段长分布的隐含马尔可夫模型是一个六状态的模型。

该基于段长分布的隐含马尔可夫模型是一个段间不相关的模型。

所述的具有凸性的分布是均匀分布或者高斯分布。

所说的VQ码本数量为857，音节总数为1254。

训练模块中的训练搜索算法步骤如下：首先获得该状态对应的初始码本，计算出该特征向量对状态的概率，接着计算上一时刻该状态的路径在原地驻留的似然距离，然后对于新加入的此帧信号的特征向量进行最佳路径的匹配，即找到它到原驻地的最佳状态路径，此后进入下一帧的搜索，直到一句话的训练结束，然后统计和修改初始码本的DDBHMM模型参数，完成本句话的训练和码本参数统计后，接着再进行输入文件的下一句话的训练和码本参数统计，累加各句话训练后得到的概率，以得到当前文件经训练得到的概率，并将本次训练过的每个文件得到的概率累加到本次训练得到的总概率中，判断本次训练与上一次训练后得到的总概率是否相等，不相等则进入下一次的循环训练，相等则训练结束。

计算上一时刻该状态的路径在原地驻留的似然距离的方法是，对该状态上一时刻到原驻地的最佳路径队列中的每个单元，计算相对于本码本的状态驻留概率和状态转移概率，然后累加即可。

训练时对于新加入的此帧信号的特征向量进行最佳路径的匹配的方法分为两种情况：

一是该特征向量所对应的帧所处的状态与上一个特征向量所对应的帧所处的状态属于同一个字，处理的方法为：复制前一时刻本状态到原驻地的最佳路径，并计算这条路径到原驻留地的总的概率，然后将新增加的路径加入到当前状态的幸存路径的双向列表中，具体加入的操作过程为：首先看此幸存状态路径队列是否为空，若是，则令幸存路径双向列表的指针都指向此路径；否则，则将此新加的路径加到幸存路径队列的队尾，接着对似然距离进行排序，比较各条在不同的时刻进入此状态的路径，若先进入本状态的路径在概率上若不比后进入本状态的路径占优，则该先进入本状态的路径被删除，按此方法沿着幸存路径队列向前推进，直到队头；

二是该特征向量所对应的帧处在某一个字的第一个状态，这又分为两种情况：此状态对应的字不是第一个字，则也应该复制以前的最佳路径，分配新的路径，链接最佳路径并计算出该状态累加似然距离，然后将新增加的路径加入到当前状态的幸存路径的双向列表中；此状态对应的是第一个字，则直接分配路径，记录进入当前路径的时刻，计算该路径在原驻地的似然距离，然后将此路径加入到当前状态的幸存路径的双向列表中。

所说的初始码本的参数的统计，其步骤为：在统计的时候是每个状态对应一个码本，对于给定的本句话的一系列特征向量，从这句话对应的幸存路径的最后一个字开始，对每个字的每个状态分别进行统计，包括获取每个状态的段长、计算每个状态的持续时间，然后统计出该字对应码本的段长的均值和方差，用与当前的状态相对应的特征向量的值统计出该状态的码本各参数的均值，对于方差的统计，根据事先定义的标志来确定，这个标志表明系统对速度和精度的偏好，当它的值为1时，表明偏好速度，只统计码本的方差；否则，表明偏好精度，则要计算各个特征之间的协方差矩阵，做完上述统计以后，则进入下一个字的各状态的码本的特征的统计，直到本句话统计完成。

声学层识别模块工作方式如下：首先调入经过训练得到的码本及其DDBHMM模型参数，对于输入的MFCC语音特征向量，获得其帧数，计算出该特征向量对所有码本的概率，对每一帧输入连续语音识别器进行帧同步识别，在使用帧同步识别方法得到一系列的路径以后，获取当前帧的最佳字串路径；累加每句话的路径概率，得到整句话的累加概率；直到整句话结束，通过回溯得到最优路径以及路径上各个音节的候选，并保存为识别结果。

所述的帧同步识别方法为，在此语音识别器中，对每一帧到来的特征向量采用搜索算法进行识别，对于到来的这帧信号，根据位置的不同分为两种情况：

一、此特征向量是某一句话中的第一帧信号，则它对应的状态对任何字而言都是第一个状态，因此计算出该特征向量对所有的候选字的第一个状态对应的码本的概率，为此特征向量分配一条新的状态路径，然后设置进入当前路径的时刻为当前帧的标号、设置当前路径的概率为该特征向量对所有的候选字的第一个状态对应的码本的概率、记录当前路径的字的标号，将段长值设为1，计算出当前路径的状态驻留概率，将两个概率，即该特征向量对所有的候选字的第一个状态对应的码本的概率和当前路径的状态驻留概率求和，即得到该路径的完全概率，最后将此路径加到当前状态的幸存路径的双向列表中，返回；

二、此特征向量对应的不是一句话的第一帧信号，处理的方法为：将最优状态路径的指针设为空，若此次识别是连续语音的识别，则需要考虑当前帧产生的最优字输出结果，搜索出最佳的状态路径，搜索方法为：从每个字对应的最后一个状态开始搜索，找到该字的最佳幸存状态路径队列的头指针，若头指针为空，则表示没有与该字对应的最佳状态路径序列，直接返回；若不为空，则比较各个字的识别器的输出概率，得到最大的那一个，然后记录字间跳转的位置，即当前帧的标号，返回最佳字的状态路径队列的头指针，这就是搜索到的最佳路径，在得到最佳的字的状态路径以后，若不为空，则复制该最优路径，若该路径对应的字不是第一个字，则要增加对前导字的引用，并使最优路径指针指向该新分配的状态路径；

处理完每一帧的特征向量，则对当前所有可能的路径进行剪枝。

当对情况二，即此特征向量对应的不是一句话的第一帧信号，对于状态间的跳转，分为两种情况，即字内状态跳转和字间状态跳转，处理的方法分别为：

对字内状态跳转的情况，则为当前状态分配一个新的路经，具体方法是：取得前一状态路径，为本帧特征向量创建新的路径并复制前一状态路径、设置进入当前路径的时刻，计算新的状态路径的完全概率，最后将新增加的路径加入到当前状态的幸存路径的双向列表中；

字间跳转的情况：字间的跳转只有在连续语音识别时才存在，对孤立字的识别时，此时不用执行任何操作；对连续语音识别的情况，不用获取前一状态的最佳路径而直接创建新的路径并链接该路径、增加前一字的最佳路径的引用，计算出新的状态路径到原驻留地的完全概率，即状态驻留概率和路径概率之和，最后将新增加的路径加入到当前状态的幸存路径的双向列表中。

获取当前帧的最佳字串路径的方法为：对每一句话产生的各条幸存的路径，对所有的字逐一比较找出其中似然距离最大的那一个，就得到最佳字串状态路径。

对当前所有可能的路径进行剪枝的步骤为：从当前状态的状态幸存路径队列的队尾开始，对似然距离进行排序，若先进入本状态的路径在概率上若不比后进入本状态的路径占优，则该先进入本状态的路径被删除，采用此种方法向前推进，删除其中所有不可能成为最佳的路径，直到幸存状态路径队列的队头。

在本发明中，搜索最优路径的过程是一个帧同步算法，在对每一帧进行搜索时，进行剪枝和排序，最后获得最优路径。在连续语音识别中采用此方法进行最优路径搜索的计算量可以比全搜索的方法下降2个数量级以上，存储量也大大减少。对本发明的非特定人连续语音实验结果表明，本发明的DDBHMM语音识别模型比经典的HMM模型的误识率降低了12.9％，展示了DDBHMM的良好的性能；另外，本发明提出的训练模块很容易自适应，方法是由系统使用人读预先设计好的文本，以其特征修改HMM模型参数后再进行识别。这种自适应能力还体现在其实时性，在使用时并不一定需要专门念自适应文本，而是在使用过程中自动进行的，这就使得系统在使用中能自我学习、自我完善。因此，本发明与现有汉语连续语音识别技术相比，速度快，存储量小是本发明的极大优点，因此不但识别率有显著提高，而且还降低了本发明的开发成本，完全可以在一般的微机(如PC机)上应用。

附图说明

图1为基于段长分布的隐含马尔可夫模型示意图；

图2为基于段长分布的隐含马尔可夫模型状态序列示意图；

图3为本发明实施例的总体流程框图；

图4为图1所示实施例的训练模块流程框图；

图5为图4所示“训练模块中对每个文件进行训练”模块的进一步描述流程框图；

图6为图5所示“依次对文件中的每句话进行训练”模块的进一步描述流程框图；

图7为图6所示“统计码本的参数”模块的进一步描述流程框图；

图8为图6所示“对相应的语音段进行训练”模块的进一步描述流程框图；

图9为图1所示实施例的声学层模块流程框图；

图10为图9所示的声学层模块中“帧同步语音识别”模块的进一步描述流程框图；

图11为图10所示的流程框图中“对每个字进行帧同步识别”模块的进一步描述流程框图。

具体实施方式

以下结合附图和具体实施例对本发明做进一步的阐述：

如图1、2所示，本发明提出了一种用段长概率来表示的HMM模型(隐含马尔可夫模型)，显然这是一个非齐次马尔可夫模型。将这个非齐次马尔可夫模型用于语音识别，并且把模型中的状态与语音中的音素或音节等语音单元对应起来，而把这些语音单元读音的语音信号特征作为对应语音单元的观测量，我们就得到了一个基于段长分布的HMM模型(Duration DistributionBased Hidden Markov Models)，简称为DDBHMM。在DDBHMM中只需要两个参数λ＝(B，D)。这里矩阵B是特征观测概率矩阵B＝[b₁(o)，b₂(o)，…b_N(o)]，矩阵D是状态的段长概率矩阵D＝[d₁(τ)，d₂(τ)，…d_N(τ)]，这里τ表示段长，服从概率分布d_i(τ)(0≤τ≤D_max，i＝1，2…N)，N是模型状态的个数。

为了计算DDBHMM模型产生观测矢量O＝[o₁，o₂，…，o_T]的概率，我们设S＝[s₁，s₂，…，s_T]为观测矢量O所对应的系统的状态序列，T_i为系统在状态i的段长，用

t_{i} = Σ_{k = l}^{i} T_{k} (1 \leq i \leq N)

表示状态序列s₁…s_T的分割点(t₀＝0，t_N＝T)。于是对于给定的DDBHMM模型λ有

p (O, S / λ) = p (s_{1} \cdot \cdot \cdot s_{T}) \cdot b (o_{1} \cdot \cdot \cdot o_{T} / s_{1} \cdot \cdot \cdot s_{T})

= a_{1, 1} (1) Π_{i = l}^{N} Π_{k = 2}^{T_{i}} a_{i, i} (k) \cdot a_{i, i + 1} (T_{i} + 1) \cdot Π_{i = l}^{N} b (o_{T_{i - 1} + 1} \cdot \cdot \cdot o_{T_{i}} / o_{1} \cdot \cdot \cdot o_{T_{i - 1}})

= Π_{k = l}^{N} P_{k} (T_{k} / T_{1} \cdot \cdot \cdot T_{k - 1}) b {(o}_{T_{k - 1} + 1} \cdot \cdot \cdot o_{T_{k}} / o_{1} \cdot \cdot \cdot o_{T_{k - l}}) - - - (1)

这是一个相当一般化的描述：它既包容了状态段长之间的相关，也包含了帧间特征之间的相关，而且段长分布函数P_k(τ)(k＝1，2，…，N)可以取任何形式。因此DDBHMM模型具备了很强的对语音的描述能力。

假设观测矢量是段(状态)间不相关的，则观测矢量概率就可以写成：

P (O, S / λ) = Π_{k = l}^{N} P_{k} (T_{k}) b_{k} (o_{t_{k - 1} + 1} \cdot \cdot \cdot o_{t_{k}}) - - - (2)

DDBHMM模型是非齐次的HMM模型，由于非齐次马尔可夫链是有后效过程，不能使用诸如Viterbi、Baum-Welch等基于Bellman动态规划理论的解码算法和参数重估算法，需要有完全新的、高效的模型训练和解码算法。DDBHMM模型应用的关键是构造高效的最优分割算法，即在某一模型λ下快速地找到一种分割(t₁，t₂，…，t_N)使函数式(2)取值最大。函数式(3)所示的算法是一种基于最优状态路径的识别算法。在模型训练时，则是对指定的训练模型λ求出最佳的状态路径，然后再对模型参数进行分段训练。

\hat{λ} = \arg \max_{(λ; S)} P (O, S / λ)

= atg \max_{(λ; t_{1}, t_{2}, \cdot \cdot \cdot, t_{N})} Π_{k = l}^{N} P_{k} (T_{k}) b_{k} (o_{t_{k - 1} + 1} \cdot \cdot \cdot o_{t_{k}})

= \arg \max_{λ} \max_{(t_{1}, t_{2}, \cdot \cdot \cdot, t_{N})} Π_{k = l}^{N} P_{k} (T_{k}) b_{k} (o_{t_{k - 1} + 1} \cdot \cdot \cdot o_{t_{k}}) - - - (3)

为了获得函数式(3)中的最佳分割点t₁，t₂，…，t_N，可以构造如下的模型训练和识别算法。

定义L_k(t，n)为k时刻由状态(n-1)进入状态n的路径在t时刻(t≥k)的累积似然比值。

L_{k} (t, n) = Σ_{i = 0}^{n - 1} {\ln P_{i} (T_{i}) + Σ_{m = t_{i - l} + 1}^{t_{i}} \ln b_{i} (O_{t_{i}})} + Σ_{m = k}^{t} \ln b_{n} (O_{m}),

I (t, n) = L_{k} (t, n) + \ln P_{n} (t - t_{n - 1}) = L_{k} (t, n) + \ln P_{n} (t - k + 1)

n = 1, \cdot \cdot \cdot N; t = 1, \cdot \cdot \cdot T - - - (4)

则

\hat{λ} = \arg {\max_{λ} \max_{(t_{1}, \cdot \cdot \cdot, t_{N})} I (T, N)} - - - (5)

为了求解(3)式的最优路径问题，需求出每一时刻进入每个状态的最佳路径。可以证明

引理1：设lgP_n(τ)是定义域D(即τ∈D)中的上凸函数，若j≤k≤t，

L_j(t，n)+lnP_n(t+1-j)≤L_k(t，n)+lnP_n(t+1-k) (6)

则t’＞t有

L_j(t’，n)+lnP_n(t’+1-j)≤L_k(t’，n)+lnP_n(t’+1-k) (7)

引理1成立的唯一条件是关于段长概率分布的凸性假设，它包含了一大类有用的分布(例如均匀分布、三角分布、指数分布、正态分布、Reilygh分布、余弦分布等均满足引理假设)，从而这一条件在实际应用中总是成立的，所以引理1的假设不会成为算法应用的限制。

引理1表明，如果进入状态n的某条路径在(t+1)时刻向(n+1)状态转移时不比其它更晚进入的路径占优，则在以后任何时刻(t’+1)(t’＞t)从n状态向(n+1)状态转移时都不可能成为占优者，从而在t时刻就可以把它删除而不会影响算法的最优性。在搜索算法中，我们通过只保留幸存路径，来保证最优的路径不被错误地剪枝掉。幸存路径的定义如下：

对于任意的k，当j＜k≤t，在j时刻进入状态n的路径在t(t＞j)时刻均有

L_j(t，n)+lgP_n(t+1-j)＞L_k(t，n)+lgP_n(t+1-k) (8)

则称该路径是幸存路径。

根据引理1，如果我们在每一帧时刻，对状态路径都进行上式的比较并且只保留每个状态下的幸存路径，则可以大大减少最优搜索的路径数目。据此容易推出引理2

引理2：设t时刻状态n有m条幸存路径，对应的进入n状态的时间为t_n(0)＜t_n(1)＜…＜t_n(m-1)，累积似然比为

L_{t_{n} (0)} (t, n), L_{t_{n} (1)} (t, n), \cdot \cdot \cdot, L_{t_{n} (m - 1)} (t, n),

则有

L_{t_{n} (j)} (t, n) + \lg P_{n} (t + 1 - t_{n} (j)) > L_{t_{n} (j + 1)} (t, n) + + \lg P_{n} (t + 1 - t_{n} (j + 1)),

j＝0，1，…，m-2 (9)

这就是说，越早进入的幸存路径在下一个时刻的转移中具有越大的优先权，从而在(t+1)时刻由状态n向状态(n+1)转移的最佳路径总是第0条，对应的累加似然比值为L_tn(0)(t，n)。引理2保证了最佳路径总是最早进入当前状态的幸存路径。因此可以推出如下定理：

定理1：在T时刻满足式(3)的最佳路径是T时刻状态N所对应的所有幸存路径中最早进入状态N的路径。

在DDBHMM模型中，搜索最优路径的过程是一个帧同步算法。在对每一帧进行搜索时，用引理1和引理2进行剪枝和排序，最后由定理1保证最优路径的获得。在连续语音识别中采用此方法进行最优路径搜索的计算量可以比全搜索的方法下降2个数量级以上。

图3是本发明的一个实施例，它包括有语音采集装置、前端处理模块、特征提取模块、基音特征提取模块、声调识别模块、训练模块、声学层识别模块、拼音文法理解模块、语言理解模块九个部分，该训练模块和声学层识别模块采用基于段长分布的隐含马尔可夫模型(DDBHMM模型)，该段长服从高斯分布，并且段间不相关。其中，该模型中的状态与语音中的音素或音节等语音单元相对应，并且每个字的状态为六个，而这些语音单元读音的语音信号特征作为对应语音单元的观测量。对训练模块输入一个或多个包含有若干特定词的读音样本文件，该文件中的每句话的一系列帧的特征向量以帧为单位，通过训练模块中的训练搜索算法，对每帧语音信号中的每个词的每个状态进行搜索比较，得到一个语音信号特征矢量的VQ码本和该特定词的DDBHMM模型参数，输入给声学层识别模块；本发明的语音识别方法步骤如下：通过语音采集装置接收人们的语音信号，对于输入的语音信号进行前端处理，并进行MFCC语音特征(基于Mel倒谱系数的语音特征，Mel-Frequency Cepstral Coefficients)序列的提取，得到的该MFCC语音特征序列被送入声学层识别模块，通过声学层识别模块的搜索算法，产生拼音格形式的识别结果，同时，语音信号的基音特征矢量也被提取出来，送入声调识别模块，声调识别模块利用基音特征信息和拼音的分割点信息，得到拼音的声调信息并加入到拼音格中，接着，通过拼音文法理解模块对拼音格进行修剪，精简后的音节格被送入语言理解模块，转化为拼音图和词图，并在词图中进行搜索，得到最后的理解结果。

上述训练模块中的训练搜索算法是这样实现的，如图4至图8所示：

首先，初始化训练模块，包括：打开系统要使用的批处理命令文件；读取初始语音训练码本文件名；读取输出语音训练码本的文件名；读取段长加权系数，并设置段长加权系数；从批处理命令文件中读取本程序使用的训练的文件数量，此值应该在0到200之间，并检验训练文件的数量是否符合要求；从上述批处理命令文件中读取用来训练的语音文件、语音描述文件和语音端点文件的文件名，到此，批处理命令文件的命令参数读取完毕，关闭该文件；打开语音描述文件，并为每个语音描述文件在内存中分配相应的内存镜像，具体的步骤为：打开文件后，获取文件的长度，然后在内存中分配相应大小的缓冲区，最后移动文件指针到数据的起始地点，读入文件中的数据到内存缓冲区中，关闭该文件。进入下一个文件数据到内存缓冲区镜像的建立，直到所有文件执行完毕；显示训练文件的数量和文件名；显示初始语音训练码本文件名和输出语音码本文件名；设置保存上一轮训练结束时的概率的变量为0；加载原始训练码本，即按照码本数量等于857和单词总数等于1254生成码本对象，创建对象的过程中，完成的操作包括设置码本的数量、设置词的总数、在内存中分配码本的缓冲区和码本的临时缓冲区、分配保存码本的段长值的数组、分配存储每个特征对码本概率的数组、分配记录每个状态所对应的码本号的二维数组和码本所对应的特征向量的数量的数组(各码本对应的特征向量对此数组中相应于该码本的值的平均即为码本的各参数)；从记录状态到码本的映射的文件中读入每个状态对应的在该文件中的码本号，存储到二维数组中；从初始化语音训练文件中读入各码本参数的初始值；设置段长加权系数；

其次，创建DDBHMM语音训练器，在创建过程中，完成的操作包括设置使用的码本的指针，设置用来训练的词的数量和词表中每部分的词的数量的指针。同时初始化幸存路径的双向队列的指针为空和本状态中幸存路径的数量(为0值)；

然后，开始循环训练，次数最多为200次，训练时对每个文件一次进行，具体的步骤如下：

获取每一轮训练开始的时刻，将其显示出来，并保存在文件中；

设置每一轮训练的概率Probability的初值，为0；

清除码本缓冲区，开始对每个语音文件进行分别的训练，步骤为：

获取当前数据文件在内存镜像中的地址；

计算与该文件对应的语音描述文件中拼音的数量，读取的方法是用文件的有用的数据区的大小除以每个结构体的大小；

创建特征管理器，用于特征读取管理，创建的过程中，完成的操作为：在内存中完成语音特征文件的内存镜像，同时计算语音特征文件中存储的语音的个数，并创建语音特征缓冲区。创建语音端点文件的内存镜像，同时获取语音端点文件的内容；

获取当前文件中语音的数量，并检验拼音的数量和语音的数量是否相等，不相等则返回，相等则继续执行；

设置每个文件训练的初始概率为0；

依次对文件中的每一个语音(每句话)进行训练，训练的方法为：

获取与当前这句话所对应的特征向量的帧数；

设置训练器中训练的码本号参数，其中有词表索引中词的数量，内存镜像中当前语音存储区的地址；

初始化各个字的状态，其设置的值与创建语音存储训练器的类的构造函数相同；

对相应的语音段进行训练，并获得该句话的经训练后得到的概率。训练中，对传入的与某句话相应的一系列帧的特征向量进行训练。在此过程中，以帧为单位进行搜索比较。具体的方法为：

对此段语音中的每个词的每个状态进行搜索比较。在获取当前状态对应的码本号后，计算出该特征向量对状态的概率StateProb。

计算上一时刻本状态的路径在原地驻留的似然距离，计算方法为：找到本状态上一时刻到原驻地的最佳路径的队列的尾指针，对队列中的每个单元计算相对于本码本的状态驻留概率CurTraceDurationProb和状态转移概率PathProb然后累加即可。

训练时对于新加入的此帧信号的特征向量进行最佳路径的匹配，即找到它到原驻地的最佳状态路径。分为两种情况：

此特征向量所对应的帧所处的状态与上一个特征向量所对应的帧所处的状态属于同一个字，即此时状态号HmmStateNo＞0。处理的方法为：复制前一时刻本状态到原驻地的最佳路径，并计算这条路径到原驻留地的总的概率，然后将新增加的路径加入到当前状态的幸存路径的双向列表中。具体加入的操作过程为：首先看此幸存状态路径队列是否为空，若是，则令幸存路径双向列表的指针都指向此路径；否则，则将此新加的路径加到幸存路径队列的队尾。接着对似然距离进行排序，考虑到引理1的内容，比较各条在不同的时刻进入此状态的路径，若先进入本状态的路径在概率上若不比后进入本状态的路径占优，则该先进入本状态的路径被删除，按此方法沿着幸存路径队列向前推进，直到到队头；

此特征向量所对应的帧处在某一个字的第一个状态即此时状态号HmmStateNo＝0。这又分为两种情况：

第一、此状态对应的字不是第一个字，则也应该复制以前的最佳路径，分配新的路径，链接最佳路径并计算出该状态累加似然距离，然后将新增加的路径加入到当前状态的幸存路径的双向列表中。加入的方法同于上述加入方法。

第二、此状态对应的是第一个字，则直接分配路径，记录进入当前路径的时刻，计算该路径在原驻地的似然距离。然后将此路径加入到当前状态的幸存路径的双向列表中，加入的方法同上。至此，对当前帧的搜索结束，进入下一帧的搜索，直到一句话的训练结束；

累加各句话训练后得到的概率WordProb，以得到整个文件经训练得到的概率FileProbability；

统计码本的参数，统计的过程中，传递的参数为一整句话的所有的特征向量。在统计的时候则是每个状态对应一个码本。对于给定的一系列特征向量，首先找到这句话对应的幸存路径的头指针，然后从幸存路径的最后一个字开始逐个的进行统计。统计的步骤为：

获取该字的标号及进入某个状态的时刻，对每个字的6个状态分别进行统计。包括获取码本号和每个状态的段长、计算每个状态的持续时间。

计算出对应码本的临时缓冲区地址，然后统计其段长的均值和方差。

用与当前的状态相对应的特征向量的值统计出该状态的码本各参数的均值。对于方差的统计，根据事先定义的标志DIAG_CODE_BOOK_FLAG来确定，这个标志表明系统对速度和精度的偏好，当它的值为1时，表明偏好系统计算速度，只统计码本的方差；否则，表明偏好系统计算精度，则要计算各个特征之间的协方差矩阵。做完上述工作以后，则进入下一个字的各状态的码本的特征的统计，直到本句话统计完成。最后，返回本条路径的到原驻地的似然距离，进入下一句话的训练搜索和个状态码本参数的统计，到本文件中所有语音进行完毕；

累加当前文件经训练后得到的概率FileProbability到Probability中；

释放特征管理器占用的资源；

显示和保存该文件的循环选优的次数，文件编号，训练后得到该文件的概率FileProbability和训练过的文件得到的概率的总和Probability；

修改码本的参数和保存码本到码本输出参数文件中；

获得此轮训练结束的时刻，并显示该轮训练结束的时刻和保存该轮训练结束的时刻到文件中；

判断两次训练后得到的总的概率是否相等，不相等则进入下一次的循环训练，相等则训练结束；

最后，释放码本对象，训练算法结束。

本实施例中声学层识别模块是这样实现的，如图9至图11所示：

首先是初始化声学层识别模块：打开语音识别批处理命令文件，从该批处理命令文件中读取词的状态的文件名；读取码本文件名；读取待识别的文件的数量；检验待识别的语音文件的数量是否在0和本系统最大识别文件数之间，是则继续；否则退出系统；获取声学层识别模块中使用的识别文件名、识别拼音文件名、端点文件名和识别结果输出文件名，到此，批处理命令文件读取完毕，关闭批处理命令文件；显示待识别的文件的数量，显示识别文件的文件名、识别拼音文件的文件名、端点文件的文件名和识别结果输出文件的文件名；打开用于将1254个有调音节转化成408个无调音节的文件，然后读取该文件的内容，确定有调音节到无调音节的转化关系；读取拼音文件的内容，并将其赋给字符串数组；初始化每个文件的字的识别率、音节的识别率、总的字的识别率和总的音节的识别率；设置识别字的数量的初值为0；加载语音识别码本，初始化码本，其码本的数量和字的数量分别为857和1254；从字的状态集文件中读入每个字的每个状态对应的码本编号；从码本文件中加载语音识别码本，即从码本参数文件中读入每个码本的参数，包括特征向量的均值、方差或协方差矩阵、段长的均值和方差；获取段加权系数，该系数来自于码本参数文件；显示码本文件名和段长加权系数的值；创建连续语音识别器，码本为上面创建的码本的指针指向的码本；

接着，在得到需要的相应的参数和建立好上述语音识别器后，对每个待识别文件逐一进行识别，对每个文件识别的步骤为：

创建与待识别文件组相对应的语音识别结果输出文件；

创建特征管理器，同时从待识别文件和端点文件中读取相应的语音特征；

获取当前语音文件中的句子的数量，并将此句子的数量写入保存结果的文件中；

获取该文件训练开始的时刻，设置文件的初始概率为0，以一句话为单位开始进行识别，具体过程为：

获取该句话中特征向量的帧数，初始化语音识别器，计算出该特征向量对所有码本的概率，对每一帧进行帧同步识别，识别方法为，在此帧同步语音识别器中，对每一帧到来的特征向量采用搜索方法进行识别，对于到来的这帧信号，根据位置的不同分为两种情况：

一、此特征向量是某一句话中的第一帧信号，则它对应的状态对任何字而言都是第一个状态，因此计算出此特征向量对所有的候选字的第一个状态对应的码本的概率StateProb。为此特征向量分配一条新的状态路径，然后设置进入当前路径的时刻为当前帧的标号、设置路径的概率PathProb为StateProb、记录当前路径的字的标号。将段长值设为1，计算出路径的状态驻留概率CurTraceDurationProb，将两个概率StateProb和CurTraceDurationProb求和，即得到该路径的完全概率。最后将此路径加到当前状态的幸存路径的双向列表中，返回；

二、特征向量对应的不是一句话的第一帧信号，处理的方法为：将最优状态路径的指针设为空，若此次识别是连续语音的识别，则需要考虑当前帧产生的最优字输出结果。搜索出最佳的状态路径，搜索方法为：从每个字对应的最后一个状态开始搜索，找到该字的最佳幸存状态路径队列的头指针，若头指针为空，则表示没有与该字对应的最佳状态路径序列，直接返回；若不为空，则比较各个字的识别器的输出概率，得到最大的那一个。然后记录字间跳转的位置，即当前帧的标号，返回最佳字的状态路径队列的头指针，这就是我们搜索到的最佳路径。在得到最佳的字的状态路径以后，若不为空，则复制该最优路径。若该路径对应的字不是第一个字，则要增加对前导字的引用，并使最优路径指针指向该新分配的状态路径。对于状态间的跳转，分为两种情况，即字内状态跳转和字间状态跳转，处理的方法分别为：

对字内状态跳转即状态号HmmStateNo＞0的情况，则为当前状态分配一个新的路经，具体方法是：获得前一状态路径的队列的头指针，为本帧特征向量创建新的路径并复制前一状态路径、设置进入当前路径的时刻，计算新的状态路径的完全概率，最后将新增加的路径加入到当前状态的幸存路径的双向列表中；

字间跳转即状态号HmmStateNo＝0的情况。因为字间的跳转只有在连续语音识别时才存在，对孤立字的识别时，不用执行任何操作。对连续语音识别的情况，不用获取前一状态的最佳路径而直接创建新的路径并链接该路径、增加前一字的最佳路径的引用，计算出新的状态路径到原驻留地的完全概率(为状态驻留概率和路径概率之和)，最后将新增加的路径加入到当前状态的幸存路径的双向列表中；

处理完每一帧的特征向量，则对当前所有可能的路径进行剪枝。剪枝函数执行的操作为：在获得当前状态的状态幸存路径队列的指针后，从此队列的尾部开始，对似然距离进行排序，由前述的引理1可知：若先进入本状态的路径在概率上若不比后进入本状态的路径占优，则该(先进入本状态的)路径被删除，采用此种方法向前推进，删除其中所有不可能成为最佳的路径，直到幸存状态路径队列的队头，达到剪枝的目的；

在使用帧同步识别器得到一系列的路径以后，获取当前帧的最佳字串路径，获取的方法为：对每一句话产生的各条幸存的路径，由于它的最后一个字肯定是所有可能的候选字中的某一个，故对所有的字逐一比较找出其中似然距离最大的那一个，就得到我们所说的最佳状态路径；

累加每句话的路径概率PathProb，得到整句话的累加概率，直到整句话结束，通过回溯得到最优路径以及路径上各个音节的候选，并保存为识别结果。

显示这句话识别出的结果，并将此结果保存到存储结果的文件中；

最后，释放码本和语音识别训练器，语音识别过程结束。

以上所述的是本发明的一个精度优选实施例，如果系统对速度要求较高，可以将上述实施例中的段长分布由高斯分布改为均匀分布，这样系统的计算量大大降低，而识别精度虽然有所降低，但还是比现有技术要优越。

从上面的说明可以看出，本发明不但提出了具有国际领先水平的基于段长分布的HMM(DDBHMM)模型，而且给出了比经典HMM模型传统算法更优越、而且具有实用性的训练算法和识别算法。可以广泛应用到计算机语音识别输入、电话语音合成、连续语音声控电话交换机、机器翻译等技术项目和产品中去。

Claims

1、一种汉语连续语音识别系统，其特征在于：所述的汉语连续语音识别系统包括语音采集装置、前端处理模块、特征提取模块、基音特征提取模块、声调识别模块、训练模块、声学层识别模块、拼音文法理解模块、语言理解模块九个部分，该声学层识别模块采用以状态的段长概率来表示的隐含马尔可夫模型，即基于段长分布的隐含马尔可夫模型，简称DDBHMM模型，该模型的段长服从具有凸性的分布，其中，该模型中的状态与语音中的音素或音节等语音单元相对应，而这些语音单元读音的语音信号特征作为对应语音单元的观测量；

2、如权利要求1所述的汉语连续语音识别系统，其特征在于：对语音信号的前端处理包括先进行语音信号检测，滤去确认为静音或杂声的信号，然后进行包括高频预加重、加窗、分帧的预处理操作。

3、如权利要求1所述的汉语连续语音识别系统，其特征在于：该基于段长分布的隐含马尔可夫模型是一个六状态的模型。

4、如权利要求1所述的汉语连续语音识别系统，其特征在于：该基于段长分布的隐含马尔可夫模型是一个段间不相关的模型。

5、如权利要求1所述的汉语连续语音识别系统，其特征在于：所述的具有凸性的分布是均匀分布或者高斯分布。

6、如权利要求1所述的汉语连续语音识别系统，其特征在于：所说的VQ码本数量为857，音节总数为1254。

7、如权利要求1所述的汉语连续语音识别系统，其特征在于：训练模块中的训练搜索算法步骤如下：首先获得该状态对应的初始码本，计算出该特征向量对状态的概率，接着计算上一时刻该状态的路径在原地驻留的似然距离，然后对于新加入的此帧信号的特征向量进行最佳路径的匹配，即找到它到原驻地的最佳状态路径，此后进入下一帧的搜索，直到一句话的训练结束，然后统计和修改初始码本的DDBHMM模型参数，完成本句话的训练和码本参数统计后，接着再进行输入文件的下一句话的训练和码本参数统计，累加各句话训练后得到的概率，以得到当前文件经训练得到的概率，并将本次训练过的每个文件得到的概率累加到本次训练得到的总概率中，判断本次训练与上一次训练后得到的总概率是否相等，不相等则进入下一次的循环训练，相等则训练结束。

8、如权利要求7所述的汉语连续语音识别系统，其特征在于：计算上一时刻该状态的路径在原地驻留的似然距离的方法是，对该状态上一时刻到原驻地的最佳路径队列中的每个单元，计算相对于本码本的状态驻留概率和状态转移概率，然后累加即可。

9、如权利要求7所述的汉语连续语音识别系统，其特征在于：训练时对于新加入的此帧信号的特征向量进行最佳路径的匹配的方法分为两种情况：

10、如权利要求7所述的汉语连续语音识别系统，其特征在于：所说的初始码本的参数的统计，其步骤为：在统计的时候是每个状态对应一个码本，对于给定的本句话的一系列特征向量，从这句话对应的幸存路径的最后一个字开始，对每个字的每个状态分别进行统计，包括获取每个状态的段长、计算每个状态的持续时间，然后统计出该字对应码本的段长的均值和方差，用与当前的状态相对应的特征向量的值统计出该状态的码本各参数的均值，对于方差的统计，根据事先定义的标志来确定，这个标志表明系统对速度和精度的偏好，当它的值为1时，表明偏好速度，只统计码本的方差；否则，表明偏好精度，则要计算各个特征之间的协方差矩阵，做完上述统计以后，则进入下一个字的各状态的码本的特征的统计，直到本句话统计完成。

11、如权利要求1所述的汉语连续语音识别系统，其特征在于：声学层识别模块工作方式如下：首先调入经过训练得到的码本及其DDBHMM模型参数，对于输入的MFCC语音特征向量，获得其帧数，计算出该特征向量对所有码本的概率，对每一帧输入连续语音识别器进行帧同步识别，在使用帧同步识别方法得到一系列的路径以后，获取当前帧的最佳字串路径；累加每句话的路径概率，得到整句话的累加概率；直到整句话结束，通过回溯得到最优路径以及路径上各个音节的候选，并保存为识别结果。

12、如权利要求11所述的汉语连续语音识别系统，其特征在于：所述的帧同步识别方法为，在此语音识别器中，对每一帧到来的特征向量采用搜索算法进行识别，对于到来的这帧信号，根据位置的不同分为两种情况：

13、如权利要求12所述的汉语连续语音识别系统，其特征在于：当对情况二，即此特征向量对应的不是一句话的第一帧信号，对于状态间的跳转，分为两种情况，即字内状态跳转和字间状态跳转，处理的方法分别为：

14、如权利要求11所述的汉语连续语音识别系统，其特征在于：获取当前帧的最佳字串路径的方法为：对每一句话产生的各条幸存的路径，对所有的字逐一比较找出其中似然距离最大的那一个，就得到最佳字串状态路径。

15、如权利要求12所述的汉语连续语音识别系统，其特征在于：对当前所有可能的路径进行剪枝的步骤为：从当前状态的状态幸存路径队列的队尾开始，对似然距离进行排序，若先进入本状态的路径在概率上若不比后进入本状态的路径占优，则该先进入本状态的路径被删除，采用此种方法向前推进，删除其中所有不可能成为最佳的路径，直到幸存状态路径队列的队头。