CN1512485A

CN1512485A - 语速自适应的语音识别系统

Info

Publication number: CN1512485A
Application number: CNA021594066A
Authority: CN
Inventors: 王作英; 吴及; 肖熙; 李健
Original assignee: TIANLANG SPEECH SOUND SCI-TECH Co Ltd BEIJING; Tsinghua University
Current assignee: TIANLANG SPEECH SOUND SCI-TECH Co Ltd BEIJING; Tsinghua University
Priority date: 2002-12-31
Filing date: 2002-12-31
Publication date: 2004-07-14
Anticipated expiration: 2022-12-31
Also published as: CN1221937C

Abstract

本发明提供了一种可以在线的、不需要预先获得语速的测度、同时增加的计算量很小的语速自适应的语音识别系统，包括语音采集装置、前端处理模块、特征提取模块、基音特征提取模块、声调识别模块、训练模块、声学层识别模块、拼音文法理解模块、语言理解模块，训练模块训练的模型参数包括前后两个语音单元相连的情况下的段长均值、方差和前后两个语音单元段长的相关系数；声学层识别模块计算的段长概率，是指给定前一个音节的段长的条件下，计算当前音节段长的条件概率，并且在计算段长概率时，可以通过段长概率动态加权模块和汉语慢速语音调整模块对段长概率根据语速进行动态、实时调整，以提高系统性能，降低系统的插入错误和删除错误。

Description

语速自适应的语音识别系统

技术领域

本发明涉及一种语音识别技术领域中的语速自适应的语音识别系统。

背景技术

在连续语音中，不同说话者由于说话习惯不一样，说话速度会有比较大的差异。即使同一个人的说话速度也会因为环境、心情等的不同有差异。这种差异在日常生活中是普遍存在的。偏离正常语速过大往往会造成识别错误的增加，过快的语速会使删除错误增加，过慢的语速会造成插入错误增加，错误的分割点也会使替代错误增加，从而使识别性能下降。因此对如何进行语速自适应，减少偏离正常语速的情况下过大的插入错误或者删除错误并进一步降低识别错误进行了研究。

已有的对语速自适应的技术主要分为两类。

一类经典HMM(隐含马尔可夫模型)为识别模型的系统。转移概率为模型的基本参数，这种模型通过改变转移概率大小的方法对语速进行自适应：增大状态的自转移概率并减小离开的转移概率以适应慢速的情况；对转移概率作相反的变化，则能适应快速的情况。

另一类是以DDBHMM(基于段长分布的隐含马尔可夫模型)为识别模型的系统，即在HMM中显式的使用了段长概率而不是转移概率，这种模型主要是通过对段长进行调整的方式来达到适应语速的目的。一种做法采用分类段长，即根据语速将训练数据分成慢速、适中语速和快速三类，并分别统计这三类语速下的段长信息；识别时先利用先验知识判断待识别的语句的语速，再采用相应语速情况下的段长信息进行识别。这种将训练数据分类的作法使得每一类的训练数据减少，从而每一类的段长信息训练并不充分。同时对识别的语料需要事先确定语速情况以选择相应的段长信息，对于实时系统来说并不是很好的方法。另一种方式是对段长进行规整。这种作法认为语音单元的段长跟语速有一定的关系。因此先通过某种方式获得语速的测度，然后用这个语速去调整语音单元的段长。

上面提到的已有的方法需要预先知道待识别语句的语速，需要增加一定的计算量，而且需要比较准确获得语速的测度，否则对自适应效果会有一定的影响。

此外，在汉语中，有一部分音节没有声母，像a、ou等音节；还有一部分音节中声母是半元音，像yang、wu等音节，声母部分具有很多元音的特性。这些音节的发音和某些音节的韵母部分非常相似，比如音节you的发音跟音节jiu的韵母部分基本是一样的，音节wu的发音跟音节chu的韵母部分基本是一样的，音节e的发音和音节he的韵母部分基本一样的。在慢速情况下，jiu、chu这样的音节发音如果太长，就容易将元音部分识别成两部分，一部分和前面的声母组成一个音节，另一部分就识别成和该韵母相似的零声母音节或者半元音声母的音节，比如，“很久以前”中的“久(jiu)”识别成为“ji”和“you”。所以没有声母的音节和半元音声母的音节，在慢速情况下容易成为错误插入的音节。而现有技术当中无法根据汉语语音的这个特点对慢速情况下作自动调整。

发明内容

本发明的目的在于提出了一种在进行语音识别的时候，不需要预先知道待识别语句的语速，同步、在线地自适应说话者语速，提高语音识别性能，同时可以对汉语语音慢速情况下作自动调整的语音识别系统。

为达到上述目的，本发明是这样实现的：本发明采用DDBHMM模型，包括：

一个语音采集装置用于采集说话者的语音信号；

一个训练模块用于通过训练搜索算法得到语音信号特征矢量的VQ码本和DDBHMM模型参数；

一个前端处理模块用于对于输入的语音信号进行前端处理；

一个特征提取模块用于MFCC语音特征序列的提取；

一个基音特征提取模块用于语音信号的基音特征矢量的提取；

一个声学层识别模块用于通过DDBHMM最优路径搜索算法，产生拼音格，在搜索算法中，需要计算每个音节的段长概率；

一个声调识别模块利用基音特征矢量和拼音的分割点信息，得到拼音的声调信息并加入到拼音格中；

一个拼音文法理解模块用于对拼音格进行修剪；

一个语言理解模块用于将修剪后的音节格转化为拼音图和词图，并在词图中进行搜索，得到最后的理解结果；

所述的训练模块训练的DDBHMM模型参数包括前后两个语音单元相连的情况下的段长均值、方差和前后两个语音单元段长的相关系数；

所述的声学层识别模块在DDBHMM最优路径搜索时计算段长概率，是指给定前一个音节的段长的条件下，计算当前音节段长的条件概率。

所述的计算音节段长条件概率时，对后半音节计算段长条件概率使用如下的计算方法：如果是句头，该音节是开始音节，则只计算后半音节一元概率；如果不是开始音节，则判断该音节和前一个音节的二元组是否存在，如存在，则计算细化的后半音节二元概率；如果细化的后半音节二元组不存在，则计算不细化的后半音节二元概率；如果不细化的后半音节二元概率仍不存在，则计算后半音节的一元概率。

所述的声学层识别模块还包括一个段长概率动态加权模块，工作流程为：设定语速门限即快速门限和慢速门限，计算前一帧的平均语速，如果快速的情况下该平均语速小于快速门限或者慢速的情况下该平均语速大于慢速门限，则用该平均语速对当前帧语音单元段长条件概率进行指数加权，否则不对当前帧语音单元段长条件概率进行加权。

所述的声学层识别模块还包括一个汉语语音慢速调整模块，工作流程为：判断当前帧是否为慢速语音，如果不是则不进行任何操作，如果是则计算前一帧的平均语速，在搜索过程中每当一个新的音节要加入当前路径时，判断这个音节是否会是易产生插入错误的音节，如果不是，则不采取任何措施；如果是易产生插入错误的音节，则判断前一个音节持续时间是否较短，如果较短，认为加入这个音节可能会产生插入错误，则对这个新的音节加上一个惩罚概率。

在本发明中，利用在DDBHMM模型中语速对段长的影响的几个特点：说话速度的变化直接反映为段长的变化，语速的变化对于段长的影响是同步增长或者同步下降的，在一个较短的时间内说话速度会比较稳定，简而言之，在一个较短的时间内，语音信号中的语音单元段长之间存在着相关性。本发明正是利用段长的相关性来达到对语速的自适应，而且语速的自适应是在识别的同时，用前一个语音单元对其平均段长的偏差来预测当前语音单元的段长，是一种在线的自适应方法，而且不需要预先获得语速的测度，同时需要增加的计算量很小。另外，本发明假设观测矢量帧间独立，观测概率的乘积将会比联合概率小，所以对段长概率进行一个比例因子的缩小，会使系统的性能有所提升。利用本发明的段长概率动态加权模块可以使得在快速情况下，每个语音单元段长会变短，对应的观测矢量帧数也会少一些，那么观测矢量帧间独立假设带来的联合观测概率变小的幅度就会小一些；在慢速情况下，每个语音单元对应的观测矢量帧数会多一些，那么联合观测概率变小的幅度就会大一些。因此可以对段长概率的加权系数随着语速的快慢作自动的调整，从而本发明可以随着语速的快慢达到系统性能的自我调整。最后，通过本发明的汉语语音慢速调整模块可以自动、有效调整汉语慢速语音的语速，防止识别过程中的插入错误。

附图说明

图1为本发明实施例的总体流程框图；

图2为本发明声学层识别模块的工作流程图；

图3为本发明段长概率加权模块的工作流程图；

图4为本发明汉语语音慢速调整模块的工作流程图；

具体实施方式

以下结合附图和具体实施例对本发明做进一步的阐述：

如图1所示，本发明实施例采用DDBHMM模型(基于段长分布的隐含马尔可夫模型)，包括：

一个语音采集装置用于采集说话者的语音信号；

一个训练模块用于通过训练搜索算法得到语音信号特征矢量的VQ码本和DDBHMM模型参数，该DDBHMM模型参数包括前后两个语音单元i、j相连的情况下的段长均值μ_i、μ_j，方差σ_i、σ_j和前后两个语音单元段长的相关系数r，其计算公式为：

μ_{i} = \frac{1}{M} Σ_{k = 1}^{M} {τ_{i}}^{(k)},

μ_{j} = \frac{1}{M} Σ_{k = 1}^{M} {τ_{j}}^{(k)}

σ_{i} = \frac{1}{M} Σ_{k = 1}^{M} {({τ_{i}}^{(k)} - μ_{i})}^{2},

σ_{j} = \frac{1}{M} Σ_{k = 1}^{M} {({τ_{j}}^{(k)} - μ_{j})}^{2}

r = \frac{1}{M} Σ_{k = 1}^{M} \frac{({τ_{i}}^{(k)} - μ_{i}) ({τ_{i}}^{(k)} - μ_{j})}{σ_{i} σ_{j}}

其中M为两个语音单元i和j以相邻的形式在训练数据中出现的次数，τ_i ^(k)和τ_j ^(k)分别为第k次中的段长；；

一个前端处理模块用于对于输入的语音信号进行前端处理；

一个特征提取模块用于MFCC语音特征序列(基于Mel倒谱系数的语音特征，Mel-Frequency Cepstral Coefficients)的提取；

一个声学层识别模块用于对上述MFCC语音特征序列，通过DDBHMM最优路径搜索算法，产生拼音格，在搜索算法中，需要计算每个音节的段长概率；

一个拼音文法理解模块用于对拼音格进行修剪；

如图2所示，上述声学层识别模块采用了DDBHMM帧同步快速识别算法，对输入的MFCC语音特征序列按帧进行处理，首先计算当前帧特征和所有状态的距离，获得前一帧的最优距离，然后对每个音节进行DDBHMM快速搜索，得到当前帧的最优路径，在搜索过程中，利用汉语语音慢速调整模块，段长概率动态加权模块根据语速的快慢动态调整段长概率，以提高本系统的工作性能，降低由于语速原因导致的插入错误和删除错误。当所有帧都处理完毕，再回溯找到最优路径，得到拼音格形式的识别结果。

对每个音节进行DDBHMM快速搜索的工作流程是：

首先处理当前音节的后半音节：增加一条该后半音节的路径，然后对后半音节的其它路径进行Viterbi匹配，对该后半音节所有的路径进行比较剪枝，该剪枝过程为：先获得两条参与比较的路径当前后半音节段长以及两条路径中前面一个音节的后半音节单元段长，然后计算两条路径当前后半音节段长的条件概率，如果先进入当前音节的路径不占优，则在后面的识别中剪枝剪掉该条路径；

然后处理前半音节：增加一条该前半音节的路径，然后对前半音节的其它路径进行Viterbi匹配，对该前半音节所有的路径进行比较剪枝，该剪枝过程为：先获得两条参与比较的路径当前前半音节段长以及两条路径中前面一个音节的前半音节单元段长，然后计算两条路径当前前半音节段长的条件概率，如果先进入当前音节的路径不占优，则在后面的识别中剪枝剪掉该条路径；

在以上流程中，考虑相关性是后半音节之间的相关性。由于一个后半音节单元和不同的前半音节结合便形成不同的音节，同一个后半音节在不同音节中的段长不一样，所以将后半音节根据所处的音节不同进行了细化。在计算段长概率的时候，由于前半音节并没有考虑二元段长，所以只对后半音节计算段长概率时考虑如下的计算方法：如果是句头，该音节是开始音节，则只计算后半音节一元概率；如果不是开始音节，则判断该音节和前一个音节的二元组是否存在，如存在，则计算细化的后半音节二元概率；如果细化的后半音节二元组不存在，则计算不细化的后半音节二元概率；如果不细化的后半音节二元概率仍不存在，则计算后半音节的一元概率。

在DDBHMM快速搜索时计算段长条件概率，是指给定前一个音节的段长的条件下，计算当前音节段长的条件概率，其计算公式表述如下：假设τ_i，τ_i-1分别为相邻的前后两个音节的段长，μ_i，μ_i-1分别为其均值，σ_i，σ_i-1分别为其方差，r是τ_i和τ_i-1间的相关系数，由于可以用正态分布对段长进行很好的描述，则给定τ_i-1时τ_i的条件概率密度为：

p (τ_{i} / τ_{i - 1}) = p (τ_{i}, τ_{i - 1}) / p (τ_{i - 1})

= \frac{1}{σ_{i} \sqrt{2 π (1 - r^{2})}} \exp {- \frac{1}{{2 σ}_{i}^{2} (1 - r^{2})} [τ_{i} - (μ_{i} + \frac{{rσ}_{i}}{σ_{i - 1}} (τ_{i - 1} - μ_{i - 1}))]^{2}}

定义

{\tilde{u}}_{i} = u_{i} + σ_{i} r (τ_{i - 1} - μ_{i - 1}) / σ_{i - 1},

{\tilde{σ}}_{i}^{2} = σ_{i}^{2} (1 - r^{2}),

那么上式可以写成：

p (τ_{i} / τ_{i - 1}) = \frac{1}{{\tilde{σ}}_{i} \sqrt{2 π}} \exp {- \frac{{(τ_{i} - {\tilde{μ}}_{i})}^{2}}{{2 \tilde{σ}}_{i}^{2}}}

语速对于段长的影响是同步增长或者下降的，所以一般来说相关系数r＞0。从上式可以看出条件概率p(τ_i/τ_i-1)相当于均值为

方差为

的一元正态分布。从的表达式可以看到，受到语速的影响，如果前一个单元段长τ_i-1偏离其平均段长μ_i-1，则后一个单元段长τ_i将以同样的倾向偏离它的平均段长μ_i，从而使段长分布自动地调整到与说话速度相适应的程度。而且相关系数r越大，预测方差就越小，前一个单元段长对于后一个单元段长的预测就越准确。因此，利用相邻单元段长之间的相关性可以更加有效地利用段长信息，从而降低由于语速引起的插入错误和删除错误。还可以看到，这里语速的自适应是在识别的同时，用前一个语音单元对其平均段长的偏差来预测本单元的段长，是一种在线的自适应方法，而且不需要获得语速的测度。

如图3所示，上述段长概率动态加权模块工作流程为：设定语速门限即快速门限和慢速门限，计算前一帧的平均语速，计算方法为：得到前一帧的最优路径的信息，找到这个最优路径中个音节的分割点和音节号，通过分割点获得各音节的实际段长，假设最优路径上有K个音节，按下式计算当前的平均语速：

如果快速的情况下该平均语速小于快速门限或者慢速的情况下该平均语速大于慢速门限，则用该平均语速对当前帧语音单元段长条件概率进行指数加权，否则不对当前帧语音单元段长条件概率进行加权。

如图4所示，上述汉语语音慢速调整模块工作流程为：判断当前帧是否为慢速语音，如果不是则不进行任何操作，如果是则计算前一帧的平均语速(计算方法同上)，在搜索过程中每当一个新的音节要加入当前路径时，判断这个音节是否会是易产生插入错误的音节，如果不是，则不采取任何措施；如果是易产生插入错误的音节，则判断前一个音节持续时间是否较短，如果较短，认为加入这个音节可能会产生插入错误，则对这个新的音节加上一个惩罚概率。

从上面的说明可以看出，本发明利用段长的相关性来达到对语速的自适应，而且语速的自适应是在识别的同时，不需要预先获得语速的测度，是一种在线的自适应方法，而且系统为此增加的运算量也很小，具有很大的推广和应用价值。

Claims

1、一种语速自适应的语音识别系统，采用DDBHMM模型，该语音识别系统包括：

一个语音采集装置用于采集说话者的语音信号；

一个前端处理模块用于对于输入的语音信号进行前端处理；

一个特征提取模块用于MFCC语音特征序列的提取；

一个拼音文法理解模块用于对拼音格进行修剪；

其特征在于：所述的训练模块训练的DDBHMM模型参数包括前后两个语音单元相连的情况下的段长均值、方差和前后两个语音单元段长的相关系数；

2、如权利要求1所述的语音识别系统，其特征在于：所述的计算音节单元段长条件概率时，对后半音节计算段长条件概率使用如下的计算方法：如果是句头，该音节是开始音节，则只计算后半音节一元概率；如果不是开始音节，则判断该音节和前一个音节的二元组是否存在，如存在，则计算细化的后半音节二元概率；如果细化的后半音节二元组不存在，则计算不细化的后半音节二元概率；如果不细化的后半音节二元概率仍不存在，则计算后半音节的一元概率。

3、如权利要求1所述的语音识别系统，其特征在于：所述的声学层识别模块还包括一个段长概率动态加权模块，工作流程为：设定语速门限即快速门限和慢速门限，计算前一帧的平均语速，如果快速的情况下该平均语速小于快速门限或者慢速的情况下该平均语速大于慢速门限，则用该平均语速对当前帧语音单元段长条件概率进行指数加权，否则不对当前帧语音单元段长条件概率进行加权。

4、如权利要求1所述的语音识别系统，其特征在于：所述的声学层识别模块还包括一个汉语语音慢速调整模块，工作流程为：首先判断当前帧是否为慢速语音，如果不是则不进行任何操作，如果是则计算前一帧的平均语速，在搜索过程中每当一个新的音节要加入当前路径时，判断这个音节是否会是易产生插入错误的音节，如果不是，则不采取任何措施；如果是易产生插入错误的音节，则判断前一个音节持续时间是否较短，如果较短，认为加入这个音节可能会产生插入错误，则对这个新的音节加上一个惩罚概率。