CN105609100B

CN105609100B - 声学模型训练构造方法、及声学模型和语音识别系统

Info

Publication number: CN105609100B
Application number: CN201410602463.5A
Authority: CN
Inventors: 张晴晴; 潘接林; 颜永红
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2014-10-31
Filing date: 2014-10-31
Publication date: 2019-08-20
Anticipated expiration: 2034-10-31
Also published as: CN105609100A

Abstract

本发明提供一种声学模型的训练构造方法和基于训练方法的隐马尔科夫声学模型和语音识别系统，所述训练方法为：(1)基于训练数据和预先给定的状态聚类，计算得到每类的帧数统计量和类内散度矩阵。(2)对于模型中表示非语音的状态类，当其对应的帧数统计量远大于状态类的平均统计量时，对其进行统计量抑制平滑。(3)对于模型中表示语音的状态类，当其对应的帧数统计量远小于状态类的平均统计量时，对其进行统计量抑制平滑。(4)基于类内散度矩阵和平滑后的类统计量，计算异方差线性判别分析矩阵。(5)将计算得到的异方差线性判别分析矩阵用于语音特征和模型的降维，并重新迭代得到降维后的稳定声学模型。本发明最终提高声学模型的识别性能。

Description

声学模型训练构造方法、及声学模型和语音识别系统

技术领域

本发明属于语音识别领域，具体地说，涉及一种异方差线性判别分析的平滑方法，可用于语种识别中高维特征矢量的快速降维和去相关处理。

背景技术

在大词汇连续语音识别中，异方差线性判别分析(HLDA，Heteroscedastic LinearDiscriminant Analysis)通过去除特征间的相关性提升了模型的识别性能，从而被广泛应用于声学建模中(N.Kumar.Investigation of silicon auditory models andgeneralization of linear Discriminant analysis for improved speechrecognition.PhD thesis,Johns Hopkins University,Baltimore,Maryland,1997.)。其算法的核心是将语音按照状态分成不同的类，通过寻找到最合适的特征映射方向将原始特征降维，使降维后的特征最利于不同状态类之间的区分。相比传统的线性判别式分析(Linear Discriminant Analysis),异方差线性判别分析容许各个状态类之间拥有各自独立的协方差矩阵，其更符合语音分布的实际情况。异方差线性判别分析是一种数据驱动的算法，计算所需要的高斯核的均值和协方差矩阵等模型参数都从训练数据中估计出来，其最终得到的降维矩阵与训练数据的分布情况直接相关(陈思宝,胡郁,王仁华.一种结构受限的异方差线性判别分析，《中文信息学报》，2008,第22卷(第4期))。然而，在实际应用中发现，一方面用于语音识别时描述静音的状态类通常所占据的统计量很大，远远超过描述语音的单个状态类，这使得基于统计量进行计算的异方差线性判别分析，过分偏向静音，在一定程度上抑制了对语音部分的区分性；另一方面，由于训练数据有限，某些语音的状态分布相对稀疏，相应的训练数据并不能反映其真实统计分布情况，由此导致计算异方差线性判别分析时的统计信息也相应受到影响。

发明内容

本发明的目的在于，为克服已有异方差线性判别分析的不足，提出一种对语音状态类区分更为合理的异方差线性判别分析方法，即本发明提供声学模型训练构造方法、及声学模型和语音识别系统。

为了实现上述目的，本发明提供一种声学模型的训练构造方法，所述方法包含：

步骤101)基于训练数据和预先给定的状态类，计算得到每类均值和类内散度矩阵；其中，状态类包含非语音状态类和语音状态类；

步骤102)

当非语音状态类的帧数统计量超过所有状态类的平均统计量10倍或者以上时，对非语音状态统计量进行抑制平滑；其中，所述的非语音状态类包含：句间静音状态、词间停顿状态或噪声状态；或

当语音状态类的帧数的统计量低于所有状态类的平均统计量10倍或者以上时，对语音状态类的统计量进行抑制平滑；

步骤103)基于类内散度矩阵和平滑后的类统计量，计算异方差线性判别分析矩阵；

步骤104)将计算得到的异方差线性判别分析矩阵用于语音特征和模型的降维，并重新迭代得到降维后的声学模型。

可选的，上述步骤101)进一步包含：

步骤101-1)模型训练状态类别数为N类，训练数据为{x_i}，g(i)→{1...N}表示与训练数据x_i相关的类，N_j为类别j的帧数统计量，则任意类别j的均值可由下式计算得到：

其中，g(i)＝j表示训练数据中所有和类别j相关的观察帧；

步骤101-2)基于每类的帧数统计量N_j和每类的类别均值类内散度矩阵可由下式计算得到：

另外，还可得到全局的散度矩阵：

可选的，上述步骤102)进一步包含：

步骤102-1)基于所有状态类的统计量和总状态数N，采用如下公式计算得到状态类的平均统计量

其中，N_j为训练数据中属于状态j的帧数统计量，且j的取值范围为：1≤j≤N；

步骤102-2)将每个状态类的帧数统计量N_j与平均统计量进行比较：

如果则对帧数统计量N_j进行抑制平滑，进而得到新的统计量N_{j_new}：

如果N_j与在数量级上保持一致，则：

N_{j_new}＝N_j

其中，当帧数统计量N_j与在数量级上有超过10倍以上的差异时认为：或factorA和factorB为抑制因子。

进一步可选的，抑制因子factorA的取值范围为：factorA＝(10～10e3)；抑制因子factorB的取值范围为：factorB＝(10～10e3)。

上述声学模型为基于高斯混合隐马尔科夫的声学模型。

此外，基于上述训练方构造方法还可以得到隐马尔科夫声学模型及基于声学模型的语音识别系统。

与现有技术相比，本发明优点：异方差线性判别分析的平滑算法仅针对状态类的统计量进行修改，对异方差线性判别分析的核心算法不做改动，实施起来简单，且由于对统计量过多的类和过少的类进行了抑制平滑，提高异方差线性判别分析的鲁棒性，进而提高了经异方差线性判别分析降维后的声学模型的识别性能。

附图说明

图1:异方差线性判别分析平滑方法流程示意图。

图2：隐马尔科夫声学模型拓扑结构示意图。

具体实施方式

下面对本发明作进一步地描述。

本发明提供的方法在传统异方差线性判别分析的基础上，通过对静音的状态类统计量以及稀疏语音的状态类统计量进行平滑，控制相应部分对异方差线性判别分析的影响，从而获得更稳定的区分能力，最终提高通过异方差线性判别分析降维后的声学模型的识别性能。具体描述如下：

(1)如图1所示，基于训练数据和预先给定的状态聚类，计算得到每类的帧数统计量和类内散度矩阵。

(2)对于模型中表示非语音的状态类(包含句间静音状态、词间停顿状态、噪声状态等)，当其对应的帧数统计量远大于状态类的平均统计量时，对其进行统计量抑制平滑。

(3)对于模型中表示语音的状态类，当其对应的帧数统计量远小于状态类的平均统计量时，对其进行统计量抑制平滑。

(4)基于类内散度矩阵和平滑后的类统计量，计算异方差线性判别分析矩阵。

(5)将计算得到的异方差线性判别分析矩阵用于语音特征和模型的降维，并重新迭代得到降维后的稳定声学模型。

实施例1，构造声学模型

如图1所示，声学模型的状态数记为N。基于所有的训练数据，统计出各个状态的帧数统计量和散度矩阵，其中帧数统计量记为occ(n)：

occ(n)＝训练数据中属于状态n的帧数总量

基于所有状态的统计量和总状态数N，可以计算得到状态类的平均统计量

将每个状态的帧数统计量occ(n)与平均统计量做比较：

如果则对occ(n)进行抑制平滑，得到新的统计量occ(n)_new：

如果occ(n)与在数量级上保持一致，则：

occ(n)_new＝occ(n)

在我们的实验中，当occ(n)与在数量级上有超过10倍以上的差异，则可认为或

其中，观察所对应的那些状态，发现由且仅由非语音的状态类构成。这里的非语音状态类包含有句间静音状态、词间停顿状态、噪声状态等。之所以这些非语音状态类会占据大量的统计量，主要是由于在实际语音对话中，真正说话人发出声音的时长占据总时长的70％-80％，其余的部分都是非语音部分。由于语音部分的建模对识别性能至关重要，所以往往都需要将语音按发音相似度分成比较细的状态类，模型则是对每个状态类进行建模，于是每个语音状态类的帧数统计量不适宜太多。而针对非语音部分，并不需要对其进行细节建模，只要能和语音部分区分开即可，所以往往非语音状态类的帧数统计量都比较多。如果不对这些统计量进行抑制平滑，会使得基于统计量进行计算的异方差线性判别分析，过分偏向静音，在一定程度上抑制了对语音部分的区分性。

另一方面，观察所对应的那些状态，这些状态是由一些帧数统计量比较少的语音状态类构成。这些状态类由于对应语音数据比较少，训练相对不充分，相应所得到的表征量(如散度矩阵)缺乏稳定的统计意义，泛化能力不好，这导致计算异方差线性判别分析时的统计信息也相应受到影响。

通过实验我们发现，抑制因子factorA和factorB的具体数值对最终识别的性能影响并不敏感。通常选择factorA＝(10～10e3)factorB＝(10～10e3)的取值范围就可得到比较稳定的性能提升。

基于各个状态的散度矩阵和平滑后得到的帧统计量occ(n)_new，利用传统异方差线性判别分析的计算公式(N.Kumar.Investigation of silicon auditory models andgeneralization of linear Discriminant analysis for improved speechrecognition.PhD thesis,Johns Hopkins University,Baltimore,Maryland,1997.)即可得到平滑后的异方差线性判别分析变换矩阵。

将计算得到的异方差线性判别分析矩阵用于语音特征和模型的降维，并重新迭代得到降维后的稳定声学模型。

总之，采用上述训练方法结合现有技术可以得到一种隐马尔科夫声学模型，为了将协同发音现象融入建模中，所述的声学模型为上下文相关的隐马尔科夫模型HMM。其典型的模型拓扑结构如图2所示。参数估计使用的方法为Baum-Welch算法，属于最大似然准则下的EM算法(L.R.Rabiner,“A tutorial on Hidden Markov Models and selectedapplications in speech recognition”,in Proceedings of the IEEE,vol.77,pp.257–287,1989)。训练得到的模型参数通常包含各个状态的均值、方差和状态间的跳转概率等。训练过程中加入本发明算法后的声学模型，相比不加入本发明算法的声学模型，模型的拓扑结构并未发生改变，但由于舍弃了一些冗余信息量，降低了模型的维度，其模型的规模更小。同时模型的参数进行了优化，区分性更强，更有利于对语音的识别。

此外，基于实施例1的声学模型也可以进行语音识别的系统的构建，且构建涉及的相关算法属于现有技术在此不做赘述。

实验结果验证：

本发明实验训练数据采用标准中文训练集：国家863高科技计划提供的标准普通话朗读数据集，共100位女性说话人和100位男性说话人，含约80小时的语音，测试数据采用863高科技计划2005年语音识别评测发布的开发集，共有431句语音。

对传统异方差线性判别分析变换和本发明提出的异方差线性判别分析平滑变换进行对比测试。将所有测试语音进行带语言模型的语音识别，保证测试过程中除采用的异方差线性判别分析变换矩阵不同外，其他的解码参数和模型训练方式皆保持一致。采用汉字的识别错误率作为系统的评价指标，错误率越低，表明系统性能越好。

实验中，采用GMM-HMM(高斯混合隐马尔科夫模型)作为声学模型，特征采用13维梅尔倒谱感知线性预测系数(MFPLP)以及其一阶和二阶差分系数，共39维特征，通过异方差线性判别分析变换矩阵最终降维到28维。

实验表明：采用传统异方差线性判别分析，汉字识别错误率为36.0％；采用对非语音状态进行平滑后的异方差线性判别分析，汉字识别错误率为35.2％；采用对非语音状态以及稀疏语音状态进行平滑后的异方差线性判别分析，汉字识别错误率为35.0％。可见，本发明提出的异方差线性判别分析的平滑方法用于语音识别可使其性能有稳定性提高。

综上所述在语音识别声学建模中，异方差线性判别分析(HLDA，HeteroscedasticLinear Discriminant Analysis)通过去除特征间的相关性提升了模型的识别性能，从而被广泛使用。其算法的核心是将语音按照状态分成不同的类，通过寻找到最合适的特征映射方向将原始特征降维，使降维后的特征最利于不同状态类之间的区分。在实际应用中发现，通常用于描述静音的状态类所占据的统计量很大，远远超过描述语音的单个状态类，这使得基于统计量进行计算的异方差线性判别分析，过分偏向静音，在一定程度上抑制了对语音部分的区分性；同时，由于训练数据有限，某些描述语音的状态相对稀疏，其统计分布情况不稳定，由此导致计算异方差线性判别分析时的统计信息也不稳定。本发明的目的在于克服已有异方差线性判别分析的不足，提出一种对语音状态类区分更为合理的异方差线性判别分析方法。该方法在传统异方差线性判别分析的基础上，通过对静音的状态类统计量以及稀疏语音的状态类统计量进行平滑，控制相应部分对异方差线性判别分析的影响，从而获得更稳定的对语音部分的区分能力，最终提高通过异方差线性判别分析降维后的声学模型的识别性能。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种声学模型的训练构造方法，所述方法包含：

步骤102)

2.根据权利要求1所述的声学模型的训练构造方法，其特征在于，所述步骤101)进一步包含：

步骤101-1)模型训练状态类别数为N类，训练数据为{x_i}，g(i)→{1...N}表示与训练数据x_i相关的类，N_j为类别j的帧数统计量，则任意类别j的均值由下式计算得到：

其中，g(i)＝j表示训练数据中所有和类别j相关的观察帧；

步骤101-2)基于每类的帧数统计量N_j和每类的类别均值类内散度矩阵由下式计算得到：

另外，还得到全局的散度矩阵：

3.根据权利要求1所述的声学模型的训练构造方法，其特征在于，所述步骤102)进一步包含：

如果N_j与在数量级上保持一致，则：

N_{j_new}＝N_j

4.根据权利要求3所述的声学模型的训练构造方法，其特征在于，

抑制因子factorA的取值范围为：factorA＝(10～10e3)；

抑制因子factorB的取值范围为：factorB＝(10～10e3)。

5.根据权利要求1所述的声学模型的训练构造方法，其特征在于，所述声学模型为基于高斯混合隐马尔科夫的声学模型。

6.一种基于权利要求1-5任意一条权利要求记载的训练方法的隐马尔科夫声学模型。

7.一种语音识别系统，该语音识别系统基于权利要求6记载的隐马尔科夫声学模型。