CN1588536A

CN1588536A - 语音识别中状态结构调整方法

Info

Publication number: CN1588536A
Application number: CNA2004100667929A
Authority: CN
Inventors: 朱杰; 徐向华
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2004-09-29
Filing date: 2004-09-29
Publication date: 2005-03-02
Anticipated expiration: 2024-09-29
Also published as: CN1295676C

Abstract

一种语音识别领域的语音识别中状态结构调整方法，具体步骤如下：建立大词汇量连续语音识别系统：语音特征采用12阶Mel倒谱特征及短时能量共13维作为基本特征，加上其一阶差分和二阶差分，最后特征维数为39；状态结构调整：包括利用自适应语音对模型状态结构调整和利用训练语音对模型状态结构调整，假设基线系统在识别训练语音时出现的错误在识别测试语音时也会出现，从而利用训练语料对剩余状态的结构进行调整；说话人自适应：采用最大似然线性回归算法，利用自适应语料对调整后的模型做自适应。本发明提高了模型对样本的后验概率，增强对自适应语料的利用率，从而降低训练语料与测试语料决策树结构不匹配造成的识别率的降低。

Description

语音识别中状态结构调整方法

技术领域

本发明涉及一种语音识别领域的状态结构调整算法，具体是一种语音识别中状态结构调整方法。

背景技术

九十年代以来，基于连续概率HMM的非特定人(SI)、大词汇量连续语音识别(LVCSR)获得了很大的进展，为建立更精确的模型，LVCSR系统一般都采用上下文相关的三音子模型，利用基于声学决策树的状态共享策略进一步改善模型的性能。同时，在SI系统中，不同说话人的特性差异会带来系统性能的降低，这使得说话人自适应技术成为SI系统走向实用化的关键。常用的自适应方法包括贝叶斯(MAP)方法和最大似然线性回归(MLLR)方法，都是基于自适应语料对模型的参数做变换，没有考虑对决策树的结构做自适应。决策树中状态之间的合并或分裂是基于训练语料中似然值的变化和采样数据量进行的，得到的决策树的结构并不能有效地反映测试语料的特征，尤其是当训练语料与自适应语料的特征差别比较大时，这种结构的偏差直接会导致系统性能的降低。

为了解决训练语料决策树与测试语料决策树结构不匹配造成的识别率的降低，必须对训练语料决策树的结构做调整，由于直接调整训练语料决策树结构后，又会使得决策树结构与训练语料的不一致，造成模型精度下降。

经文献检索发现，A.Nakamura在国际声学、语音及信号处理会议(《ICASSP》，vol.1，pp.649-652，1998)中发表的“一种在非特定人声学建模中调整高斯混合函数结构的方法”(Restructuring Gaussian mixture density functions in speakerindependent acoustic models)中提出调整高斯混合分布函数方法，在该方案中，对于给定语音X，t时刻的观察矢量o_t，对应的实际高斯函数为f_t ^a(μ，δ²)，属于状态s_a，而通过维特比(Viterbi)解码算法得到的识别的高斯函数为f_t ^b(μ，δ²)，属于状态s_b；s_a与s_b共享高斯函数f_t ^b(μ，δ²)，从而调整s_a中高斯混合的分布函数。调整后的状态包含不同数量的高斯函数，某个高斯函数可被多个状态共享。然而该方法的训练过程比较随机，而且这是基于训练语料，在一定程度上不能反映测试语音的信息。

发明内容

本发明针对现有技术中存在的上述不足和缺陷，提供一种语音识别中状态结构调整方法，使其提高模型对样本的后验概率，增强对自适应语料的利用率，并增加状态内参数量，扩大模型的描述力，对系统总参数量的增加有限，从而降低训练语料与测试语料决策树结构不匹配造成的识别率的降低。

本发明是通过以下技术方案实现的，根据状态间混淆度，采用混淆状态间高斯加权共享对状态结构进行调整，具体步骤如下：

(1)建立大词汇量连续语音识别系统：语音特征采用12阶Mel倒谱特征及短时能量共13维作为基本特征，加上其一阶差分和二阶差分，最后特征维数为39，过程同一般语音识别。提取训练语音每句话的特征，根据句子内容利用HTK(HMMToolKit)工具首先选择声母和带调韵母作为基本的建模单元，建立带调单音子模型；然后将模型由单音子扩展到上下文相关的三音子模型，三音子模型同时考虑了不同音节间左右声韵母的情况，不同的语境对应不同的三音子模型；最后利用声学决策树对基于同一个单音子的所有三音子模型的状态进行聚类，聚类的后状态由单高斯分布逐渐扩展到多个混合高斯分布。

(2)状态结构调整：包括利用自适应语音对模型状态结构调整和利用训练语音对模型状态结构调整。自适应语音和测试语音来自同一个测试者，基线系统识别自适应语音时出现的错误同样会在基线系统识别测试语音时出现。因此，分析基线系统识别自适应语音出时出现的错误，对状态结构进行适当的调整不仅可以提高对自适应语料的利用率，还可以提高模型的后验概率。另一方面，仅利用自适应语料对状态结构调整，状态调整的范围有限；训练语料来自大量的说话人，发音具有一定的代表性。因此假设基线系统在识别训练语音时出现的错误在识别测试语音时也会出现，从而可以利用训练语料对剩余状态的结构进行调整。

(3)说话人自适应：采用最大似然线性回归算法(MLLR)，利用自适应语料对调整后的模型做自适应，目的是进一步补偿状态调整后的模型与测试语音之间的不匹配。

以下对本发明作进一步的说明，具体内容如下：

1、所述的利用自适应语音对模型状态结构调整，具体步骤是：

设HMMs的状态集为Ω；自适应样本X＝{X₁，...，X_i，...}对应的状态集为Φ。每个样本X_i对应的特征矢量为O_i＝(o₁，...，o_t，...，o_T)、状态集为Φ_i(Φ_iΦ)。根据样本X_i的声学模型，利用帧同步Viterbi算法得到矢量O_i对应于Φ_i的状态序列Ξ＝(s_i，...，s_t，...，s_T)，称Ξ为实际的状态序列；同样地根据Viterbi识别算法得到O_i对应于状态集Ω的状态序列Ψ＝(r₁，...，r_t，...，r_T)，称Ψ为识别的状态序列。比较这两组状态序列，得到对应于同一矢量o_t的两个状态s_t和r_t，若s_t≠r_t，称r_t为s_t的混淆状态，定义两者的混淆度(confusion)：

C_{s_{t} | r_{t}} = \frac{P (o_{t} | r_{t})}{P (o_{t} | s_{t})} - - - (1)

因为状态s_t被误识成r_t，所以当s_t≠r_t，忽略语言模型和状态音转移概率，有P(o_t|r_t)＞P(o_t|s_t)，即

C_{s_{t} | r_{t}} > 1,

从定义(1)可以看出，C_st|rt越大，说明实际状态s_t被识别成r_t的可能性越大。因此，如果把状态r_t的混合高斯以加权的形式与状态s_t共享，改变状态s_t的结构，则概率P(o_t|s_t)会增大，从而可以降低系统的误识率，提高模型对观察矢量o_t的后验概率。

设状态s∈Φ，对应于自适应样本的观察特征矢量O_s；R_s为识别O_s得到的状态集(RsΩ)，称R_s为s的相近状态集。利用状态r(r∈R_s)，对s结构进行调整，调整后的高斯混合函数为

b (\cdot | s) = \underset{{r &Element; R}^{s}}{Σ} w_{s | r} P (\cdot | r) + w_{0} P (\cdot | s) - - - (2)

式(2)中，取w₀＝1-D，D为常数；权值w_s|r和概率函数P(·|r)的计算公式分别为

w_{s | r} = D \cdot \frac{C_{s | r}}{\underset{r &Element; R^{s}}{Σ} C_{s | r}} - - - (3)

P (\cdot | r) = Σ_{l = 1}^{L} m_{r, l} N (\cdot | μ_{r, l}, Σ_{r, l}) - - - (4)

(4)式中L为状态调整前的高斯混合数，μ_r，l、∑_r，l和m_r，l分别为多元高斯函数N(·|μ_r，l，∑_r，l)的均值矢量、对角协方差矩阵和权值。因此，结构调整后的状态存在两层权值：状态内权值m_r，l和状态间权值W_s|r，满足

·状态内权值：

Σ_{k = 1}^{K} m_{r, k} = 1,0 \leq m_{r, k} \leq 1 .

·状态间权值：

\underset{r &Element; R^{s^{'}}}{Σ} w_{s | r} = 1,0 \leq w_{s | r} \leq 1,

其中R^s′＝R^s∪s.

2、所述的利用训练语音对模型状态结构调整，具体步骤是：

设调整前的状态为 s，对数似然值为

L {(O_{s})}^{'} = Σ_{o &Element; O_{s}} \log (P (o | \overset{&OverBar;}{s})),

调整后似然值的增加：ΔL(O_s)＝L(O_s)-L(O_s)′，状态集Φ对应的平均似然值增加为：

ΔL = \frac{1}{size (Φ)} \underset{s &Element; Φ}{Σ} ΔL (O_{s}),

ΔL将作为阈值在基于训练语音的状态结构调整中使用。

定义状态集Ψ(Ψ＝Ω-Φ)，利用训练语料对模型状态结构做进一步调整，具体步骤是：

1)对训练样本Y_i(Y_i∈Y)和对应的特征矢量O_i，采用Viterbi解码算法识别后得到识别状态序列{η}_i；根据Y_i对应的声学模型，采用Viterbi帧同步对观察序列分段，得到对应于特征矢量O_i的实际状态序列{γ}_i。

2)重复步骤1)，完成对所有训练样本Y的操作，得到两类状态序列{η}({η}_i{η})和{γ}({γ}_i{γ})。

3)比较{η}和{γ}，确定状态s(s∈{γ})的相近状态集R_s(Rs{η})；计算状态r∈R_s与状态s的混淆度C_s|r。根据混淆度的大小，将状态集R_s的元素由大到小排列，并设状态集R_s的大小为I_s。

4)对状态s的调整：取前i(0＜i＜I_s)个状态对s进行调整，计算似然值的增加ΔLs。如果ΔLs＜ΔL，取i＝i+1，直到ΔLs＞ΔL；如果当i＝I_s时，仍有ΔL_s＜ΔL，则不对状态s做调整。

5)重复步骤3)～4)直至完成对Ψ中每个状态的结构调整。

对增加的状态间权值w_s|r重估，使用的目标函数是：

L (O_{s}) = Σ_{o &Element; O_{s}} \log (P (o | s)) - - - (5)

= Σ_{o &Element; O_{s}} \log Σ_{r &Element; R^{s^{'}}} w_{s | r} P (o | r)

在求目标函数最大时的权值w_s|r时，采用期望最大(EM)算法，辅助函数为：

Q (w_{s | r}, {\overset{&OverBar;}{w}}_{s | r}) = E [\log P (O_{s}, s | {\overset{&OverBar;}{w}}_{s | r}) | O_{s}, w_{s | r}] - - - (6)

在

\underset{r &Element; R^{s^{'}}}{Σ} w_{s | r} = 1

条件下，上式对w_s|r求导，得

{\overset{&OverBar;}{w}}_{s | r} = \frac{\underset{o &Element; O_{s}}{Σ} Σ_{k = 1}^{K} γ (s, r, k)}{\underset{o &Element; O_{s}}{Σ} \underset{r &Element; R^{s^{'}}}{Σ} Σ_{k = 1}^{K} γ (s, r, k)} - - - (7)

这里

γ (s, r, k) = \frac{w_{s | r} m_{r, k} N (o | μ_{r, k}, δ_{r, k})}{\underset{r &Element; R^{s^{'}}}{Σ} Σ_{k = 1}^{K} w_{s | r} m_{r, k} N (o | μ_{r, k}, δ_{r, k})},

为观察o(o∈O_s)属于状态r中第k个混合高斯的概率。 w_s|r就是对w_s|r的更新值。

利用MLLR算法对状态调整后的模型做自适应时，考虑到自适应语料的有限性，只对模型的均值做自适应，其余参数保持不变；MLLR算法中的平移矩阵采用对角平移矩阵，而且在不同目标均值之间共享平移矩阵。对角平移矩阵的估计是利用共享目标分布对应的所有自适应数据，共享的程度和范围根据自适应数据的多少和语音学分类进行调整。

本发明易混淆的状态间高斯混合函数共享，因为训练语音与测试语音决策树结构不匹配造成的识别误差，可以从识别自适应语音时出现的状态混淆中体现出来。例如，用女声模型识别男声语音，当状态A被识别成状态B(B≠A)时，其中大多数情况是A和B属于同一个决策树，有些情况是在男声决策树中A和B恰恰属于同一个叶节点。因此，本发明首先采用自适应语音对状态结构调整的方法，然后在此基础上再利用训练语音扩大状态调整的范围。

本发明提高了模型对样本的后验概率，增强对自适应语料的利用率，并增加状态内参数量，扩大模型的描述力，对系统总参数量的增加有限，从而降低训练语料与测试语料决策树结构不匹配造成的识别率的降低。需要说明的是本发明的保护范围不受建模单元大小以及数量的限制，也不受模型类型的限制，其方法适用于任何其它连续语音识别系统。

附图说明

图1：状态结构调整及说话人自适应

图2：基于训练语料的状态结构调整

图3：状态结构调整系统性能比较

图4：状态结构调整系统说话人自适应性能比较

具体实施方式

结合本发明方法的内容提供以下实施例对其进行进一步的理解。

实施例：

为更好地理解本发明的技术方案，采用连续语音数据库做实验进一步说明。基线系统F 863的训练集包括F_Tr包含68个女声录音，每人约530句话，共36210句；语音采用16KHz采样率、16位采样、帧长25ms、帧移为10ms。提取39维语音特征矢量，包括12维MFCC、1维归一化能量，以及它们的一阶、二阶差分。声学模型选择声母和带调韵母作为基本的建模单元，每个建模单元都用连续密度的HMM来表示，在本发明中，基本建模单元见表1(韵母后的数字代表声调，数字5代表轻声)，包括声母27个，其中ga、ge、ger、go分别为单音节a、e、er、o的假定声母；带调韵母157个，其中ib表示在音节chi、ri、shi和zhi中的韵母，if代表在音节ci、si和zi中使用的韵母。加一个静音(silence)HMM模型，共训练185个单音子模型，模型的训练方法同一般语音识别过程。当训练模型由单音子扩展到三音子后，基于声学决策树，对三音子模型做状态聚类，聚类后的状态分布由单个高斯逐渐扩展到8个混合高斯，系统在识别过程中没有应用语言模型，实验仅仅是声学层上的结果。

表1声学模型中的声母和带调韵母

声母(initial)	b，c，ch，d，f，g，ga，ge，ger，go，h，j，k，l，m，n，p，q，r，s，sh，t，w，x，y，z，zh
声母(initial)		带调韵母(tonal final)	a(1-5)，ai(1-4)，an(1-4)，ang(1-5)，ao(1-4)，e(1-5)，ei(1-4)，en(1-5)，eng(1-4)，er(2-4)，i(1-5)，ia(1-4)，ib(1-4)，ian(1-5)，iang(1-4)，iao(1-4)，ie(1-4)，if(1-4)，in(1-4)，ing(1-4)，iong(1-3)，iu(1-5)，o(1-5)，ong(1-4)，ou(1-5)，u(1-5)，ua(1-4)，uai(1-4)，uan(1-4)，uang(1-4)，ui(1-4)，un(1-4)，uo(1-5)，v(1-4)，van(1-4)，ve(1-4)，vn(1-4)

男声测试语料M_Te来自14个人，每人40句话；男声自适应语料M_Ad来自同样的14个测试者，每人40句话，其中测试语音与自适应语音之间是独立的。利用M_Ad对F_863做状态结构调整后的模型记为R1_F，在R1_F的基础上利用F_Tr做进一步调整后的模型记为R2_F，随自适应语句数量的变化，系统性能的比较如图3所示。从图3可以看出，R1_F和R2_F都获得了比F_863一致提高的识别率。当自适应语料较少时，例如只有1、3句时，R1_F中结构调整过的状态数量有限，其性能的提高也是有限的；而利用训练语料对剩余状态调整过的R2_F的性能却有明显提高，从而说明在利用训练语料对状态结构调整时做的假设是成立的。随着自适应语句的增加，R1_F与R2_F性能开始接近，当自适应语料足够多时，R1_F与R2_F将会保持一致。

对以上F_863、R1_F和R2_F三个系统利用男声自适应语音做MLLR说话人自适应，F_863/MLLR、F_R1/MLLR和F_R2/MLLR的识别率随自适应句子数的变化情况如图4所示。参数量多的系统做MLLR自适应后识别率会有显著提高，相比F_863系统，状态调整后的F_R1和F_R2系统不仅大大增加了状态内的参数量，而且从调整状态结构的角度间接地对决策树结构进行了调整，减少了决策树结构与测试语音不匹配对说话人自适应的影响，因此F_R1/MLLR，F_R2/MLLR的识别性能明显高于F_863/MLLR，从而证明了状态调整算法有利于提高系统的性能。

Claims

1、一种语音识别中状态结构调整方法，其特征在于，根据状态间混淆度，采用混淆状态间高斯加权共享对状态结构进行调整，具体步骤如下：

(1)建立大词汇量连续语音识别系统：语音特征采用12阶Mel倒谱特征及短时能量共13维作为基本特征，加上其一阶差分和二阶差分，最后特征维数为39，过程同一般语音识别，提取训练语音每句话的特征，根据句子内容利用HTK工具首先选择声母和带调韵母作为基本的建模单元，建立带调单音子模型；然后将模型由单音子扩展到上下文相关的三音子模型，三音子模型同时考虑了音节间左右声韵母的情况，语境与三音子模型相对应；最后利用声学决策树对基于同一个单音子的所有三音子模型的状态进行聚类，聚类的后状态由单高斯分布逐渐扩展到多个混合高斯分布；

(2)状态结构调整：包括利用自适应语音对模型状态结构调整和利用训练语音对模型状态结构调整，自适应语音和测试语音来自同一个测试者，基线系统识别自适应语音时出现的错误同样会在基线系统识别测试语音时出现，因此，假设基线系统在识别训练语音时出现的错误在识别测试语音时也会出现，从而利用训练语料对剩余状态的结构进行调整；

(3)说话人自适应：采用最大似然线性回归算法，利用自适应语料对调整后的模型做自适应。

2、根据权利要求1所述的语音识别中状态结构调整方法，其特征是，所述的最大似然线性回归算法对状态调整后的模型做自适应时，考虑到自适应语料的有限性，只对模型的均值做自适应，最大似然线性回归算法中的平移矩阵采用对角平移矩阵，而且在两个以上的目标均值之间共享平移矩阵，对角平移矩阵的估计是利用共享目标分布对应的所有自适应数据，共享的程度和范围根据自适应数据的多少和语音学分类进行调整。