CN101702314B

CN101702314B - 基于语种对的鉴别式语种识别模型建立方法

Info

Publication number: CN101702314B
Application number: CN2009102353933A
Authority: CN
Inventors: 张卫强; 刘加
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2009-10-13
Filing date: 2009-10-13
Publication date: 2011-11-09
Anticipated expiration: 2029-10-13
Also published as: CN101702314A

Abstract

基于语种对的鉴别式语种识别模型建立方法涉及一种用于语种识别的建模方法，其特征在于所述方法首先对语音数据提取特征得到特征矢量，接着采用Baum-Welch算法进行ML训练得到初始GMM模型参数，然后利用GMM模型对特征矢量计算分子项和分母统计量，并对对分子统计量进行平滑，由平滑后的分子统计量和分母统计量计算更新系数，最后按更新公式对GMM模型参数进行更新。该建模方法从语种对的局部入手，更能抓住语种间的鉴别性信息，从而获得更好的识别性能。可以用于语种识别模型的鉴别式建模。

Description

基于语种对的鉴别式语种识别模型建立方法

技术领域

本发明属于语音识别领域，具体地说，涉及一种基于语种对的鉴别式模型建立方法，可用于语种识别。

背景技术

语种识别是指使用计算机从一段语音信号中自动识别出其语言的种类。语种识别技术主要用于多语种人机交互、语音信息侦听以及语音文档检索等系统。

语种识别模型可以分为描述性模型和鉴别性模型两类。描述性模型对各语种的分布进行建模，侧重于使用非参数化或参数化的方法对每个语种进行刻画，如早期的VQ(矢量量化)和后来的GMM(高斯混合模型)，以及PPRLM(并行音素识别器后接语言模型)等；而鉴别性模型对各语种的分类面进行建模，侧重于分类，如近期兴起的SVM(支持矢量机)、SVM GSV(基于GMM超矢量的SVM)和PPR-VSM(并行音素识别器后接矢量空间模型)等。在语种识别中，描述性模型一般具有较好的推广能力，特别是对于没有参与训练的集外语种，也不容易出现虚警；而鉴别性模型一般具有更好的分类能力，其识别性能通常高于传统的描述性模型。

后来，学者们陆续采用一些鉴别性的准则对原来的描述性模型进行训练，并通过模型插值等手段使其兼有描述性模型和鉴别性模型的优点，从而识别性能显著提高。在连续语音识别领域，目前比较广泛使用的鉴别性准则有(MCE)最小分类错误、(MMI)最大互信息、(MPE)最小音素错误等准则。

本发明主要涉及到GMM模型的鉴别式建模。对于该模型，传统的建模方法是基于ML(最大似然)准则的，它采用一种“各扫自家门前雪”的描述性策略，每个语种的模型仅用本类的数据训练，使似然度最大化。但事实上各个语种的似然度的最大化只能保证模型对数据描述得更好，却并不一定有利于分类，换句话说，ML准则并不能保证最好的识别性能。2003年至2006年期间，Qu和Matejka等人将MMI准则引入语种识别中的GMM建模，MMI准则采用一种“统筹兼顾”的鉴别性策略，使训练数据和语种类别之间的互信息最大化，从而使识别性能得到了很大的提高。

但是由于MMI准则是同时将每一个语种与其他所有语种进行鉴别，没有充分考虑各语种间的混淆情况；另外MMI准则从整体考虑，目标函数的要求十分严格，考虑到实际数据分布情况复杂，各语种的数据量不同，混淆程度也各异，再加上迭代算法仅能达到局部极值等原因，这种的准则可能无法达到。

发明内容

为了解决现有MMI准则的不足，本发明提供一种基于语种对的鉴别式建模方法，首先从鉴别信息的角度出发，从易混语种对的鉴别入手，放松对MMI准则的约束。使用数字集成电路实现时，采用本发明耗费的存储和运算模块资源与MMI方法相同，而等错率相对降低25％。

本发明的特征在于所述方法是在数字集成电路芯片中按以下步骤实现的：

步骤(1)：初始化

在所述集成电路中建立以下模块：特征提取模块、最大似然ML准则训练模块、分子统计量计算模块、分母统计量计算模块、分子统计量平滑模块、更新系数计算模块以及模型参数更新模块；

步骤(2)：对CallFriend数据库12个语种的电话对话语音通过所述特征提取模块提取7维Mel频率倒谱系数MFCC，再计算偏移差分倒谱SDC特征向量，其计算公式为：

s_k(i)＝x(i+3k+1)-x(i+3k-1)，k＝0，1，...，6

其中x(i)表示第i帧MFCC特征向量，k为SDC特征向量的块标号，k＝0，1，...，6，共7块，每块7维，连同7维MFCC特征一起拼接成56维的特征向量；

步骤(3)：在所述最大似然ML准则训练模块中，用Baum-Welch算法对步骤(2)中得到的数据进行最大似然ML训练，得到所述12个语种高斯混合模型GMM的初始参数，其中第l个语种的参数用λ_l表示：

λ_{l} = {w_{\lg}, μ_{\lg}, σ_{\lg}^{2}, g = 1, . . ., G},

l＝1，...，L

其中下标g表示高斯分量标号，每个语种含G个高斯分量，下标l表示语种标号，l＝1，...，L，共L＝12个语种，w_lg表示第l个语种第g个高斯分量的权重，μ_lg表示第l个语种第g个高斯分量的均值，

表示第l个语种第g个高斯分量的方差；

步骤(4)：分别用分子统计量计算模块和分母统计量计算模块计算所述各语种的分子统计量和分母统计量：

在所述分子统计量中：

零阶分子统计量

θ_{\lg}^{num} (1) = Σ_{r = 1}^{R} Σ_{i = 1}^{T_{r}} γ_{lgr}^{num} (i) \cdot 1

一阶分子统计量

θ_{\lg}^{num} (χ) = Σ_{r = 1}^{R} Σ_{i = 1}^{T_{r}} γ_{lgr}^{num} (i) \cdot X_{r} (i)

二阶分子统计量

θ_{\lg}^{num} (χ^{2}) = Σ_{r = 1}^{R} Σ_{i = 1}^{T_{r}} γ_{lgr}^{num} (i) \cdot X_{r}^{2} (i)

在所述分母统计量中：

零阶分母统计量

θ_{\lg}^{den} (1) = Σ_{r = 1}^{R} Σ_{i = 1}^{T_{r}} γ_{lgr}^{den} (i) \cdot 1

一阶分母统计量

θ_{\lg}^{den} (χ) = Σ_{r = 1}^{R} Σ_{i = 1}^{T_{r}} γ_{lgr}^{den} (i) \cdot X_{r} (i)

二阶分母统计量

θ_{\lg}^{den} (χ^{2}) = Σ_{r = 1}^{R} Σ_{i = 1}^{T_{r}} γ_{lgr}^{den} (i) \cdot X_{r}^{2} (i)

其中上标“num”代表分子项，上标“den”代表分母项，θ(1)、

和

分别代表零阶、一阶和二阶统计量，

为所述特征向量的随机变量，R为总段数，r＝1，2，...，R，T_r为第r段语音的帧数，i＝1，2，...，T_r，X_r(i)代表第r段语音的第i帧特征向量的取值，

为第l个语种分子项中X_r(i)属于第g个高斯分量的后验概率，为第l个语种分母项中X_r(i)属于第g个高斯分量的后验概率，其中：

γ_{lgr}^{num} (i) = \{\begin{matrix} γ_{lgr} (i), & l = l_{r} \\ 0, & l &NotEqual; l_{r} \end{matrix}

γ_{lgr}^{den} (i) = \{\begin{matrix} γ_{lgr} (i) \frac{1}{L} (Σ_{l^{'} = 1}^{L} \frac{p_{λ} {(X_{r} | l)}^{K}}{p_{λ} {(X_{r} | l)}^{K} + p_{λ} {(X_{r} | l^{'})}^{K}} + \frac{1}{2}), & l = l_{r} \\ γ_{lgr} (i) \frac{1}{L} \frac{p_{λ} {(X_{r} | l)}^{K}}{p_{λ} {(X_{r} | l_{r})}^{K} + p_{λ} {(X_{r} | l)}^{K}}, & l &NotEqual; l_{r} \end{matrix}

其中下标g′是不同于g的高斯分量标号，下标l′是不同于l的语种标号，

表示均值为μ_lg，方差为

的高斯分布在随机变量取值为X_r(i)时的概率密度，p_λ(X_r|l)为第r段语音在第l个语种参数下的条件概率密度K为修正因子，取值为6/T_r，对所有语种l＝1，...，L和所有高斯分量g＝1，...，G循环进行上述计算；

零阶分子统计量

表示所有R段的各段语音的各帧特征向量分别属于第g个高斯分量的后验概率

之和，一阶分子统计量表示所有R段的各段语音的各帧特征向量分别属于第g个高斯分量的后验概率

与本帧特征向量的乘积之和，二阶分子统计量

表示所有R段的各段语音的各帧特征向量分别属于第g个高斯分量的后验概率与本帧特征向量平方的乘积之和，对于各阶分母统计量依此类推；

步骤(5)：对步骤(4)中得到的分子统计量进行平滑处理：

用

θ_{\lg}^{num} (1) + τ^{I}

代替

θ_{\lg}^{num} (1),

用

θ_{\lg}^{num} (χ) \frac{θ_{\lg}^{num} (1) + τ^{I}}{θ_{\lg}^{num} (1)}

代替

θ_{\lg}^{num} (χ),

用

θ_{\lg}^{num} (χ^{2}) \frac{θ_{\lg}^{num} (1) + τ^{I}}{θ_{\lg}^{num} (1)}

代替

θ_{\lg}^{num} (χ^{2}),

其中τ^I为平滑因子，取值为100，对所有语种l＝1，...，L和所有高斯分量g＝1，...，G循环进行上述计算；

步骤(6)：由分子统计量和分母统计量计算模型参数μ_lg和

的更新系数D_lg：

D_{\lg} = \max {2 D_{\min}, 2 θ_{\lg}^{den} (1)}

其中D_min是关于D的一元二次方程的两个解中较大的一个：

σ_{\lg}^{2} D^{2} + [(θ_{\lg}^{num} (χ^{2}) - θ_{\lg}^{den} (χ^{2})) + (θ_{\lg}^{num} (1) - θ_{\lg}^{den} (1)) (σ_{\lg}^{2} + μ_{\lg}^{2}) - 2 (θ_{\lg}^{num} (χ) - θ_{\lg}^{den} (χ)) μ_{\lg}] D

+ [(θ_{\lg}^{num} (1) - θ_{\lg}^{den} (1)) (θ_{\lg}^{num} (χ^{2}) - θ_{\lg}^{den} (χ^{2})) - {(θ_{\lg}^{num} (χ) - θ_{\lg}^{den} (χ))}^{2}] = 0

对所有语种l＝1，...，L和所有高斯分量g＝1，...，G循环进行上述计算；

步骤(7)：修正模型参数μ_lg和

得到新的模型参数

和

{\hat{μ}}_{\lg} = \frac{θ_{\lg}^{num} (χ) - θ_{\lg}^{den} (χ) + D_{\lg} μ_{\lg}}{θ_{\lg}^{num} (1) - θ_{\lg}^{den} (1) + D_{\lg}}

{\hat{σ}}_{\lg}^{2} = \frac{θ_{\lg}^{num} (χ^{2}) - θ_{\lg}^{den} (χ^{2}) + D_{\lg} (σ_{\lg}^{2} + μ_{\lg}^{2})}{θ_{\lg}^{num} (1) - θ_{\lg}^{den} (1) + D_{\lg}} - {\hat{μ}}_{\lg}^{2}

步骤(8)：设定所有R段语音数据的目标函数

为：

当迭代次数大于20次或相邻两次迭代目标函数的变化量小于1.0×10^-5则停止迭代，否则，用代替μ_lg，

代替σ_lg，转步骤(4)。

本发明的有益效果是，可以从语种对的局部入手，然后再通盘考虑，目标函数要求比标准MMI准则松，考虑到实际数据分布情况复杂，各语种的数据量不同，混淆程度也各异，再加上迭代算法仅能达到局部极值等原因，该方法更能抓住语种间的鉴别性信息，从而获得更好的识别性能。

附图说明

图1是本发明进行基于语种对的鉴别式模型建立的硬件结构和步骤框图。

图2是本发明进行基于语种对的鉴别式模型建立的流程框图。

具体实施方式

我们将观测特征和语种类别都作为随机变量看待，其中特征随机变量(矢量)为

它的一个可能取值为X，其样本空间是连续的特征空间

语种类别随机变量为它的一个可能取值为l，其样本空间是离散的语种类别空间

L为语种数。

语种识别的建模过程本质上是估计每个语种的概率密度函数，如果将语种类别也看成随机变量的话，就是估计条件概率密度函数p_λ(X|l)。此处下标表示条件概率密度函数依赖于参数λ，或者换句话说我们就是要估计决定概率密度函数的参数。

每个语种背后总有一个真实的分布支配其产生观测特征，我们不妨设实际的条件概率密度函数为q(X|l)。这样q(X|l)与p_λ(X|l)之间的K-L距离(条件鉴别信息)为

假设存在一个估计的条件概率密度函数

它表示语种在{l₁，l₂}中取值且

和

独立时的分布，这时

q(X|l)与

之间的K-L距离为

它描述了语种在{l₁，l₂}范围内取值时q(X|l)与“小”背景之间的K-L距离。这仅是一个语种对的情况，进一步考虑所有语种对的情况，可定义

再计算它与

的差，可得

式中，R为训练数据的段数，

表示R→∞时等式渐进成立。略去式中的1/R，并引入修正因子K，可得

式中，X_r代表第r段训练数据，l_r代表第r段训练数据的语种。这样我们就得到了一个新的目标函数，与MMI准则不同的是，MMI侧重目标语种与其他所有语种的和进行鉴别，而我们这里侧重目标语种与其他语种两两进行鉴别，这个准则首先针对每对语种，然后再对所有“语种对”求和，所以我们称之为PMMI准则(基于语种对的MMI准则)。

如果我们认为每个语种的先验概率是相等的，此时P(l_r)和P(l′)是可以略去的，这样目标函数变成了

为了优化该目标函数，我们采用弱辅助函数法进行迭代。首先根据各语种数据分别计算分子统计量和分母统计量：

θ_{\lg}^{num} (1) = Σ_{r = 1}^{R} Σ_{i = 1}^{T_{r}} γ_{lgr}^{num} (i) \cdot 1

θ_{\lg}^{num} (χ) = Σ_{r = 1}^{R} Σ_{i = 1}^{T_{r}} γ_{lgr}^{num} (i) \cdot X_{r} (i)

θ_{\lg}^{num} (χ^{2}) = Σ_{r = 1}^{R} Σ_{i = 1}^{T_{r}} γ_{lgr}^{num} (i) \cdot X_{r}^{2} (i)

θ_{\lg}^{den} (1) = Σ_{r = 1}^{R} Σ_{i = 1}^{T_{r}} γ_{lgr}^{den} (i) \cdot 1

θ_{\lg}^{den} (χ) = Σ_{r = 1}^{R} Σ_{i = 1}^{T_{r}} γ_{lgr}^{den} (i) \cdot X_{r} (i)

θ_{\lg}^{den} (χ^{2}) = Σ_{r = 1}^{R} Σ_{i = 1}^{T_{r}} γ_{lgr}^{den} (i) \cdot X_{r}^{2} (i)

其中θ(1)、和分别代表零阶、一阶和二阶统计量，上标“num”代表分子项，上标“den”代表分母项，下标l表示语种标号，下标g表示高斯分量标号，X_r(i)代表第r段语音的第i帧特征矢量，R为总段数，T_r为第r段语音的帧数，

和

分别为

γ_{lgr}^{num} (i) = \{\begin{matrix} γ_{lgr} (i), & l = l_{r} \\ 0, & l &NotEqual; l_{r} \end{matrix}

γ_{lgr}^{den} (i) = \{\begin{matrix} γ_{lgr} (i) \frac{1}{L} (Σ_{l^{'} = 1}^{L} \frac{p_{λ} {(X_{r} | l)}^{K}}{p_{λ} {(X_{r} | l)}^{K} + p_{λ} {(X_{r} | l^{'})}^{K}} + \frac{1}{2}), & l = l_{r} \\ γ_{lgr} (i) \frac{1}{L} \frac{p_{λ} {(X_{r} | l)}^{K}}{p_{λ} {(X_{r} | l_{r})}^{K} + p_{λ} {(X_{r} | l)}^{K}}, & l &NotEqual; l_{r} \end{matrix}

其中γ_lgr(i)表示X_r(i)属于第g个高斯分量的后验概率：

然后对分子统计量进行平滑处理：

θ_{\lg}^{num} (1) &LeftArrow; θ_{\lg}^{num} (1) + τ^{I}

θ_{\lg}^{num} (χ) &LeftArrow; θ_{\lg}^{num} (χ) \frac{θ_{\lg}^{num} (1) + τ^{I}}{θ_{\lg}^{num} (1)}

θ_{\lg}^{num} (χ^{2}) &LeftArrow; θ_{\lg}^{num} (χ^{2}) \frac{θ_{\lg}^{num} (1) + τ^{I}}{θ_{\lg}^{num} (1)}

接着由分子统计量和分母统计量计算更新系数D_lg：

D_{\lg} = \max {2 D_{\min,} 2 θ_{\lg}^{den} (1)}

其中D_min是关于D的一元二次方程：

σ_{\lg}^{2} D^{2} + [(θ_{\lg}^{num} (χ^{2}) - θ_{\lg}^{den} (χ^{2})) + (θ_{\lg}^{num} (1) - θ_{\lg}^{den} (1)) (σ_{\lg}^{2} + μ_{\lg}^{2}) - 2 (θ_{\lg}^{num} (χ) - θ_{\lg}^{den} (χ)) μ_{\lg}] D

+ [(θ_{\lg}^{num} (1) - θ_{\lg}^{den} (1)) (θ_{\lg}^{num} (χ^{2}) - θ_{\lg}^{den} (χ^{2})) - {(θ_{\lg}^{num} (χ) - θ_{\lg}^{den} (χ))}^{2}] = 0

的两个解中较大的一个；

最后计算新的模型参数：

{\hat{μ}}_{\lg} = \frac{θ_{\lg}^{num} (χ) - θ_{\lg}^{den} (χ) + D_{\lg} μ_{\lg}}{θ_{\lg}^{num} (1) - θ_{\lg}^{den} (1) + D_{\lg}}

{\hat{σ}}_{\lg}^{2} = \frac{θ_{\lg}^{num} (χ^{2}) - θ_{\lg}^{den} (χ^{2}) + D_{\lg} (σ_{\lg}^{2} + μ_{\lg}^{2})}{θ_{\lg}^{num} (1) - θ_{\lg}^{den} (1) + D_{\lg}} - {\hat{μ}}_{\lg}^{2}

如图1所示，实施本发明的具体步骤如下：

(1)首先对语音数据提取特征，得到特征矢量；

(2)采用Baum-Welch算法进行ML训练，得到初始GMM模型参数；

(3)利用GMM模型对特征矢量计算计算所有语种和所有高斯分量的分子和分母统计量；

(4)对计算所有语种和所有高斯分量的分子统计量进行平滑；

(5)由平滑后的分子统计量和分母统计量计算所有语种和所有高斯分量的更新系数D_lg；

(6)按更新公式对计算所有语种和所有高斯分量的GMM模型参数进行更新；

本发明实验采用国际上标准的NIST 2003语种评测数据，共12个语种，含1280段长约为30秒的电话对话语音，训练数据采用CallFriend数据库语音，特征矢量采用7维的MFCC(Mel频率倒谱系数)加上49维的SDC(偏移差分倒谱)特征。

将所有测试段对每个语种分别进行语种确认，调节虚警率和漏报率相等时，可以得到系统的等错率，采用各语种平均的等错率作为系统的评价指标，等错率越低，表明系统性能越好。

实验中，采用GMM作为分类器，每个GMM由256个高斯分量构成。先用Bauman-Welch算法迭代8次作为初始模型，然后分别采用MMI准则以及本发明提供的基于语种对的鉴别式方法进行建模。

实验表明：采用MMI建模，语种识别等错率为2.13％；而采用本发明所提建模方法，语种识别等错率为1.58％，相对降低25.8％。可见，本发明提出的基于语种对的鉴别式语种识别模型建立方法用于语种识别可使其性能有较大提高。