CN102129860A

CN102129860A - 基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法

Info

Publication number: CN102129860A
Application number: CN2011100858447A
Authority: CN
Inventors: 魏昕
Original assignee: Individual
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2011-04-07
Filing date: 2011-04-07
Publication date: 2011-07-20
Anticipated expiration: 2031-04-07
Also published as: CN102129860B

Abstract

本发明公开了一种基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法，利用本方法可以避免传统的隐马尔可夫模型容易出现的过拟合或欠拟合数据的问题。本发明首先对用于训练的语音信号集合进行预处理和特征提取，接着在训练过程中采用了无限状态隐马尔可夫模型来描述训练集合，该模型在训练数据到来之前具有无限状态数目，并且每个状态所对应的输出概率分布函数用学生氏t混合模型来表示，在训练数据到来之后，通过计算得到该模型中的参数值和随机变量的分布情况；在识别时，将经过预处理和特征提取的带识别的语音，计算其关于训练好的每一说话人模型的似然值，将最大的似然值对应的说话人作为识别结果。本发明的方法可以有效地提高与文本相关的说话人识别系统的识别正确率，此外系统对噪声也具有较好的鲁棒性。

Description

基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法

技术领域

本发明涉及信号处理和模式识别领域，主要涉及一种基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法。

背景技术

在门禁、信用卡交易和法庭证据等方面，自动说话人识别，特别是与文本相关的说话人识别起着越来越重要的作用，它的目标是把待识别语音正确地判定为属于语音库中多个参考人之中的某一个。

在与文本相关的说话人识别方法上，基于传统的隐马尔可夫模型(GHMM)方法越来越受到重视，由于它具有识别率高，训练简单，训练数据量要求不大等优点，已经成为目前与文本相关的说话人识别的主流的识别方法。由于GHMM具有很好的表示数据的分布的能力，只要有足够多的状态，足够多的训练数据，GHMM就能够逼近任何与时间序列相关分布模型。但是，实际使用GHMM时存在几个问题。首先，传统的GHMM的状态数目是有限的，在训练之前预先设定好，并且训练过程中是固定不变，这容易使模型对训练数据产生过拟合或欠拟合现象。其次，传统的GHMM中每个状态所对应的输出概率分布函数采用的是高斯混合模型来表示，而在实际应用中高斯混合模型的一个缺点是其对于噪声和数据采集过程中容易出现的野值点的鲁棒性较差。上述问题常常使得基于传统的隐马尔可夫模型的与文本相关的说话人识别系统的识别正确率较差。

发明内容

本发明的目的就在于解决现有技术的缺陷，设计、研究基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法。

本发明的技术方案是：

基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法，其特征在于包括以下步骤：

(1)对语音信号进行预处理：主要包括采样与量化、预加重、分帧与加窗；

(2)语音帧上的特征提取：对每一语音帧，计算D阶线性预测倒谱系数，将其作为该帧的D维特征矢量；

(3)对于每一说话人所对应的训练集合

其中段数为M段，每段训练语音的帧数为T；用无限状态隐马尔可夫模型来建模，该隐马尔可夫模型具有无限状态数，并且每一状态的输出概率分布用学生氏t混合模型来表示；通过训练估计出该无限状态隐马尔可夫模型中的参数值以及随机变量的分布情况，即得到iSHMM₁，......，iSHMM_g，......iSHMM_G，其中G为说话人的数量；

(4)对于待识别的一段语音，首先进行预处理以及特征提取，得到相应的特征矢量所组成的时间序列{x′_t}_{t＝1，...，T}，T为序列的帧数；计算{x′_t}_{t＝1，.，T}关于每一个说话人有关的模型iSHMM₁，......，iSHMM_g，......iSHMM_G的似然值LIK^(g)，最终的识别结果为最大的LIK^(g)所对应的说话人speaker，即：

speaker = \arg \max_{g = 1}^{G} {LIK}^{(g)} .

在所述的基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法中，所述的训练过程中估计该无限状态隐马尔可夫模型中的参数值以及随机变量的分布情况的过程如下：

(1)设定参数α，b_ij，μ_ij，∑_ij，y_ij，以及π，A的初始值；

分别为与状态i的输出分布函数有关的学生氏t混合模型中的第j个混合成分的权值，均值，协方差，自由度参数；L为实际训练中近似代表∞的一个较大的状态数，L的取值较为灵活，在与文本相关的说话人识别中，L取文本中的音素数目的2～3倍；J为混合成分数目；初始时，b_ij＝1/J，v_ij＝1，μ_ij和∑_ij的初始值通过对当前说话人的所有训练数据求均值和协方差来得到；π＝{π_h}_{h＝1，...，L}为初始状态矢量，

为状态转移矩阵，首先随机取得每个元素的值，然后对A中的每一行，以及π元素进行归一化，使其满足在满足归一化条件：

h＝1，...，L；α为与π，A分布相关的参数，取值范围为α＝1～100，其初始值为在其取值范围内任意取出的一个值；此外，定义三个辅助变量，它们的初始值分别为ζ_imt＝π_i，ζ_himt＝a_hi和ξ_ijmt＝π_ic_ij；

(2)更新与学生氏t混合模型有关的隐变量u_ijmt的分布；它的分布q(u_ijmt)服从Gamma分布，即

其中

{\tilde{&upsi;}}_{ijmt 1} = \frac{ξ_{ijmt} \cdot D + v_{ij}}{2}

{\tilde{&upsi;}}_{ijmt 2} = \frac{ξ_{ijmt} {(x_{mt} - μ_{ij})}^{T} Σ_{ij}^{- 1} (x_{mt} - μ_{ij}) + v_{ij}}{2},

而后可以得到u_ijmt的数学期望<u_ijmt>以及logu_ijmt的数学期望<logu_ijmt>，如下：

< u_{ijmt} > = {\tilde{&upsi;}}_{ijmt 1} / {\tilde{&upsi;}}_{ijmt 2}

< \log u_{ijmt} > = ψ ({\tilde{&upsi;}}_{ijmt 1}) - \log {\tilde{&upsi;}}_{ijmt 2}

上两式中的Ψ为标准的digamma函数；

(3)更新参数b_ij，μ_ij，∑_ij，v_ij

b_{ij} = \frac{Σ_{m = 1}^{M} Σ_{t = 1}^{T} ξ_{ijmt}}{Σ_{m = 1}^{M} Σ_{t = 1}^{T} ζ_{ijmt}}

μ_{ij} = \frac{Σ_{m = 1}^{M} Σ_{t = 1}^{T} ξ_{ijmt} < u_{ijmt} > x_{mt}}{Σ_{m = 1}^{M} Σ_{t = 1}^{T} ξ_{ijmt} < u_{ijmt} >}

Σ_{ij} = \frac{Σ_{m = 1}^{M} Σ_{t = 1}^{T} ξ_{ijmt} < u_{ijmt} > (x_{mt} - μ_{ij}) {(x_{mt} - μ_{ij})}^{T}}{Σ_{m = 1}^{M} Σ_{t = 1}^{T} ξ_{ijmt}}

1 + \frac{Σ_{m = 1}^{M} Σ_{t = 1}^{T} ξ_{ijmt} [< \log u_{ijmt} > - < u_{ijmt} >]}{Σ_{m = 1}^{M} Σ_{t = 1}^{T} ξ_{ijmt}} + \log (\frac{v_{ij}}{2}) - ψ (\frac{v_{ij}}{2}) = 0

(4)更新与π_h和a_hi相关的随机变量和

的分布，它们的分布

和

服从Beta分布，即

其中：

{\tilde{β}}_{hi 1}^{A} = 1 + Σ_{m = 1}^{M} Σ_{t = 1}^{T} ζ_{himt},

{\tilde{β}}_{hi 2}^{A} = 1 + Σ_{m = 1}^{M} Σ_{t = 1}^{T} Σ_{k = i + 1}^{N} ζ_{hkmt}

{\tilde{β}}_{h 1}^{π} = 1 + Σ_{m = 1}^{M} ζ_{hm 1},

{\tilde{β}}_{h 2}^{π} = α + Σ_{m = 1}^{M} Σ_{k = h + 1}^{N} ζ_{km 1}

而后可以得到关于

和的如下的数学期望：

< \log V_{hi}^{A} > = ψ ({\tilde{β}}_{hi 1}^{A}) - ψ ({\tilde{β}}_{hi 1}^{A} + {\tilde{β}}_{hi 2}^{A}),

< \log (1 - V_{hi}^{A}) > = ψ ({\tilde{β}}_{hi 2}^{A}) - ψ ({\tilde{β}}_{hi 1}^{A} + {\tilde{β}}_{hi 2}^{A})

< \log V_{h}^{π} > = ψ ({\tilde{β}}_{h 1}^{π}) - ψ ({\tilde{β}}_{h 1}^{π} + {\tilde{β}}_{h 2}^{π}),

< \log (1 - V_{h}^{π}) > = ψ ({\tilde{β}}_{h 2}^{π}) - ψ ({\tilde{β}}_{h 1}^{π} + {\tilde{β}}_{h 2}^{π})

(5)由本权利要求的步骤(2)～(4)估计出的参数值以及计算得到的随机变量的分布，采用前向-后向算法更新三个辅助变量ζ_imt，ζ_himt和ξ_ijmt：

ζ_{himt} = \frac{p_{hmt}^{(f)} < a_{hi} > p (x_{mt}) p_{im, t + 1}^{(b)}}{Σ_{h^{'} = 1}^{L} Σ_{i^{'} = 1}^{L} p_{h^{'} mt}^{(f)} < a_{h^{'} i^{'}} > p (x_{mt}) p_{i^{'} m, t + 1}^{(b)}}

ζ_{imt} = \frac{p_{imt}^{(f)} p_{imt}^{(b)}}{Σ_{i^{'} = 1}^{L} p_{i^{'} mt}^{(f)} p_{i^{'} mt}^{(b)}}

ξ_{ijmt} = ζ_{imt} \cdot \frac{b_{ij} \cdot St (x_{mt}; μ_{ij}, Σ_{ij}, v_{ij})}{Σ_{j = 1}^{J} b_{ij} \cdot St (x_{mt}; μ_{ij}, Σ_{ij}, v_{ij})}

其中，

为前向概率，

为后向概率，其计算过程如下：

p_{hm 1}^{(f)} = < π_{h} > \cdot p (x_{mt}),

p_{hm, t + 1}^{(f)} = p (x_{mt}) \cdot Σ_{h = 1}^{L} p_{hmt}^{(f)} \cdot < a_{hi} >, t = 1, . . ., T - 1

p_{hmT}^{(b)} = 1,

p_{hmt}^{(f)} = Σ_{h = 1}^{L} < a_{hi} > \cdot p (x_{mt}) \cdot p_{hm, t - 1}^{(b)}, t = T - 1, . . ., 1;

<π_h>和<a_hi>分别为π，A的期望值，其计算如下：

< π_{h} > = \exp {< \log π_{h} >} = \exp {< \log V_{h}^{π} > + Σ_{k = 1}^{h - 1} < \log (1 - V_{h}^{π}) >}

< a_{hi} > = \exp {< \log a_{hi} >} = \exp {< \log V_{hi}^{A} > + Σ_{k = 1}^{h - 1} < \log (1 - V_{hi}^{A}) >}

(6)计算当前迭代后的似然值LIK_k(k为当前的迭代次数)，其可以由上一步计算出的前向概率

方便地得到：

{LIK}_{k} = Σ_{m = 1}^{M} Σ_{h = 1}^{L} p_{hmT}^{(f)};

(7)计算当前迭代后与上一次迭代后的似然值的差值ΔLIK＝LIK_k-LIK_k-1；如果ΔLIK≤δ，那么训练完成，否则转到步骤(2)，k的值增加1，继续下一次的迭代；阈值δ的取值范围为10^-5～10^-4。

本发明的优点和效果在于：

1.本发明中所采用的隐马尔可夫模型具有无限状态数，该结构使得该模型具有很强的灵活性，能够根据训练数据自动的调节模型的最优结构，从而自动确定出合适的状态数目。解决了用于与文本相关的说话人识别中传统的隐马尔可夫模型中状态数固定且不可调节的缺点，以及由此引发的模型过拟合或欠拟合训练数据的问题，从而提高了系统识别的正确率。

2.本发明中所采用的隐马尔可夫模型中每个状态的输出概率分布函数采用的是学生氏t混合模型来建模的，它的优点是，与传统的模型中采用的高斯混合模型相比，对噪声以及数据采集过程中容易出现的野值点具有更强的鲁棒性，从而提高了噪声环境下的与文本相关的说话人识别系统的正确率和鲁棒性。

本发明的其他优点和效果将在下面继续描述。

附图说明

图1——本发明的方法流程图。

图2——无限状态隐马尔可夫模型(iSHMM)的结构图。

图3——L＝5时，本发明的方法和传统的与文本相关的说话人识别方法的识别正确率的对比结果。

图4——L＝10时，本发明的方法和传统的与文本相关的说话人识别方法的识别正确率的对比结果。

图5——L＝15时，本发明的方法和传统的与文本相关的说话人识别方法的识别正确率的对比结果。

图6——L＝15，ε＝0.1时，采用传统方法的识别系统所得到的confusion矩阵

图7——L＝15，ε＝0.1时，采用本发明的方法的识别系统所得到的confusion矩阵

具体实施方式

下面结合附图和实施例，对本发明所述的技术方案作进一步的阐述。图1为本发明的方法流程图，本发明的方法共分为四步。

第一步：语音信号的预处理

(1)米样与量化

对用于训练的数据集和用于识别的数据集中的每一段模拟语音信号y_a(t)进行采样，从而得到数字语音信号的振幅序列y(n)。用脉冲编码调制(PCM)技术对y(n)进行量化编码，从而得到振幅序列的量化值表示形式y′(n)。这里采样和量化的精度根据应用于不同环境下的说话人识别系统的要求来决定。对于大多数语音信号而言，采样频率F为8KHz-10KHz，量化位数为16位或24位。

(2)预加重

将y′(n)通过数字滤波器Z，得到语音信号的高、中、低频幅度相当的振幅序列s″(n)。这里数字滤波器的Z传递函数为H(z)＝1-az^-1。其中，预加重系数a的取值范围为0.8～0.97。

(3)分帧，加窗

以帧长τ(单位：毫秒)，帧移量为τ/4，把s″(n)划分成一系列的语音帧F_t。即，每一语音帧包含N个语音信号样本(N＝τ×F)。接着，计算汉明窗函数的信：

最终，对每一语音帧F_t加汉明窗，得到

从而完成语音信号的预处理过程：

F_{t}^{*} (n) = w_{H} (n) \times F_{t} (n), n = 1, . . ., N . - - - (2)

第二步：语音帧上的特征提取

本方法中针对每一帧

通过计算，得到D阶线性预测倒谱系数(LPCC)，该系数作为

对应的D维特征矢量，这里的D根据应用于不同环境下的说话人识别系统的要求来决定，大多数情况下D的取值范围为10～20。LPCC的计算包含以下过程：

(1)计算出D阶的线性预测系数其计算公式如下：

φ_{m} (i, 0) = Σ_{d = 1}^{D} {\hat{x}}_{d} φ_{m} (i, d), d = 1, . . ., D - - - (3)

其中

φ_{m} (i, d) = Σ_{n = 1}^{N} F_{m}^{*} (n - i) F_{m}^{*} (n - k) . - - - (4)

式(3)表示D个方程构成的方程组，未知数为D个。求解该方程组，就可以得到当前帧对应的D阶的线性预测系数

(2)由D阶的线性预测系数

通过如下的公式，计算出D阶的线性预测倒谱系数而，x₁，...，x_D：

x_{d} = {\hat{x}}_{d} + Σ_{k = 1}^{d - 1} \frac{k}{d} x_{k} a_{d - k}, d = 1, . . ., D - - - (5)

用上述方法计算出所有说话人用于训练和用于测试的D维特征矢量。假设训练集合中某个的说话人所对应的训练语音有M段，每段训练语音的帧数为T，那么该说话人所对应训练集合可以表示为其中x_mt＝(x_mt1，...，x_mtD)为通过预处理和特征提取步骤计算出计算出的D维特征矢量。

第三步：训练

对于与文本相关的说话人识别，需要用隐马尔可夫模型来建模提取出的语音特征序列在特征空间的分布。这里采用的是无限状态数目的隐马尔可夫模型(iSHMM)。与常用的隐马尔可夫模型相比，iSHMM具有两个显著的不同：首先，iSHMM具有无限(infinite)的隐含状态数目，而传统的隐马尔可夫模型的状态数有限，并且一旦设定好之后，在训练过程中固定不变；其次，iSHMM中每一状态对应的输出概率分布情况用学生氏t混合模型(Student’st mixture model)来建模，而在传统的隐马尔可夫模型中，输出概率分布用高斯混合模型来表示。iSHMM的结构如图2所示。在iSHMM中，π＝{π_h}_{h＝1，.，∞}为初始状态矢量，它具有无限维的元素。为状态转移矩阵，它的行数和列数也是无限的。采用stick-breaking方式来构造π和A中的元素，即：

a_{hi} = V_{hi}^{A} Π_{k = 1}^{i - 1} (1 - V_{hk}^{A}), h, i = 1, . . ., \infty, - - - (6)

π_{h} = V_{h}^{π} Π_{k = 1}^{h - 1} (1 - V_{k}^{π}), h = 1, . . ., \infty - - - (7)

其中随机变量

和

分别服从Beta分布：

p (V_{hi}^{A}) = Beta (1, α), h, i = 1, . . ., \infty - - - (8)

p (V_{h}^{π}) = Beta (1, α), h, i = 1, . . ., \infty - - - (9)

在式(8)和式(9)中，参数α取值范围分别为：α＝1～100。由于无穷大“∞”在计算时无法精确表示，通常用一个较大的数L来近似代表∞。L的取值较为灵活，一般为在与文本相关的说话人识别中，L取文本中的音素数目的2～3倍。

这里，用

表示与

对应的隐含的状态序列。其中s_mt＝{s_imt}_{i＝1，...，∞}为与x_mt所对应的状态指示变量。当x_mt对应着状态i时，s_imt＝1，其余情况下s_imt＝0。对于iSHMM每个状态的输出概率分布，用学生氏t混合模型来建模(这里假设当前状态为i)，其表达式如下：

p (x_{m}) = Σ_{J = 1}^{J} b_{ij} \cdot St (x_{mt}; μ_{ij}, Σ_{ij}, v_{ij}) - - - (10)

上式中b_ij，μ_ij，∑_y，v_ij分别为状态i的第j个混合成分的权值，均值，协方差，自由度参数；J为混合成分数目；St(x_mt；μ_ij，∑_y，v_ij)为学生氏t分布，通常将其表示为：

St (x_{mt}; μ_{ij}, Σ_{ij}, v_{ij}) = {&Integral;}_{0}^{\infty} p (x_{mt} | u_{ijmt}) p (u_{ijmt}) {du}_{ijmt} - - - (11)

其中u_ijmt为引入的一个隐变量，其与自由度参数v_ij有关，服从Gamma分布：

p(u_ijmt)＝Gam(v_ij/2，v_ij/2) (12)

p(x_mt|u_ijmt)与μ_ij，∑_ij有关，服从高斯分布：

p(x_mt|μ_ijmt)＝N(μ_ij，∑_ij/u_ijmt) (13)

此外，还需要引入一个隐变量

指示当前的数据x_mt是由学生氏t混合模型中的哪个成分产生的。当x_mt对应着状态i时，并且是由第j个混合成分产生时，

其余情况下

在iSHMM下，与文本相关的说话人识别的训练过程如下：

(1)设定参数α，b_ij，μ_ij，∑_ij，v_ij，以及π，A的初始值；

α的初始值为在其取值范围内任意取出的一个值，b_ij＝1/J，v_ij＝1，μ_ij和∑_y的初始值通过对当前说话人的所有训练数据求均值和协方差来得到。关于π，A的初始值的选取，首先随机取得每个元素的值，然后对A中的每一行，以及π元素进行归一化，使其满足在满足归一化条件( h＝1，...，L)。此外，定义与S和Z相关的三个辅助变量ζ_imt＝q(s_imt＝1)，ζ_himt＝q(s_hmt＝1，s_im，t+1＝1)，

它们的初始值分别为：ζ_imt＝π_i，ζ_himt＝α_hi和ξ_ijmt＝π_ic_ij。迭代次数k＝1。

(2)更新隐变量u_ijmt的分布；其后验分布q(u_ijmt)仍然服从Gamma分布，即其中

{\tilde{&upsi;}}_{ijmt 1} = \frac{ξ_{ijmt} \cdot D + v_{ij}}{2} - - - (14)

{\tilde{&upsi;}}_{ijmt 2} = \frac{ξ_{ijmt} {(x_{mt} - μ_{ij})}^{T} Σ_{ij}^{- 1} (x_{mt} - μ_{ij}) + v_{ij}}{2}, - - - (15)

< u_{ijmt} > = {\tilde{&upsi;}}_{ijmt 1} / {\tilde{&upsi;}}_{ijmt 2} - - - (16)

< \log u_{ijmt} > = ψ ({\tilde{&upsi;}}_{ijmt 1}) - \log {\tilde{&upsi;}}_{ijmt 2} - - - (17)

其中式(18)中的Ψ为标准的digamma函数(对数gamma函数的导数)。

(3)更新参数b_ij，μ_ij，∑_ij，v_ij

b_{ij} = \frac{Σ_{m = 1}^{M} Σ_{t = 1}^{T} ξ_{ijmt}}{Σ_{m = 1}^{M} Σ_{t = 1}^{T} ζ_{ijmt}} - - - (18)

μ_{ij} = \frac{Σ_{m = 1}^{M} Σ_{t = 1}^{T} ξ_{ijmt} < u_{ijmt} > x_{mt}}{Σ_{m = 1}^{M} Σ_{t = 1}^{T} ξ_{ijmt} < u_{ijmt} >} - - - (19)

Σ_{ij} = \frac{Σ_{m = 1}^{M} Σ_{t = 1}^{T} ξ_{ijmt} < u_{ijmt} > (x_{mt} - μ_{ij}) {(x_{mt} - μ_{ij})}^{T}}{Σ_{m = 1}^{M} Σ_{t = 1}^{T} ξ_{ijmt}} - - - (20)

1 + \frac{Σ_{m = 1}^{M} Σ_{t = 1}^{T} ξ_{ijmt} [< \log u_{ijmt} > - < u_{ijmt} >]}{Σ_{m = 1}^{M} Σ_{t = 1}^{T} ξ_{ijmt}} + \log (\frac{v_{ij}}{2}) - ψ (\frac{v_{ij}}{2}) = 0 - - - (21)

其中式(21)中的Ψ为digamma函数，该式可以用常用的数值计算方法(如牛顿法)来求解。

(4)更新随机变量

和

的分布，它们的后验分布

和仍然服从Beta分布，即

其中：

{\tilde{β}}_{hi 1}^{A} = 1 + Σ_{m = 1}^{M} Σ_{t = 1}^{T} ζ_{himt},

{\tilde{β}}_{hi 2}^{A} = 1 + Σ_{m = 1}^{M} Σ_{t = 1}^{T} Σ_{k = i + 1}^{N} ζ_{hkmt} - - - (22)

{\tilde{β}}_{h 1}^{π} = 1 + Σ_{m = 1}^{M} ζ_{hm 1},

{\tilde{β}}_{h 2}^{π} = α + Σ_{m = 1}^{M} Σ_{k = h + 1}^{N} ζ_{km 1} - - - (23)

而后可以得到关于

和

的如下的数学期望：

< \log V_{hi}^{A} > = ψ ({\tilde{β}}_{hi 1}^{A}) - ψ ({\tilde{β}}_{hi 1}^{A} + {\tilde{β}}_{hi 2}^{A}),

< \log (1 - V_{hi}^{A}) > = ψ ({\tilde{β}}_{hi 2}^{A}) - ψ ({\tilde{β}}_{hi 1}^{A} + {\tilde{β}}_{hi 2}^{A}) - - - (24)

< \log V_{h}^{π} > = ψ ({\tilde{β}}_{h 1}^{π}) - ψ ({\tilde{β}}_{h 1}^{π} + {\tilde{β}}_{h 2}^{π}),

< \log (1 - V_{h}^{π}) > = ψ ({\tilde{β}}_{h 2}^{π}) - ψ ({\tilde{β}}_{h 1}^{π} + {\tilde{β}}_{h 2}^{π}) - - - (25)

(5)由步骤(2)～(4)估计出的参数值以及计算得到的随机变量的分布，采用前向-后向算法更新三个辅助变量ζ_imt，ζ_himt和ζ_ijmt。

和传统的有限状态、输出概率函数为高斯混合模型的HMM不同，这里前向-后向算法中需要用到的π，A以及分别为它们的期望值，即：

< π_{h} > = \exp {< \log π_{h} >} = \exp {< \log V_{h}^{π} > + Σ_{k = 1}^{h - 1} < \log (1 - V_{h}^{π}) >} - - - (26)

< a_{hi} > = \exp {< \log a_{hi} >} = \exp {< \log V_{hi}^{A} > + Σ_{k = 1}^{h - 1} < \log (1 - V_{hi}^{A}) >} - - - (27)

此外，在得到当前的b_ij，μ_ij，∑_ij，v_ij以后，p(x_mt)可由式(10)得到，那么前向-后向算法中的前向概率为：

p_{hm 1}^{(f)} = < π_{h} > \cdot p (x_{mt}),

p_{hm, t + 1}^{(f)} = p (x_{mt}) \cdot Σ_{h = 1}^{L} p_{hmt}^{(f)} \cdot < a_{hi} >, t = 1, . . ., T - 1 - - - (28)

后向概率为：

p_{hmT}^{(b)} = 1,

p_{hmt}^{(f)} = Σ_{h = 1}^{L} < a_{hi} > \cdot p (x_{mt}) \cdot p_{hm, t - 1}^{(b)}, t = T - 1, . . ., 1; - - - (29)

那么，

ζ_{himt} = \frac{p_{hmt}^{(f)} < a_{hi} > p (x_{mt}) p_{im, t + 1}^{(b)}}{Σ_{h^{'} = 1}^{L} Σ_{i^{'} = 1}^{L} p_{h^{'} mt}^{(f)} < a_{h^{'} i^{'}} > p (x_{mt}) p_{i^{'} m, t + 1}^{(b)}} - - - (30)

ζ_{imt} = \frac{p_{imt}^{(f)} p_{imt}^{(b)}}{Σ_{i^{'} = 1}^{L} p_{i^{'} mt}^{(f)} p_{i^{'} mt}^{(b)}} - - - (31)

ξ_{ijmt} = ζ_{imt} \cdot \frac{b_{ij} \cdot St (x_{mt}; μ_{ij}, Σ_{ij}, v_{ij})}{Σ_{j = 1}^{J} b_{ij} \cdot St (x_{mt}; μ_{ij}, Σ_{ij}, v_{ij})} - - - (32)

方便地得到：

{LIK}_{k} = Σ_{m = 1}^{M} Σ_{h = 1}^{L} p_{hmT}^{(f)} - - - (33)

(7)计算当前迭代后与上一次迭代后的似然值的差值ΔLIK＝LIK_k-LIK_k-1。如果ΔLIK≤δ，那么训练完成，否则转到步骤(2)，k的值增加1，继续下一次的迭代。阈值δ的取值范围为10^-5～10^-4。

上述训练过程如图1的虚线方框中所示，对于每一个说话人，采用这种方式进行训练，从而得到其对应的具有无限状态的隐马尔可夫模型iSHMM₁，......，iSHMM_g，......iSHMM_G(G为说话人的数量)。

第四步：识别

在识别过程中，与当前待识别的说话人相关的一段语音首先经过步骤一的预处理以及步骤二的特征提取，得到相应的特征矢量所组成的时间序列{x′_t}_{t＝1，...，T}。对于该序列，计算其关于每一个说话人有关的模型iSHMM₁，......，iSHMM_g，......iSHMM_G的似然值LIK^(g)。由于每一个iSHMM_g，g＝1，...G中包含了训练好的模型参数

以及π，A的期望值。那么只要采用训练步骤中的第(5)步所示的前向-后向算法，将该步骤中的x_mt用x′_t替代，就可以计算出LIK^(g)。最终的识别结果为最大的LIK^(g)所对应的说话人，即：

speaker = \arg \max_{g = 1}^{G} {LIK}^{(g)} - - - (34)

性能评价

为了验证采用了本发明所述的基于无线状态隐马尔司夫模型(iSHMM)的与文本相关的说话人识别方法的系统性能，以及将其与基于传统模型(GHMM)的与文本相关的说话人识别方法的系统性能进行对比，这里选用Japanese Vowels数据库做测试。在该数据库中，9位说话人分别发两个Japanese vowels/ae/的音。该数据库中总共有640段语音信号，其中270段用于训练(每个说话人有30段语音信号)，剩余的370段用于识别。采样率为10KHz，量化位数为16位，帧长为25.6ms，预加重系数α＝0.95，特征提取过程中的D＝12。训练过程中的J＝3，α＝10，阈值δ＝10^-4。由于该数据库中的语音为不含噪声的纯净语音，而实际应用中的说话人识别系统都是含有噪声的，因此这里在训练和识别的语音序列上添加高斯白噪声，该噪声均值为0，协方差系数与语音信号的强度成比例，比例系数为ε，ε越大，表明当前的说话人识别系统受的噪声干扰越强。

图3，图4和图5分别给出了L＝5，L＝10和L＝15条件下，采用本发明提出的基于无限状态隐马尔可夫模型(iSHMM)的说话人识别方法和传统的基于有限状态并且输出概率分布为高斯混合模型的普通HMM(GHMM)的说话人识别方法之后的系统识别的正确率。每一幅图中反映噪声等级的比例系数ε从0.05按0,05的比例递增到0.30。从图3，图4和图5可以看出，采用本发明提出的与文本相关的说话人识别方法的系统正确率均高于传统的基于GHMM的方法的系统正确率。并且在L＝15时差别更加明显，这是因为本数据库中的说话人发出的语音的音素数目很少，对应的真实的隐马尔可夫状态数也较少。本发明中的iSHMM由于在训练数据到来前具有无限状态数目，在训练数据来了以后可以根据训练数据自动调节模型的结构，从而自动确定出合适的状态数。此外，本发明的输出概率分布函数采用的是学生氏t混合模型来描述，该模型对噪声具有较强的鲁棒性。而传统的GHMM中的状态数是预先设定好的，并且在训练数据到来之后是固定不变的，无法根据训练数据进行动态地调节，从而导致过拟合训练数据，并且高斯混合模型的输出概率分布函数对噪声的鲁棒性较差，这些因素引起了系统识别性能的下降。

图6～图7分别给出了在L＝15，ε＝0.1条件下，基于GHMM和iSHMM的与文本相关的说话人识别的方法的Confusion矩阵，它更加直观的反映了对于每个说话人的识别情况。在Confusion矩阵中，列代表真实的说话人，行代表通过说话人识别方法判断出的说话人，例如，图6中的第5行第1列中的值为7，它表示有7条来自于第5个说话人的语音序列被错误地判断成是来自于第1个说话人。因此，除了主对角线以外的元素值为0的越多，系统的识别性能越好。从图6和图7可以看出，采用本发明的说话人识别方法的性能要明显优于传统的说话人识别方法。

本发明请求保护的范围并不仅仅局限于本具体实施方式的描述。

Claims

1.基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法，其特征在于包括以下步骤：

(3)对于每一说话人所对应的训练集合

(4)对于待识别的一段语音，首先进行预处理以及特征提取，得到相应的特征矢量所组成的时间序列{x_t}_{t＝1，...，T}，T为序列的帧数；计算{x′_t}_t＝1，，T关于每一个说话人有关的模型iSHMM₁，......，iSHMM_g，......iSHMM_G的似然值LIK^(g)，最终的识别结果为最大的LIK^(g)所对应的说话人speaker，即：

speaker = \arg \max_{g = 1}^{G} {LIK}^{(g)} .

2.根据权利要求1所述的基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法，其特征在于，在训练过程中估计该无限状态隐马尔可夫模型中的参数值以及随机变量的分布情况的过程如下：

(1)设定参数α，b_ij，μ_ij，∑_ij，v_ij，以及π，A的初始值；

分别为与状态i的输出分布函数有关的学生氏t混合模型中的第j个混合成分的权值，均值，协方差，自由度参数；L为实际训练中近似代表∞的一个较大的状态数，在与文本相关的说话人识别中，L取值为文本中的音素数目的2～3倍；J为混合成分数目；初始时，b_ij＝1/J，v_ij＝1，μ_ij和∑_y的初始值通过对当前说话人的所有训练数据求均值和协方差来得到；π＝{π_h}_{h＝1，...，L}为初始状态矢量，