CN105845140A

CN105845140A - 应用于短语音条件下的说话人确认方法和装置

Info

Publication number: CN105845140A
Application number: CN201610172730.9A
Authority: CN
Inventors: 陈昊亮
Original assignee: Guangzhou Speakin Network Technology Co Ltd
Current assignee: Guangzhou Speakin Network Technology Co Ltd
Priority date: 2016-03-23
Filing date: 2016-03-23
Publication date: 2016-08-10

Abstract

本发明涉及应用于短语音条件下的说话人确认方法和装置，该方法包括：从目标语音信号中提取线性预测倒谱系数、Mel频谱倒谱系数和Delta特征；对所述线性预测倒谱系数、Mel频谱倒谱系数和Delta特征进行组合，得到若干有效特征向量；利用局部模糊PCA方法降低所述有效特征向量的维数；根据高斯混合模型利用降低后的有效特征向量进行建模，对所述目标语音信号的说话人进行辨识。与现有技术相比，本发明采用特征组合代替单一特征，以提高有效特征维数来弥补特征样本的不足，并用局部模糊PCA对组合特征进行有效降维，在对识别率影响很小的前提下，降低了系统的时空复杂度。

Description

应用于短语音条件下的说话人确认方法和装置

技术领域

本发明属于语音识别技术领域，尤其涉及一种在短语音条件下的说话人确认方法和装置。

背景技术

在说话人识别技术走向实际应用过程中常会遇到如下情况:1、恐怖分子或被侦听对象，为了反侦听的考虑，说话往往很短，有时甚至只有两三个字。虽然文本相关技术对短语音说话人识别有一定效果，但文本相关话者识别对这样的情形是无法使用的。2、由于通话传输信道的问题，很多电话通话质量很差，导致语音断续情况严重。通常的解决办法是把几乎不含有或几乎无法提取说话人信息的断续语音段去掉，其结果必然是有效语音变短。3、在多说话人问题的解决过程中，由于目前语音分段技术的成熟度不够，或者的确存在语音交叠情形，对识别容易造成负面影响的低质量语音段或说话人重叠语音段，必须在送给识别器前切除掉，这也必然导致有效语音变短。4、在一些商用场合，用户不愿意说很长的语音。因此，短语音问题是实际应用必须要解决的。

短语音的问题目前还没有得到广大学术界的重视，还没有明确的定义。一些研究人员只是从侧面提到了短语音问题，并没有做为重点来研究，有些研究工作所做的短语音工作都不是从实际应用的角度出发，对短语音认识很模糊。

对于短语音的说话人辨识可以从三个角度对短语音问题给出明确定义：

1、训练语音和测试语音的文本内容一般是不相同的，即文本无关；

2、训练语音可以长些(1-20秒)，这在实际中是较易保证的，用户通常比较愿意在建模时说较长的语音；

3、识别语音相比训练语音要短很多，一般不超过10秒，有时甚至是2-3个音节，对应汉语的一个词，是最小的短义单位。对于这样的说话人识别问题，我们称之为短语音说话人识别。

对于跨信道问题，在工程上可以有好的解决方案，有时不太会影响说话人识别技术的应用。但是，短语音问题在工程上是没有任何解决方案的，必须从说话人识别技术上找到新的算法来解决短语音问题。

针对该情况，国内外学者也提出了一些解决方法。这些方法大体分为三类:

1、从特征层面，主要是从较短的语音流中尽可能多地提取信息量，如改变帧长和帧移的方法，原理是获取更多的话者信息的语音帧，在不同的帧长和帧移中包含说话人的基音信息和共振峰信息等和提取LP残余信号基音同步小波变换的八音度系数为MFCC特征的补偿方法，认为在八音度系数中含有产生语音信号的声源信息。

2、从模型层面，如将每个说话人表示为特征音空间中的一个点，此方法来源于人脸识别中特征脸的思想[io9,no}:将特征向量投影到高维空间中并在高维空间中建立VQ码本模型，测试语音采用与训练模型同样的方法得到VQ码本，采用最近邻分类器进行分类识别；将特征向量进行聚类，在每个子类中建立子GMM模型，将测试语音在每个子类模型中的打分的线性组合做为最终识别得分「112]}Vogt在kenny的基础上，把联合因子分析(JFA)和I一矢量(I-Vector)技术应用于短语音说话人识别，验证了该技术的可行性。

3、从识别匹配打分层面，如将测试语音分成若干块，在模型中找与测试语音块相匹配的子块，以此子块的得分做为该段测试语音的得分，然后，将所有子块的得分的均值做为测试语音的最终得分，主要是用来克服文本不同带来的影响；将测试语音在每个子类模型上的得分进行SVM融合做为最终得分。

目前，GMM系统是说话人辨认技术最普遍采用的系统，这个系统建立在统计模型理论上，要求训练和测试语音必须达到一定的长度，否则，系统性能将大幅度下降。也就是说，在短语音情况下，系统识别率会大大下降。

发明内容

本发明的目的在于提供了一种应用于短语音条件下的说话人确认方法和装置，利用本发明实施里提供的说话人确认方法和装置能够在短语音的条件下确认说话人的身份。

为此，本发明所述的一种应用于短语音条件下的说话人确认方法采用的技术方案如下：

一种应用于短语音条件下的说话人确认方法，包括以下步骤：

从目标语音信号中提取线性预测倒谱系数、Mel频谱倒谱系数和Delta特征；

对所述线性预测倒谱系数、Mel频谱倒谱系数和Delta特征进行组合，得到若干有效特征向量；利用局部模糊PCA方法降低所述有效特征向量的维数；根据高斯混合模型利用降低后的有效特征向量进行建模，对所述目标语音信号的说话人进行辨识。

优选地，所述利用局部模糊PCA方法降低所述有效特征维数的步骤包括初始化聚类中心的步骤，所述初始化聚类中心包括：

将提取的目标语音信息的有效特征维数作为训练样本集X，根据下式得到P维的均值矢量P[j]，

μ [j] = \frac{Σ_{i = 1}^{T} X_{[i] [j]}}{T} (j = 1, 2, ... P)

其中，X[j]为样本集X中的有效特征向量，T为所述目标语音信息的帧数，P为所述有效特征维数的数量；

根据所述P维的均值矢量μ[j]分裂成若干个个聚类中心；

根据所述有效特征向量与所述聚类中心的距离将所述有效特征向量的样本集分成与所述聚类中心对应的子类。

优选地，所述聚类中心的数量与所述高斯混合模型的阶数相同。

优选地，所述根据高斯混合模型利用降低后的有效特征维数进行建模，对所述目标语音信号的说话人进行辨识的步骤包括：

对经局部模糊PCA方法降低所述有效特征向量的维数的有效特征向量组成特征向量集；

建立与所述语音信号对应的高斯混合模型；

向所述高斯混合模型输入所述特征向量集，估计所述高斯混合模型的参数集。

优选地，所述根据高斯混合模型利用降低后的有效特征维数进行建模，对所述目标语音信号的说话人进行辨识的步骤还包括：

利用预期与最大方法来估计所述高斯混合模型的参数集的最大值，根据所述最大值对所述目标语音信号的说话人进行辨识。

此外，本发明实施例提供的一种应用于短语音条件下的说话人确认装置采用的技术方案如下：

一种应用于短语音条件下的说话人确认装置，包括：

特征提取模块，用于从目标语音信号中提取线性预测倒谱系数、Mel频谱倒谱系数和Delta特征；

特征向量获取模块，用于对所述线性预测倒谱系数、Mel频谱倒谱系数和Delta特征进行组合，得到若干有效特征向量；

降维模块，用于利用局部模糊PCA方法降低所述有效特征向量的维数；

辨识模块，用于根据高斯混合模型利用降低后的有效特征向量进行建模，对所述目标语音信号的说话人进行辨识。

优选地，所述降维模块包括初始化子模块，所述初始化子模块包括：

第一子模块，用于将提取的目标语音信息的有效特征维数作为训练样本集X，根据下式得到P维的均值矢量μ[j]，

μ [j] = \frac{Σ_{i = 1}^{T} X_{[i] [j]}}{T} (j = 1, 2, ... P)

第二子模块，用于根据所述P维的均值矢量μ[j]分裂成若干个个聚类中心；

第三子模块，用于根据所述有效特征向量与所述聚类中心的距离将所述有效特征向量的样本集分成与所述聚类中心对应的子类。

优选地，所述辨识模块包括：

向量集组成子模块，用于对经局部模糊PCA方法降低所述有效特征向量的维数的有效特征向量组成特征向量集；

模型建立子模块，用于建立与所述语音信号对应的高斯混合模型；

参数估计子模块，用于向所述高斯混合模型输入所述特征向量集，估计所述高斯混合模型的参数集。

优选地，所述辨识模块包括利用预期与最大方法来估计所述高斯混合模型的参数集的最大值，根据所述最大值对所述目标语音信号的说话人进行辨识。

与现有技术相比，本发明实施例提供的说话人确认方法和装置针对短语音的说话人辨认训练及测试语料不充分的特点，采用特征组合代替单一特征，以提高有效特征维数来弥补特征样本的不足，并用局部模糊PCA对组合特征进行有效降维，在对识别率影响很小的前提下，降低了系统的时空复杂度。此外，本发明实施例还对高斯混合模型(简称：GMM)的参数的初始化方法进行改进，采用分裂法与模糊K均值聚类相结方法，与现有初始化方法相比，本发明实施里提供的说话人确认方法和装置能有效提高短语音说话人辨认性能。

附图说明

图1是本发明所述一种应用于短语音条件下的说话人确认方法一实施方式的流程图；

图2是本发明所述一种应用于短语音条件下的说话人确认方法一实施方式中Mel特征尺度滤波器的示意图；

图3是本发明所述一种应用于短语音条件下的说话人确认方法一实施方式中MFCC特征提取算法流程图；

图4是本发明所述一种应用于短语音条件下的说话人确认方法一实施方式中用EM算法估计GMM模型参数的流程图；

图5是本发明所述一种应用于短语音条件下的说话人确认装置一实施方式的结构示意图。

具体实施方式

下面结合附图，对本发明的具体实施方式做进一步说明。

在说话人辨认方法中，语音信号经过预处理之后，几秒钟的语音会产生很大的数据量。提取说话人特征参数的过程，实际上就是去除原来语音中的冗余信息，减小数据量的过程。线性预测倒谱系数(LPCC)和Mel频率倒谱系数(MFCC)是说话人辩认中最常用的两种特征参数，前者模拟声道效应，后者模拟人耳听觉效应。但这两种特征都只考虑语音帧内的信息，而没有考虑到语音帧之间的信息。因为语音信号有时序性，获取语音帧之间的时变信息，能够提高说话人辨认的性能；Delta特征是目前最常用的帧间补偿特征。

下面首先详细介绍这三种特征的原理及提取流程。

(1)线性预测倒谱系数(LPCC)

LPCC特征的求取主要基于语音信号的线性预测(LP)原理，即一个语音信号能够用过去若干个语音采样的线性组合来逼近，通过使实际语音采样和线性预测采样之间的差值的平方和(在一个有限间隔内)达到最小值，能够决定唯一的一组预测器系数，称为线性预测系数(LPC)；用过去P个时刻的语音采样值的线性组合，以最小的预测误差预测下一时刻的语音信号采样值，称为对语音信号的P阶线性预测。即语音信号s(n)的预测值为:

\hat{s} (n) = Σ_{i = 1}^{p} a_{i} s (n - i)

其中{a_i}被称为p阶线性预测系数或LPC。预测误差为：

e (n) = s (n) - \hat{s} (n) = s (n) - Σ_{i = 1}^{p} a_{i} s (n - i)

为了在最小均方误差意义上计算一组最佳预测系数，定义短时预测均方误差为：

E_{n} = \underset{n}{Σ} e^{2} (n) = \underset{n}{Σ} {[s (n) - Σ_{i = 1}^{p} a_{i} s (n - i)]}^{2}

由于语音信号的时变特征，线性预测分析应该在短时的语音段上进行，即按帧进行。因此，上式的求和是在一帧语音的范围内进行。当(2.3)式最小时所对应的{a_i}即为LPC特征。提取出来的LPC一般不直接作为语音特征参数应用于说话人辨认中，而是通过LPC求取LPCC；LPCC的优点是比较彻底地去掉了语音产生过程中激励信息，主要反应声道响应，而且往往只需十几个倒谱系数就能很好地描述语音的共振峰特征，因此LPCC常用于说话人辨认。基于求取存在一种非常简单有效的递推求解方法：

\{\begin{matrix} \tilde{h} (1) = a_{1} \\ \tilde{h} (n) = a_{n} + Σ_{i = 1}^{n - 1} (1 - \frac{i}{n}) a_{i} \tilde{h} (n - i) & 1 \leq n \leq p \\ \tilde{h} (n) = Σ_{i = 1}^{p} (1 - \frac{i}{n}) a_{i} \tilde{h} (n - i) & n > p \end{matrix}

式中，可直接从预测系数{a_i}求得倒谱系数这个倒谱系数是根据线性预测模型得到的，即称为线性预测倒谱系数(LPCC)。

(2)Mel频谱倒谱系数

与普通实际频率倒谱分析不同，Mel频谱倒谱系数的分析着眼于人耳的听觉特性。这是因为，人耳所听到的声音的高低与声音的频率并不成线性正比关系，而用频率尺度则更符合人耳的听觉特性。频率与实际频率的具体关系可表示为：

Mel(f)＝25951g(1+f/700)

类似于临界频带的划分，可以将语音频率划分成一系列三角形的滤波器序列Me1滤波器组，如图2所示。

取每个三角形的滤波器频率带宽内所有信号幅度加权和作为某个带通滤波器的输出，然后对所有滤波器输出作对数运算，再进一步作离散余弦变换(DCT)即得到MFCC。图3是MFCC特征的提取流程。

MFCC特征的计算过程的主要步骤如下:

1、将实际频率尺度转换为Me1频率尺度。

2、在Mel频率轴上配置L个通道的三角形滤波哭组，L的个数由信号的截止频率决定。每一个三角形滤波器的中心频率c(l)在Mel频率轴上等间隔分配。设o(l),c(l)和h(l)分别是第l个三角滤波器的下限,中心和上限频率，则相邻三角滤波器之间的下限、中心和上限频率有如下关系:

c(l)＝h(l-1)＝o(l+1)

3、根据语音信号能量谱X_n(K)劝求每一个三角形滤波器的输出:

m (l) = Σ_{k = o (l)}^{h (l)} W_{l} (k) X_{n} (k), l = 1, 2, ..., L

W_{l} (k) = \{\begin{matrix} \frac{k - o (l)}{c (l) - o (l)} & o (l) \leq k \leq c (l) \\ \frac{h (l) - k}{h (l) - c (l)} & c (l) \leq k \leq h (l) \end{matrix}

4、对所有滤波器输出做对数运算，再进一步作DCT即可得到MFCC:

C_{m f c c} (i) = Σ_{l = 1}^{L} \log m (l) c o s {(l - \frac{1}{2}) i π / L}, i = 1, 2, ..., P

其中P为MFCC特征的阶数。

(3)Delta特征

MFCC特征和LPCC特征都只考虑到语音帧内(intraframe)的信息，而没有考虑到语音帧之间(interframe)的信息。Delta特征是一种能够反映语音帧之间时变信息的动态特征，其计算如下:

d_{t} = \frac{Σ_{θ = 1}^{Θ} θ (c_{t + θ} - c_{t - θ})}{2 Σ_{θ = 1}^{Θ} θ^{2}}

其中，d_t表示第t帧特征的Delta特征。

短语音说话人辨认过程中，因语音信号中的语料时长较短，导致特征样本不足，识别性能下降。对此，发明人在研究过程中发现，采用特征组合提高有效特征维数来弥补这一不足。然而，随着特征维数的增加，也意味着需要更多的模型参数来描述说话人的特征分布，从而加大了时空复杂度。

本发明所述应用于短语音条件下的说话人确认方法和装置针对短语音说话人辨认训练及测试语料不充分的特点，对特征参数和GMM模型进行优化和改进，提出一种基于局部模糊PCA的GMM说话人辨认方法。该方法采用特征组合代替单一特征，以提高有效特征维数来弥补特征样本的不足，并用局部模糊PCA对组合特征进行有效降维，在对识别率影响很小的前提下，降低了系统的时空复杂度。

参见图1，图1是本发明所述一种应用于短语音条件下的说话人确认方法一实施方式的流程图。图1示出的说话人确认方法的实施方式包括步骤S101-S104。

在步骤S101中，从目标语音信号中提取线性预测倒谱系数、Mel频谱倒谱系数和Delta特征。

在步骤S102中，对所述线性预测倒谱系数、Mel频谱倒谱系数和Delta特征进行组合，得到若干有效特征向量；

在步骤S103中，利用局部模糊PCA方法降低所述有效特征向量的维数。

在一些领域中，为了减少特征维数和特征向量的各维之间的相关性，Jolloffe等人提出了主成分分析((PrincipalComponent Analysis,PCA)方法。PCA方法是一种特征提取方法，通过变换把原始空间投影到更小的子空间，从而降低特征维数。Kambhatla和Leen首先提出VQPCA模型，用VQ把数据分割成不相交的几个类，然后对每个聚类中心进行局部PCA处理。

本发明所述的说话人确认方法的实施方式中，在语料短缺情况下，引进分类隶属度因子，提出基于局部模糊PCA的GMM说话人辨认方法。

下面详细介绍在本发明的实施方式中利用局部模糊PCA降维方法。

首先，利用模糊K均值聚类方法实现模糊聚类划分。

假设有一P维空间特征矢量集X＝{x₁，x₂，…，x_T}，模型K均值聚类指定了每一特征矢量在不同类中的隶属程度，可用KxT的矩阵U＝[u_jt]来表示，其中u_jt表示x_t在第j类R^j的隶属度函数，其函数有如下性质:

0≤u_jt≤1，j＝1，2，…，K；t＝1，2，...，T

Σ_{t = 1}^{K} u_{j t} = 1, &ForAll; t; 0 < Σ_{t = 1}^{T} u_{j t} < T, &ForAll; j

模糊均值聚类算法是基于聚类损失函数的最小化，其公式如下：

J_{m} = Σ_{t = 1}^{T} Σ_{j = 1}^{K} {(u_{j t})}^{m} d^{2} (x_{t}, c_{j}), K \leq T

其中，m>1是一个可以控制聚类结果的模糊程度的常数；c_j是第j个聚类的中心；d²(x_t,c_j)代表x_t与c_j之间的距离，定义如下：

d^{2} (x_{t}, C_{j}) = | | x_{t} - c_{j} | |_{F}^{2} = {(x_{t} - c_{j})}^{T} F_{j}^{- 1} (x_{t} - c_{j})

其中，F_j是第j个聚类的模糊协方差矩阵，定义如下:

F_{j} = \frac{Σ_{t = 1}^{T} u_{j t} (x_{t} - c_{j}) {(x_{t} - c_{j})}^{T}}{Σ_{t = 1}^{T} u_{j t}}

为了得到最后的模糊集可以求上式的极小值，令J_m对c_j和u_jt的偏导数为0，可得必要条件:

u_{j t} = \frac{{[\frac{1}{d^{2} (x_{t}, c_{j})}]}^{\frac{1}{(m - 1)}}}{Σ_{i = 1}^{K} {[\frac{1}{d^{2} (x_{t}, c_{j})}]}^{\frac{1}{(m - 1)}}}

c_{j} = \frac{Σ_{t = 1}^{T} {(u_{j t})}^{m} x_{t}}{Σ_{t = 1}^{T} {(u_{j t})}^{m}}

用迭代法求解式上面两个式子，就是模糊k均值算法。算法步骤如下:

Step1：设定聚类数目K和参数M；

Step2：初始化各个聚类中心c_j；

Step3重复下面的计算，直到各个样本的隶属度值稳定。

当算法收敛时，就得到了各类聚类中心和各个样本对于各类的隶属度值，从而完成模糊聚类划分。

传统的聚类中心初始化方法有随机法和重心法，都需要任意选择聚类中心，没有用到特征矢量序列分布的先验信息，导致GMM模型精度欠佳。在一些实施方式中，步骤S103中对GMM参数初始化方法进行改进，采用分裂法与模糊K均值聚类相结合的方法初始化聚类中心。该方法契合了特征矢量的分布函数由多个高斯分布函数线性组合的原理，对样本聚类后得到的初始化参数能通过预期与最大方法(即：EM算法)较快收敛，并使样本分布能较好地拟合高斯分布。实验表明，与传统初始化方法相比该方法能有效提高短语音说话人辨认性能。

其中，所述初始化聚类中心包括步骤S1-6。

步骤Sl中，把提取的每个说话人特征参数集作为训练样本集。形成一个TxP的矩阵(T为帧数，P为特征维数)。

步骤S2中，由下式：

μ [j] = \frac{Σ_{i = 1}^{T} X_{[i] [j]}}{T}, (j = 1, 2, ... P)

得到一个P维的均值矢量，然后根据分裂成2个聚类中心。

步骤S3中，按最小距离准则计算每一帧(训练样本)与聚类中心的距离，把样本集分为n类；

步骤S4中，更新聚类中心，对属同一类的样本集进行均值矢量计算，把不同类的均值矢量作为新的聚类中心。n为当前聚类中心个数)。

步骤S5中，根据步骤S1和S2，用更新好的2个聚类中心分成4个聚类中心，然后按步骤S3和S4，把训练矢量集聚成4类。依次类推，可分成8类、16类等，本领域技术人员可以根据需要设置矢量集的数量，本发明对此不做限制。

步骤S6中，假设GMM的阶数为M，则最后把训练样本集分为M类，由每一类的均值矢量作为模糊K均值聚类的聚类中心。

在完成初始化后，利用PCA方法进行降维操作。

模糊PCA转换矩阵由计算模糊协方差矩阵特征值和特征向量获得。将模糊PCA转换矩阵的特征值从大到小排列，计算其对应的特征向量，即主成分。用前k个主成分的方差在全部方差中所占比重来描述累积贡献率。当累积贡献率大于80％时，确定主成分的个数(L)。形成一个最优化特征矢量维数的LxP转化矩阵。在训练和测试时，每一帧特征矢量转化为:

y_{t_{i}} = Φ_{j} {x_{t}}^{T}, i f x_{t} &Element; R^{j}

取上式矩阵的对角阵形式作为GMM的初始化参数。

在步骤S104中，根据高斯混合模型利用降低后的有效特征向量进行建模，对所述目标语音信号的说话人进行辨识。具体而言，步骤S104可以通过对经局部模糊PCA方法降低所述有效特征向量的维数的有效特征向量组成特征向量集；建立与所述语音信号对应的高斯混合模型；向所述高斯混合模型输入所述特征向量集，估计所述高斯混合模型的参数集。

下面对步骤S104进行详细介绍。

高斯混合模型(GMM)本质上是利用多维概率密度函数对语音信号进行建模的方法。假设Y＝{Y₁,Y₂,…,Y_k}＝{y₁,y₂,…,y_T}，(K为聚类数，T为语音总帧数)是所有原特征参数经模糊PCA处理后的特征矢量集，其中Y_j＝{y_j＝1,…,y_j＝k}表示属于第j聚类(R^j)的特征矢量集，为每个说话人建立一个M阶GMM(一般使K＝M)，其实质是通过训练，估计GMM的参数集λ。它由各均值矢量、协方差矩阵及混合分量的权值组成，表示成如下三元组的形式:

λ＝{c_j，μ_j，Σ_j}，j＝1，2，...，M

这样，GMM的似然函数可表示为：

p (Y | λ) = Σ_{t = 1}^{T} p (y_{t} | λ) = Σ_{t_{1} = 1}^{T_{1}} p (y_{t_{1}} | λ) ... Π_{t_{k} = 1}^{T_{k}} p (y_{t_{k}} | λ)

其中，p(y_t|λ)是第t帧特征参数在模型λ下的概率密度，它由M个单高斯分布的性组合来描述。形式如下:

p (y_{t} | λ) = Σ_{j = 1}^{M} p (y_{t}, j | λ) = Σ_{j = 1}^{M} c_{j} p (y_{t} | j, λ)

p (y_{t} | j, λ) = \frac{1}{{(2 π)}^{P / 2} {| Σ_{j} |}^{1 / 2}} \exp {- \frac{1}{2} {(y_{t} - μ_{j})}^{T} Σ_{j}^{- 1} (y_{t} - μ_{j})}

式中，P为特征维数；j为隐状态号，也就是高斯分量的序号，M阶GMM就有M个隐状态，c_j为第j个分量的混合权值，其值对应为隐状态j的先验概率，协方差矩阵可以取普通矩阵，也可以取对角矩阵。由于取对角阵时算法简单，并且性能也很好，所以本文取对角阵。

p (y_{t} | j, λ) = Π_{k = 0}^{P - 1} \frac{1}{\sqrt{2 π} σ_{j k}} \exp [- \frac{{(y_{t} - μ_{j k})}^{2}}{2 {σ_{j k}}^{2}}]

将GMM应用于说话人识别的直观解释是：每个说话人的语音声学特征空间可以用一些声学特征类来表示，这些声学特征类(假定M类)代表一些广义上的音素，如元音、清辅音、摩擦音等，并且能够反映说话人的声道形状。每个声学特征类的频谱可以用一个高斯密度函数来描述，即第i个声学特征类的频谱，可以用混合高斯密度函数的第j个高斯分量的均值和方差来表示。但是所有的测试语音和训练语音都没有事先作出标注，即不知道第j个声学特征类能生成哪些特征矢量，也不知道提取的特征矢量分属于哪些声学特征类中。从这些隐性的声学类里提取的特征矢量(假定特征矢量相互独立)的密度函数就是一个混合高斯密度函数。

为说话人建立GMM模型，实际上就是通过训练，估计GMM模型的参数集λ。合适的λ可通过最大似然估计法获得。由于似然函数P(Y|λ)和参数集λ是很复杂的非线性函数关系，不易用通常办法找到其极大值点，必须引入隐状态来参与计算，因此这是一个对“不完全数据”进行最大似然估计的问题。

为此，本发明的一些实施方式中，可以采用预期与最大方法(EM方法)来估计。EM方法是一种迭代算法，如图4所示，每次迭代由求期望(E-step)的步骤和求最大值(M-step)的步骤组成:

求期望(E-step)的步骤：求训练数据落在假定的隐状态j的概率p(qt＝j|yt,λ)表示为:

求最大值(M-step)的步骤：求三个参数{c_j,μ_j,∑_j}偏导为O时的参数值，即混合权值、均值矢量和协方差矩阵。

1)混合权值：

{\overset{&OverBar;}{c}}_{j} = \frac{1}{T} Σ_{t = 1}^{T} p (q_{t} = j | y_{t}, λ)

2)均值矢量：

{\overset{&OverBar;}{μ}}_{j} = \frac{Σ_{t = 1}^{T} p (q_{t} = j | y_{t}, λ) y_{t}}{Σ_{t = 1}^{T} p (q_{t} = j | y_{t}, λ)}

3)协方差矩阵：

\overset{&OverBar;}{σ_{j k}^{2}} = \frac{Σ_{t = 1}^{T} p (q_{t} = j | y_{t}, λ) {(y_{t k} - μ_{t k})}^{2}}{Σ_{t = 1}^{T} p (q_{t} = j | y_{t}, λ)}, k = 0, 1, ..., L - 1

综上所述，用EM算法估计模型参数的流程如图4所示。

参见图5，图5是本发明所述一种应用于短语音条件下的说话人确认装置一实施方式的结构示意图。图5示出的确认装置包括特征提取模块、特征向量获取模块、降维模块和辨识模块。

其中，特征提取模块，用于从目标语音信号中提取线性预测倒谱系数、Mel频谱倒谱系数和Delta特征。特征向量获取模块用于对所述线性预测倒谱系数、Mel频谱倒谱系数和Delta特征进行组合，得到若干有效特征向量。降维模块用于利用局部模糊PCA方法降低所述有效特征向量的维数。辨识模块用于根据高斯混合模型利用降低后的有效特征向量进行建模，对所述目标语音信号的说话人进行辨识。

所述降维模块包括初始化子模块，所述初始化子模块包括第一子模块、第二子模块和第三子模块。第一子模块用于将提取的目标语音信息的有效特征维数作为训练样本集X，根据下式得到P维的均值矢量μ[j]，

μ [j] = \frac{Σ_{i = 1}^{T} X_{[i] [j]}}{T}, (j = 1, 2, ... P)

其中，X[j]为样本集X中的有效特征向量，T为所述目标语音信息的帧数，P为所述有效特征维数的数量。

第二子模块用于根据所述P维的均值矢量μ[j]分裂成若干个个聚类中心。

所述辨识模块包括向量集组成子模块、模型建立子模块和参数估计子模块。向量集组成子模块用于对经局部模糊PCA方法降低所述有效特征向量的维数的有效特征向量组成特征向量集。模型建立子模块用于建立与所述语音信号对应的高斯混合模型。参数估计子模块用于向所述高斯混合模型输入所述特征向量集，估计所述高斯混合模型的参数集。

在一些实施方式中，所述辨识模块包括利用EM方法来估计所述高斯混合模型的参数集的最大值，根据所述最大值对所述目标语音信号的说话人进行辨识。

应该理解，本发明并不局限于上述实施方式，凡是对本发明的各种改动或变型不脱离本发明的精神和范围，倘若这些改动和变型属于本发明的权利要求和等同技术范围之内，则本发明也意味着包含这些改动和变型。

Claims

1.一种应用于短语音条件下的说话人确认方法，其特征在于，包括：

对所述线性预测倒谱系数、Mel频谱倒谱系数和Delta特征进行组合，得到若干有效特征向量；

利用局部模糊PCA方法降低所述有效特征向量的维数；

根据高斯混合模型利用降低后的有效特征向量进行建模，对所述目标语音信号的说话人进行辨识。

2.如权利要求1所述的一种应用于短语音条件下的说话人确认方法，其特征在于，所述利用局部模糊PCA方法降低所述有效特征维数的步骤包括初始化聚类中心的步骤，所述初始化聚类中心包括：

μ [j] = \frac{Σ_{i = 1}^{T} X_{[i] [j]}}{T}, (j = 1, 2, ... P)

根据所述P维的均值矢量μ[j]分裂成若干个个聚类中心；

3.如权利要求2所述的一种应用于短语音条件下的说话人确认方法，其特征在于，所述聚类中心的数量与所述高斯混合模型的阶数相同。

4.如权利要求3所述的一种应用于短语音条件下的说话人确认方法，其特征在于，所述根据高斯混合模型利用降低后的有效特征维数进行建模，对所述目标语音信号的说话人进行辨识的步骤包括：

建立与所述语音信号对应的高斯混合模型；

5.如权利要求3所述的一种应用于短语音条件下的说话人确认方法，其特征在于，所述根据高斯混合模型利用降低后的有效特征维数进行建模，对所述目标语音信号的说话人进行辨识的步骤还包括：

6.一种应用于短语音条件下的说话人确认装置，其特征在于，包括：

7.如权利要求6所述的一种应用于短语音条件下的说话人确认装置，其特征在于，所述降维模块包括初始化子模块，所述初始化子模块包括：

第一子模块，用于将提取的目标语音信息的有效特征维数作为训练样本集X，根据下式得到P维的均值矢量μ[j],

μ [j] = \frac{Σ_{i = 1}^{T} X_{[i] [j]}}{T}, (j = 1, 2, ... P)

8.如权利要求7所述的一种应用于短语音条件下的说话人确认装置，其特征在于，所述辨识模块包括：

9.如权利要求8所述的一种应用于短语音条件下的说话人确认装置，其特征在于，所述辨识模块包括利用预期与最大方法来估计所述高斯混合模型的参数集的最大值，根据所述最大值对所述目标语音信号的说话人进行辨识。