CN102201236A

CN102201236A - 一种高斯混合模型和量子神经网络联合的说话人识别方法

Info

Publication number: CN102201236A
Application number: CN2011100849452A
Authority: CN
Inventors: 王金明; 张雄伟; 徐志军; 王耿
Original assignee: PLA University of Science and Technology
Current assignee: PLA University of Science and Technology
Priority date: 2011-04-06
Filing date: 2011-04-06
Publication date: 2011-09-28
Anticipated expiration: 2031-04-06
Also published as: CN102201236B

Abstract

本发明提供一种高斯混合模型和量子神经网络联合的说话人识别方法。包括：在训练阶段，对输入的训练语音信号分帧并提取特征参数，生成特征参数向量；之后，使用K均值方法和EM算法取得特征参数向量的高斯混合模型参数，最后使用所有训练语音信号的高斯混合模型参数训练量子神经网络。在识别阶段，得到被识别人语音的高斯混合模型参数，之后将此模型参数输入之前已训练好的神经网络，得到识别结果；本发明适用于样本数据少，样本数据不均衡情况下的说话人识别；同时利用量子神经网络本身所具有的能对存在交叉数据和模糊边界的说话人语音数据进行有效判决的能力，提高系统正确识别率。

Description

一种高斯混合模型和量子神经网络联合的说话人识别方法

技术领域

本发明涉及一种说话人识别方法，特别是一种高斯混合模型和量子神经网络联合的说话人识别方法。

背景技术

目前，说话人识别系统所采用的方法主要包括以下几种：

1、基于矢量量化(Vector Quantization，VQ)的说话人识别方法。该方法在训练阶段首先从训练语音中提取特征向量，然后使用此特征向量通过聚类生成说话人模板；识别时，首先对待识别的语音提取特征向量，然后依次计算此特征向量和系统中已有模板的距离，并选取距离最小的模板对应的说话人作为本次识别的结果。每个模板只描述了该说话人语音特征向量在向量空间中的统计分布情况，在训练和测试语音较短的情况下，该方法的识别率会较低。

2、基于高斯混合模型(Gaussion Mixture Models，GMM)的说话人识别方法。该方法在训练阶段，通过期望最大化(Expectation Maximization，EM)算法，使用多个高斯分布的概率密度函数的组合逼近每个注册人语音信号特征向量在概率空间的分布；识别时，通过求解被识别语音特征向量相对于已知模型的最大后验概率来确定被识别信号所对应的说话人。为了得到准确的最大后验概率，要求模型必须能充分刻画向量信号在概率空间的分布，这就要求训练样本要足够多、模型阶数足够大、训练时间足够长，不适用于样本少、样本数据不均衡情况下的说话人识别。

3、基于人工神经网络(Artificial Neural Network，ANN)的说话人识别方法。该方法在训练阶段，通过一定的训练算法使网络能够学习语音特征向量在空间的分布特征，从注册信号的向量空间映射至注册信号对应的说话人；识别时，将被识别的语音特征向量输入已训练好的网络，得到识别结果。由于信号在向量空间中的分布存在着一定的随机性，使得学习后的神经网络对输入特征向量空间的划分存在着一定的误差，从而影响了识别的正确率。

因此，需要一种新的技术方案以解决上述问题。

发明内容

针对上述现有技术所存在的问题和不足，本发明的目的是提供一种克服高斯混合模型需要较长训练和识别数据的缺点以及提高识别率的高斯混合模型和量子神经网络联合的的说话人识别方法。

为实现上述目的，本发明高斯混合模型和量子神经网络联合的说话人识别方法可采用如下技术方案：

一种高斯混合模型和量子神经网络联合的说话人识别方法，该方法包括以下步骤：

(1)参数处理流程，该流程包括：一、输入语音信号，对其分帧并提取每帧的特征向量，生成第一矩阵；二、使用K均值算法对提取到的特征向量进行聚类；三、对聚类结果进行EM迭代；四、得到高斯混合模型参数，并将参数合成为量子神经网络的输入矢量；

(2)训练流程：合成用于训练神经网络的目标向量并对量子神经网络进行训练；

(3)识别流程：对待识别语音信号按步骤(1)进行参数处理并输入训练好的量子神经网络进行识别。

本发明高斯混合模型和量子神经网络联合的说话人识别方法与现有技术相比具有以下优点：

1、高斯混合模型在训练和识别过程中均需要较多的数据样本，从而降低了其实用性。本方法采用高斯混合模型和量子神经网络联合的识别方法，结合了概率统计模型和判决模型的优点，能在较小数据样本条件下进行识别，克服了高斯混合模型需要较长训练和识别数据的缺点，更适用于样本数据少，样本数据不均衡(即某一类数据特别少)情况下的说话人识别，尤其是面向移动通信和互联网语音的说话人识别。

2、传统的人工神经网络方法，直接将特征向量空间映射到说话人目标向量空间，不能剔除离散度大的向量对分类的影响，因而降低了识别率；本方法首先使用高斯混合模型对语音信号特征向量的分布情况进行概率统计，并将统计所得参数经量子神经网络映射至目标向量空间，使分类的准确性得到提高；同时由于基于多层传递函数的量子神经网络本身具有一定的模糊性，能对存在交叉数据和模糊边界的说话人语音数据进行有效判决，因而能有效提高识别系统的识别率。

附图说明

图1为本发明高斯混合模型和量子神经网络联合的说话人识别方法的流程图。

图2为本发明高斯混合模型和量子神经网络联合的说话人识别方法中采用的量子神经网络的结构图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明提供了一种高斯混合模型和量子神经网络联合的说话人识别方法，用以对说话人身份进行自动辨识，本方法所设计系统功能的实现分为训练和识别两个阶段。训练阶段，首先逐个对训练语音信号进行参数处理，并将结果存入数据库，之后从数据库取出所有数据对量子神经网络进行训练；识别阶段，首先对识别语音信号进行参数处理，之后将处理结果输入训练好的量子神经网络，则网络的输出经过一定处理后便能得到识别结果。

请结合图1所示，该高斯混合模型和量子神经网络联合的说话人识别方法包括以下步骤：

(1)参数处理流程，参数处理流程包括：一、输入语音信号，对其分帧并提取每帧的特征向量，生成第一矩阵X，该第一矩阵X为D×B的矩阵，其中D为帧长，B为帧数；二、使用K均值算法对提取到的特征向量进行聚类；三、对聚类结果进行EM迭代；四、得到高斯混合模型参数，并将参数合成为量子神经网络的输入矢量；

其中：

使用K均值算法对提取到的特征向量进行聚类包括以下步骤：

(a)从第一矩阵X中随机选取M列作为初始的聚类中心；

(b)对第一矩阵X中的所有列，按最小距离准则划分到相应的类别；

(c)重新计算聚类中心；

(d)如果满足结束条件则执行(e)，否则跳到(b)继续执行；

(e)分别计算

U、E，其中

是M维向量，

U为每个聚类的中心，E为聚类的方差，U和E均为D×M(D为帧长；M为聚类个数)的矩阵；U和E的第i列向量分别记为

其中Count(i)是属于第i类的特征向量个数，i为大于0的自然数。

使用EM算法对提取到的特征向量进行聚类包括以下步骤：

(a)根据EM算法，按以下表达式对高斯混合模型参数

U、E进行更新：

p_{i} = \frac{1}{B} Σ_{t = 1}^{B} p (i | {\overset{r}{x}}_{t}, λ),

{\overset{r}{u}}_{i} = \frac{Σ_{t = 1}^{B} p (i | {\overset{r}{x}}_{t}, λ) g {\overset{r}{x}}_{t}}{Σ_{t = 1}^{B} p (i | {\overset{r}{x}}_{t}, λ)},

{\overset{r}{e}}_{i} = \frac{Σ_{t = 1}^{B} p (i | {\overset{r}{x}}_{t}, λ) g {({\overset{r}{x}}_{t})}^{2}}{Σ_{t = 1}^{B} p (i | {\overset{r}{x}}_{t}, λ)} - {({\overset{r}{u}}_{i})}^{2},

其中：λ表示模型参数，

p (i | {\overset{r}{x}}_{t}, λ) = \frac{p_{i} {gb}_{i} ({\overset{r}{x}}_{t})}{Σ_{k = 1}^{M} w_{k} {gb}_{k} ({\overset{r}{x}}_{t})},

b_{i} (\overset{r}{x}) = \frac{1}{{(2 π)}^{D / 2} {| e_{i} |}^{1 / 2}} \exp {- \frac{1}{2} {(\overset{r}{x} - {\overset{ur}{u}}_{i})}^{T} e_{i}^{- 1} (\overset{r}{x} - {\overset{ur}{u}}_{i})};

(b)如果不满足EM迭代结束条件，则跳到(a)继续执行，否则EM迭代结束。

将高斯混合模型的参数合成为量子神经网络的输入矢量包括以下步骤：

从

U、E合成M个神经网络的输入向量，其中合成的第k个输入向量记为

R＝2×D+1，其中，

(2)合成用于训练神经网络的目标向量并对量子神经网络进行训练；

其中：

合成用于训练神经网络的目标向量包括以下步骤：

针对信号n，合成的目标向量记为且

满足：

t_{j} = \{\begin{matrix} 0 & j &NotEqual; n \\ 1 & j = n \end{matrix}, 1 \leq j \leq N

对量子神经网络训练包括以下步骤：

(a)将所有的训练输入向量逐次输入量子神经网络，量子神经网络结构采用三层前向神经网络，其结构如图2所示，其中输入层的节点数目为R，

表示第k个输入向量；输出层为N个节点，隐层为H个节点，分别为输出层和隐层在输入向量为

时的响应，神经网络的相邻层节点全互连，同层节点之间不相连。其中，隐层的传递函数为：

{\overset{r}{f}}_{k} = \frac{1}{S} Σ_{r = 1}^{S} sgm (αg (W^{T} {\overset{r}{a}}_{k} - θ^{r}))

W^T为输入权值矩阵，S为量子间隔数目，θ^r为量子间隔；

将所有的训练输入向量逐次输入量子神经网络，并得到对应的网络输出向量；

(b)计算(a)步所得网络输出向量和目标向量的误差，并计算所有误差的平方和。依据后向传播算法，沿误差曲面的梯度下降方向调整网络的输入、输出参数矩阵；

(c)计算隐层神经元的平均类条件方差；采用后向传播算法，沿类条件方差曲面的梯度下降方向调整量子神经间隔。具体地，对于类别C_n(属于第n个说话人的输入向量和目标向量均记为属于类别C_n)，第i个隐层量子神经元输出的类条件方差为：

σ_{n, i}^{2} = \underset{{\overset{r}{a}}_{k} : {\overset{r}{a}}_{k} &Element; C_{n}}{Σ} {(< f_{C_{n}, i} > - f_{k, i})}^{2}

其中

< f_{C_{n}, i} > = \frac{1}{| C_{n} |} \underset{{\overset{r}{a}}_{k} : {\overset{r}{a}}_{k} &Element; C_{n}}{Σ} f_{k, i},

|C_n|＝Count(n)；

平均类条件方差为：

G = \frac{1}{2} Σ_{i = 1}^{H} Σ_{n = 1}^{N} σ_{n, i}^{2};

使用式为：

{Vθ}_{i}^{r} (k + 1) = - η (k) g (1 - Qmc) g \frac{&PartialD; G}{{&PartialD; θ}_{i}^{r}} + Qmcg {Vθ}_{i}^{r} (k)

= η (k) g (1 - Qmc) g \frac{α}{S} Σ_{n = 1}^{N} \underset{{\overset{r}{a}}_{k} : {\overset{r}{a}}_{k} &Element; C_{n}}{Σ} (< f_{C_{n}, i} > - f_{k, i}) * (< V_{C_{n}, i}^{r} > - V_{k, i}^{r})

+ Qmcg {Vθ}_{i}^{r} (k)

对隐层的量子间隔进行更新，其中，

< V_{C_{n}, i}^{r} > = \frac{1}{| C_{n} |} \underset{{\overset{r}{a}}_{k} : {\overset{r}{a}}_{k} &Element; C_{n}}{Σ} V_{k, i}^{r}, V_{k, i}^{r} = f_{k, i}^{r} * (1 - f_{k, i}^{r})

分别为第k步和第k+1时量子间隔的更新；η(k)为第k步的学习速率，η(k+1)的更新如下式所示：

η (k + 1) = \{\begin{matrix} η_{inc} gη (k) & G (k + 1) < G (k) \\ η_{dec} gη (k) & G (k + 1) > G (k) \end{matrix}

Qmc为动量因子，满足0＜Qmc＜1；

(d)满足训练结束条件则结束，否则执行(a)。

(3)对待识别语音信号按步骤(1)进行参数处理得到参数向量，将参数向量输入网络进行识别的方法包括以下步骤：

(a)将所有参数向量输入网络，并得到输出向量，记第k个参数向量

对应的输出向量为

(b)对所有输出向量按式

o_{k, i} = \{\begin{matrix} 1 & i = Index (\underset{j = 1,2 . . ., P}{\max (o_{k, j})}) \\ 0 & i = others \end{matrix}, i = 1,2, . . ., P

进行二值化处理，其中，Index(o_k，i)＝i；

(c)令则

即为识别结果。

本发明高斯混合模型和量子神经网络联合的说话人识别方法具有以下优点：

2、传统的人工神经网络方法，直接将特征向量空间映射到说话人目标向量空间，在映射时，不能剔除部分离散度大的特征向量对分类的影响，影响了识别率；本方法首先使用高斯混合模型对语音信号的分布情况进行概率统计，并将统计所得模型参数经量子神经网络映射到信号目标向量空间，使分类的准确性得到提高；同时由于基于多层传递函数的量子神经网络本身具有一定的模糊性，能对存在交叉数据和模糊边界的说话人语音数据进行有效判决，因此可有效提高系统的正确识别率。