CN103077720A

CN103077720A - 一种说话人识别方法及系统

Info

Publication number: CN103077720A
Application number: CN2012105551529A
Authority: CN
Inventors: 周若华; 颜永红; 梁春燕; 杨琳
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2012-12-19
Filing date: 2012-12-19
Publication date: 2013-05-01
Anticipated expiration: 2032-12-19
Also published as: CN103077720B

Abstract

本发明涉及一种说话人识别方法，所述方法包括：通过训练得到邻域保持嵌入空间矩阵；基于所述邻域保持嵌入空间矩阵进行说话人识别；所述基于所述邻域保持嵌入空间矩阵进行说话人识别，包括：对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w；使用所述邻域保持嵌入空间矩阵对于每一个所述向量w进行映射得到向量w’；将经过映射得到的所述向量w’作为支持向量机SVM的输入特征进行后端分类建模；借助支持向量机SVM打分，根据打分结果识别说话人。本发明实施例采用一种新型的基于邻域保持嵌入NPE的因子分析技术，能够有效地克服现有总变化因子分析技术存在的不足，进一步提高说话人识别性能。

Description

一种说话人识别方法及系统

技术领域

本发明属于语音识别技术领域，具体地说，本发明涉及一种说话人识别方法及系统。

背景技术

说话人识别技术，简单来说，就是根据语音来自动对说话人进行区分，从而进行说话人身份鉴别与认证的技术。说话人识别在国家安全方面一直有着重要的意义。另外，随着通信以及互联网技术的发展，说话人识别技术在多媒体信息处理及检索方面也开始得到应用。

当前在实验室环境中，由于语音的传输信道比较单一、信噪比较高，在这种情况下，说话人识别系统可以取得良好的识别性能。但是在实际应用中，语音环境的复杂多变，例如环境噪声以及信道调制的干扰等，使系统的识别性能急剧下降，这对说话人识别系统的鲁棒性提出了很大的挑战。因此，如何有效地减弱或去除环境噪声以及信道干扰等对系统的负面影响，从而提高说话人识别系统的鲁棒性，成为了该领域研究的热点及重点之一。

近年来，复杂信道下基于高斯混合模型GMM-通用背景模型UBM的总变化因子分析方法得到了广泛的应用。总变化因子分析技术在建模过程中用一个单独的总变化空间来代替说话人空间和信道空间，即不区分GMM超向量空间中说话人的影响以及信道的影响。但是，总变化因子分析技术存在一定的不足，一方面在总变化空间的训练过程中没有考虑训练数据中说话人的标注信息；另一方面总变化因子技术实质是主成分分析的一种，只能够反映数据的整体结构。

发明内容

针对上述问题，本发明实施例提出一种说话人识别方法及系统。

在第一方面，本发明实施例提出一种说话人识别方法，所述方法包括：通过训练得到邻域保持嵌入空间矩阵（Neighborhood-Preserving Embedding，NPE）；基于所述邻域保持嵌入空间矩阵进行说话人识别；所述基于所述邻域保持嵌入空间矩阵进行说话人识别，包括：对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w；使用所述邻域保持嵌入空间矩阵对于每一个所述向量w进行映射得到向量w’；将经过映射得到的所述向量w’作为支持向量机SVM的输入特征进行后端分类建模；借助支持向量机SVM打分，根据打分结果识别说话人。

在第二方面，本发明实施例提出一种说话人识别系统，所述系统包括：空间矩阵生成模块，用于通过训练得到邻域保持嵌入空间矩阵；识别模块，用于基于所述邻域保持嵌入空间矩阵进行说话人识别；其中，所述基于所述邻域保持嵌入空间矩阵进行说话人识别，包括：对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w；使用所述邻域保持嵌入空间矩阵对于每一个所述向量w进行映射得到向量w’；将经过映射得到的所述向量w’作为支持向量机SVM的输入特征进行后端分类建模；借助支持向量机SVM打分，根据打分结果识别说话人。

本发明实施例采用一种新型的基于邻域保持嵌入NPE的因子分析技术，能够有效地克服现有总变化因子分析技术存在的不足，可以进一步提高说话人识别性能。

附图说明

以下，结合附图来详细说明本发明实施例，其中：

图1是基于邻域保持嵌入因子分析的说话人识别算法框图；

图2是基于邻域保持嵌入因子分析一种实施例的说话人识别详细流程图；

图3是本发明实施例的说话人识别方法示意图；

图4是本发明实施例的说话人识别系统示意图。

具体实施方式

图1是基于邻域保持嵌入因子分析的说话人识别算法框图，它描述了基于邻域保持嵌入因子分析说话人识别算法的核心组成成分，主要由几个部分构成：GMM均值超向量、主成分分析（PCA）、邻域保持嵌入（NPE）因子分析、支持向量机（SVM）建模和打分。图2是基于邻域保持嵌入因子分析一种实施例的说话人识别详细流程图。

下面结合图1以及图2对本发明实施例的具体实施方式做进一步详细描述：

邻域保持嵌入空间矩阵的训练过程包括如下步骤：

1）对主成分分析和空间矩阵的训练语音数据进行特征提取，并通过最大后验概率（Maximum a posteriori，MAP）说话人自适应得到对应的GMM超向量

x = ({(\sqrt{λ_{1}} Σ_{1}^{- 1 / 2} x_{1})}^{t}, {(\sqrt{λ_{2}} Σ_{2}^{- 1 / 2} x_{2})}^{t} . . . {(\sqrt{λ_{N}} Σ_{N}^{- 1 / 2} x_{N})}^{t})

其中，λ_i表示高斯混合模型中高斯分量的权重，而x_i,∑_i则表示高斯分量的均值和方差。

2）主成分分析训练数据的GMM超向量对应的散布矩阵S如下

S = Σ_{i = 1}^{n} (x_{i} - m) {(x_{i} - m)}^{t}

其中，n为训练样本数，m为训练数据的均值向量。通过计算S最大的L个特征值对应的特征向量，得到主成分分析矩阵A_PCA。

3）给定n句带有说话人标注信息的空间矩阵训练数据，第i句对应的GMM超向量为x_i，对其进行如下主成分分析(PCA)降维得到向量w_i，则训练数据集W＝{w₁，w₂，…w_n}

x→w＝A_PCAx

4）构建邻接图G：图的第i个顶点对应w_i，如果w_i和w_j属于同一个说话人，则第i个顶点和第j个顶点之间有边;

5）计算邻接图G第i个顶点和第j个顶点之间边上的权重E_ij，如果第i个顶点和第j个顶点之间没有边，则E_ij为0，得到权值矩阵E

6）通过求解下面广义特征值问题

WNW^Ta＝λWW^Ta

其中

W＝(w₁,w₂,...w_m)

N＝(I-E)^T(I-E)

I＝diag(1,...,1)

得到邻域保持嵌入空间矩阵

A_NPE＝(a1,a2,...aK)T

其中a₁,a₂,...a_K是上述问题的前K个最大特征值对应的特征向量。

基于邻域保持嵌入的说话人识别过程步骤如下：

1）对说话人训练数据、测试语音数据和背景数据进行特征提取，并通过最大后验概率说话人自适应得到对应的GMM超向量

x = ({(\sqrt{λ_{1}} Σ_{1}^{- 1 / 2} x_{1})}^{t}, {(\sqrt{λ_{2}} Σ_{2}^{- 1 / 2} x_{2})}^{t} . . . {(\sqrt{λ_{N}} Σ_{N}^{- 1 / 2} x_{N})}^{t})

2）通过前面的主成分分析矩阵A_PCA对GMM超向量进行主成分分析(PCA)降维

x→w＝A_PCAx

3）对PCA降维后的向量w进行邻域保持嵌入映射得到向量w’

w→w'＝A_NPEw

4）w’作为支持向量机（SVM）的输入特征进行后端分类建模。用目标说话人对应的向量作为正样本，背景数据对应的向量作为负样本，训练目标人与背景说话人的最优分类超平面，即目标说话人的SVM模型。

5）SVM打分判决，根据输出得分进行说话人识别的判决。将测试语音对应的向量与目标说话人SVM模型通过内积的方式进行得分计算，根据系统门限来决定是否接受该测试语音为目标说话人，即做出“True”或者“False”的判决。

图3是本发明实施例的说话人识别方法示意图。如图3所示，所述方法包括：通过训练得到邻域保持嵌入空间矩阵；基于所述邻域保持嵌入空间矩阵进行说话人识别。所述基于所述邻域保持嵌入空间矩阵进行说话人识别，包括：对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w；使用所述邻域保持嵌入空间矩阵对于每一个所述向量w进行映射得到向量w’；将经过映射得到的所述向量w’作为支持向量机SVM的输入特征进行后端分类建模；借助支持向量机SVM打分，根据打分结果识别说话人。

优选地，所述通过训练得到邻域保持嵌入空间矩阵具体为：选择多句包含说话人标注信息的训练语句，生成对应于每一训练语句的向量，并根据所述对应于训练语句的向量得到训练数据集W；根据所述对应于训练语句的向量构建邻接图，为不同的向量设置不同的顶点，不同顶点之间设置边；计算邻接图边的权重，得到权值矩阵E；根据所述训练数据集和所述权值矩阵构建特征矩阵，求解所述特征矩阵的特征值，以及多个最大特征值对应的特征向量，根据所述特征向量得到所述的邻域保持嵌入空间矩阵。

优选地，所述计算邻接图边的权重，包括：将来自同一说话人的不同向量对应的顶点之间的边的权重设置为1，将来自不同说话人的不同向量对应的顶点之间的边的权重设置为0。

优选地，所述根据所述训练数据集和所述权值矩阵构建特征矩阵，求解所述特征矩阵的特征值，以及多个最大特征值对应的特征向量，根据所述特征向量得到所述的邻域保持嵌入空间矩阵,具体为：根据所述训练数据集W和所述权值矩阵E构建特征矩阵WNW^Ta,其中,N＝(I-E)^T(I-E),I为对角元素均为1、其余元素均为0的对角矩阵，根据WNW^Ta＝λWW^Ta，求解特征值λ以及特征向量a，根据前K个最大特征值对应的特征向量a₁,a₂,...a_K得到邻域保持嵌入空间矩阵A_NPE＝(a₁,a₂,...a_K)^T。

优选地，所述对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w，具体为：根据主成分分析PCA矩阵对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w。

图4是本发明实施例的说话人识别系统示意图。如图4所示，所述系统包括：空间矩阵生成模块，用于通过训练得到邻域保持嵌入空间矩阵；识别模块，用于基于所述邻域保持嵌入空间矩阵进行说话人识别。其中，所述基于所述邻域保持嵌入空间矩阵进行说话人识别，包括：对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w；使用所述邻域保持嵌入空间矩阵对于每一个所述向量w进行映射得到向量w’；将经过映射得到的所述向量w’作为支持向量机SVM的输入特征进行后端分类建模；借助支持向量机SVM打分，根据打分结果识别说话人。

本发明实施例采用一种新型的基于邻域保持嵌入NPE的因子分析技术，能够有效地克服现有总变化因子分析技术存在的不足，进一步提高说话人识别性能。具体地，本发明实施例具有如下技术效果：与现有说话人识别中的总变化因子分析技术相比，本发明采用了一种新型的基于邻域保持嵌入（NPE）的因子分析技术。一方面，该发明作为一种流行学习方法，可以通过构建邻接图获取数据局部邻域结构信息；另一方面，该发明进行有监督训练，能够有效地利用训练数据中的说话人标注信息。因此，该发明能够有效地克服现有总变化因子分析技术存在的不足，可以进一步提高说话人识别性能。

本领域技术人员应该进一步意识到，结合本文中所公开的实施例描述的各示例模块及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

需要指出的是，以上仅为本发明较佳实施例，并非用来限定本发明的实施范围，具有专业知识基础的技术人员可以由以上实施实例实现本发明，因此凡是根据本发明的精神和原则之内所做的任何的变化、修改与改进，都被本发明的专利范围所覆盖。即，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种说话人识别方法，其特征在于，所述方法包括：

通过训练得到邻域保持嵌入空间矩阵；

基于所述邻域保持嵌入空间矩阵进行说话人识别；

所述基于所述邻域保持嵌入空间矩阵进行说话人识别，包括：

对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w；

使用所述邻域保持嵌入空间矩阵对于每一个所述向量w进行映射得到向量w’；

将经过映射得到的所述向量w’作为支持向量机SVM的输入特征进行后端分类建模；

借助支持向量机SVM打分，根据打分结果识别说话人。

2.如权利要求1所述的说话人识别方法，其特征在于，所述通过训练得到邻域保持嵌入空间矩阵具体为：

选择多句包含说话人标注信息的训练语句，生成对应于每一训练语句的向量，并根据所述对应于训练语句的向量得到训练数据集W；

根据所述对应于训练语句的向量构建邻接图，为不同的向量设置不同的顶点，不同顶点之间设置边；

计算邻接图边的权重，得到权值矩阵E；

根据所述训练数据集和所述权值矩阵构建特征矩阵，求解所述特征矩阵的特征值，以及多个最大特征值对应的特征向量，根据所述特征向量得到所述的邻域保持嵌入空间矩阵。

3.如权利要求2所述的说话人识别方法，其特征在于，所述计算邻接图边的权重，包括：将来自同一说话人的不同向量对应的顶点之间的边的权重设置为1，将来自不同说话人的不同向量对应的顶点之间的边的权重设置为0。

4.如权利要求2所述的说话人识别方法，其特征在于，所述根据所述训练数据集和所述权值矩阵构建特征矩阵，求解所述特征矩阵的特征值，以及多个最大特征值对应的特征向量，根据所述特征向量得到所述的邻域保持嵌入空间矩阵,具体为：

根据所述训练数据集W和所述权值矩阵E构建特征矩阵WNW^Ta,

其中,N＝(I-E)^T(I-E)，I为对角元素均为1、其余元素均为0的对角矩阵，根据WNW^Ta＝λWW^Ta，求解特征值λ以及特征向量a，根据前K个最大特征值对应的特征向量a₁,a₂,...a_K得到邻域保持嵌入空间矩阵A_NPE＝(a₁,a₂,...a_K)^T。

5.如权利要求1所述的说话人识别方法，其特征在于，所述对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w，具体为：根据主成分分析PCA矩阵对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w。

6.一种说话人识别系统，其特征在于，所述系统包括：

空间矩阵生成模块，用于通过训练得到邻域保持嵌入空间矩阵；

识别模块，用于基于所述邻域保持嵌入空间矩阵进行说话人识别；

其中，所述基于所述邻域保持嵌入空间矩阵进行说话人识别，包括：

借助支持向量机SVM打分，根据打分结果识别说话人。

7.如权利要求6所述的说话人识别系统，其特征在于，所述通过训练得到邻域保持嵌入空间矩阵具体为：

计算邻接图边的权重，得到权值矩阵E；

8.如权利要求7所述的说话人识别系统，其特征在于，所述计算邻接图边的权重，包括：将来自同一说话人的不同向量对应的顶点之间的边的权重设置为1，将来自不同说话人的不同向量对应的顶点之间的边的权重设置为0。

9.如权利要求7所述的说话人识别系统，其特征在于，所述根据所述训练数据集和所述权值矩阵构建特征矩阵，求解所述特征矩阵的特征值，以及多个最大特征值对应的特征向量，根据所述特征向量得到所述的邻域保持嵌入空间矩阵,具体为：

根据所述训练数据集W和所述权值矩阵E构建特征矩阵WNW^Ta,

10.如权利要求6所述的说话人识别系统，其特征在于，所述对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w，具体为：根据主成分分析PCA矩阵对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w。