CN103035239B

CN103035239B - 一种基于局部学习的说话人识别方法

Info

Publication number: CN103035239B
Application number: CN201210548563.5A
Authority: CN
Inventors: 杨毅; 陈国顺; 马欣
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2012-12-17
Filing date: 2012-12-17
Publication date: 2014-10-08
Anticipated expiration: 2032-12-17
Also published as: CN103035239A

Abstract

一种基于局部学习的说话人识别方法，包括训练阶段与识别阶段，训练阶段包括：将训练数据通过提取特征和聚类方法分为特征空间上的多类训练集；针对每类训练集进行局部学习，通过概率线性判别分析方法获得多个模型；识别阶段包括：对待识别数据提取特征并进行分类判决得到特征空间上的多类待识别集；针对每类待识别集进行局部学习，根据训练数据得到的多个模型计算每类待识别集的后验概率作为结果；本发明应用于说话人识别中的说话人鉴别和说话人确认场景，可以降低由于异构性数据引起的错误识别率，最后每类待识别集的后验概率信息作为结果被系统输出。

Description

一种基于局部学习的说话人识别方法

技术领域

本发明属于音频技术领域，具体涉及一种基于局部学习的说话人识别方法。

背景技术

概率线性判别分析（Probabilistic Linear Discriminant Analysis，PLDA）已被证明是一种有效的低维空间表示方法，其优异的性能体现在人脸识别和说话人识别等多种生物身份认证领域。PLDA的基本方法可以表述为，在训练阶段利用训练数据之间的类内差异（within-individual）变量和类间差异（between-individual）变量产生一个生成模型（generativemodel）；在识别阶段，该方法主要计算一种用于描述基于待识别数据的类内差异相似度。

概率线性判别分析（Probabilistic Linear Discriminant Analysis，PLDA）是一种基于线性判别分析（Linear Discriminant Analysis，LDA）的概率扩展方法。LDA是在1996年由Belhumeur引入模式识别和人工智能领域的，LDA通过产生原始数据空间的线性变换矩阵将原始高维数据投影到低维最佳鉴别矢量空间。LDA主要根据Fisher准则，将不同类数据尽量分开，将同一类数据尽量聚拢，保证投影后的数据在新的空间中具有最小的类内距离和最大的类间距离。当类的个数大于两个的时候采用多类LDA算法，内容如下：

假设有属于c(c>2)类的给定数据{x_i，j∈R^N}，其中i(1≤i≤c)表示类别，j表示第i类中的第j(1≤j≤n_i)个数据，n_i为第i类中的数据数，数据总数为n，第i类的平均值为m_i，所有数据的整体平均值为m。LDA的目标是寻找x_i，j的一个最佳投影矩阵w，保证经过投影后的数据y＝w^T(x-m)在新的空间中具有最小的类内距离和最大的类间距离。类内散度矩阵S_w和类间散度矩阵S_b分别表示同类数据间的分散程度和不同类数据间的分散程度：

S_{w} = \frac{1}{n} Σ_{i = 1}^{c} Σ_{j = 1}^{n_{i}} (x_{i, j} - m_{i}) {(x_{i, j} - m_{i})}^{T} - - - (1)

S_{b} = \frac{1}{n} Σ_{i = 1}^{c} (m_{i} - m) {(m_{i} - m)}^{T} - - - (2)

根据Fisher鉴别准则找到一组最优鉴别矢量构成的投影矩阵W_opt：

W_{opt} = \underset{w}{\arg \max} \frac{| W^{T} S_{b} W |}{| W^{T} S_{w} W |} - - - (3)

但是LDA方法存在小数据问题，小数据问题是指没有足够多的训练数据来保证类内散度矩阵S_w可逆；并且当同类数据发生较大的差异和变化时，LDA将其视作干扰，因而降低了识别的准确率。而PLDA方法可以解决LDA的上述问题。

基于说话人识别的PLDA假设语音数据按照如下模型产生：

X_i，j＝μ+Fh_i+Gw_i，j+ε_i，j(4)

其中i代表第i个说话人，j代表第j个数据矢量，μ为全部训练数据均值矢量，矩阵F代表类间子空间的基，h_i代表F在子空间的对应位置，矩阵G代表类内子空间的基，w_i，j代表G在子空间的对应位置，ε_i，j定义为具有对角协方差的高斯分布，代表残留噪声。事实上，F和G可以视作LDA算法中类内散布矩阵和类间散布矩阵的作用。上述PLDA参数可以描述为θ={μ，F，G，∑}。

在训练阶段，PLDA获得一组训练数据X_i，j并寻找参数θ={μ，F，G，∑}，主要采用期望最大化（Expectation Maximization，EM）算法轮流估计两组参数，在此过程中保证每次迭代之后这两组参数的相似度增加。在期望（Expectation）步骤里，采用不变的参数值并计算h_i和w_i，j；在最大化（Maximization）步骤里则对参数值F和G进行优化估计。

在识别阶段，PLDA定义一个模型M来说明相关变量的关系。即，如果两个或更多矢量属于同一个说话人，则必然拥有相同的变量h_i；如果两个或更多矢量不属于同一个说话人，则它们的变量h_i必然不同。假设有R个可能的模型M_1，...R，每个模型对应一种变量h和待识别数据X的不同关系。例如在进行说话人确认（speaker verification）时，假设有两个可能的模型M₀和M₁，M₀代表待识别数据X来自不同的变量h，M₁代表待识别数据X来自同一个变量h。在此条件下计算全部待识别数据在q个模型M_q下的后验概率。基于贝叶斯准则可以计算PLDA模型的后验概率如下：

P (M_{q} | X) = \frac{P (X | M_{q}) P (M_{q})}{Σ_{r = 0}^{R} P (X | M_{r}) P (M_{r})} - - - (5)

其中P(M_q|X)为待识别数据X在模型M_q下的后验概率，P(X|M_q)待识别数据X在模型M_q下的先验概率，P(M_q)为模型M_q的概率。

PLDA与其他机器学习方法类似，基于全部训练集进行模型参数的全局学习，但是，通过这种全局学习得到的PLDA参数无法描述诸如特征空间存在异构性（heterogeneous）或特征空间具有复杂流形（manifold）结构的数据集的全部相关信息。

聚类分析（Cluster Analysis）方法广泛应用于机器学习和模式识别领域，聚类分析将一组目标按照相比于其他类而言，同类内的目标尽量接近的原则来分配到不同的类中。聚类分析方法已经被广泛研究，各种聚类分析方法的主要区别在于如何形成及有效地找到这些类。按照不同的数据集和不同的应用背景，一般通过定义距离函数、类密度门限或期望的类个数来形成不同的类，这些形成类的方法定义为聚类模型，典型的聚类模型包括：中心模型（Centroidmodels）、分布模型（Distribution Models）、子空间模型（Subspace models）等。

K-means方法是一种具有代表性的中心模型聚类算法，其目标在于将n个观察数据按照最近邻均值的标准分成k个聚类。K-Means方法定义每个聚类由相似的数据组成，这种相似性由距离来衡量，不同聚类间的数据应该尽量不相似，每个聚类都有一个中心数据；K-Means算法具有排他性，即任意数据必然属于某一聚类且只属于该聚类。

1901年由Pearson提出的主成分分析（Principal componentanalysis，PCA)是一种典型的局部学习方法，广泛应用于特征提取和可视化领域。PCA算法假定具有较大变化方向上的数据比具有较小变化方向上的数据有更多的信息，因此需要寻找具有最大方差的数据。即通过寻找相互正交的方向上具有最大差异的数据，利用正交变换实现数据去相关。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于局部学习的说话人识别方法，将训练集通过提取特征和聚类方法分为特征空间上的多类训练集，针对每类训练集进行局部学习，通过概率线性判别分析方法获得多个模型；对待识别集提取特征并进行分类判决得到特征空间上的多类待识别集，针对每类待识别集进行局部学习，根据训练集得到的多个模型计算每类待识别集的后验概率作为结果。这种方法克服了原有的概率线性判别分析方法无法描述异构性特征空间或复杂流形结构特征空间数据集全部相关信息的问题。

为了达到上述目的，本发明采用的技术方案为：

一种基于局部学习的说话人识别方法，包括训练阶段与识别阶段，其中：

训练阶段包括：

将训练数据通过提取特征和聚类方法分为特征空间上的多类训练集；

针对每类训练集进行局部学习，通过概率线性判别分析方法获得多个模型；

识别阶段包括：

对待识别数据提取特征并进行分类判决得到特征空间上的多类待识别集；

针对每类待识别集进行局部学习，根据训练数据得到的多个模型计算每类待识别集的后验概率作为结果。

所述训练数据与识别阶段的提取特征方法均是通过对原始语音数据提取Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)作为特征数据实现。

所述训练数据的聚类方法的典型方法是K-means算法，其基本原理如下：

给定一组观察数据(X₁，X₂，...，X_m)，其中每个数据都是一个n维的实数矢量，将这组观察数据分成k(k≤n)个集合S＝{S₁，S₂，...，S_k}，使得类内平方和最小，如下公式所示：

\underset{S}{\arg \min} Σ_{i = 1}^{k} \underset{x_{j} &Element; S_{i}}{Σ} {| | X_{j} - μ_{i} | |}^{2}

训练数据的聚类方法具体实现步骤如下：

步骤一、根据预设的k值建立初始划分来获得k个初始聚类，例如可以随机选择k个数据作为k个聚类的中心数据值；

步骤二、计算每个数据到各个聚类中心数据值的距离，将它加入到最邻近的一个聚类；

步骤三、重新计算每个聚类中心数据值；

步骤四、重复步骤二和步骤三，直到各个聚类中心数据值在某个精度范围内不变化或者达到最大迭代次数；

步骤五、输出每个数据及其属于的聚类类别。

在训练阶段完成对训练集的聚类划分后需要进行局部学习。PCA是局部学习的一种典型方法，PCA的基本原理如下：

假设有一组d维矢量Y＝[y₁ y₂...y_n]可以表示为：

y_j＝Wx_j+m

其中W是一个d×c维矩阵，x_j为c维主成分矢量，m为一个d(c≤d≤n)维偏差矢量。PCA通过寻找合适的W、x_j和m使得按照如下公式定义的代价函数C最小：

C = Σ_{j = 1}^{n} {| | y_{i} - W x_{j} - m | |}^{2}

其中y_j为d维矢量，x_j为c维矢量。

在训练阶段的局部学习具体实现步骤如下：

步骤一、计算训练集内数据X的均值，并将每个数据减去均值；

步骤二、计算协方差矩阵K＝X^TX；

步骤三、根据公式Kν＝λν计算协方差矩阵K的特征矢量λ和特征值ν；

步骤四、把特征值由大到小进行降序排列，取前p个特征值对应的特征矢量组成PCA转换矩阵P，每一个特征矢量是矩阵P的一列；

步骤五、输出转换后的数据Y＝P^TX。

在训练阶段完成局部学习后需要生成多个模型。基于说话人识别的多个模型为：

X_i，j，c＝μ_c+F_ch_i，c+G_cw_i，j，c+ε_i，j，c

其中X代表训练数据，i代表第i个说话人，j代表第j个数据矢量，c代表第c类，μ_c为第c类训练数据的均值矢量，矩阵F_c代表第c类训练数据的类间子空间的基，h_i，c代表F_c在子空间的对应位置，矩阵G_c代表第c类训练数据的类内子空间的基，w_i，j，c代表G_c在子空间的对应位置，ε_i，j，c代表第c类训练数据的残留噪声。上述多个模型可以描述为θ_c={μ_c，F_c，G_c，∑_c}。

多个模型的计算主要是采用期望最大化算法轮流估计每一个模型的两组参数，在此过程中保证每次迭代之后这两组参数的相似度增加，在期望步骤里，采用不变的参数值并计算h_i，c和w_i，j，c；在最大化步骤里则对参数值F_c和G_c进行优化估计。

所述识别阶段的分类判决采用如下方法：

定义待识别数据属于某个类的概率为：

P (t = k) = \frac{Σ_{k = 0}^{K} P (t = k) P (t = k | c = k)}{Σ_{k = 0}^{K} P (t = k | c = k)}

其中P(t=k)为待识别数据属于第k类的概率，P(c=k)为训练数据属于第k类的概率，P(t＝k|c＝k)为训练数据属于第k类条件下，待识别数据属于第k类的概率，k＝0，...，K，K为类的总数。

所述识别阶段的局部学习具体实现步骤如下：

步骤一、计算数据X的均值，并将每个数据减去均值；

步骤二、提取训练阶段的PCA转换矩阵P；

步骤三、输出转换后的数据Y＝P^TX。

在识别阶段完成局部学习后需要进行概率计算，采用一种新的概率计算来获得多个模型下的待识别数据后验概率。其基本原理为：从训练阶段得到多个模型其参数为θ_c＝{μ_c，F_c，G_c，∑_c}，每一个模型用来说明对应的一类训练数据中相关变量的关系。即，如果在第c类中，两个或更多矢量属于同一个说话人，则必然拥有相同的变量h_i，c；如果在第c类中，两个或更多矢量不属于同一个说话人，则它们的变量h_i，c必然不同。假设有R个可能的模型M_1，...R，每个模型对应一种变量h和待识别数据X的不同关系。例如在进行说话人确认时，假设有两个可能的模型M₀和M₁，M₀代表待识别数据X来自不同的变量h，M₁代表待识别数据X来自同一个变量h。在此条件下计算全部待识别数据在q个模型M_q下的相似度。基于贝叶斯准则可以计算多个模型的后验概率如下：

P (M_{q} | X_{c}) = \frac{P (X_{c} | M_{q}) P (M_{q})}{Σ_{c = 1}^{C} Σ_{r = 0}^{R} P (X_{c} | M_{r}) P (M_{r})}

其中X_c代表第c类待识别数据，c＝1，...，C，C为待识别数据总的类别个数，P(M_q|X_c)为待识别数据X_c在模型M_q下的后验概率，P(X_c|M_q)为待识别数据X_c在模型M_q下的先验概率，P(M_q)为模型M_q的概率。

上述局部学习说话人识别方法建立了一种通过聚类和局部学习在训练阶段得到多个模型，以及通过分类判决和局部学习在识别阶段得到多类待识别集，并根据多个模型计算每类待识别集的后验概率的方法。局部学习说话人识别可以看作一种在机器学习中用局部学习替代全局学习的通用机器学习算法，通过上述局部学习说话人识别方法，可有效地解决无法描述异构性特征空间或复杂流形结构特征空间数据集全部相关信息的问题。

附图说明

图1是本发明的基于局部学习的说话人识别方法流程图。

图2是本发明的一种训练阶段实现方法流程图。

图3是本发明的一种识别阶段实现方法流程图。

具体实施方式：

下面通过附图对本发明的技术方案做进一步的详细说明。

图1为本发明的一种基于局部学习的说话人识别流程图，包括以下内容：

本发明提出一种基于局部学习的说话人识别方法和装置，特别地，用于数据特征空间具有异构性或复杂流形结构等。这些方法和装置不局限于说话人识别，也可以是任何与模式识别有关的方法和装置。

图1描述了一种基于局部学习的说话人识别系统实例。如图1所示的训练数据输入101包括全部具有个体身份标识（Identity，ID）的用于训练的语音信号，有可能除了语音信号之外还包括音乐、环境噪声等其他信号。

训练阶段即指102、103、104和105部分。在利用第一步获得语音信号后，进行特征提取102，提取声学特征作为说话人识别信息，这些声学特征可以为Mel频率倒谱系数（Mel Frequency Cepstral Coefficients，MFCC）或线性预测倒谱系数（Linear Frequency Cepstral Coefficients，LPCC）等多种声学特征；特征聚类103将全部训练集分为特征空间上的多类训练集；完成对训练集的聚类划分后，需要对每个类进行局部学习104来替代传统的全局学习方法；在训练阶段完成局部学习后，需要对每个类生成多个模型105。

如图1所示的待识别数据输入106包括全部需要识别的语音信号，有可能除了语音信号之外还包括音乐、环境噪声等其他信号。

识别阶段即指107、108、109和110部分。在获得需要识别的语音信号后，进行特征提取107，提取声学特征作为说话人识别信息，这些声学特征可以为Mel频率倒谱系数或线性预测倒谱系数等多种声学特征；分类判决108通过利用训练阶段的特征聚类103输出的结果，将全部待识别的数据集分为特征空间上的多类待识别数据集；完成对待识别数据集的分类判决后，需要利用训练阶段的局部学习104输出的结果对每个类进行局部学习109；在识别阶段完成局部学习后需要利用训练阶段的多个模型105输出的结果对进行概率计算110并作为系统识别结果输出111。

图2为本发明的一种训练阶段实现方法流程图，包括以下内容：

训练数据输入为全部训练语音信号201，并对其进行特征提取202，提取的声学特征可以为Mel频率倒谱系数或线性预测倒谱系数等多种声学特征。

特征聚类模块即指208、204、205、206和207部分。在获得训练数据的声学特征之后初始化聚类中心值203，根据预设的k值建立初始划分来获得k个初始聚类，例如可以随机选择k个数据作为k个聚类的中心数据值；在获得初始化聚类中心值后，进行数据最邻近聚类204，计算每个数据到各个聚类中心数据值的距离，将它加入到最邻近的一个聚类；在获得数据最邻近聚类后重新计算每个聚类中心数据值205；重复204和205，直到各个聚类中心数据值满足给定的精度要求206；最后输出每个数据及其属于的聚类类别207。

局部学习模块即指208、209、210、211和212部分。在获得k类数据值后，对每类数据都进行特征聚类，计算的均值并将每个数据减去均值208；随后计算协方差矩阵209并计算协方差矩阵的特征矢量和特征值210；并把特征值由大到小进行降序排列，取前p个特征值对应的特征矢量组成PCA转换矩阵211；进行输出转换212。

多个模型模块即指213、214、215和216部分。对全部完成局部学习模块后的数据计算均值并将每个数据减去均值213；首先对多个模型参数进行随机初始化214，随后计算多个PLDA模型的参数215，在多个模型的计算过程主要采用期望最大化算法轮流估计每一个模型的两组参数，在此过程中保证每次迭代之后这两组参数的相似度增加；最后将多个PLDA模型的参数作为训练阶段的输出216。

图3为本发明的一种识别阶段实现方法流程图，包括以下内容：

待识别数据输入为全部待识别的语音信号301，并对其进行特征提取302，提取的声学特征可以为Mel频率倒谱系数或线性预测倒谱系数等多种声学特征。

分类判决模块即指303、304、305和306部分。在获得待识别数据的声学特征之后计算的均值并将每个数据减去均值303，根据训练阶段获得的聚类中心值304，采用新的概率判决方法判断待识别数据的归属类别305，输出每类数据及其属于的聚类类别306。

局部学习模块即指307、308和309部分。在获得k类数据值后，对每类数据计算均值并将每个数据减去均值307；对每类数据根据训练阶段获得的PCA转换矩阵308进行PCA转换309。

概率计算模块即指310、311和312部分。结合从训练阶段获得的多个PLDA参数310以及PCA转换309后的数据进行后验概率计算311，并将计算结果输出312。

Claims

1.一种基于局部学习的说话人识别方法，包括训练阶段与识别阶段，其特征在于，

训练阶段包括：

针对每类训练集进行局部学习，通过概率线性判别分析方法获得多个模型X_i，j，c＝μ_c+F_ch_i，c+G_cw_i，j，c+ε_i，j，c；

其中，X代表训练数据，i代表第i个说话人，j代表第j个数据矢量，c代表第c类，μ_c为第c类训练数据的均值矢量，矩阵F_c代表第c类训练数据的类间子空间的基，h_i，c代表F_c在子空间的对应位置，矩阵G_c代表第c类训练数据的类内子空间的基，w_i，j，c代表G_c在子空间的对应位置，ε_i，j，c代表第c类训练数据的残留噪声；

识别阶段包括：

2.按照权利要求1所述基于局部学习的说话人识别方法，其特征在于，所述训练数据与识别阶段的提取特征方法均是通过对原始语音数据提取Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)作为特征数据实现。

3.按照权利要求1或2所述基于局部学习的说话人识别方法，其特征在于，所述训练数据的聚类方法的具体实现步骤如下：

步骤一、根据预设的k值建立初始划分来获得k个初始聚类；

步骤三、重新计算每个聚类中心数据值；

步骤五、输出每个数据及其属于的聚类类别。

4.按照权利要求3所述基于局部学习的说话人识别方法，其特征在于，随机选择k个数据作为k个聚类的中心数据值。

5.按照权利要求1所述基于局部学习的说话人识别方法，其特征在于，所述训练阶段的局部学习具体实现步骤如下：

步骤二、计算协方差矩阵K＝X^TX；

步骤五、输出转换后的数据Y＝P^TX。

6.按照权利要求1所述基于局部学习的说话人识别方法，其特征在于，多个模型的计算主要是采用期望最大化算法轮流估计每一个模型的两组参数，在此过程中保证每次迭代之后这两组参数的相似度增加，在期望步骤里，采用不变的参数值并计算h_i，c和w_i，j，c；在最大化步骤里则对参数值F_c和G_c进行优化估计。

7.按照权利要求1所述基于局部学习的说话人识别方法，其特征在于，所述识别阶段的分类判决采用如下方法：

定义待识别数据属于某个类的概率为：

P (t = k) = \frac{Σ_{k = 0}^{K} P (t = k) P (t = k | c = k)}{Σ_{k = 0}^{K} P (t = k | c = k)}

8.按照权利要求1所述基于局部学习的说话人识别方法，其特征在于，所述识别阶段的局部学习具体实现步骤如下：

步骤一、计算数据X的均值，并将每个数据减去均值；

步骤二、提取训练阶段的PCA转换矩阵P；

步骤三、输出转换后的数据Y＝P^TX。

9.按照权利要求1所述基于局部学习的说话人识别方法，其特征在于，所述识别阶段的后验概率通过如下公式计算获取：

P (M_{q} | X_{c}) = \frac{P (X_{c} | M_{q}) P (M_{q})}{Σ_{c = 1}^{C} Σ_{r = 0}^{R} P (X_{c} | M_{r}) P (M_{r})}

其中X_c代表第c类待识别数据，c＝1，...，C，C为待识别数据总的类别个数，P(M_q|X_c)为待识别数据X_c在模型M_q下的后验概率，P(X_c|M_q)为第c类待识别数据X_c在模型M_q下的先验概率，P(M_q)为模型M_q的概率。