CN105469784A

CN105469784A - 概率线性鉴别分析模型生成方法和说话人聚类方法及系统

Info

Publication number: CN105469784A
Application number: CN201410459009.9A
Authority: CN
Inventors: 杨琳; 索宏彬; 周若华; 颜永红
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2014-09-10
Filing date: 2014-09-10
Publication date: 2016-04-06
Anticipated expiration: 2034-09-10
Also published as: CN105469784B

Abstract

本发明涉及概率线性鉴别分析模型生成方法和说话人聚类方法及系统，包括：采集一定数量的语音数据作为训练语句，生成概率线性鉴别分析(PLDA)模型；对待聚类说话人语句进行预处理；提取预处理后的待聚类说话人语句的MFCC特征；基于MFCC特征计算所有待聚类说话人语句的总变化量因子；基于生成的PLDA模型计算两两待聚类说话人语句的总变化量因子的PLDA距离；基于PLDA距离确定的密度值选择初始的类别数目和每个类包含的语句；最后通过聚类算法获取最终的类别数目和每个类包含的语句。本方法采用基于总变化量因子PLDA距离使距离测度更加准确；而且本方法基于密度值选择初始类，从而达到稳定的聚类效果。

Description

概率线性鉴别分析模型生成方法和说话人聚类方法及系统

技术领域

本发明涉及的技术领域包括语音识别、说话人识别、说话人聚类和语音信号处理，具体地说，本发明涉及概率线性鉴别分析模型生成方法和说话人聚类方法及系统。

背景技术

说话人聚类是通过分析多个语音样本，将属于同一说话人的语音样本归为一类，可用于多人对话语音的说话人识别。说话人聚类不同于说话人识别，是一种无监督学习过程。说话人聚类方法通常包括特征提取、距离计算、层次化凝聚聚类算法等过程。

特征提取过程通常提取语音样本中表征说话人信息的声学特征，包括梅尔频率倒谱系数(Mel-FrequencyCepstrumCoefficient，MFCC)、线性预测倒谱系数(LinearPredictionCepstrumCoefficient,LPCC)、感知线性预测系数(PerceptualLinearPrediction，PLP)、线谱对系数(LinearSpectrumPairs，LSP)等。

距离计算方法包括贝叶斯信息准则(BayesianInformationCriteria,BIC)、KL距离(Kullback-LeiberDistance，KLD)、广义似然比距离(GeneralizedLikelihoodRatio,GLR)、交叉熵似然比距离(CrossLikelihoodRatio，CLR)等。其过程为：首先对每段语音样本建立高斯模型，计算高斯模型间的距离测度，将距离最近的语音样本进行合并形成新的高斯模型，再计算新的高斯模型间的距离测度，再将距离最近的语音样本进行合并形成新的高斯模型，这个过程一直迭代直至满足停止条件。在现有的距离计算方法中，通常采用最大后验估计准则(MaximumaPosterior，MAP)对说话人语音样本建立单高斯或混合高斯模型；在说话人聚类的应用场景中，通过MAP得到的模型受数据量的限制不能准确描述语音样本的分布情况，由此不能很好地表征某类说话人语音的统计特性，从而得到的模型间的距离测度也不够准确。

传统的说话人聚类算法通常采用层次化凝聚聚类算法，类初始值选择不合适会严重影响聚类效果，而且类别数目难以确定。

近年来总变化因子分析的方法在说话人识别领域取得了很好的效果，已成为现在说话人识别系统的主流算法。而概率线性鉴别分析(ProbabilisticLinearDiscriminantAnalysis，PLDA)正是对低维的总变化量因子进行建模，在消除信道影响的基础上，更好的学习说话人类内和类间信息，从而能够更准确地表示两个总变化量因子之间的相似度。目前还未有把基于总变化因子的PLDA模型应用于说话人识别领域的方法。

发明内容

本发明的目的在于克服现有说话人聚类方法中存在的语音样本相似度测量不准确问题和初始类难以确定的问题，从而提供一种提高语音样本相似度测量准确性和确定合适的初始类的说话人聚类方法。

为了实现上述目的，本发明提供了概率线性鉴别分析模型生成方法和说话人聚类方法；其中概率线性鉴别分析模型生成方法包括如下步骤：

步骤101)，采集一定数量的语音数据作为训练语句，并进行预处理；

步骤102)，提取预处理后的训练语句的梅尔频率倒谱系数特征；

步骤103)，基于预处理后的训练语句的梅尔频率倒谱系数特征计算每个训练语句的总变化量因子；

步骤104)，基于所有训练语句的总变化量因子生成概率线性鉴别分析模型；所述概率线性鉴别分析模型包括：说话人矩阵和概率线性鉴别分析模型的残差方差矩阵。

本发明提供的说话人聚类方法，该方法基于上述技术方案生成的概率线性鉴别分析模型，该方法包括如下步骤：

步骤201)，对待聚类说话人语句进行预处理；所述待聚类说话人语句的个数为S；

步骤202)，提取预处理后的待聚类说话人语句的梅尔频率倒谱系数特征；

步骤203)，基于预处理后的待聚类说话人语句的梅尔频率倒谱系数特征计算所有待聚类说话人语句的总变化量因子；

步骤204)，基于所述的概率线性鉴别分析模型计算两两待聚类说话人语句的总变化量因子的概率线性鉴别分析距离；

步骤205)，基于概率线性鉴别分析距离确定的密度值选择初始的类别数目和每个类包含的语句；

步骤206)，通过聚类算法获取最终的类别数目和每个类包含的语句。

上述技术方案中，在步骤205)中，所述基于概率线性鉴别分析距离确定的密度值选择初始的类别数目和每个类包含的语句包括：

选择与第p(p＝1…S)个语句总变化量因子的PLDA距离最小的K个语句，所选择的K个语句集合记为B_p，所述K可以通过经验和统计规律优选获得；计算K个PLDA距离的均值为：

d_{p} = \frac{1}{K} \underset{q &Element; B_{p}}{Σ} d_{PLDA} (w_{p}, w_{q})

其中，w_p为第p个语句的总变化量因子，w_q为为第q个语句的总变化量因子；d_p为第p个语句的的密度值；对应的K+1个语句的总变化量因子的均值为：

{\overset{&OverBar;}{w}}_{p} = \frac{1}{K + 1} (w_{p} + \underset{q &Element; B_{q}}{Σ} w_{q})

为上述K+1个语句的类中心；d_p越小表明以为类中心时类的密集程度越高；

对S个密度值d_p(p＝1…S)按照从小到大进行排序，然后按顺序选择M个d_p对应的类中心所述M可以通过经验和统计规律优选获得；对其中的第m(m＝1…M)个类中心，从所有训练语句中选择与其PLDA距离最小的g_m个语句划分为同一类，类表示为所包含的语句集合：B_m＝{g_m个语句}，g_m取随机值，满足对应的类中心为类中包含的训练语句的总变化量因子的均值，计算方法为：

{\overset{&OverBar;}{w}}_{m} = \frac{1}{g_{m}} \underset{q &Element; B_{m}}{Σ} w_{q}

所述初始类别数目为M，所述每个类包含的语句为集合B_m，其中m＝1,…M；

初始类中心为其中m＝1,…M。

上述技术方案中，在步骤206)中，所述聚类算法为K均值层次聚类算法或层次化凝聚聚类算法。

此外，本发明还提供了说话人聚类系统，所述的系统包含：

前端处理模块，用于对待聚类说话人语句进行预处理；

特征提取模块，用于提取预处理后的待聚类说话人语句的梅尔频率倒谱系数特征；

总变化量因子计算模块，用于计算所有待聚类说话人语句的总变化量因子；

概率线性鉴别分析建模模块：用于采集一定数量的语音数据作为训练语句，并进行预处理；提取预处理后的训练语句的梅尔频率倒谱系数特征；基于预处理后的训练语句的梅尔频率倒谱系数特征计算每个训练语句的总变化量因子；基于所有训练语句的总变化量因子生成概率线性鉴别分析模型；

概率线性鉴别分析距离计算模块，用于基于概率线性鉴别分析模型两两计算待聚类说话人语句的总变化量因子的概率线性鉴别分析距离；

初始类选择模块，用于基于PLDA距离确定的密度值选择初始类，所述初始类包括初始类别数目和每个类包含的语句；

聚类模块，用于通过聚类算法获取最终的类别数目和每个类包含的语句。

本发明相对于现有说话人聚类方法具有以下优点：

1、本发明采用的说话人聚类方法将高维超矢量映射到低维空间，然后对低维矢量进行总变化因子分析建模，这能够更好地描述说话人类内和类间信息，使距离测度更准确。

2、本发明采用的说话人聚类方法依据密度值选择初始类别数目和每个类包含的语句，然后经过迭代不断合并和更新类，从而达到稳定的聚类效果，并可获得最终的类别数目。

附图说明

图1是本发明的PLDA模型生成方法流程图；

图2是本发明的说话人聚类方法流程图；

图3是本发明的说话人聚类系统连接图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

参照图1，PLDA模型生成方法的流程包括：

所述训练语句的个数为其中I为说话人的个数，n_i为第i个说话人所说的语句数。

所述预处理包括：基于时频分析的方法对训练语句进行分段，再采用高斯混合模型(GMM)判断每一段是否属于无效语音，所述无效语音例如为：彩铃、振铃、传真音、或静音，依据判断结果删除训练语句的无效语音，保留训练语句的有效语音；

步骤102)，提取预处理后的训练语句的MFCC特征；

所述MFCC特征包括18维的基本倒谱特征和对基本倒谱特征进行特征补偿后的18维特征，所述特征补偿包括高阶差分、倒谱均值减、倒谱方差规整、相关频谱(RelativeSpectral，Rasta)滤波，所述MFCC特征的维数为36维。

步骤103)，基于预处理后的训练语句的MFCC特征计算每个训练语句的总变化量因子；具体计算方法如下：

假设第i(i＝1…I)个说话人的第j(j＝1…n_i)个语句有L帧{y₁,y₂...,y_L}，其MFCC特征的维数为F，其中F＝36；第i个说话人的第j个语句的Baum-Welch统计量的计算方法为：

N_{c} = Σ_{t = 1}^{L} P (c | y_{t}, Ω)

F_{c} = Σ_{t = 1}^{L} P (c | y_{t}, Ω) \cdot y_{t}

其中，c为高斯索引，c＝1,2,...,C，C为高斯数，取1024；Ω为全局背景模型(UBM)的方差；

基于UBM的均值中心化的一阶Baum-Welch统计量为：

{\tilde{F}}_{c} = Σ_{t = 1}^{L} p (c | y_{t}, Ω) (y_{t} - m_{c})

其中，m_c为UBM第c个高斯分量的均值；

第i个说话人的第j个语句总变化量因子的计算公式为：

w_{ij} = {(I + T^{t} Σ_{1}^{- 1} N (u) T)}^{- 1} T^{t} Σ_{1}^{- 1} \tilde{F} (u)

其中，N(u)为CF×CF维对角块矩阵，CF＝C×F，相应的对角块为N_cI；为CF×1超向量，由拼接而成；矩阵T表示总变化空间，Σ₁为UBM模型的对角协方差阵，T和Σ₁由EM算法训练得到。

步骤104)，基于所有训练语句的总变化量因子生成PLDA模型；

所有训练语句的总变化量因子的均值为：

u = \frac{1}{N} Σ_{i = 1}^{I} Σ_{j = 1}^{n_{i}} w_{ij} - - - (1)

说话人矩阵为：

V = (Σ_{i = 1}^{I} Σ_{j = 1}^{n_{i}} (w_{ij} - u) E [z_{i}^{t}]) {(Σ_{i = 1}^{I} E [z_{i} z_{i}^{t}])}^{- 1} - - - (2)

PLDA模型的残差方差矩阵为：

Σ_{2} = \frac{1}{N} Σ_{i = 1}^{I} Σ_{j = 1}^{n_{i}} [(w_{ij} - u) {(w_{ij} - u)}^{t} - VE [z_{i}] {(w_{ij} - u)}^{t}] - - - (3)

其中，z_i～N(0,I)为第i个说话人的隐含因子，E[z_i]和是z_i的后验分布的一阶期望和二阶期望，计算方法如下：

E [z_{i}] = {(n_{i} V^{t} Σ_{2}^{- 1} V + I)}^{- 1} Σ_{j = 1}^{n_{i}} V^{t} Σ_{2}^{- 1} (w_{ij} - u) - - - (4)

E [z_{i} z_{i}^{t}] = {(n_{i} V^{t} Σ_{2}^{- 1} V + I)}^{- 1} + E [z_{i}] E {[z_{i}]}^{t} - - - (5)

对PLDA模型参数V,Σ₂的估计采用EM算法，计算过程为：

首先给定PLDA模型参数的初值V,Σ₂，利用上述公式(4)、(5)计算一阶期望E[z_i]和二阶期望再利用上述公式(2)和(3)更新参数V,Σ₂，如此迭代一直到参数V,Σ₂收敛到稳定值，一般迭代次数为5～10次。

所述PLDA模型包括：说话人矩阵V和PLDA模型的残差方差矩阵Σ₂。

参考图2，说话人聚类方法的流程包括：

步骤201)，对待聚类说话人语句进行预处理；

所述待聚类说话人语句的个数为S。

步骤202)，提取预处理后的待聚类说话人语句的MFCC特征；

步骤203)，基于预处理后的待聚类说话人语句的MFCC特征计算所有待聚类说话人语句的总变化量因子；

步骤204)，基于步骤104)生成的PLDA模型计算两两待聚类说话人语句的总变化量因子的PLDA距离；

基于步骤104)生成的PLDA模型中的参数V和Σ₂，计算PLDA模型的几个辅助参数Σ_ac、Σ_tot、Q、P：

Σ_ac＝VV^t

Σ_tot＝VV^t+Σ₂

Q = Σ_{tot}^{- 1} - {(Σ_{tot} Σ_{tot}^{- 1} Σ_{ac}^{- 1})}^{- 1}

P = Σ_{tot}^{- 1} Σ_{ac} {(Σ_{tot} - Σ_{ac} Σ_{tot}^{- 1} Σ_{ac})}^{- 1}

两个总变化量因子w_p(p＝1…S)和w_q(q＝1…S,q≠p)的PLDA距离计算方法如下：

\begin{matrix} d_{PLDA} (w_{p}, w_{q}) = \frac{P (w_{p}, w_{q} | θ_{same})}{P (w_{p}, w_{q} | θ_{diff})} \\ &equiv; w_{p}^{t} {Qw}_{p} + w_{q}^{t} {Qw}_{q} + 2 w_{p}^{t} {Pw}_{q} \end{matrix} - - - (6)

其中，θ_same表示两个语句由同一说话人产生的假设，θ_diff表示两个语句由不同说话人产生的假设。

步骤205)，基于PLDA距离确定的密度值选择初始的类别数目和每个类包含的语句；具体方法如下：

d_{p} = \frac{1}{K} \underset{q &Element; B_{p}}{Σ} d_{PLDA} (w_{p}, w_{q})

d_p为第p个语句的的密度值，对应的K+1个语句的总变化量因子的均值为：

{\overset{&OverBar;}{w}}_{p} = \frac{1}{K + 1} (w_{p} + \underset{q &Element; B_{p}}{Σ} w_{q})

{\overset{&OverBar;}{w}}_{m} = \frac{1}{g_{m}} \underset{q &Element; B_{m}}{Σ} w_{q}

所述初始类别数目为M，所述每个类包含的语句为集合B_m，其中m＝1,…M；初始类中心为其中m＝1,…M。

步骤206)，通过聚类算法获取最终的类别数目和每个类包含的语句；

所述聚类算法为K均值(KMean)层次聚类算法或层次化凝聚聚类算法；

在本实施例中，通过KMean层次聚类算法获取最终的类别数目和每个类包含的语句，具体步骤如下：

步骤206-1)，首先根据公式(6)计算第p(p＝1…S)个语句总变化量因子与每个初始类中心(类别数目为M)的PLDA距离，将第p(p＝1…S)个语句归为与这M个距离的最小值对应的类中心所属的类；假设每个类表示为语句集为B_m＝{l_m个语句}，其中m＝1,…M；重新计算每个类的类中心:

{\overset{&OverBar;}{w}}_{m} = \frac{1}{l_{m}} \underset{q &Element; B_{m}}{Σ} w_{q}, m = 1, \cdot \cdot \cdot M

令r＝M。

步骤206-2)，依次计算r个类中心的两两PLDA距离，并判断PLDA距离是否小于第一阈值；如果判断结果是肯定的，转入206-3)；否则，转入206-4)；

所述第一阈值可以通过经验和统计规律优选获得。

步骤206-3)，合并类并计算合并后的类的类中心；转入步骤206-2)；

所述合并类为将类中心的PLDA距离小于第一阈值的两个类合并为一个类，此时类别数目为r-1；

计算合并后类的类中心的方法为：

假如要合并的两个类为B_p,B_q，其中p＜q，用合并后的类个语句}替换类B_p并删除类B_q，其它类和类中心保持不变；所述合并后类的类中心为：

{\overset{&OverBar;}{w}}_{p} = \frac{1}{l_{p} + l_{p}} (\underset{p &Element; B_{p}}{Σ} w_{p} + \underset{q &Element; B_{q}}{Σ} w_{q})

令r＝r-1；

步骤206-4)，获取最终的类别数目和每个类包含的语句；

所述最终的类别数目为r；确定每个类包含的语句的方法为：

计算第p(p＝1…S)个语句总变化量因子与每个类中心(类别数目为r)的PLDA距离，将第p(p＝1…S)个语句归为与这r个距离的最小值对应的类中心所属的类；每个类对应的语句集为B_m＝{l_m个语句}，其中m＝1,…r。

在其它实施例中，可以通过层次化凝聚聚类算法获取最终的类别数目和每个类包含的语句，具体的处理方法属于公知常识，在此不做赘述。

参考图3，说话人聚类系统包括：

前端处理模块，用于对待聚类说话人语句进行预处理；

特征提取模块，用于提取预处理后的待聚类说话人语句的MFCC特征；

PLDA建模模块：用于采集一定数量的语音数据作为训练语句，并进行预处理；提取预处理后的训练语句的MFCC特征；基于预处理后的训练语句的MFCC特征计算每个训练语句的总变化量因子；基于所有训练语句的总变化量因子生成PLDA模型；

PLDA距离计算模块，用于基于PLDA模型两两计算待聚类说话人语句的总变化量因子的PLDA距离；

需要指出的是，以上仅为本发明较佳实施例，并非用来限制本发明的实施范围，具有专业知识基础的技术人员，可以由以上实施实例实现本发明，因此凡是根据本发明的精神和原则之内所作的任何变化、修改与改进，都被本发明的专利范围所覆盖。即，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.概率线性鉴别分析模型生成方法，包括如下步骤：

2.说话人聚类方法，该方法基于权利要求1所述的概率线性鉴别分析模型生成方法得到的概率线性鉴别分析模型，该方法包括如下步骤：

3.根据权利要求2所述的说话人聚类方法，其特征在于，在步骤205)中，所述基于概率线性鉴别分析距离确定的密度值选择初始的类别数目和每个类包含的语句包括：

d_{p} = \frac{1}{K} \underset{q &Element; B_{p}}{Σ} d_{PLDA} (w_{p}, w_{q})

{\overset{&OverBar;}{w}}_{p} = \frac{1}{K + 1} (w_{p} + \underset{q &Element; B_{q}}{Σ} w_{q})

{\overset{&OverBar;}{w}}_{m} = \frac{1}{g_{m}} \underset{q &Element; B_{m}}{Σ} w_{q}

4.根据权利要求2所述的说话人聚类方法，其特征在于，在步骤206)中，所述聚类算法为K均值层次聚类算法或层次化凝聚聚类算法。

5.说话人聚类系统，其特征在于，所述的系统包含：

前端处理模块，用于对待聚类说话人语句进行预处理；