CN106601258A

CN106601258A - 基于改进的lsda算法进行信道补偿的说话人识别方法

Info

Publication number: CN106601258A
Application number: CN201611139153.XA
Authority: CN
Inventors: 蔡丹蔚; 陈金坤; 蔡炜诚; 李明
Original assignee: Sun Yat Sen University; SYSU CMU Shunde International Joint Research Institute
Current assignee: Sun Yat Sen University; SYSU CMU Shunde International Joint Research Institute
Priority date: 2016-12-12
Filing date: 2016-12-12
Publication date: 2017-04-26

Abstract

本发明提供的说话人识别方法引入改进的LSDA算法代替之前的LDA算法来进行信道补偿，改进的LSDA算法通过引入自适应k近邻的概念，跟据每个类的大小自适应地寻找k个类内近邻与βk个类间近邻；并且引入每一说话人类对算法贡献均等的概念，对每一说话人类在目标方程中的贡献进行归一化处理。使得方法更适用于说话人识别任务的数据分布，从而在说话人识别准确率上得到比原始LSDA算法更好的性能提升。

Description

基于改进的LSDA算法进行信道补偿的说话人识别方法

技术领域

本发明涉及说话人识别领域，更具体地，涉及一种基于改进的局部敏感判别分析(Locality Sensitive Discriminant Analysis,LSDA)算法进行信道补偿的说话人识别方法。

背景技术

说话人识别，又称声纹识别，说话人识别指的是提取语音信号中说话人的信息，利用机器学习和模式识别的相关方法，自动地鉴定语音信号中对应的说话人身份。

说话人识别技术在过去的几十年中快速发展，在多个领域都得到了运用，具有非常重要而广泛的前景。在司法领域，说话人识别技术可以作为辅助手段分析罪证，如电话、手机录音等，从而协助确认犯罪嫌疑人；在日常民用安全和智能家居领域，说话人识别可以制作用于身份认证的“声纹密码锁”，这一技术已经成功地应用在腾讯公司的即时通信移动应用——微信的“声音锁”中；在多媒体信息处理领域，可用于电视广播、视频数据的剪辑和整理，通过提取数据中的说话人身份元信息(meta data)，可以方便进行分类和索引。

目前主流的说话人识别技术主要是基于身份向量(i-vector)对说话人信息进行建模。该方法首先将每一句语音的MFCC特征在混合高斯通用背景模型(UniversalBackground Model,UBM)上进行映射，提取出零阶统计量与一阶统计量，进而得出高维的超向量(supervector)。单因子分析(single factor analysis)作为前端处理，在超向量上训练出一个低维的总体差异空间(即说话人空间)，将超向量映射到总体差异空间上即可得到身份向量。概率线性判别分析(Probabilistic Linear Discriminate Analysis,PLDA)作为一种后端建模技术，对i-vector中的说话人信息进行建模。将两个i-vector在PLDA模型上计算它们之间的似然度得分，由此分数判断两个i-vector对应的说话人是否为同一个说话人。

由于总体差异空间同时对语言信息、说话人信息、信道信息进行建模，通过总体差异空间映射得到的身份向量i-vector也包含了这几部分信息。因此，在进行PLDA打分之前，通常会使用线性判别分析(Linear Discriminant Analysis,LDA)对i-vector进行信道补偿，去除与说话人信息无关的信道信息，只留下与说话人有关的信息。

上述方案中，LDA算法假设每一个说话人类的分布服从高斯分布,并对每一个说话人类的统计特性进行估算，基于欧几里得结构(Euclidean structure)寻找训练数据的线性流形(linear manifold)，最大化不同说话人i-vector之间的类间差异，最小化相同说话人i-vector的类内差异。可是，在实际使用中，说话人识别身份向量的分布并不严格服从高斯分布，因此LDA算法可能会导致没有办法发现训练数据隐藏在总体差异空间中的线性子流型(linear sub-manifold)结构。

发明内容

本发明为解决以上现有技术的难题，将改进的局部敏感判别分析(LocalitySensitive Discriminant Analysis,LSDA)算法替代LDA算法来对说话人识别系统进行信道补偿，改进的LSDA算法通过引入自适应k近邻的概念，跟据每个类的大小自适应地寻找k个类内近邻与βk个类间近邻；并且引入每一说话人类对算法贡献均等的概念，对每一说话人类在目标方程中的贡献进行归一化处理。因此改进的LSDA算法与改进之前相比，更适用于说话人识别任务的数据分布。

为实现以上发明目的，采用的技术方案是：

一种基于改进的LSDA算法进行信道补偿的说话人识别方法，包括以下步骤：

S1.对训练数据中所有的语音进行语音信号检测，并提取MFCC特征；

S2.使用神经网络声学模型对MFCC特征进行处理，一个MFCC帧通过神经网络声学模型的处理后，得到多维的音素层单元后验概率向量，对得到的音素层单元后验概率向量进行取对数、主成分分析降维、均值方差归一化处理之后，得到一个多维的向量，将这个向量拼接到与其对应的MFCC特征后，得到tandem特征；

S3.利用tandem特征训练一个包含多个高斯分量的混合高斯模型作为通用背景模型，并将所有语音在这个通用背景模型上计算出充分统计量；对于训练数据中的任一条语音，基于充分统计量计算出其高维的超向量；

S4.使用单因子分析方法对训练数据中所有的语音学习出一个低维的总体差异空间，即说话人空间；将训练数据中所有的语音的超向量在这个总体差异空间上投影得出每一条语音的身份向量{x₁,x₂,…,x_m}；每条身份向量关联着说话人的身份信息，第i条身份向量x_i对应的说话人标签为l(x_i)；

S5.使用改进的LSDA算法进行信道补偿：

S51.对于每一条身份向量x_i，寻找k个具有相同说话人类标的类内近邻子集N_w(x_i)与βk个具有不同说话人类标的类间近邻子集N_b(x_i)，其中β为一个常量；当N_w(x_i)中对应的说话人的身份向量数n_c小于k时，令k＝n_c；

S52.基于类内近邻子集N_w(x_i)与类间近邻子集N_b(x_i)构建身份向量的类内近邻图G_w与类间近邻图G_b，以及类内近邻图G_w与类间近邻图G_b的权值矩阵W_w′与W_b′：

其中，i、j表示矩阵W_b′中第i行、第j列的元素；

为了满足对LSDA算法的两个目标方程的变形改写，最终的类内权值矩阵W_w与类间权值矩阵W_b为如下对称矩阵的形式：

S53.寻找一个在原数据流形与目标子流形之间的映射，使得在目标子流形中，G_w内的连接点尽量地接近，G_b内的连接点尽量地隔离开；令为一个最优的线性映射，则y_i＝A^Tx_i；其中，表示n×d维的实数空间，表示n维的实数空间，表示映射；

LSDA算法的两个目标方程可写为：

min∑_ij(a^Tx_i-a^Tx_j)²W_w,ij

max∑_ij(a^Tx_i-a^Tx_j)²W_b,ij

其中a表示A＝(a₁,…,a_d)中的一个列向量；通过矩阵运算，LSDA算法的两个目标方程重写为：

其中，D_w为对角阵，D_w,ii＝∑_jW_w,ij；L_b＝D_b-W_b,D_b,ii＝∑_jW_b,ij；X＝(x₁,x₂,…,x_m)是一个n×m的矩阵；

S54.当对角阵D_w中的D_w,ii很大时，表示数据点x_i所在的类在数据点x_i处很密集，因此这个点x_i更加重要；引入一个限制条件，如下：

a^TXD_wX^Ta＝1

因此，LSDA算法的第一个目标方程可重写为：

也即：

综合以上的公式推导，LSDA的最终目标方程为：

a^TXD_wX^Ta＝1

其中，α为调整类内图G_w与类间图G_b之间权值的参数，0≤α≤1；

S55.使用拉格朗日乘子法，以上的目标方程写为：

X[αL_b+(1-α)W_w]X^Ta＝λXD_wX^Ta

将上面公式右边的XD_wX^T化到公式左边，以上公式变为：

(XD_wX^T)^-1X[αL_b+(1-α)W_w]X^Ta＝λa

因此，投影向量a的求解问题即可转变为以上公式的特征向量求解问题；寻找矩阵(XD_wX^T)^-1X[αL_b+(1-α)W_w]X^T的前d个特征向量{a₁,…,a_d}，最终的LSDA变换矩阵为

S56.将身份向量通过LSDA变换矩阵A映射到目标身份向量；对于一条原身份向量x_i，映射后的目标身份向量为y_i＝A^Tx_i；

S6.使用PLDA算法对映射后的身份向量进行建模，得到PLDA模型；

S7.对于两个需要判断其对应身份的语音，首先提取出其身份向量，然后计算出它们在PLDA模型上的似然得分，根据分数判断两个身份向量所对应的说话人是否为同一个。

上述方案中，本发明提供的方法主要有两个方面的改进：

改进1：步骤S51中，原始的LSDA算法寻找每条身份向量x_i的k个邻近的身份向量，并将其分成具有和x_i相同说话人类标的类内近邻子集与具有和x_i不同说话人类标的类间近邻子集。考虑如下特殊情况：当身份向量x_i所属说话人类只有x_i一条身份向量时，此时x_i的全部k个邻近的身份向量有着与x_i所属说话人不一样的类标。在这种情况下，LSDA不能有效地学到数据流形的几何结构。

基于此，本发明将自适应k近邻的想法引入LSDA算法。改进的LSDA算法那寻找k个具有相同说话人类标的近邻子集N_w(x_i)与βk个具有不同说话人类标的近邻子集N_b(x_i)，其中β为一个常量。当N_w(x_i)中对应的说话人的身份向量数n_c小于k时，令k＝n_c，此时根据参数n_c与βn_c分别构造N_w(x_i)与N_b(x_i)。

改进2：在步骤S52中，原始LSDA算法的权值矩阵为：

通过目标方程可以看出，由于用于训练说话人识别系统的数据的不均匀分布，身份向量条数少的说话人类对于LSDA算法最终的目标方程的贡献少于身份向量条数多的说话人类，当两个说话人类的身份向量条数相差变大时，这种对LSDA算法目标方程的贡献差异更加明显。理想的情况下，希望每一个说话人类在LSDA算法目标方程中的贡献是一样的。基于此，本发明对步骤S52中的类内权值矩阵W_w′与类间权值矩阵W_b′做如下修改：

为了满足在对两个LSDA的原始目标方程的变形改写，最终的类内权值矩阵W_w与类间权值矩阵W_b为以下对称矩阵的形式：

与现有技术相比，本发明的有益效果是：

附图说明

图1为LSDA算法的学习过程。

图2为识别方法的流程图。

图3为实验结果的检测错误均衡曲线。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

本实施例采用美国国家技术标准局2010年说话人识别(NIST SRE 2010)的训练数据进行说话人识别系统的搭建，使用其核心测试集对所搭建的说话人识别系统进行性能测试。图2为本发明提供的基于改进LSDA算法进行信道补偿的说话人识别方法的具体流程图，该方法包括以下步骤：

步骤1、对训练数据中的所有语音进行语音信号检测(Voice ActivityDetection,VAD)，并提取MFCC特征。本实施例中采用了基于能量的VAD来去掉语音信号中的静音与噪声部分。每一条语音提取出一连串的多维的MFCC特征向量，并使用特征均值方差归一化与特征弯曲(feature warping)对MFCC特征向量进行处理，以抑制说话人类内差异。

步骤2、使用神经网络声学模型，提取MFCC特征中每一帧在各个音素层单元上的后验概率。一个MFCC帧通过神经网络的处理后，得到多维的音素层单元后验概率向量，对其经过取对数、主成分分析(Principal Component Analysis,PCA)降维、均值方差归一化之后，得到一个多维的向量。将这个向量拼接到与其对应的MFCC特征后，得到tandem特征。在本实施例中，使用LDC fisher语料库中约1800小时的英语语料训练神经网络声学模型。

步骤3、使用tandem特征训练一个包含多个高斯分量的混合高斯模型，作为通用背景模型UBM，并将所有语音在这个通用背景模型上计算出充分统计量。对于一条语音，基于充分统计量计算出其高维的超向量。在本实施例中，训练UBM的数据为NIST SRE 2004与2005语料库。

步骤4、使用单因子分析对所有语音学习出一个低维的总体差异空间，即说话人空间。在本实施例中，使用NIST SRE 2004、2005、2006、2008语料库中的电话信道语料训练说话人空间。将所有训练数据语音的超向量在这个总体差异空间上投影得出每一条语音的身份向量，每条身份向量关联着说话人的身份信息。

步骤5、使用改进的LSDA算法进行信道补偿。

步骤5.1、对于每一条身份向量x_i，如图1所示，寻找k个具有相同说话人类标的类内近邻子集N_w(x_i)与βk个具有不同说话人类标的类间近邻子集N_b(x_i)，其中β为一个常量。当x_i对应的说话人类的身份向量数n_c小于k时，令k＝n_c，此时根据参数n_c与βn_c分别构造N_w(x_i)与N_b(x_i)。在本实施例中，k取20，β取3。

步骤5.2、基于类内临近点子集N_w(x_i)与类间临近点子集N_b(x_i)构建身份向量的类内近临图G_w与类间近临图G_b，以及它们的权值矩阵W_w与W_b：

最终的类内权值矩阵W_w′与类间权值矩阵W_b′为以下对称矩阵的形式：

步骤5.3、寻找一个身份向量与目标身份向量之间的映射，使得在目标身份向量中，G_w内的连接点尽量地接近，G_b内的连接点尽量地隔离开。令为一个最优的线性映射，则y_i＝A^Tx_i。根据本发明所描述的对以上两个目标方程进行优化的过程，可得出LSDA算法最终的目标方程：

a^TXD_wX^Ta＝1

其中，α为调整类内图G_w与类间图G_b之间权值的参数，在本实施例中，α取0.1；D_w为对角阵，D_w,ii＝∑_jW_w,ij；L_b＝D_b-W_b,D_b,ii＝∑_jW_b,ij；X＝(x₁,x₂,…,x_m)是一个n×m的矩阵。

步骤5.4、寻找矩阵(XD_wX^T)^-1X[αL_b+(1-α)W_w]X^T的前d个特征向量{a₁,…,a_d}，最终的LSDA变换矩阵为

步骤5.5、将身份向量通过LSDA变换矩阵A映射到目标身份向量；对于一条原身份向量x_i，映射后的目标身份向量为y_i＝A^Tx_i。

步骤6、使用PLDA算法对映射后的身份向量进行建模，得到PLDA模型。在本实施例中，所有的训练数据，包括NIST SRE 2004、2005、2006、2008语料库中的电话信道语料，被用于PLDA模型的训练。

步骤7、对于NIST SRE 2010核心测试集中两个需要判断其对应身份的语音，首先提取出起身份向量，然后计算出它们在PLDA模型上的似然得分，根据分数判断两个身份向量所对应的说话人是否为同一个。

以下为实验结果：

图3、表1记录了本实施例的实验结果。基线系统使用的识别方法为基于i-vector/PLDA算法的识别方法。将基线系统、基于LDA算法进行信道补偿的识别系统、基于LSDA算法进行信道补偿的识别系统作为对照系统，与本实施例提出的基于改进LSDA算法进行信道补偿的识别系统进行对比，验证了本发明所提出的基于改进LSDA算法进行信道补偿的识别方法在说话人识别任务上的有效性。

表1

系统	minDCF10	minDCF08	EER[％]
				基线系统(i-vector/PLDA)	0.2222	0.0681	1.62
LDA	0.2198	0.0672	1.59
				LSDA	0.1957	0.0609	1.43
改进LSDA	0.1842	0.0538	1.16

相比于传统的说话人识别系统，本发明提出的基于改进的LSDA算法进行信道补偿的说话人识别方法在性能上有了明显的提升。在美国国家技术标准局2010年说话人识别(NIST SRE 2010)核心测试集上，等错误率从基线系统的1.62％下降到1.16％，相比下降了28％；最小检测错误代价(norm minDCF10)从0.22下降到0.18，相比下降18％。而原始的基于LSDA算法进行信道补偿的识别方法相比于基线系统，等错误率与最小检测错误代价只下降了11.7％与11.9％。这说明本发明所提出的基于改进LSDA算法进行信道补偿的说话人识别方法相比于原始的基于LSDA算法进行信道补偿的说话人识别方法，在说话人识别任务上有着更加优秀的性能。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于改进的LSDA算法进行信道补偿的说话人识别方法，其特征在于：包括以下步骤：

S5.使用改进的LSDA算法进行信道补偿：

其中，i、j表示矩阵W_b′中第i行、第j列的元素；

W_{w} = \frac{1}{2} (W_{w}^{'} + W_{w}^{' T})

W_{b} = \frac{1}{2} (W_{b}^{'} + W_{b}^{' T})

LSDA算法的两个目标方程可写为：

min∑_ij(a^Tx_i-a^Tx_j)²W_w,ij

max∑_ij(a^Tx_i-a^Tx_j)²W_b,ij

\begin{matrix} \frac{1}{2} Σ_{i j} {(a^{T} x_{i} - a^{T} x_{j})}^{2} W_{w, i j} \\ = \frac{1}{2} Σ_{i j} (a^{T} x_{i} x_{i}^{T} a - 2 a^{T} x_{i} a^{T} x_{j} + a^{T} x_{j} x_{j}^{T} a) W_{w, i j} \\ = \frac{1}{2} (Σ_{i j} a^{T} x_{i} x_{i}^{T} {aW}_{w, i j} + Σ_{i j} a^{T} x_{j} x_{j}^{T} {aW}_{w, i j}) - Σ_{i j} a^{T} x_{i} a^{T} x_{j} W_{w, i j} \\ = Σ_{i j} a^{T} x_{i} x_{i}^{T} {aW}_{w, i j} - Σ_{i j} a^{T} x_{i} a^{T} x_{j} W_{w, i j} \\ = a^{T} {XD}_{w} X^{T} a - a^{T} {XW}_{w} X^{T} a \end{matrix}

\frac{1}{2} Σ_{i j} {(a^{T} x_{i} - a^{T} x_{j})}^{2} W_{b, i j} = a^{T} {XL}_{b} X^{T} a

\begin{matrix} = \frac{1}{2} Σ_{i j} (a^{T} x_{i} x_{i}^{T} a - 2 a^{T} x_{i} a^{T} x_{j} + a^{T} x_{j} x_{j}^{T} a) W_{b, i j} \\ = \frac{1}{2} (Σ_{i j} a^{T} x_{i} x_{i}^{T} {aW}_{b, i j} + Σ_{i j} a^{T} x_{j} x_{j}^{T} {aW}_{b, i j}) - Σ_{i j} a^{T} x_{i} a^{T} x_{j} W_{b, i j} \\ = Σ_{i j} a^{T} x_{i} x_{i}^{T} {aW}_{b, i j} - Σ_{i j} a^{T} x_{i} a^{T} x_{j} W_{b, i j} \\ = a^{T} {XD}_{b} X^{T} a - a^{T} {XW}_{b} X^{T} a \\ = a^{T} {XL}_{b} X^{T} a \end{matrix}

a^TXD_wX^Ta＝1

因此，LSDA算法的第一个目标方程可重写为：

\underset{a}{m i n} 1 - a^{T} {XW}_{w} X^{T} a

也即：

\underset{a}{m a x} a^{T} {XW}_{w} X^{T} a

综合以上的公式推导，LSDA的最终目标方程为：

\begin{matrix} \underset{a}{argmax} & a^{T} X [{αL}_{b} + (1 - α) W_{w}] X^{T} a \end{matrix}

a^TXD_wX^Ta＝1

S55.使用拉格朗日乘子法，以上的目标方程写为：

X[αL_b+(1-α)W_w]X^Ta＝λXD_wX^Ta

将上面公式右边的XD_wX^T化到公式左边，以上公式变为：

(XD_wX^T)^-1X[αL_b+(1-α)W_w]X^Ta＝λa

2.根据权利要求1所述的基于改进的LSDA算法进行信道补偿的说话人识别方法，其特征在于：所述步骤S1采取基于能量的VAD方法来去除语音信号中的静音与噪声部分，然后对去除静音与噪声部分的语音信号进行MFCC特征的提取，并通过特征均值方差归一化与特征弯曲方法对提取的MFCC特征进行处理，以抑制说话人类内差异；处理后的MFCC特征进行步骤S2的处理。

3.根据权利要求1所述的基于改进的LSDA算法进行信道补偿的说话人识别方法，其特征在于：所述步骤S2利用LDC fisher语料库中的英语语料对神经网络声学模型进行训练，然后使用经过训练的神经网络声学模型对MFCC特征进行处理。

4.根据权利要求1所述的基于改进的LSDA算法进行信道补偿的说话人识别方法，其特征在于：所述k取20，β取3，α取0.1。