CN103345923B

CN103345923B - 一种基于稀疏表示的短语音说话人识别方法

Info

Publication number: CN103345923B
Application number: CN201310319824.0A
Authority: CN
Inventors: 程建; 黎兰; 苏靖峰; 周圣云; 李鸿升
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2013-07-26
Filing date: 2013-07-26
Publication date: 2016-05-11
Anticipated expiration: 2033-07-26
Also published as: CN103345923A

Abstract

本发明公开了一种基于稀疏表示的短语音说话人识别方法，属于语音信号处理与模式识别技术领域，其旨在决现有方法在语音数据有限条件下识别率低的问题。其主要包括以下步骤：①对所有语音样本预处理，然后提取梅尔倒谱系数及其一阶差分系数作为特征；②由背景语音库训练高斯背景模型，并提取高斯超向量作为二次特征；③将训练语音样本的高斯超向量排列在一起构成字典；⑤利用稀疏求解算法求解表示系数，并重构信号，根据最小化残差确定识别结果。本发明经自适应得到的高斯超向量，能够极大地缓解语音数据有限带来说话人个性特征表现不足的问题；利用稀疏表示的重构残差进行分类，能够处理语义信息不匹配导致的说话人模型失配的问题。

Description

一种基于稀疏表示的短语音说话人识别方法

技术领域

本发明属于语音信号处理与模式识别技术领域，尤其短语音条件下的说话人识别技术，具体涉及一种基于稀疏表示的短语音说话人识别方法。

背景技术

说话人识别技术是指利用说话人的语音特征来辨别他们的身份，属于生物认证技术的范畴，广泛应用于司法鉴定、互联网安全，军事国防领域。说话人识别技术在实用化过程中还存在诸多问题，其中短语音条件下的训练识别问题受到人们广泛关注。

目前，国内外针对短语音问题普遍采用高斯混合模型-通用背景模型(GaussianMixtureModel-UniversalBackgroundModel,GMM-UBM)，最初采用似然比得分或是采用模板匹配的方法进行识别，后来又有人利用测试样本经过GMM-UBM模型自适应获得高斯超向量，并用支持向量机(SupportVectorMachine,SVM)进行分类，取得了一定的成果。但是这些方法基本属于统计学习理论的范畴，因而需要大量的训练语音数据，同时对特征参数维数有一定的要求，高维的特征参数会严重影响识别效果。而采用高斯混合模型-通用背景模型-最大后验概率(GaussianMixtureModel-UniversalBackgroundModel-MaximumAPosteriori,GMM-UBM-MAP)框架提取的高斯超向量维数较高(一般在一万维以上)，并且在短语音说话人识别中可训练的语音数据非常有限，因此，统计学习理论在处理短语音问题时存在明显的不足。而且当训练和测试语音进一步变短时，经过自适应说话人模型与通用背景模型(UniversalBackgroundModel,UBM)模型差异较小，即使使用优秀的分类器SVM也不能取得很好的效果。

近年来，信号的稀疏表示逐渐成为国内外学术界的研究热点，它主要基于线性模型，对信号的稀疏性假设对高维空间数据同样适用。稀疏表示理论的核心思想是寻求信号在冗余字典的最佳线性表示，冗余字典由非正交的超完备函数基构成，而不是传统信号表示模型中的正交基函数，其表示系数尽可能稀疏，选择的字典要尽可能地符合原信号的结构。如今对于稀疏表示的研究主要集中于三个方面：（1）稀疏分解优化算法，如匹配追踪算法(MatchingPursuit,MP)、正交匹配追踪算法(OrthogonalMatchingPursuit,OMP)以及同伦算法(Homotopy)；（2）字典的设计，主要有最优方向法(MethodofOptimalDirections,MOD)，K-SVD方法；（3）稀疏表示的具体应用，如信号分解、去噪、信号编码、图像修复。

在标准的稀疏表示框架里，信号稀疏表示的主要目标尽可能地减小信号重构残差，并且尽量使用字典里较少的原子表示信号。与稀疏表示相比，诸如线性判别分析的识别算法更适合于识别任务，但是这些识别算法对信号的质量非常敏感，特别当信号含有噪声又或者数据不足的情况，识别效果不尽如人意。而稀疏表示通过信号重构的残差实现分类，可以较好的解决噪声以及数据不足问题。

发明内容

针对现有技术，本发明主要解决的技术问题是提供一种基于稀疏表示的短语音说话人识别方法，用以解决现有技术中在语义信息失配以及说话人模型不匹配时不能有效地提高识别的准确率的问题。

为解决上述问题，本发明采用如下技术方案:

一种基于稀疏表示的短语音说话人识别方法，其特征在于，包括以下步骤：

步骤一：对所有语音样本预处理，主要包括预加重、分帧加窗、端点检测，然后提取梅尔倒谱系数(MelFrequencyCepstralCoefficient,MFCC)及其一阶差分系数作为特征；

步骤二：由背景语音库训练高斯背景模型，并提取高斯超向量作为二次特征；

步骤三：将训练语音样本的高斯超向量排列在一起构成字典；

步骤四：利用稀疏求解算法求解表示系数，并重构信号，根据最小化残差确定识别结果。

更进一步地，所述步骤一具体包括以下步骤：①预加重、②分帧加窗、③端点检测(VoiceActivityDetection,VAD)、④特征参数提取。

更进一步地，所述步骤二具体分解为以下步骤：

S21：训练GMM-UBM模型，该模型本质上是一个大规模的高斯混合模型，由若干高斯密度的线性加权组合而成，满足权重和为1，简单表示为λ＝(M,c,μ,Σ)，M表示高斯分量的个数，c表示高斯分量的线性权重，μ表示高斯分量的均值，Σ表示高斯分量的协方差矩阵，用最大期望(EM)算法训练得到，其核心思想为：假定初始模型λ＝(M,c,μ,Σ)，计算新的模型和分别描述新模型中对应的高斯分量线性权重、高斯分量均值和高斯分集X＝{x_t,t＝1,2,…,T}在新模型下的似然函数大于在原模型下的似然函数p(X|λ)时，用新模型代替原模型λ，并一直迭代直到满足收敛条件或者达到最大迭代次数，其中T表示训练语音的特征向量个数，x_t是训练语音特征集中第t个训练语音特征；第i(i＝1,2,…,M)个高斯分量的新模型参数的重估公式如下：

{\hat{c}}_{i} = \frac{1}{T} Σ_{t = 1}^{T} p (i | x_{t}, λ)

{\hat{μ}}_{i} = \frac{Σ_{t = 1}^{T} p (i | x_{t}, λ) x_{t}}{Σ_{t = 1}^{T} p (i | x_{t}, λ)}

{\hat{Σ}}_{i} = \frac{Σ_{t = 1}^{T} p (i | x_{t}, λ) {(x_{t} - {\hat{μ}}_{i})}^{2}}{Σ_{t = 1}^{T} p (i | x_{t}, λ)}

其中，和分别是新模型的第i(i＝1,2,…,M)个高斯分量对应的高斯分量线性权重、高斯分量均值和高斯分量协方差矩阵，p(i|x_t,λ)是训练语音向量x_t在模型λ中对应第i个高斯分量的后验概率；

S22：在训练得到GMM-UBM模型λ＝(M,c,μ,Σ)后，根据给定说话人语音的特征矢量GMM-UBM模型的匹配程度，将各个高斯分量向目标说话人的特征分布“靠拢”；“靠拢”的过程采用最大后验(MAP)自适应算法，目标说话人的特征参数集为其自适应过程如图4所示，更新后的说话人模型参数和分别表示说话人模型中对应的高斯分量线性权重、高斯分量均值和高斯分量协方差矩阵，训练得到的GMM-UBM模型和说话人模型的高斯分量个数保持一致，对应第i(i＝1,2,…,M)个高斯分量新模型参数更新：

{\tilde{c}}_{i} = [α_{i}^{c} n_{i} / B + (1 - α_{i}^{c}) c_{i}] γ

{\tilde{μ}}_{i} = α_{i}^{μ} E_{i} (\tilde{x}) + (1 - α_{i}^{μ}) μ_{i}

{\tilde{Σ}}_{i} = α_{i}^{Σ} E_{i} ({\tilde{x}}^{2}) + (1 - α_{i}^{Σ}) (Σ_{i}^{2} + μ_{i}^{2}) - {\tilde{μ}}_{i}^{2}

其中，是背景模型中第i个高斯分量与给定说话人语音特征匹配似然度，和分别是目标说话人模型的第i(i＝1,2,…,M)个高斯分量对应的高斯分量线性权重、高斯分量均值和高斯分量协方差矩阵，c_i、μ_i和Σ_i分别是训练所得的模型的第i(i＝1,2,…,M)个高斯分量对应的高斯分量线性权重、高斯分量均值和高斯分量协方差矩阵，B表示目标说话人的语音特征向量个数，表示目标说话人特征参数集中第b个特征，n_i是目标说话人语音分布在第i个高斯分量的帧数，γ是归一化因子，和分别是线性权重、均值和协方差更新表达式中的自适应参数；

S23：提取目标说话人模型的高斯均值向量并拼接起来组成d维的高斯超向量作为特征参数

v = [{\tilde{μ}}_{1}; {\tilde{μ}}_{2}; \cdot \cdot \cdot; {\tilde{μ}}_{M}] .

更进一步地，所述步骤三又具体分解为以下步骤：

S31：将第i个说话人的长度为d维的q_i个高斯超向量排列成第i个说话人对应的子字典A_i，表示这是实域上大小为d×q_i矩阵：

A_{i} = [v_{i, 1}, v_{i, 2}, \cdot \cdot \cdot, v_{i, q_{i}}] &Element; R^{d \times q_{i}}

S32：由于测试样本所属的说话人未知，将k个说话人子字典连接起来组成一个全局字典矩阵A：

A = [A_{1}, A_{2}, \cdot \cdot \cdot, A_{k}] = [v_{1,1}, v_{1,2}, \cdot \cdot \cdot, v_{1, q_{1}}, \cdot \cdot \cdot, v_{k, q_{k}}] &Element; R^{d \times q}, q = Σ_{i = 1}^{k} q_{i}

其中，所述步骤四分解为以下步骤:

S41：对全局字典矩阵A的所有列向量用l₂范数进行归一化；

S42：通过l₁范数最小化算法求解待识别语音高斯超向量y的表示系数：

\hat{β} = \min_{β} {| | β | |}_{1} s . t . {| | Aβ - y | |}_{2} \leq ϵ;

其中是满足||Aβ-y||₂≤ε的表示系数β中有最小l₁范数的表示系数，ε是预先设定的容错范围；

S43：根据表示系数和字典重构信号，并结合原始信号计算重构残差r_i(y)：

r_{i} (y) = {| | y - A_{i} {\hat{β}}_{i} | |}_{2}, i = 1,2, \cdot \cdot \cdot, k

其中A_i表示第i个说话人对应的子字典，表示其对应A_i子字典的系数。

S44：根据最小化重构残差确定识别结果即y所属的说话人：

\hat{i} (y) \min_{i} r_{i} (y), i = 1,2, \cdot \cdot \cdot, k .

与现有技术相比，本发明的有益效果表现在：

一、本发明经自适应得到的高斯超向量，能够极大地缓解语音数据有限带来说话人个性特征表现不足的问题；利用稀疏表示的重构残差进行分类，能够处理语义信息不匹配导致的说话人模型失配的问题。

二、本发求得待测语音在训练语音构成的稀疏字典上的最稀疏的线性表示，利用表示系数重构原始信号，根据重构的残差进行分类；稀疏表示方法在信号表示过程中既包含利于最优分类的判别信息，又包括用于信号重构的关键信息，而且表示的系数尽可能的具有稀疏性，能够很好完成短语音条件下的识别任务。

附图说明

图1是本发明的基于稀疏表示的短语音说话人识别方法的流程图；

图2是本发明中对语音信号预处理的流程图；

图3是本发明的特征参数提取框图；

图4是本发明的说话人模型的自适应过程；

图5是本发明的高斯超向量提取过程；

图6是本发明的稀疏表示求解过程示意图。

具体实施方式

为详细说明本发明的技术内容、构造特征、所实现目的及效果，以下结合实施例并配合附图详予说明。

实施例

如图1所示，一种基于稀疏表示的短语音说话人识别方法，包括以下步骤：

步骤一：对所有语音样本预处理，主要包括预加重、分帧加窗、端点检测，然后提取MFCC及其一阶差分系数作为特征；

在如图2所示，所述步骤一包括步骤S11、S12、S13以及S14，具体如下文所述：

S11：预加重，高频语音信号是反映说话人声带特征不可或缺的部分，因此，需要增强语音信号中的高频能量即预加重处理，使信号的频谱变化相对平缓，简单地说就是让语音信号通过一个高通滤波器，提高信号高频分量的幅值。本实施方案中使用一阶的高通滤波器实现预加重，预加重系数为a的高通滤波器传递函数为：

H(z)＝1-az^-1

S12：分帧加窗，语音信号作为一种非平稳信号，不能对其采用传统的分析方法。目前，广泛采用的是短时分析技术，即假设在非常短的时间（5-50ms）内，语音信号是平稳的，可以采用平稳信号的分析方法，因此，需要对语音作分帧处理，具体而言就是将其分割成小的片段，每个语音片段称为帧。为了避免因分帧引起的帧间的剧烈变化，保持相邻帧的连续性，在分帧的时候会有交叠的区域，称为帧移，一般为帧长的一半。对语音的分帧是通过窗函数在语音信号上滑动实现，为了更好的保留短时信号频率特性，本实施方案选择汉明窗，其时域表达式为：

其中窗口长度N=256。

S13：端点检测(VoiceActivityDetection,VAD)，在语音信号录制过程中，时常会出现背景音时段（静音段），静音段的存在会严重影响系统的识别率和识别速度。语音的端点检测就是区分语音段和静音段，提取有用的语音段，准确的端点检测一方面能够有效地降低计算复杂度，同时还能提高系统鲁棒性。目前，端点检测所采用的语音特征主要有短时能量、短时过零率、高阶统计量。本实施方案采用基于短时能量和短时过零率的双门限检测法。

语音样本经过分帧加窗后，得到的第m帧语音信号在窗口中第n个采样点的语音信号s_m(n)可以表示为：

s_m(n)＝w(n)s(m+n),0≤n≤N-1

其中N是S12中的窗口长度，w(n)是S12中的汉明窗，s(m+n)是分帧加窗前在第m+n个采样点的语音信号。

则第m帧语音信号短时能量E_m为：

E_{m} = Σ_{n = 0}^{N - 1} s_{m}^{2} (n)

短时能量不仅可以辨别有声段和静音段，还能作为特征用于识别任务中。

短时过零率表示的是单帧语音波形穿过零电平的次数，对于离散的数字语音信号，相邻采样点异号称为过零，对于第m帧语音信号s_m(n),0≤n≤N-1，其短时过零率Z_m计算公式为：

Z_{m} = \frac{1}{2} | sgn [s_{m} (n)] - sgn [s_{m} (n - 1)] |, 0 \leq n \leq N - 1

其中，sgn(s)为符号函数，

sgn (s) = \{\begin{matrix} 1, & s &GreaterEqual; 0 \\ - 1, & s < 0 \end{matrix}

在语音信号的清音段，过零率相对较高，而浊音段的过零率比较低，利用短时过零率还可以在背景噪声中找出语音信号。在实际应用中，一般采用将两者相结合的双门限法，这样可以有效的判断语音的有声段和无声段。

S14：特征参数提取，语音波形中一方面包含具体的语义内容，另一方面包含说话人的声纹信息，在说话人识别系统中更重要的是个性特征，但是根据现有的技术还不能完全将两者完全分离。因此，国内外研究人员针对说话人识别中特征参数研究，取得了许多有意义的研究成果。现在，说话人识别系统中使用的特征参数主要有线性预测倒谱系数(LinearPredictiveCepstralCoefficient,LPCC)、共振峰频率、基音周期、MFCC。其中，较为常用的是LPCC和MFCC。前者利用线性预测技术来模拟人的发声模型，取得一定的效果，但是忽略了人耳的听觉特性，而且对高频噪声的鲁棒性较差。后者充分利用人耳的听觉感知特性，通过梅尔频率(MelFrequency,MF)来模拟非线性的听觉系统，大量的实验证明MFCC不仅具有良好的识别性能更具有较强的抗噪能力。提取过程如图3所示，其中FFT表示离散傅里叶变换，DCT表示离散余弦变换。

在本实施例中，步骤二主要包括步骤S21、S22、S23，具体如下文所述：

S21：训练GMM-UBM模型，该模型本质上是一个大规模的高斯混合模型，由若干高斯密度的线性加权组合而成，满足权重和为1，可以简单表示为λ＝(M,c,μ,Σ)，M表示高斯分量的个数，c表示高斯分量的线性权重，μ表示高斯分量的均值，Σ表示高斯分量的协方差矩阵，一般用最大期望(EM)算法训练得到，其核心思想为：假定初始模型λ＝(M,c,μ,Σ)，计算新的模型新模型和初始模型有同样的高斯分量个数M，和分别描述新模型中对应的高斯分量线性权重、高斯分量均值和高斯分量协方差矩阵，当训练语音特征集X＝{x_t,t＝1,2,…,T}在新模型下的似然函数大于在原模型下的似然函数p(X|λ)时，用新模型代替原模型λ，并一直迭代直到满足收敛条件或者达到最大迭代次数，其中T表示训练语音的特征向量个数，x_t是训练语音特征集中第t个训练语音特征。第i(i＝1,2,…,M)个高斯分量的新模型参数的重估公式如下：

{\hat{c}}_{i} = \frac{1}{T} Σ_{t = 1}^{T} p (i | x_{t}, λ)

{\hat{μ}}_{i} = \frac{Σ_{t = 1}^{T} p (i | x_{t}, λ) x_{t}}{Σ_{t = 1}^{T} p (i | x_{t}, λ)}

{\hat{Σ}}_{i} = \frac{Σ_{t = 1}^{T} p (i | x_{t}, λ) {(x_{t} - {\hat{μ}}_{i})}^{2}}{Σ_{t = 1}^{T} p (i | x_{t}, λ)}

其中，和分别是新模型的第i(i＝1,2,…,M)个高斯分量对应的高斯分量线性权重、高斯分量均值和高斯分量协方差矩阵，p(i|x_t,λ)是训练语音向量x_t在模型λ中对应第i个高斯分量的后验概率。

S22：在训练得到GMM-UBM模型λ＝(M,c,μ,Σ)后，根据给定说话人语音的特征矢量GMM-UBM模型的匹配程度，将各个高斯分量向目标说话人的特征分布“靠拢”。“靠拢”的过程采用最大后验(MAP)自适应算法，目标说话人的特征参数集为其自适应过程如图4所示，更新后的说话人模型参数两个模型有同样的高斯分量个数，和分别描述说话人模型中对应的高斯分量线性权重、高斯分量均值和高斯分量协方差矩阵，对应第i(i＝1,2,…,M)个高斯分量新模型参数更新：

{\tilde{c}}_{i} = [α_{i}^{c} n_{i} / B + (1 - α_{i}^{c}) c_{i}] γ

{\tilde{μ}}_{i} = α_{i}^{μ} E_{i} (\tilde{x}) + (1 - α_{i}^{μ}) μ_{i}

{\tilde{Σ}}_{i} = α_{i}^{Σ} E_{i} ({\tilde{x}}^{2}) + (1 - α_{i}^{Σ}) (Σ_{i}^{2} + μ_{i}^{2}) - {\tilde{μ}}_{i}^{2}

其中，

E_{i} (\tilde{x}) = \frac{1}{n_{i}} Σ_{b = 1}^{B} p (i | {\tilde{x}}_{b}) {\tilde{x}}_{b}, E_{i} ({\tilde{x}}^{2}) = \frac{1}{n_{i}} Σ_{b = 1}^{B} p (i | {\tilde{x}}_{b}) {\tilde{x}}_{b}^{2}, p (i | {\tilde{x}}_{b})

是背景模型中第i个高斯分量与给定说话人语音特征匹配似然度，和分别是目标说话人模型的第i(i＝1,2,…,M)个高斯分量对应的高斯分量线性权重、高斯分量均值和高斯分量协方差矩阵，c_i、μ_i和Σ_i分别是训练所得的模型的第i(i＝1,2,…,M)个高斯分量对应的高斯分量线性权重、高斯分量均值和高斯分量协方差矩阵，B表示目标说话人的语音特征向量个数，表示目标说话人特征参数集中第b个特征，n_i是目标说话人语音分布在第i个高斯分量的帧数，γ是归一化因子，和分别是线性权重、均值和协方差更新表达式中的自适应参数；

S23：提取目标说话人模型的高斯均值向量并拼接起来组成d维的高斯超向量作为特征参数提取过程如图5所示。

在本实施例中，所述步骤三包括步骤S31、S32，具体如下文所述：

S31：将第i个说话人的长度为d维的q_i个高斯超向量排列成第i个说话人的子字典A_i，表示这是实域上大小为d×q_i矩阵：

A_{i} = [v_{i, 1}, v_{i, 2}, \cdot \cdot \cdot, v_{i, q_{i}}] &Element; R^{d \times q_{i}}

S32：由于测试样本所属的说话人未知，将k个说话人的子字典连接起来组成一个全局字典矩阵A：

A = [A_{1}, A_{2}, \cdot \cdot \cdot, A_{k}] = [v_{1,1}, v_{1,2}, \cdot \cdot \cdot, v_{1, q_{1}}, \cdot \cdot \cdot, v_{k, q_{k}}] &Element; R^{d \times q}, q = Σ_{i = 1}^{k} q_{i}

其中R表示这是实域上的矩阵，d和q分别对应为全局字典矩阵A的行数和列数。

在本实施例中，步骤四主要包括步骤S41、S42、S43、S44，具体如下文所述。

S41：对全局字典矩阵A的所有列向量用l₂范数进行归一化；

S42：通过l₁范数最小化算法求解待识别语音高斯超向量y表示系数：

\hat{β} = \min_{β} {| | β | |}_{1} s . t . {| | Aβ - y | |}_{2} \leq ϵ;

其中是满足||Aβ-y||₂≤ε的表示系数β中有最小l₁范数的解，ε是预先设定的容错范围；

S43：根据表示系数重构信号，并结合原始信号计算重构残差r_i(y)：

r_{i} (y) = {| | y - A_{i} {\hat{β}}_{i} | |}_{2}, i = 1,2, \cdot \cdot \cdot, k

其中A_i表示第i个说话人的子字典，表示其对应位置的系数。

S44：根据最小化残差确定识别结果即y所属的说话人：

\hat{i} (y) \min_{i} r_{i} (y), i = 1,2, \cdot \cdot \cdot, k .

总体求解过程如图6所示。

综上所述：本发明的核心思想为寻求待测语音在训练语音构成的稀疏字典上的最稀疏的线性表示，利用表示系数重构原始信号，根据重构的残差进行分类。稀疏表示方法在信号表示过程中既包含利于最优分类的判别信息，又包括用于信号重构的关键信息，而且表示的系数尽可能的具有稀疏性，从而能够很好完成短语音条件下的识别任务。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于稀疏表示的短语音说话人识别方法，其特征在于，包括以下步骤：

步骤一：对所有语音样本预处理，主要包括预加重、分帧加窗、端点检测，然后提取梅尔倒谱系数及其一阶差分系数作为特征；

2.根据权利要求1所述的一种基于稀疏表示的短语音说话人识别方法，其特征在于，所述步骤一具体包括以下步骤：①预加重、②分帧加窗、③端点检测、④特征参数提取。

3.根据权利要求1所述的一种基于稀疏表示的短语音说话人识别方法，其特征在于，所述步骤二具体分解为以下步骤：

S21：训练GMM-UBM模型，该模型本质上是一个大规模的高斯混合模型，由若干高斯密度的线性加权组合而成，满足权重和为1，表示为λ＝(M,c,μ,Σ)，M表示高斯分量的个数，c表示高斯分量的线性权重，μ表示高斯分量的均值，Σ表示高斯分量的协方差矩阵，用最大期望(EM)算法训练得到，其核心思想为：假定初始模型λ＝(M,c,μ,Σ)，计算新的模型和分别描述新模型中对应高斯分量线性权重、高斯分量均值和高斯分量协方差矩阵，两个模型的高斯分量个数相同，当训练语音特征集X＝{x_t,t＝1,2,…,T}在新模型下的似然函数大于在原模型下的似然函数p(X|λ)时，用新模型代替原模型λ，并一直迭代直到满足收敛条件或者达到最大迭代次数，其中T表示训练语音的特征向量个数，x_t是训练语音特征集中第t个训练语音特征；第i(i＝1,2,…,M)个高斯分量的新模型参数的重估公式如下：

{\hat{c}}_{i} = \frac{1}{T} Σ_{t = 1}^{T} p (i | x_{t}, λ)

{\hat{μ}}_{i} = \frac{Σ_{t = 1}^{T} p (i | x_{t}, λ) x_{t}}{Σ_{t = 1}^{T} p (i | x_{t}, λ)}

{\hat{Σ}}_{i} = \frac{Σ_{t = 1}^{T} p (i | x_{t}, λ) {(x_{t} - {\hat{μ}}_{i})}^{2}}{Σ_{t = 1}^{T} p (i | x_{t}, λ)}

S22：在训练得到GMM-UBM模型λ＝(M,c,μ,Σ)后，根据给定说话人语音的特征矢量GMM-UBM模型的匹配程度，将各个高斯分量向目标说话人的特征分布“靠拢”；“靠拢”的过程采用最大后验(MAP)自适应算法，目标说话人的特征参数集为更新后的说话人模型参数目标说话人模型和训练得到GMM-UBM模型也具有相同的高斯分量个数M，和分别描述说话人模型中对应的高斯分量线性权重、高斯分量均值和高斯分量协方差矩阵，M也是训练得到的GMM-UBM模型λ的对应高斯分量个数，第i(i＝1,2,…,M)个高斯分量新模型参数和更新过程：

{\tilde{c}}_{i} = [α_{i}^{c} n_{i} / B + (1 - α_{i}^{c}) c_{i}] γ

{\tilde{μ}}_{i} = α_{i}^{μ} E_{i} (\tilde{x}) + (1 - α_{i}^{μ}) μ_{i}

{\tilde{Σ}}_{i} = α_{i}^{Σ} E_{i} ({\tilde{x}}^{2}) + (1 - α_{i}^{Σ}) (Σ_{i}^{2} + μ_{i}^{2}) - {\tilde{μ}}_{i}^{2}

其中，是背景模型中第i个高斯分量与给定说话人语音特征匹配似然度，和分别是目标说话人模型的第i(i＝1,2,…,M)个高斯分量对应的高斯分量线性权重、高斯分量均值和高斯分量协方差矩阵，c_i、μ_i和Σ_i分别是训练所得的模型的第i(i＝1,2,…,M)个高斯分量对应的高斯分量线性权重、高斯分量均值和高斯分量协方差矩阵，B表示目标说话人的语音特征向量个数，n_i是目标说话人语音分布在第i个高斯分量的帧数，γ是归一化因子，和分别是线性权重、均值和协方差更新表达式中的自适应参数；

4.根据权利要求1所述的一种基于稀疏表示的短语音说话人识别方法，其特征在于，所述步骤三又具体分解为以下步骤：

S31：将第i个说话人的q_i个高斯超向量排列成第i个说话人的子字典A_i：

A_{i} = [v_{i, 1}, v_{i, 2}, ..., v_{i, q_{i}}] &Element; R^{d \times q_{i}},

其中表示这是实域上大小为d×q_i的矩阵，d表示高斯超向量维数；

S32：由于测试样本所属的类别未知，将k个类别样本矩阵连接起来组成一个全局字典矩阵A：

A = [A_{1}, A_{2}, ..., A_{k}] = [v_{1, 1}, v_{1, 2}, ..., v_{1, q_{1}}, ..., v_{k, q_{k}}] &Element; R^{d \times q}, q = Σ_{i = 1}^{k} q_{i} .

5.根据权利要求1所述的一种基于稀疏表示的短语音说话人识别方法，其特征在于，所述步骤四分解为以下步骤:

S41：对全局字典矩阵A的所有列向量用l₂范数进行归一化；

\begin{matrix} \hat{β} = \underset{β}{m i n} | | β | |_{1} & s . t . & | | A β - y | |_{2} \leq ϵ \end{matrix};

S43：根据表示系数字典重构信号，并结合原始信号计算重构残差r_i(y)：

r_{i} (y) = | | y - A_{i} {\hat{β}}_{i} | |_{2}, i = 1, 2, ..., k

其中A_i表示第i个说话人的子字典，表示其对应A_i子字典的系数；

S44：根据最小化重构残差确定识别结果即y所属的说话人：

\hat{i} (y) = \underset{i}{m i n} r_{i} (y), i = 1, 2, ..., k .