CN102820033B

CN102820033B - 一种声纹识别方法

Info

Publication number: CN102820033B
Application number: CN2012102955728A
Authority: CN
Inventors: 申富饶; 唐泽林; 赵金熙; 程佳
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2012-08-17
Filing date: 2012-08-17
Publication date: 2013-12-04
Anticipated expiration: 2032-08-17
Also published as: CN102820033A

Abstract

本发明公开了一种声纹识别方法，包括以下步骤：步骤1，对训练语音集内每个说话人的分段语音数据预处理，形成预处理后对应每个说话人的一组样本集合；步骤2，对所有样本集合中每一个样本进行提取梅尔倒谱系数；步骤3，逐一选定一个样本集合并随机选取其中部分样本的梅尔倒谱系数，对该样本集合训练高斯混合模型；步骤4，将步骤3中未被选取训练过的样本，与其对应样本集合的高斯混合模型逐个进行增量学习得到所有优化后的高斯混合模型，利用所有优化后的高斯混合模型优化模型库；步骤5，输入并识别测试语音数据，利用步骤4中优化的模型库识别测试语音数据对应的样本集合的高斯混合模型，将测试语音数据加入到该说话人对应的样本集合中。

Description

一种声纹识别方法

技术领域

本发明涉及一种生物特征识别领域中关于语音特征提取与识别技术领域，具体涉及一种声纹识别方法。

背景技术

生物特征识别技术是指利用人类本身所拥有的、能够标识其身份的生理特征或者行为特征进行身份验证的技术。与传统的身份验证技术相比，生物特征识别技术能够提供更方便的用户服务、提供更高的安全等级、可靠性，越来越多的用于现代安全系统的身份认证。

所谓声纹(Voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明，声纹不仅具有特定性，而且有相对稳定性的特点。成年以后，人的声音可保持长期相对稳定不变。实验证明，无论讲话者是故意模仿他人声音和语气，还是耳语轻声讲话，即使模仿得惟妙惟肖，其声纹却始终相同。基于声纹的这两个特征，侦查人员就可将获取的犯罪分子的声纹和嫌疑人的声纹，通过声纹鉴定技术进行检验对比，迅速认定罪犯，为侦查破案提供可靠的证据。

声纹识别，是从一段语音中分析和提取出说话人的个性特征，自动确定说话人的身份的过程。声纹识别技术作为一种典型的生物特征识别技术，以其便捷、安全可靠等特点，在保安领域、公安司法领域、军事领域、财经领域、信息服务领域以及医学领域有广泛的应用前景。

自动声纹识别的基本过程是对人类语音片段进行特征提取，用提取好的特征向量训练分类器进行识别。一种常用的倒谱特征提取方法是对经过加窗、预加重的语音帧进行傅里叶变换，再对其滤波，然后进行离散余弦变换，若对语音帧用梅尔（Mel）滤波器进行滤波，则提取出的语音特征称为梅尔倒谱特征(MFCC，Mel-FrequencyCepstrum Coefficients)。而常用的声纹识别分类器模型有神经网络模型、隐马尔科夫模型、高斯混合模型(GMM，Gaussian Mixture Model)等。

经对现有技术文献的检索发现，RedaJourani等在《Speaker verification using largemargin GMM discriminative training》中提出使用高维特征训练高斯混合模型，显然其付出的代价是昂贵的，且只比低维度的高斯混合模型提高了0.4%的等误识率。在高斯混合模型中，其时间复杂度与特征维度平方成正比，特征维度每增加一倍，训练模型所需的时间就变为四倍。普通的高斯混合模型无法满足增量学习的要求，在需要间断性学习的要求下，不得不每次重新学习所有的数据。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种声纹识别方法。

为了解决上述技术问题，本发明公开了一种声纹识别方法，包括以下步骤：

步骤1，对训练语音集内每个说话人的分段语音数据预处理，形成预处理后对应每个说话人的一组样本集合，一个说话人的语音数据唯一对应一个样本集合；

步骤2，对所有样本集合中每一个样本进行提取梅尔倒谱系数；

步骤3，逐一选定一个样本集合并随机选取其中部分样本的梅尔倒谱系数，对该样本集合训练高斯混合模型，直到所有样本集合都训练得到高斯混合模型，将所有高斯混合模型组成一个模型库；

步骤4，将步骤3中未被选取训练过的样本，与其对应样本集合的高斯混合模型逐个进行增量学习得到所有优化后的高斯混合模型，利用所有优化后的高斯混合模型优化模型库；

步骤5，输入并识别测试语音数据，利用步骤4中优化的模型库识别测试语音数据对应的样本集合的高斯混合模型，即确定对应说话人，将测试语音数据加入到该说话人对应的样本集合中。

本发明所述语音数据预处理包括：语音数据的加汉明窗分帧、计算每帧语音的短时能量和短时过零率，计算所有语音帧短时能量的算术平均值和所有帧短时过零率的算术平均值，将短时能量小于短时能量的算术平均值一半或短时过零率高于短时过零率的算术平均值的语音帧丢弃，剩下的语音数据作为预处理后的样本集合。

本发明步骤2中梅尔倒谱系数提取包括以下步骤：1）对每帧语音进行傅里叶变换；2）对变换后的语音帧进行梅尔倒谱滤波；3）对滤波后的语音帧进行离散余弦变换；4）求取一阶差分梅尔倒谱系数，将梅尔倒谱系数和一阶差分梅尔倒谱系数合并作为模型训练的特征参数。

本发明步骤3中训练单个初始高斯混合模型包括以下步骤：1）从单个说话人的特征参数中随机选取一部分梅尔倒谱系数，以k-均值方法求取初始聚类；2）以初始聚类均值、方差和权重为高斯混合模型的均值、方差和权重，利用期望最大化算法(EM，Expectation-Maximization)重新计算均值、方差和权重；3）利用期望最大化算法迭代计算均值、方差和权重，直到均值、方差和权重收敛或迭代次数达到预设值；4）将收敛后的均值、方差和权重参数作为此说话人的声纹模型。

步骤4中，对所述对应样本集合中未被选取训练过的样本，以步骤3中高斯混合模型的均值、方差和权重为增量学习高斯混合模型初始均值、方差和权重，进行高斯混合模型增量学习，将增量学习所得到的高斯混合模型的均值、方差和权重组成对应样本集合优化后的高斯混合模型。

本发明所述增量学习包括以下步骤：

步骤41，以步骤3中对应样本集合的当前高斯混合模型的均值、方差和权重作为初始值；

步骤42，在该集合中未被选取训练过的所有样本中选取若干样本的梅尔倒谱系数，组成增量学习样本S；

步骤43，计算增量学习样本S与对应样本集合的当前高斯混合模型I={M₁，M₂，...，M_N}的相似度，其中M₁，M₂，......，M_N为高斯聚类，N的取值范围为30~60，将不与高斯混合模型I中任何高斯聚类相似的样本划分为劣势样本点，组成劣势样本点集合S₁，将其余的样本点划分为优势样本点，组成优势样本点集合S₂，其中S₂={S-S₁}；

将与高斯混合模型I中单个高斯聚类所匹配的样本点个数小于增量学习样本S的样本点数1%的聚类划分为劣势聚类，组成劣势聚类集合I₁={M′₁，M′₂，...，M′_k｝,k≤N，高斯混合模型I中余下的聚类划分为优势聚类，组成优势聚类集合I₂，其中I₂=I-I₁；

步骤44，根据当前高斯混合模型的均值、方差和权重，根据步骤43中优势聚类集合I₂和优势样本点集合S₂计算新的高斯混合模型的均值、方差和权重；

步骤45，若步骤43的劣势样本点集合S₂中样本点个数与增量学习样本S中样本点个数比值大于预设值，则用K均值方法进行聚类，选取一个密度最大的聚类，若该聚类的聚类密度大于当前高斯混合模型中的最小聚类密度，则将该聚类添加到当前高斯混合模型中，将该聚类中的样本点划分为优势样本点，添加到优势样本点集合S₂中，并从劣势样本点集合S₁中去除；

步骤46，重复步骤43~步骤45，直到聚类均值、方差、权重和高斯聚类的个数达到迭代收敛或者迭代次数达到预设值停止，将此时的聚类均值、方差、权重和高斯聚类的个数作为当前高斯混合模型参数；

步骤47，根据步骤46中得到的当前高斯混合模型参数，重复步骤42~步骤46，直到所有样本集合中的所有样本都被选取训练完，得到优化模型库。

本发明步骤5包括对测试语音数据的预处理、提取测试语音数据的梅尔倒谱系数，计算测试语音数据中每帧梅尔倒谱系数的帧置信度，将置信度大于预设值的帧与步骤4中所得到模型库中的高斯混合模型进行相似度匹配，相似度最大的高斯混合模型所对应的说话人即为此帧的候选说话人，将测试语音数据中出现次数最多的候选说话人作为测试结果，将测试语音数据加入到该说话人对应的样本集合中，预设值一般设定范围是0.1~0.9。

本发明公开了一种基于梅尔倒谱系数（Mel-Frequency Cepstrum Coefficients，MFCC）的增量学习高斯混合模型（Incremental Learning Gaussian Mixture Model，IL-GMM）的声纹识别方法。包括以下步骤：步骤一、语音数据预处理；步骤二、生成梅尔倒谱系数；步骤三、用增量高斯混合模型训练梅尔倒谱系数，生成一组初始的训练数据；步骤四、继续输入样本进行增量学习，根据聚类情况决定是否增加新的高斯聚类；步骤五、将待测试语音经过预处理，生成梅尔倒谱系数，输入增量高斯混合模型进行测试，并按测试结果进行增量学习。本发明在普通的高斯混合模型中融入了增量学习部分，其优点在于可以动态的改变高斯聚类的个数和实现了增量学习，可以更好地模拟语音特征的分布和更方便的进行数据的训练。

有益效果：本发明能够根据训练数据自适应的改变模型阶数。这种方法不仅能够大大减少声纹识别的特征维数，减少训练时间，而且能够满足增量学习的要求。具体而言本发明具有以下优点：1、实现了增量学习，在识别过程中能够不断根据人类语音的自然变化进行学习和调整；2、在增量学习时，能够直接利用已经学习过的知识，不需要进行重复的训练，在改进旧知识的同时学习到新的特征；3、在增量学习时，不会因为频繁的学习需求而增加额外的存储，也不会随着不断学习而加重运算负担；4、在增量学习时，能够根据样本自适应的改变高斯混合模型的混合度，更好地模拟样本的空间分布；5、根据已经学习的样本数自适应地调整增量学习的学习率。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1为本发明系统模型图。

图2为本发明系统流程图。

图3为本发明实施例采用的梅尔倒谱滤波器示意图。

具体实施方式

本发明公开了一种声纹识别方法，包括以下步骤：

更具体地说，如图1和图2所示，本发明包括以下步骤。

一、预处理阶段

首先将语音数据按16000Hz的采样率从音频文件中读取出来，得到一个采样点序列。对该序列进行预加重操作，目的是提升高频信号，使信号的频谱变得平坦，保持在低频到高频的整个频带中能用同样的信噪比求得频谱。预加重可通过预加重数字滤波器来实现，本发明使用的一阶的数字滤波器如下：

H(z)=1-ωz^-1

其中ω为接近1的常量，在本发明中取0.95。

其次是使用汉明窗对语音数据加窗，目的是在加窗的过程中对语音进行分帧。将每256个采样点分为一帧，为了保持帧与帧的连续性，采取128个点帧移，即前一帧和后一帧有128个采样点重叠。汉明窗如下：

H表示帧长，在本发明中H取256。加窗的过程就是用窗函数w(n)与语音信号s(n)进行加权的方式来实现的。加窗后的语音信号s_w(n)=s(n)*w(n)。

然后计算语音帧的短时过零率Z(Short-term zero rate)和短时能量E(Short-termenergy)，对语音帧进行筛选。短时过零率表示一帧语音信号波形穿过横轴的次数。可用于区分清音与浊音，清音的短时过零率分布的平均值高于浊音。短时平均过零率的计算如下：

Z = \frac{1}{2} {Σ_{n = 1}^{H - 1} | sgn [s_{w} (n)] - sgn [s_{w} (n - 1)] |}

其中s_w(n)为加窗后的语音信号，

sgn (n) = \{\begin{matrix} 1 & n &GreaterEqual; 0 \\ - 1 & n < 0 \end{matrix} .

语音短时能量也可以用来区分浊音段和清音段，浊音的短时能量比清音大得多，语音短时能量的计算如下：

E = Σ_{n = 0}^{t - 1} S_{w}^{2} (n)

若第k帧的短时过零率大于当前所有帧短时过零率均值，即满足

则将该帧删除掉。

若第k帧的短时能量小于当前所有帧短时能量均值一半，即满足

则同样删除掉该帧。

在语音预处理的过程中，将语音帧中短时能量较低或者短时过零率较高的语音帧丢弃掉，这样做可以提高语音帧的质量，以便训练出高质量的语音模型。

二、提取梅尔倒谱系数

对预处理后的语音信号s_w(t)进行离散时域傅里叶变换（DTFT），得到其短时频谱S_w(jw)。

此过程在本发明中可快速傅里叶变换(FFT)算法代替，对一帧语音s_w(n)进行快速傅里叶变换得到其幅度谱|X(k)|，k为频率。

用梅尔滤波器(Mel Filter)对傅里叶变换的结果|X(k)|进行滤波。梅尔倒谱滤波器如图3所示：

梅尔标度描述了人耳对频率感知的非线性特性，它与频率的关系可用下式近似表示：

F_{Mel} \approx 1127 Ln (1 + \frac{F_{Hz}}{700})

将梅尔频率F_Mel等分为L段，本发明中L取24，每个等分对应一个时域的三角滤波器。第i（1<i<L）个滤波器的取值为：

f(i)是梅尔频率的第i等分的中心频率，且满足：

Mel(f(i+1))-Mel(f(i))=Mel(f(i))-Mel(f(i-1))

将三角形滤波器W_l(k)与幅度谱的平方|X(k)|²相乘得到第l个滤波器的滤波结果

l=1,2,…,L。再将滤波结果进行离散余弦变换即可得到梅尔倒谱系数，第i阶梅尔倒谱系数可以表示为：

{MFCC}_{i} = \sqrt{\frac{2}{L}} Σ_{l = 1}^{L} \ln (m (l)) \cos [(l - \frac{1}{2}) \frac{i}{L} π]

i=1,2,…,20，L在本发明中取维数为24，在计算第i阶梅尔倒谱系数时，必须满足i＜L。若i＝L，则第L阶梅尔倒谱系数为0。

一阶差分梅尔倒谱系数通常和静态梅尔倒谱系数一起使用，因为在低信噪比的时候一阶差分梅尔倒谱系数可以获得更好地噪声鲁棒性。i时刻一阶差分梅尔倒谱系数ΔMFCC_i由下式得到：

{ΔMFCC}_{i} = \frac{Σ_{ρ = 1}^{Θ} ρ ({MFCC}_{i + ρ} - {MFCC}_{i - ρ})}{2 Σ_{ρ = 1}^{Θ} ρ^{2}}

其中MFCC_i+ρ和MFCC_i-ρ分别为i+ρ和i-ρ时刻的静态参数，Θ为求取动态参数的窗长，在本发明中取Θ=1。最后将20维动态梅尔倒谱系数和20维静态梅尔倒谱系数组合起来作为高斯混合模型的参数，即40维梅尔倒谱系数。

通过之前一系列的提取梅尔倒谱系数的操作，将每个语音帧转化为了一个40维的向量，所有的帧组成一个40维向量的集合。

三、训练高斯混合模型

N阶高斯混合模型是以具有不同权重的N个高斯概率密度组成，即g=ω₁g₁+ω₂g₂+…+ω_Ng_N。足够多的高斯分布可以拟合一个任意形式的分布，因此当高斯混合模型混合度足够高时，可以足够精细的逼近说话人特征矢量集的空间分布。一个N阶的高斯混合模型可以由3N个参数描述，

θ = {α_{1}, α_{2}, . . ., α_{N}, μ_{1}, μ_{2}, . . ., μ_{N}, σ_{1}^{2}, σ_{2}^{2}, . . ., σ_{N}^{2}} .

N阶高斯混合模型用N个单高斯分布的线性组合来描述特征空间中的分布。N阶高斯概率表示如下：

g (x; μ, Σ) = \frac{1}{\sqrt{{(2 π)}^{d} | Σ |}} \exp [- \frac{1}{2} {(x - μ)}^{T} Σ^{- 1} (x - μ)]

其中μ代表此密度函数的中心点，∑代表此密度函数的协方差矩阵，d表示变量x的维数。

为了简化计算，在本发明中设各阶高斯模型相互独立，且协方差矩阵为对角矩阵：

此时高斯概率计算公式为：

g (x; μ, σ^{2}) = {(2 π)}^{- d / 2} σ^{- d} \exp [- \frac{{(x - μ)}^{T} (x - μ)}{{2 σ}^{2}}] .

经实验检验，这样假设不会明显地降低说话人的识别率，并且可以完全避免在计算高斯概率时出现协方差矩阵奇异现象，并且可以极大地提高训练和测试速度。

在高斯概率的计算过程中，若第j聚类满足下式：

\max_{i} (\frac{x_{i} - μ_{ji}}{σ_{ji}}) > λ

，λ在此发明中取值3.5，则此点的高斯概率会非常小，为了不影响计算，直接将其概率置为0。这样做就相当于给高斯聚类增加了一个大小限制，让远离聚类中心的点不参与迭代，在条件满足的情况下直接生成新的聚类。

在训练高斯混合模型过程中，以K-均值(K-means)算法计算初始聚类，其中取K=N，可以给N阶高斯混合模型提供N个初始聚类，在本发明中N=50。以每个聚类的均值{μ₁,μ₂…,μ_N}、方差{σ₁ ²,σ₂ ²,…,σ_N ²}和点个数所占比例为高斯混合模型的初始均值、初始方差和初始权重，即初始参数：

θ_{0} = {α_{1}, α_{2}, . . ., α_{N}, μ_{1}, μ_{2}, . . ., μ_{N}, σ_{1}^{2}, σ_{2}^{2}, . . ., σ_{N}^{2}},

且满足条件

Σ_{i = 1}^{N} α_{i} = 1 .

以期望最大化算法计算训练样本中每个点x属于第j高斯成分的后验概率：

β_{j} (x) = \frac{α_{j} g (x; μ_{j} {, σ}_{j}^{2})}{Σ_{i = 1}^{N} α_{i} g (x; μ_{i} {, σ}_{i}^{2})},

根据后验概率计算新的均值μ′和新的方差σ′²。第j个高斯聚类的均值为：

μ_{j}^{'} = \frac{Σ_{i = 1}^{N} β_{j} (x_{i}) x_{i}}{Σ_{i = 1}^{N} β_{j} (x_{i})},

方差为

σ_{jh}^{' 2} = \frac{Σ_{i = 1}^{N} β_{j} (x_{i}) {(x_{ih} - μ_{jh})}^{2}}{Σ_{i = 1}^{N} β_{j} (x_{i})},

权重为

α_{j}^{'} = \frac{1}{t} Σ_{i = 1}^{t} β_{j} (x_{i}),

其中训练样本点个数为t，σ_ih表示第i阶高斯模型的第h维标准差。

令新计算出的参数为集合

θ_{0}^{'} = {α_{1}^{'}, α_{2}^{'}, . . ., α_{N}^{'}, μ_{1}^{'} {, μ}_{2}^{'}, . . ., μ_{N}^{'}, σ_{1}^{' 2}, σ_{2}^{' 2}, . . ., σ_{N}^{' 2}}

，令次次迭代的参数为下次迭代的初始参数，即θ₁=θ′₀，继续进行迭代。若连续两次迭代的参数变化率

小于0.1%则停止迭代，否则将此次计算的模型参数作为下次计算的模型初始参数，即θ_n+1=θ′_n，继续进行迭代，直到参数变化小于0.1%或者迭代次数超过30次。参数变化率具体计算公式如下：

\frac{| θ_{n}^{'} - θ_{n} |}{| θ_{n} |} = \frac{Σ_{i = 1}^{N} | α_{i}^{'} - α_{i} |}{Σ_{i = 1}^{N} | α_{i} |} + \frac{Σ_{i = 1}^{N} | μ_{i}^{'} - μ_{i} |}{Σ_{i = 1}^{N} | μ_{i} |} + \frac{Σ_{i = 1}^{N} | σ_{i}^{'} - σ_{i} |}{Σ_{i = 1}^{N} | σ_{i} |},

训练结束之后，记录每个模型的参数θ(包括均值、方差、权值)和模型中每个聚类的点个数。

四、增量学习

增量学习，即在原有知识的基础上学习新的知识，在进行增量学习时，以原有的高斯混合模型的模型参数

代替K-均值聚类作为增量高斯混合模型学习的初始参数，即

在计算高斯概率时，若p_i(x_j)≥max(p_k(x_j))，且p_i(x_j)≠0，其中k=1，...,N，则认为点x_j属于第i聚类。

在计算后验概率之前先对增量学习样本S中每个点计算其所属高斯聚类(即产生该点概率最大的高斯聚类)，把不属于任何聚类的样本点划为劣势样本点，记为集合S₁，其中S₂=S-S₁为优势聚类。进行求取每个点所属聚类的后验概率时，只用S₁中的点。令所有的高斯聚类为I={M₁,M₂,…,M_N}，令没有被分配到点的聚类和分配到点个数小于S中点个数1%的聚类为劣势聚类，记为I₁={M′₁,…,M′_r},r≤N，剩下的聚类为优势聚类，记为I₂={M″₁,…,M″_q}，q≤N。在聚类过程中为了简化计算，只用优势聚类和优势样本点进行迭代。对属于I₁中聚类的点用直接学习法进行学习，对所有x∈M′_q,M′_q∈I₁，依次更新对应的聚类参数

t_q=t_q+1，q为I₁中聚类标号，t_q为第q聚类的点个数。为了不影响对其他聚类的迭代，暂时不更新权重。将属于劣势聚类的点单独更新，其目的让拥有多数点的少数聚类参加迭代，从而提高运算效率。

在计算后验概率、均值、方差和权重的过程中，只计算第j聚类的后验概率、均值、方差和权重，j为优势聚类中聚类的标号。其计算公式如下。

后验概率计算公式为：

β_{j}^{'} (x) = \frac{α_{j} g (x; μ_{j}, σ_{j}^{2})}{Σ_{i = 1}^{N} α_{i} g (x; μ_{i}, σ_{i}^{2})},

均值计算公式为：

方差计算公式为：

权值计算公式为：

和

为第三步中初始模型中第j聚类的点个数、均值、权值和方差，t_j为此次增量学习过程中第j聚类的点个数，t为优势聚类点个数总和，即

在增量学习中引入点个数，是为了计算每个各聚类的密度，以及为增量学习中参数更新提供依据。

在增量学习中，将新旧聚类信息进行融合，是为了在已有的知识上学习新的知识。在计算完成新的均值、方差和权值后，判断劣势样本点集合S₁中点个数是否足够多，若S₁中的点个数占此次增量学习样本S点个数的10%或更多，则认为该说话人有新的特征需要学习，以K-均值方法在劣势样本点中形成新的聚类。对S₁中的点进行聚类个数为2的K-均值聚类，令聚类为{m₁,m₂}。计算聚类的密度d，

其中q_i为m_i聚类中点的个数，

为M_i聚类方差的二范数。若聚类密度大于高斯混合模型中最小聚类的密度，则执行(1)操作，否则执行(2)操作：

(1)、将{M₁,M₂}中最大密度的聚类作为一个新的聚类添加到增量学习的高斯混合模型中。

(2)、将K-均值聚类个数加1，若聚类个数大于5，则停止添加聚类，否则令聚类为{M₁,M₂,…,M_r}，其中r为K-均值聚类个数。若其中密度最大的聚类m_i的聚类密度大于原模型中最小的聚类密度，就将m_i添加到增量学习的高斯混合模型中，否则重复执行(2)操作。

将聚类个数从2~5依次增加，是为了在劣势样本点中寻找最佳的聚类，将其添加到高斯混合模型中，从一定程度上解决模型初始化问题。若模型在初始化时只学习到了真实分布中的一部分分布，就可以用此方法来增加初始化时未能学习到的聚类。

如果在迭代过程中没有改变聚类个数，就令计算出的新参数为

θ_{0}^{'} = {α_{1}^{'}, α_{2}^{'}, . . ., α_{N}^{'}, μ_{1}^{'} {, μ}_{2}^{'}, . . ., μ_{N^{'}}^{'}, σ_{1}^{' 2}, σ_{2}^{' 2}, . . ., σ_{N^{'}}^{' 2}}

，N′为新的聚类个数。若新旧系数变化量

超过0.1%，就令新的参数为初始参数再次迭代，即θ_n+1=θ′_n。系数变化量具体计算如下：

\frac{| θ_{n}^{'} - θ_{n} |}{| θ_{n} |} = \frac{Σ_{i = 1}^{N^{'}} | α_{i}^{'} - α_{i} |}{Σ_{i = 1}^{N^{'}} | α_{i} |} + \frac{Σ_{i = 1}^{N^{'}} | μ_{i}^{'} - μ_{i} |}{Σ_{i = 1}^{N^{'}} | μ_{i} |} + \frac{Σ_{i = 1}^{N^{'}} | σ_{i}^{'} - σ_{i} |}{Σ_{i = 1}^{N^{'}} | σ_{i} |},

增量学习完成后，将增量学习所得到的结果返回到原来的模型中，即令

将各聚类的点个数加上增量学习中每个聚类的点个数，即

为增量学习中第j聚类的点个数。在每次学习完之后检查参加学习高斯模型中的聚类，若其中第j聚类的点个数

就认为该聚类点个数太少，是由噪声引起的错误聚类，在模型中删除掉该聚类，其中q_j为第j聚类的点个数。

五、测试语音

在测试语音时，首先将待测试语音段转化为梅尔倒谱系数，得到一个40维点的集合{x_i|i=1,…,t}，t为该语音段中语音帧个数。计算特征点所属的说话人模型概率，如计算第i个点所属说话人模型的概率为{g₁(x_i),g₂(x_i),…,g_k(x_i)}，其中k为说话人模型个数，若则认为该点为有效测试点，γ的取值通常从0.1~0.9，本发明中取0.5。概率argmax{g₁(x_i),g₂(x_i),…,g_k(x_i)}取最大值的说话人模型为候选说话人。统计所有有效测试点的候选说话人，其中出现次数最多的说话人即为测试所得说话人。若本次测试中出现的候选说话人次数与有效测试点个数之比小于0.2，则拒识该说话人。

在测试出语音段所属说话人后，将该语音段中属于测试所得说话人的语音帧用于增量学习，学习方法同第四步增量学习方法。

本实施例的训练语音集为2006语音分离挑战赛(Speech separation challenge 2006)，共34个说话人语音，每个说话人有500段1s左右长短训练语音，测试集为889个1s左右长短语音。

训练方法：（1）增量训练方法，将训练集内34个说话人的500段语音按前20段进行普通高斯混合模型训练方法训练，后480段语音按增量学习方法，每次学习20秒,分24次学习完毕；（2）非增量训练方法，将每个说话人的500段语音中随机选取一定数量的语音，按照传统高斯混合模型训练方法训练。889个测试语音全部测试，分别按测试时增量学习（即将所测得语音当作训练样本进行增量学习）和测试时未增量学习方法进行，其准确率如下：

测试方法：（1）测试数据非增量学习方法，将889个测试语音分别测试，但不将测试语音增量学习到测试结果说话人模型中；（2）测试数据增量学习方法，将889个测试语音分别测试，将测试语音增量学习到测试结果说话人模型中。

表1

训练方法	测试方法	识别率
			增量训练	测试数据非增量学习	99.89%
增量训练	测试数据增量学习	99.89%
			非增量训练30秒	测试数据增量学习	99.78%
非增量训练30秒	测试数据非增量学习	99.55%
			非增量训练20秒	测试数据非增量学习	99.33%

在表1中可以看出，（1）随着训练样本数的增加，说话人模型更加精确，能更好地模拟说话人语音的真实分布，识别率有所提高；（2）在训练数据非增量学习时，将测试数据作为样本学习到测试结果说话人模型中，增加了样本的个数，能使识别率提高；（3）在训练数据增量学习是，因为总测试样本只有889个，99.89%的识别率时已经正确识别出其中888个，在识别率较高时要再次提高识别率，需要更多的样本来训练。在889个测试样本中每个说话人有26至27段测试语音，所以在每人500段训练语音这种已经充分训练的基础上，使用测试时增量学习来给每个说话人增加26~27个学习样本未能提高识别率。

本发明提供了一种声纹识别方法的思路及方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种声纹识别方法，其特征在于，包括以下步骤：

步骤5，输入并识别测试语音数据，利用步骤4中优化的模型库识别测试语音数据对应的样本集合的高斯混合模型，即确定对应说话人，将测试语音数据加入到该说话人对应的样本集合中；

步骤4中，对所述对应样本集合中未被选取训练过的样本，以步骤3中高斯混合模型的均值、方差和权重为增量学习高斯混合模型初始均值、方差和权重，进行高斯混合模型增量学习，将增量学习所得到的高斯混合模型的均值、方差和权重组成对应样本集合优化后的高斯混合模型；

步骤4中所述增量学习包括以下步骤：

步骤43，计算增量学习样本S与对应样本集合的当前高斯混合模型I={M₁，M₂，…，M_N}的相似度，其中M₁，M₂，……，M_N为高斯聚类，N的取值范围为30～60，将不与高斯混合模型I中任何高斯聚类相似的样本划分为劣势样本点，组成劣势样本点集合S₁，将其余的样本点划分为优势样本点，组成优势样本点集合S₂，其中S₂={SS₁}；

将与高斯混合模型I中单个高斯聚类所匹配的样本点个数小于增量学习样本S的样本点数1%的聚类划分为劣势聚类，组成劣势聚类集合I₁={M′₁，M′₂，…，M′_k},k≤N，高斯混合模型I中余下的聚类划分为优势聚类，组成优势聚类集合I₂，其中I₂=II₁；

步骤46，重复步骤43～步骤45，直到聚类均值、方差、权重和高斯聚类的个数达到迭代收敛或者迭代次数达到预设值停止，将此时的聚类均值、方差、权重和高斯聚类的个数作为当前高斯混合模型参数；

步骤47，根据步骤46中得到的当前高斯混合模型参数，重复步骤42～步骤46，直到所有样本集合中的所有样本都被选取训练完，得到优化模型库。

2.根据权利要求1所述的一种声纹识别方法，其特征在于，步骤5包括对测试语音数据的预处理、提取测试语音数据的梅尔倒谱系数，计算测试语音数据中每帧梅尔倒谱系数的帧置信度，将置信度大于预设值的帧与步骤4中所得到模型库中的高斯混合模型进行相似度匹配，相似度最大的高斯混合模型所对应的说话人即为此帧的候选说话人，将测试语音数据中出现次数最多的候选说话人作为测试结果，将测试语音数据加入到该说话人对应的样本集合中。

3.根据权利要求1或2所述的一种声纹识别方法，其特征在于，所述语音数据预处理包括：语音数据的加汉明窗分帧、计算每帧语音的短时能量和短时过零率，计算所有语音帧短时能量的算术平均值和所有帧短时过零率的算术平均值，将短时能量小于短时能量的算术平均值一半或短时过零率高于短时过零率的算术平均值的语音帧丢弃，剩下的语音数据作为预处理后的样本集合。