CN102820033B - 一种声纹识别方法 - Google Patents
一种声纹识别方法 Download PDFInfo
- Publication number
- CN102820033B CN102820033B CN2012102955728A CN201210295572A CN102820033B CN 102820033 B CN102820033 B CN 102820033B CN 2012102955728 A CN2012102955728 A CN 2012102955728A CN 201210295572 A CN201210295572 A CN 201210295572A CN 102820033 B CN102820033 B CN 102820033B
- Authority
- CN
- China
- Prior art keywords
- sample
- hybrid models
- gauss hybrid
- cluster
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
本发明公开了一种声纹识别方法,包括以下步骤:步骤1,对训练语音集内每个说话人的分段语音数据预处理,形成预处理后对应每个说话人的一组样本集合;步骤2,对所有样本集合中每一个样本进行提取梅尔倒谱系数;步骤3,逐一选定一个样本集合并随机选取其中部分样本的梅尔倒谱系数,对该样本集合训练高斯混合模型;步骤4,将步骤3中未被选取训练过的样本,与其对应样本集合的高斯混合模型逐个进行增量学习得到所有优化后的高斯混合模型,利用所有优化后的高斯混合模型优化模型库;步骤5,输入并识别测试语音数据,利用步骤4中优化的模型库识别测试语音数据对应的样本集合的高斯混合模型,将测试语音数据加入到该说话人对应的样本集合中。
Description
技术领域
本发明涉及一种生物特征识别领域中关于语音特征提取与识别技术领域,具体涉及一种声纹识别方法。
背景技术
生物特征识别技术是指利用人类本身所拥有的、能够标识其身份的生理特征或者行为特征进行身份验证的技术。与传统的身份验证技术相比,生物特征识别技术能够提供更方便的用户服务、提供更高的安全等级、可靠性,越来越多的用于现代安全系统的身份认证。
所谓声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明,声纹不仅具有特定性,而且有相对稳定性的特点。成年以后,人的声音可保持长期相对稳定不变。实验证明,无论讲话者是故意模仿他人声音和语气,还是耳语轻声讲话,即使模仿得惟妙惟肖,其声纹却始终相同。基于声纹的这两个特征,侦查人员就可将获取的犯罪分子的声纹和嫌疑人的声纹,通过声纹鉴定技术进行检验对比,迅速认定罪犯,为侦查破案提供可靠的证据。
声纹识别,是从一段语音中分析和提取出说话人的个性特征,自动确定说话人的身份的过程。声纹识别技术作为一种典型的生物特征识别技术,以其便捷、安全可靠等特点,在保安领域、公安司法领域、军事领域、财经领域、信息服务领域以及医学领域有广泛的应用前景。
自动声纹识别的基本过程是对人类语音片段进行特征提取,用提取好的特征向量训练分类器进行识别。一种常用的倒谱特征提取方法是对经过加窗、预加重的语音帧进行傅里叶变换,再对其滤波,然后进行离散余弦变换,若对语音帧用梅尔(Mel)滤波器进行滤波,则提取出的语音特征称为梅尔倒谱特征(MFCC,Mel-FrequencyCepstrum Coefficients)。而常用的声纹识别分类器模型有神经网络模型、隐马尔科夫模型、高斯混合模型(GMM,Gaussian Mixture Model)等。
经对现有技术文献的检索发现,RedaJourani等在《Speaker verification using largemargin GMM discriminative training》中提出使用高维特征训练高斯混合模型,显然其付出的代价是昂贵的,且只比低维度的高斯混合模型提高了0.4%的等误识率。在高斯混合模型中,其时间复杂度与特征维度平方成正比,特征维度每增加一倍,训练模型所需的时间就变为四倍。普通的高斯混合模型无法满足增量学习的要求,在需要间断性学习的要求下,不得不每次重新学习所有的数据。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种声纹识别方法。
为了解决上述技术问题,本发明公开了一种声纹识别方法,包括以下步骤:
步骤1,对训练语音集内每个说话人的分段语音数据预处理,形成预处理后对应每个说话人的一组样本集合,一个说话人的语音数据唯一对应一个样本集合;
步骤2,对所有样本集合中每一个样本进行提取梅尔倒谱系数;
步骤3,逐一选定一个样本集合并随机选取其中部分样本的梅尔倒谱系数,对该样本集合训练高斯混合模型,直到所有样本集合都训练得到高斯混合模型,将所有高斯混合模型组成一个模型库;
步骤4,将步骤3中未被选取训练过的样本,与其对应样本集合的高斯混合模型逐个进行增量学习得到所有优化后的高斯混合模型,利用所有优化后的高斯混合模型优化模型库;
步骤5,输入并识别测试语音数据,利用步骤4中优化的模型库识别测试语音数据对应的样本集合的高斯混合模型,即确定对应说话人,将测试语音数据加入到该说话人对应的样本集合中。
本发明所述语音数据预处理包括:语音数据的加汉明窗分帧、计算每帧语音的短时能量和短时过零率,计算所有语音帧短时能量的算术平均值和所有帧短时过零率的算术平均值,将短时能量小于短时能量的算术平均值一半或短时过零率高于短时过零率的算术平均值的语音帧丢弃,剩下的语音数据作为预处理后的样本集合。
本发明步骤2中梅尔倒谱系数提取包括以下步骤:1)对每帧语音进行傅里叶变换;2)对变换后的语音帧进行梅尔倒谱滤波;3)对滤波后的语音帧进行离散余弦变换;4)求取一阶差分梅尔倒谱系数,将梅尔倒谱系数和一阶差分梅尔倒谱系数合并作为模型训练的特征参数。
本发明步骤3中训练单个初始高斯混合模型包括以下步骤:1)从单个说话人的特征参数中随机选取一部分梅尔倒谱系数,以k-均值方法求取初始聚类;2)以初始聚类均值、方差和权重为高斯混合模型的均值、方差和权重,利用期望最大化算法(EM,Expectation-Maximization)重新计算均值、方差和权重;3)利用期望最大化算法迭代计算均值、方差和权重,直到均值、方差和权重收敛或迭代次数达到预设值;4)将收敛后的均值、方差和权重参数作为此说话人的声纹模型。
步骤4中,对所述对应样本集合中未被选取训练过的样本,以步骤3中高斯混合模型的均值、方差和权重为增量学习高斯混合模型初始均值、方差和权重,进行高斯混合模型增量学习,将增量学习所得到的高斯混合模型的均值、方差和权重组成对应样本集合优化后的高斯混合模型。
本发明所述增量学习包括以下步骤:
步骤41,以步骤3中对应样本集合的当前高斯混合模型的均值、方差和权重作为初始值;
步骤42,在该集合中未被选取训练过的所有样本中选取若干样本的梅尔倒谱系数,组成增量学习样本S;
步骤43,计算增量学习样本S与对应样本集合的当前高斯混合模型I={M1,M2,...,MN}的相似度,其中M1,M2,......,MN为高斯聚类,N的取值范围为30~60,将不与高斯混合模型I中任何高斯聚类相似的样本划分为劣势样本点,组成劣势样本点集合S1,将其余的样本点划分为优势样本点,组成优势样本点集合S2,其中S2={S-S1};
将与高斯混合模型I中单个高斯聚类所匹配的样本点个数小于增量学习样本S的样本点数1%的聚类划分为劣势聚类,组成劣势聚类集合I1={M′1,M′2,...,M′k},k≤N,高斯混合模型I中余下的聚类划分为优势聚类,组成优势聚类集合I2,其中I2=I-I1;
步骤44,根据当前高斯混合模型的均值、方差和权重,根据步骤43中优势聚类集合I2和优势样本点集合S2计算新的高斯混合模型的均值、方差和权重;
步骤45,若步骤43的劣势样本点集合S2中样本点个数与增量学习样本S中样本点个数比值大于预设值,则用K均值方法进行聚类,选取一个密度最大的聚类,若该聚类的聚类密度大于当前高斯混合模型中的最小聚类密度,则将该聚类添加到当前高斯混合模型中,将该聚类中的样本点划分为优势样本点,添加到优势样本点集合S2中,并从劣势样本点集合S1中去除;
步骤46,重复步骤43~步骤45,直到聚类均值、方差、权重和高斯聚类的个数达到迭代收敛或者迭代次数达到预设值停止,将此时的聚类均值、方差、权重和高斯聚类的个数作为当前高斯混合模型参数;
步骤47,根据步骤46中得到的当前高斯混合模型参数,重复步骤42~步骤46,直到所有样本集合中的所有样本都被选取训练完,得到优化模型库。
本发明步骤5包括对测试语音数据的预处理、提取测试语音数据的梅尔倒谱系数,计算测试语音数据中每帧梅尔倒谱系数的帧置信度,将置信度大于预设值的帧与步骤4中所得到模型库中的高斯混合模型进行相似度匹配,相似度最大的高斯混合模型所对应的说话人即为此帧的候选说话人,将测试语音数据中出现次数最多的候选说话人作为测试结果,将测试语音数据加入到该说话人对应的样本集合中,预设值一般设定范围是0.1~0.9。
本发明公开了一种基于梅尔倒谱系数(Mel-Frequency Cepstrum Coefficients,MFCC)的增量学习高斯混合模型(Incremental Learning Gaussian Mixture Model,IL-GMM)的声纹识别方法。包括以下步骤:步骤一、语音数据预处理;步骤二、生成梅尔倒谱系数;步骤三、用增量高斯混合模型训练梅尔倒谱系数,生成一组初始的训练数据;步骤四、继续输入样本进行增量学习,根据聚类情况决定是否增加新的高斯聚类;步骤五、将待测试语音经过预处理,生成梅尔倒谱系数,输入增量高斯混合模型进行测试,并按测试结果进行增量学习。本发明在普通的高斯混合模型中融入了增量学习部分,其优点在于可以动态的改变高斯聚类的个数和实现了增量学习,可以更好地模拟语音特征的分布和更方便的进行数据的训练。
有益效果:本发明能够根据训练数据自适应的改变模型阶数。这种方法不仅能够大大减少声纹识别的特征维数,减少训练时间,而且能够满足增量学习的要求。具体而言本发明具有以下优点:1、实现了增量学习,在识别过程中能够不断根据人类语音的自然变化进行学习和调整;2、在增量学习时,能够直接利用已经学习过的知识,不需要进行重复的训练,在改进旧知识的同时学习到新的特征;3、在增量学习时,不会因为频繁的学习需求而增加额外的存储,也不会随着不断学习而加重运算负担;4、在增量学习时,能够根据样本自适应的改变高斯混合模型的混合度,更好地模拟样本的空间分布;5、根据已经学习的样本数自适应地调整增量学习的学习率。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1为本发明系统模型图。
图2为本发明系统流程图。
图3为本发明实施例采用的梅尔倒谱滤波器示意图。
具体实施方式
本发明公开了一种声纹识别方法,包括以下步骤:
步骤1,对训练语音集内每个说话人的分段语音数据预处理,形成预处理后对应每个说话人的一组样本集合,一个说话人的语音数据唯一对应一个样本集合;
步骤2,对所有样本集合中每一个样本进行提取梅尔倒谱系数;
步骤3,逐一选定一个样本集合并随机选取其中部分样本的梅尔倒谱系数,对该样本集合训练高斯混合模型,直到所有样本集合都训练得到高斯混合模型,将所有高斯混合模型组成一个模型库;
步骤4,将步骤3中未被选取训练过的样本,与其对应样本集合的高斯混合模型逐个进行增量学习得到所有优化后的高斯混合模型,利用所有优化后的高斯混合模型优化模型库;
步骤5,输入并识别测试语音数据,利用步骤4中优化的模型库识别测试语音数据对应的样本集合的高斯混合模型,即确定对应说话人,将测试语音数据加入到该说话人对应的样本集合中。
更具体地说,如图1和图2所示,本发明包括以下步骤。
一、预处理阶段
首先将语音数据按16000Hz的采样率从音频文件中读取出来,得到一个采样点序列。对该序列进行预加重操作,目的是提升高频信号,使信号的频谱变得平坦,保持在低频到高频的整个频带中能用同样的信噪比求得频谱。预加重可通过预加重数字滤波器来实现,本发明使用的一阶的数字滤波器如下:
H(z)=1-ωz-1
其中ω为接近1的常量,在本发明中取0.95。
其次是使用汉明窗对语音数据加窗,目的是在加窗的过程中对语音进行分帧。将每256个采样点分为一帧,为了保持帧与帧的连续性,采取128个点帧移,即前一帧和后一帧有128个采样点重叠。汉明窗如下:
H表示帧长,在本发明中H取256。加窗的过程就是用窗函数w(n)与语音信号s(n)进行加权的方式来实现的。加窗后的语音信号sw(n)=s(n)*w(n)。
然后计算语音帧的短时过零率Z(Short-term zero rate)和短时能量E(Short-termenergy),对语音帧进行筛选。短时过零率表示一帧语音信号波形穿过横轴的次数。可用于区分清音与浊音,清音的短时过零率分布的平均值高于浊音。短时平均过零率的计算如下:
其中sw(n)为加窗后的语音信号, 语音短时能量也可以用来区分浊音段和清音段,浊音的短时能量比清音大得多,语音短时能量的计算如下:
在语音预处理的过程中,将语音帧中短时能量较低或者短时过零率较高的语音帧丢弃掉,这样做可以提高语音帧的质量,以便训练出高质量的语音模型。
二、提取梅尔倒谱系数
对预处理后的语音信号sw(t)进行离散时域傅里叶变换(DTFT),得到其短时频谱Sw(jw)。
此过程在本发明中可快速傅里叶变换(FFT)算法代替,对一帧语音sw(n)进行快速傅里叶变换得到其幅度谱|X(k)|,k为频率。
用梅尔滤波器(Mel Filter)对傅里叶变换的结果|X(k)|进行滤波。梅尔倒谱滤波器如图3所示:
梅尔标度描述了人耳对频率感知的非线性特性,它与频率的关系可用下式近似表示:
将梅尔频率FMel等分为L段,本发明中L取24,每个等分对应一个时域的三角滤波器。第i(1<i<L)个滤波器的取值为:
f(i)是梅尔频率的第i等分的中心频率,且满足:
Mel(f(i+1))-Mel(f(i))=Mel(f(i))-Mel(f(i-1))
i=1,2,…,20,L在本发明中取维数为24,在计算第i阶梅尔倒谱系数时,必须满足i<L。若i=L,则第L阶梅尔倒谱系数为0。
一阶差分梅尔倒谱系数通常和静态梅尔倒谱系数一起使用,因为在低信噪比的时候一阶差分梅尔倒谱系数可以获得更好地噪声鲁棒性。i时刻一阶差分梅尔倒谱系数ΔMFCCi由下式得到:
其中MFCCi+ρ和MFCCi-ρ分别为i+ρ和i-ρ时刻的静态参数,Θ为求取动态参数的窗长,在本发明中取Θ=1。最后将20维动态梅尔倒谱系数和20维静态梅尔倒谱系数组合起来作为高斯混合模型的参数,即40维梅尔倒谱系数。
通过之前一系列的提取梅尔倒谱系数的操作,将每个语音帧转化为了一个40维的向量,所有的帧组成一个40维向量的集合。
三、训练高斯混合模型
N阶高斯混合模型是以具有不同权重的N个高斯概率密度组成,即g=ω1g1+ω2g2+…+ωNgN。足够多的高斯分布可以拟合一个任意形式的分布,因此当高斯混合模型混合度足够高时,可以足够精细的逼近说话人特征矢量集的空间分布。一个N阶的高斯混合模型可以由3N个参数描述, N阶高斯混合模型用N个单高斯分布的线性组合来描述特征空间中的分布。N阶高斯概率表示如下:
其中μ代表此密度函数的中心点,∑代表此密度函数的协方差矩阵,d表示变量x的维数。
为了简化计算,在本发明中设各阶高斯模型相互独立,且协方差矩阵为对角矩阵:
此时高斯概率计算公式为:
经实验检验,这样假设不会明显地降低说话人的识别率,并且可以完全避免在计算高斯概率时出现协方差矩阵奇异现象,并且可以极大地提高训练和测试速度。
在高斯概率的计算过程中,若第j聚类满足下式:
,λ在此发明中取值3.5,则此点的高斯概率会非常小,为了不影响计算,直接将其概率置为0。这样做就相当于给高斯聚类增加了一个大小限制,让远离聚类中心的点不参与迭代,在条件满足的情况下直接生成新的聚类。
在训练高斯混合模型过程中,以K-均值(K-means)算法计算初始聚类,其中取K=N,可以给N阶高斯混合模型提供N个初始聚类,在本发明中N=50。以每个聚类的均值{μ1,μ2…,μN}、方差{σ1 2,σ2 2,…,σN 2}和点个数所占比例为高斯混合模型的初始均值、初始方差和初始权重,即初始参数:
根据后验概率计算新的均值μ′和新的方差σ′2。第j个高斯聚类的均值为:
其中训练样本点个数为t,σih表示第i阶高斯模型的第h维标准差。
令新计算出的参数为集合 ,令次次迭代的参数为下次迭代的初始参数,即θ1=θ′0,继续进行迭代。若连续两次迭代的参数变化率小于0.1%则停止迭代,否则将此次计算的模型参数作为下次计算的模型初始参数,即θn+1=θ′n,继续进行迭代,直到参数变化小于0.1%或者迭代次数超过30次。参数变化率具体计算公式如下:
训练结束之后,记录每个模型的参数θ(包括均值、方差、权值)和模型中每个聚类的点个数。
四、增量学习
在计算高斯概率时,若pi(xj)≥max(pk(xj)),且pi(xj)≠0,其中k=1,...,N,则认为点xj属于第i聚类。
在计算后验概率之前先对增量学习样本S中每个点计算其所属高斯聚类(即产生该点概率最大的高斯聚类),把不属于任何聚类的样本点划为劣势样本点,记为集合S1,其中S2=S-S1为优势聚类。进行求取每个点所属聚类的后验概率时,只用S1中的点。令所有的高斯聚类为I={M1,M2,…,MN},令没有被分配到点的聚类和分配到点个数小于S中点个数1%的聚类为劣势聚类,记为I1={M′1,…,M′r},r≤N,剩下的聚类为优势聚类,记为I2={M″1,…,M″q},q≤N。在聚类过程中为了简化计算,只用优势聚类和优势样本点进行迭代。对属于I1中聚类的点用直接学习法进行学习,对所有x∈M′q,M′q∈I1,依次更新对应的聚类参数 tq=tq+1,q为I1中聚类标号,tq为第q聚类的点个数。为了不影响对其他聚类的迭代,暂时不更新权重。将属于劣势聚类的点单独更新,其目的让拥有多数点的少数聚类参加迭代,从而提高运算效率。
在计算后验概率、均值、方差和权重的过程中,只计算第j聚类的后验概率、均值、方差和权重,j为优势聚类中聚类的标号。其计算公式如下。
后验概率计算公式为:
均值计算公式为:
方差计算公式为:
权值计算公式为:
和为第三步中初始模型中第j聚类的点个数、均值、权值和方差,tj为此次增量学习过程中第j聚类的点个数,t为优势聚类点个数总和,即在增量学习中引入点个数,是为了计算每个各聚类的密度,以及为增量学习中参数更新提供依据。
在增量学习中,将新旧聚类信息进行融合,是为了在已有的知识上学习新的知识。在计算完成新的均值、方差和权值后,判断劣势样本点集合S1中点个数是否足够多,若S1中的点个数占此次增量学习样本S点个数的10%或更多,则认为该说话人有新的特征需要学习,以K-均值方法在劣势样本点中形成新的聚类。对S1中的点进行聚类个数为2的K-均值聚类,令聚类为{m1,m2}。计算聚类的密度d,其中qi为mi聚类中点的个数,为Mi聚类方差的二范数。若聚类密度大于高斯混合模型中最小聚类的密度,则执行(1)操作,否则执行(2)操作:
(1)、将{M1,M2}中最大密度的聚类作为一个新的聚类添加到增量学习的高斯混合模型中。
(2)、将K-均值聚类个数加1,若聚类个数大于5,则停止添加聚类,否则令聚类为{M1,M2,…,Mr},其中r为K-均值聚类个数。若其中密度最大的聚类mi的聚类密度大于原模型中最小的聚类密度,就将mi添加到增量学习的高斯混合模型中,否则重复执行(2)操作。
将聚类个数从2~5依次增加,是为了在劣势样本点中寻找最佳的聚类,将其添加到高斯混合模型中,从一定程度上解决模型初始化问题。若模型在初始化时只学习到了真实分布中的一部分分布,就可以用此方法来增加初始化时未能学习到的聚类。
增量学习完成后,将增量学习所得到的结果返回到原来的模型中,即令将各聚类的点个数加上增量学习中每个聚类的点个数,即为增量学习中第j聚类的点个数。在每次学习完之后检查参加学习高斯模型中的聚类,若其中第j聚类的点个数就认为该聚类点个数太少,是由噪声引起的错误聚类,在模型中删除掉该聚类,其中qj为第j聚类的点个数。
五、测试语音
在测试语音时,首先将待测试语音段转化为梅尔倒谱系数,得到一个40维点的集合{xi|i=1,…,t},t为该语音段中语音帧个数。计算特征点所属的说话人模型概率,如计算第i个点所属说话人模型的概率为{g1(xi),g2(xi),…,gk(xi)},其中k为说话人模型个数,若则认为该点为有效测试点,γ的取值通常从0.1~0.9,本发明中取0.5。概率argmax{g1(xi),g2(xi),…,gk(xi)}取最大值的说话人模型为候选说话人。统计所有有效测试点的候选说话人,其中出现次数最多的说话人即为测试所得说话人。若本次测试中出现的候选说话人次数与有效测试点个数之比小于0.2,则拒识该说话人。
在测试出语音段所属说话人后,将该语音段中属于测试所得说话人的语音帧用于增量学习,学习方法同第四步增量学习方法。
本实施例的训练语音集为2006语音分离挑战赛(Speech separation challenge 2006),共34个说话人语音,每个说话人有500段1s左右长短训练语音,测试集为889个1s左右长短语音。
训练方法:(1)增量训练方法,将训练集内34个说话人的500段语音按前20段进行普通高斯混合模型训练方法训练,后480段语音按增量学习方法,每次学习20秒,分24次学习完毕;(2)非增量训练方法,将每个说话人的500段语音中随机选取一定数量的语音,按照传统高斯混合模型训练方法训练。889个测试语音全部测试,分别按测试时增量学习(即将所测得语音当作训练样本进行增量学习)和测试时未增量学习方法进行,其准确率如下:
测试方法:(1)测试数据非增量学习方法,将889个测试语音分别测试,但不将测试语音增量学习到测试结果说话人模型中;(2)测试数据增量学习方法,将889个测试语音分别测试,将测试语音增量学习到测试结果说话人模型中。
表1
训练方法 | 测试方法 | 识别率 |
增量训练 | 测试数据非增量学习 | 99.89% |
增量训练 | 测试数据增量学习 | 99.89% |
非增量训练30秒 | 测试数据增量学习 | 99.78% |
非增量训练30秒 | 测试数据非增量学习 | 99.55% |
非增量训练20秒 | 测试数据非增量学习 | 99.33% |
在表1中可以看出,(1)随着训练样本数的增加,说话人模型更加精确,能更好地模拟说话人语音的真实分布,识别率有所提高;(2)在训练数据非增量学习时,将测试数据作为样本学习到测试结果说话人模型中,增加了样本的个数,能使识别率提高;(3)在训练数据增量学习是,因为总测试样本只有889个,99.89%的识别率时已经正确识别出其中888个,在识别率较高时要再次提高识别率,需要更多的样本来训练。在889个测试样本中每个说话人有26至27段测试语音,所以在每人500段训练语音这种已经充分训练的基础上,使用测试时增量学习来给每个说话人增加26~27个学习样本未能提高识别率。
本发明提供了一种声纹识别方法的思路及方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (3)
1.一种声纹识别方法,其特征在于,包括以下步骤:
步骤1,对训练语音集内每个说话人的分段语音数据预处理,形成预处理后对应每个说话人的一组样本集合,一个说话人的语音数据唯一对应一个样本集合;
步骤2,对所有样本集合中每一个样本进行提取梅尔倒谱系数;
步骤3,逐一选定一个样本集合并随机选取其中部分样本的梅尔倒谱系数,对该样本集合训练高斯混合模型,直到所有样本集合都训练得到高斯混合模型,将所有高斯混合模型组成一个模型库;
步骤4,将步骤3中未被选取训练过的样本,与其对应样本集合的高斯混合模型逐个进行增量学习得到所有优化后的高斯混合模型,利用所有优化后的高斯混合模型优化模型库;
步骤5,输入并识别测试语音数据,利用步骤4中优化的模型库识别测试语音数据对应的样本集合的高斯混合模型,即确定对应说话人,将测试语音数据加入到该说话人对应的样本集合中;
步骤4中,对所述对应样本集合中未被选取训练过的样本,以步骤3中高斯混合模型的均值、方差和权重为增量学习高斯混合模型初始均值、方差和权重,进行高斯混合模型增量学习,将增量学习所得到的高斯混合模型的均值、方差和权重组成对应样本集合优化后的高斯混合模型;
步骤4中所述增量学习包括以下步骤:
步骤41,以步骤3中对应样本集合的当前高斯混合模型的均值、方差和权重作为初始值;
步骤42,在该集合中未被选取训练过的所有样本中选取若干样本的梅尔倒谱系数,组成增量学习样本S;
步骤43,计算增量学习样本S与对应样本集合的当前高斯混合模型I={M1,M2,…,MN}的相似度,其中M1,M2,……,MN为高斯聚类,N的取值范围为30~60,将不与高斯混合模型I中任何高斯聚类相似的样本划分为劣势样本点,组成劣势样本点集合S1,将其余的样本点划分为优势样本点,组成优势样本点集合S2,其中S2={SS1};
将与高斯混合模型I中单个高斯聚类所匹配的样本点个数小于增量学习样本S的样本点数1%的聚类划分为劣势聚类,组成劣势聚类集合I1={M′1,M′2,…,M′k},k≤N,高斯混合模型I中余下的聚类划分为优势聚类,组成优势聚类集合I2,其中I2=II1;
步骤44,根据当前高斯混合模型的均值、方差和权重,根据步骤43中优势聚类集合I2和优势样本点集合S2计算新的高斯混合模型的均值、方差和权重;
步骤45,若步骤43的劣势样本点集合S2中样本点个数与增量学习样本S中样本点个数比值大于预设值,则用K均值方法进行聚类,选取一个密度最大的聚类,若该聚类的聚类密度大于当前高斯混合模型中的最小聚类密度,则将该聚类添加到当前高斯混合模型中,将该聚类中的样本点划分为优势样本点,添加到优势样本点集合S2中,并从劣势样本点集合S1中去除;
步骤46,重复步骤43~步骤45,直到聚类均值、方差、权重和高斯聚类的个数达到迭代收敛或者迭代次数达到预设值停止,将此时的聚类均值、方差、权重和高斯聚类的个数作为当前高斯混合模型参数;
步骤47,根据步骤46中得到的当前高斯混合模型参数,重复步骤42~步骤46,直到所有样本集合中的所有样本都被选取训练完,得到优化模型库。
2.根据权利要求1所述的一种声纹识别方法,其特征在于,步骤5包括对测试语音数据的预处理、提取测试语音数据的梅尔倒谱系数,计算测试语音数据中每帧梅尔倒谱系数的帧置信度,将置信度大于预设值的帧与步骤4中所得到模型库中的高斯混合模型进行相似度匹配,相似度最大的高斯混合模型所对应的说话人即为此帧的候选说话人,将测试语音数据中出现次数最多的候选说话人作为测试结果,将测试语音数据加入到该说话人对应的样本集合中。
3.根据权利要求1或2所述的一种声纹识别方法,其特征在于,所述语音数据预处理包括:语音数据的加汉明窗分帧、计算每帧语音的短时能量和短时过零率,计算所有语音帧短时能量的算术平均值和所有帧短时过零率的算术平均值,将短时能量小于短时能量的算术平均值一半或短时过零率高于短时过零率的算术平均值的语音帧丢弃,剩下的语音数据作为预处理后的样本集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012102955728A CN102820033B (zh) | 2012-08-17 | 2012-08-17 | 一种声纹识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012102955728A CN102820033B (zh) | 2012-08-17 | 2012-08-17 | 一种声纹识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102820033A CN102820033A (zh) | 2012-12-12 |
CN102820033B true CN102820033B (zh) | 2013-12-04 |
Family
ID=47304118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012102955728A Active CN102820033B (zh) | 2012-08-17 | 2012-08-17 | 一种声纹识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102820033B (zh) |
Families Citing this family (78)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US9424837B2 (en) | 2012-01-24 | 2016-08-23 | Auraya Pty Ltd | Voice authentication and speech recognition system and method |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
BR112015018905B1 (pt) | 2013-02-07 | 2022-02-22 | Apple Inc | Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN103390305B (zh) * | 2013-07-15 | 2015-09-02 | 厦门大学 | 文本提示型声纹门禁系统 |
CN103971700A (zh) * | 2013-08-01 | 2014-08-06 | 哈尔滨理工大学 | 语音监控方法及装置 |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
CN106471570B (zh) | 2014-05-30 | 2019-10-01 | 苹果公司 | 多命令单一话语输入方法 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10127911B2 (en) * | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
CN105989843A (zh) * | 2015-01-28 | 2016-10-05 | 中兴通讯股份有限公司 | 一种实现缺失特征重建的方法和装置 |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
CN105590628A (zh) * | 2015-12-22 | 2016-05-18 | 上海应用技术学院 | 基于自适应调整的高斯混合模型的人声识别方法 |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
CN106169295B (zh) | 2016-07-15 | 2019-03-01 | 腾讯科技(深圳)有限公司 | 身份向量生成方法和装置 |
CN108091340B (zh) * | 2016-11-22 | 2020-11-03 | 北京京东尚科信息技术有限公司 | 声纹识别方法、声纹识别系统和计算机可读存储介质 |
CN107610707B (zh) * | 2016-12-15 | 2018-08-31 | 平安科技(深圳)有限公司 | 一种声纹识别方法及装置 |
CN107068154A (zh) * | 2017-03-13 | 2017-08-18 | 平安科技(深圳)有限公司 | 基于声纹识别的身份验证的方法及系统 |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
CN107195077B (zh) * | 2017-07-19 | 2020-09-18 | 浙江联运环境工程股份有限公司 | 瓶子智能回收机 |
CN109584884B (zh) * | 2017-09-29 | 2022-09-13 | 腾讯科技(深圳)有限公司 | 一种语音身份特征提取器、分类器训练方法及相关设备 |
CN111968643A (zh) * | 2017-09-29 | 2020-11-20 | 赵成智 | 智能识别方法、机器人及计算机可读存储介质 |
CN108154884A (zh) * | 2017-12-07 | 2018-06-12 | 浙江海洋大学 | 一种防替考的身份识别系统 |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
CN110322886A (zh) * | 2018-03-29 | 2019-10-11 | 北京字节跳动网络技术有限公司 | 一种音频指纹提取方法及装置 |
CN108447489B (zh) * | 2018-04-17 | 2020-05-22 | 清华大学 | 一种带反馈的连续声纹认证方法及系统 |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
CN108694950B (zh) * | 2018-05-16 | 2021-10-01 | 清华大学 | 一种基于深度混合模型的说话人确认方法 |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
CN109065069B (zh) | 2018-10-10 | 2020-09-04 | 广州市百果园信息技术有限公司 | 一种音频检测方法、装置、设备及存储介质 |
CN109599120B (zh) * | 2018-12-25 | 2021-12-07 | 哈尔滨工程大学 | 一种基于大规模养殖场厂哺乳动物异常声音监测方法 |
CN109801638B (zh) * | 2019-01-24 | 2023-10-13 | 平安科技(深圳)有限公司 | 语音验证方法、装置、计算机设备及存储介质 |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
CN110473552A (zh) * | 2019-09-04 | 2019-11-19 | 平安科技(深圳)有限公司 | 语音识别认证方法及系统 |
CN111027453B (zh) * | 2019-12-06 | 2022-05-17 | 西北工业大学 | 基于高斯混合模型的非合作水中目标自动识别方法 |
CN111222005B (zh) * | 2020-01-08 | 2023-01-13 | 科大讯飞股份有限公司 | 声纹数据重排序方法、装置、电子设备及存储介质 |
CN113129901A (zh) * | 2020-01-10 | 2021-07-16 | 华为技术有限公司 | 一种语音处理方法、介质及系统 |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
CN112183582A (zh) * | 2020-09-07 | 2021-01-05 | 中国海洋大学 | 一种多特征融合的水下目标识别方法 |
CN113270111A (zh) * | 2021-05-17 | 2021-08-17 | 广州国音智能科技有限公司 | 一种基于音频数据的身高预测方法、装置、设备和介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102324232A (zh) * | 2011-09-12 | 2012-01-18 | 辽宁工业大学 | 基于高斯混合模型的声纹识别方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007233075A (ja) * | 2006-03-01 | 2007-09-13 | Murata Mach Ltd | 議事録作成装置 |
JP2009020291A (ja) * | 2007-07-11 | 2009-01-29 | Yamaha Corp | 音声処理装置および通信端末装置 |
-
2012
- 2012-08-17 CN CN2012102955728A patent/CN102820033B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102324232A (zh) * | 2011-09-12 | 2012-01-18 | 辽宁工业大学 | 基于高斯混合模型的声纹识别方法及系统 |
Non-Patent Citations (4)
Title |
---|
JP特开2007-233075A 2007.09.13 |
JP特开2009-20291A 2009.01.29 |
基于支持向量机的增量学习算法;曹杰 等;《计算机应用研究》;20070831;第24卷(第8期);第48页左栏第2段,第49页左栏第7段-右栏第10段 * |
曹杰 等.基于支持向量机的增量学习算法.《计算机应用研究》.2007,第24卷(第8期), |
Also Published As
Publication number | Publication date |
---|---|
CN102820033A (zh) | 2012-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102820033B (zh) | 一种声纹识别方法 | |
CN102509547B (zh) | 基于矢量量化的声纹识别方法及系统 | |
CN107610707B (zh) | 一种声纹识别方法及装置 | |
CN103345923B (zh) | 一种基于稀疏表示的短语音说话人识别方法 | |
Mannepalli et al. | MFCC-GMM based accent recognition system for Telugu speech signals | |
CN102800316B (zh) | 基于神经网络的声纹识别系统的最优码本设计方法 | |
CN102968990B (zh) | 说话人识别方法和系统 | |
Ramamohan et al. | Sinusoidal model-based analysis and classification of stressed speech | |
CN108922541B (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN101226743A (zh) | 基于中性和情感声纹模型转换的说话人识别方法 | |
CN1808567A (zh) | 验证真人在场状态的声纹认证设备和其认证方法 | |
CN101923855A (zh) | 文本无关的声纹识别系统 | |
CN101136199A (zh) | 语音数据处理方法和设备 | |
CN103794207A (zh) | 一种双模语音身份识别方法 | |
Sithara et al. | Study of MFCC and IHC feature extraction methods with probabilistic acoustic models for speaker biometric applications | |
CN109346084A (zh) | 基于深度堆栈自编码网络的说话人识别方法 | |
Todkar et al. | Speaker recognition techniques: A review | |
CN104240706A (zh) | 一种基于GMM Token配比相似度校正得分的说话人识别方法 | |
CN102496366B (zh) | 一种与文本无关的说话人识别方法 | |
CN104464738B (zh) | 一种面向智能移动设备的声纹识别方法 | |
Ghezaiel et al. | Hybrid network for end-to-end text-independent speaker identification | |
CN100570712C (zh) | 基于锚模型空间投影序数比较的快速说话人确认方法 | |
Pati et al. | Speaker information from subband energies of linear prediction residual | |
Nyodu et al. | Automatic identification of Arunachal language using K-nearest neighbor algorithm | |
Dai et al. | An improved feature fusion for speaker recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |