CN1787075A - 基于内嵌gmm核的支持向量机模型的说话人识别方法 - Google Patents

基于内嵌gmm核的支持向量机模型的说话人识别方法 Download PDF

Info

Publication number
CN1787075A
CN1787075A CNA200510061953XA CN200510061953A CN1787075A CN 1787075 A CN1787075 A CN 1787075A CN A200510061953X A CNA200510061953X A CN A200510061953XA CN 200510061953 A CN200510061953 A CN 200510061953A CN 1787075 A CN1787075 A CN 1787075A
Authority
CN
China
Prior art keywords
centerdot
sigma
speaker
alpha
vector machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200510061953XA
Other languages
English (en)
Other versions
CN100570710C (zh
Inventor
杨莹春
吴朝晖
雷震春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CNB200510061953XA priority Critical patent/CN100570710C/zh
Publication of CN1787075A publication Critical patent/CN1787075A/zh
Application granted granted Critical
Publication of CN100570710C publication Critical patent/CN100570710C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于内嵌GMM核的支持向量机模型的说话人识别方法,首先对每个说话人的语音进行特征提取,然后根据每个说话人的语音训练得到一个高斯混合模型,根据此高斯混合模型,可以将一条语句映射到一个固定大小的高维向量上,并将此向量作为支持向量机的输入进行训练与识别。本发明有益的效果是:结合GMM模型和支持向量机的方法,在说话人识别上获得比GMM模型更好的性能。

Description

基于内嵌GMM核的支持向量机模型的说话人识别方法
技术领域
本发明涉及信号处理和模式识别领域,主要是一种基于内嵌GMM核的支持向量机模型的说话人识别方法。
背景技术
说话人识别是指通过对语音信号的分析和特征提取,自动地确定说话人十分在所登记的说话人集合中,以及说话的人是谁的过程。说话人识别包括两个方面的基本内容:说话人辨认(Speaker Identification)和说话人确认(Speaker Verification)。说话人辨认是鉴别输入的声音究竟是预先登录好的谁的声音,说话人确认是要判断输入的声音是否是自称是说话人本人的声音。
说话人识别基本原理都是为每个说话人建立一个能够描述这一说话人个性特征的模型,在目前语义特征与说话人个性特征还不能很好地从语音特征中得到分离的情况下,实际上是话者的语音特征模型。当前应用较广泛的说话人模型主要有模板模型,向量量化模型(VQ),高斯混合模型(GMM),隐马可夫模型(HMM)等。
支持向量机(Support Vector Machine)是上世纪九十年代发展出来的一种基于统计学习理论的模式识别方法,它采用分类间隔最大的最优分类超平面实现结构风险最小化原则,由于它具有良好的理论基础,得到越来越多的研究,并应用到各个领域中去。
发明内容
本发明要解决上述技术所存在的缺陷,提供一种基于内嵌GMM核的支持向量机模型的说话人识别方法,通过结合高斯混合模型和支持向量机的方法,构造一类新的混合模型用于说话人识别中。
本发明解决其技术问题所采用的技术方案:这种基于内嵌GMM核的支持向量机模型的说话人识别方法,首先对每个说话人的语音进行特征提取,然后根据每个说话人的语音训练得到一个高斯混合模型,根据此高斯混合模型,可以将一条语句映射到一个固定大小的高维向量上,并将此向量作为支持向量机的输入进行训练与识别。
本发明解决其技术问题所采用的技术方案还可以进一步完善。所述多类的方法在本方案中采用的是一对其他的方式,也可以采用一对一的方式或者其他方式进行。
本发明有益的效果是:结合GMM模型和支持向量机的方法,在说话人识别上获得GMM模型更好性能。
具体实施方式
下面结合实施例对本发明作进一步描述。本发明的方法共分六步。
第一步:语音预处理
语音预处理分为采样量化,去零漂,预加重和加窗三个部分。
1、采样量化
A)、用锐截止滤波器对语音信号进行滤波,使其奈奎斯特频率FN为4KHZ;
B)、设置语音采样率F=2FN
C)、对语音信号sa(t)按周期进行采样,得到数字语音信号的振幅序列 s ( n ) = s a ( n F ) ;
D)、用脉冲编码调制(PCM)对s(n)进行量化编码,得到振幅序列的量化表示s’(n)。
2、去零漂
A)、计算量化的振幅序列的平均值s;
B)、将每个振幅值减去平均值,得到去零漂后平均值为0的振幅序列s”(n)。
3、预加重
A)、设置数字滤波器的Z传递函数H(z)=1-αz-1中的预加重系数α,α可取1或比1稍小的值;
B)、s”(n)通过数字滤波器,得到语音信号的高、中、低频幅度相当的振幅序列s(n)。
4、加窗
A)、计算语音帧的帧长N(32毫秒)和帧移量T(10毫秒),分别满足:
N F = 0.032
T F = 0.010
这里F是语音采样率,单位为Hz;
B)、以帧长为N、帧移量为T,把s(n)划分成一系列的语音帧Fm,每一语音帧包含N个语音信号样本;
C)、计算哈明窗函数:
D)、对每一语音帧Fm加哈明窗:
ω(n)×Fm(n){Fm′(n)|n=0,1,…,N-1}。
第二步:特征提取
语音帧上的特征提取采用线性预测系数倒谱(LPCC)的提取。
语音的p阶线性预测是用过去p个时刻的语音采样值的线性组合以最小的预测误差预测下一时刻的语音信号采样值。
设{sn|n=0,1,...,N-1}为一帧的语音采样序列,则sn的预测值为:
s ^ n = - Σ i = 1 p α i s n - i
其中αi(i=1,2,...,p)称为p阶线性预测的预测系数,可由使这一帧的预测误差的平方和最小得到:
E = Σ n = 0 N - p - 1 [ s n + Σ i = 1 p α i s n - i ] 2
一般采用自相关法和协方差法进行求取。语音信号的倒谱特征与语音信号的LPC特征是有关系的,可以先求取LPC特征,然后计算倒谱。
整个计算过程如下:
A)设置线性预测系数的阶数p;
B)在一帧语音信号数据里面计算信号自相关函数:
R i = Σ n = i N s n s n - i
C)计算此帧计算协方差函数:
ψ ik = Σ n = 0 N - 1 s n - i s n - k
D)将上面两步中的结果代入下面方程:
Σ n s n - 1 s n - 1 Σ n s n - 1 s n - 2 · · · Σ n s n - 1 s n - p Σ n s n - 2 s n - 1 Σ n s n - 2 s n - 2 · · · Σ n s n - 2 s n - p · · · · · · · · · · · · · · · · · · · · · Σ n s n - p s n - 1 Σ n s n - p s n - 2 · · · Σ n s n - p s n - p α 1 α 2 · · · α p = - Σ n s n s n - 1 Σ n s n s n - 2 · · · Σ n s n s n - p
其中∑是对n=0~N-p-1求和。
E)计算线性预测倒谱特征:
LPC倒谱特征ci(i=1,2,...,p)可以通过下面等式获得:
c 1 = &alpha; 1 c n = &Sigma; k = 1 n - 1 ( 1 - k n ) &alpha; k c n - k + &alpha; n ( 1 < n &le; p )
第三步、训练说话人的高斯混合模型
M阶高斯混合模型GMM用M个单高斯分布的线性组合来描述帧特征在特征空间中的分布,即:
p ( x ) = &Sigma; i = 1 M P i b i ( x )
其中
b i ( x ) = N ( x , &mu; , R i ) = 1 ( 2 &pi; ) p / 2 | R i | 1 / 2 exp ( - 1 2 ( x - &mu; i ) T R i - 1 ( x - &mu; i ) )
其中,p为特征维数,bbi(x)称为核函数,是均值向量为μi、协方差矩阵为Ri的高斯分布函数,M称为GMM模型的阶数。高斯混合分布的加权系数P1满足
&Sigma; i = 1 M P i = 1
每个说话人的个性特征都可以由形式一致的高斯混合概率密度函数中的参数λ唯一确定,故为每个说话人建立一个GMM模型就是用这一说话人的语音特征训练这一说话人的GMM模型,从而获得GMM模型中的参数λ。
在本方案中,采用EM(Expectation Maximization)算法来获得这些参数,算法描述如下:
A)首先设定高斯混合模型的阶数M,设定初始状态各高斯分布的加权系数Pi=1/M,各个高斯分布的协方差矩阵Ri为单位矩阵,均值向量μi= μ+Δμi,其中 μ为说话人训练样本的均值向量,Δμi为较小的随即向量。
B)设某说话人训练语音的特征为{xt|t=1,2,...,T},按照下面公式对高斯混合模型参数进行重新估计,:
P &prime; i = 1 T &Sigma; t = 1 T P i b i ( x t ) &Sigma; i = 1 M P i b i ( x t )
&mu; &prime; = &Sigma; t = 1 T P ( i t = i | x t , &lambda; ) x t &Sigma; t = 1 T P ( i t = i | x t , &lambda; )
R &prime; i = &Sigma; t = 1 T P ( i t = i | x t , &lambda; ) ( x t - &mu; &prime; i ) T ( x t - &mu; &prime; i ) &Sigma; t = 1 T P ( i t = i | x t , &lambda; )
C)重复B步骤,直到待估计参数的变化小于某个设定值。
第四步、建立支持向量机模型
支持向量机是在统计学习理论的基础上发展出来的一种较新的模式识别方法,它实现了结构风险最小化思想
支持向量机是从线性可分情况下的最优分类面提出的。设线性可分样本集为(xi,yi),i=1,...,n,x∈Rd,y∈{+1,-1}是类别标号,d维空间中线性判别函数的一般形式为g(x)=w·x+b,分类面方程为:
w·x+b=0
将判别函数归一化,使两类所有样本都满足|g(x)|≥1,即使离分类面最近的样本|g(x)|=1,这样分类间隔等于2/‖w‖,因此使得间隔最大等价于使‖w‖最小;而要求分类线对所有样本正确分类,就是要求它满足:
                      yi(w·xi+b)-1≥0,i=1,2,...,n
满足上述条件且使得‖w‖2最小的分类面就是最优分类面,其对偶问题为:
max &alpha; &Sigma; i = 1 n &alpha; i - 1 2 &Sigma; i , j = 1 n &alpha; i &alpha; j y i y j ( x i &CenterDot; y i )
&Sigma; i = 1 n y i &alpha; i = 0
                             αi≥0,i=1,2,...,n
求解α*得为最优解,则权系数是训练样本向量的线性组合:
w * = &Sigma; i = 1 n &alpha; i * y i x i
最优分类函数是:
f ( x ) = sgn ( w * &CenterDot; x + b ) = sgn ( &Sigma; i = 1 n &alpha; i * y i ( x i &CenterDot; x ) + b * )
在线性不可分的情况下,增加一个松弛项ξi≥0,分类条件变成
                      yi(w·xi+b)-1+ξi≥0  i=1,2,...n
最优分类面问题演化为求取下列函数的极小值:
&phi; ( w , &xi; ) = 1 2 ( w &CenterDot; w ) + C ( &Sigma; i = 1 n &xi; i )
其中C为常数,控制错分样本惩罚的程度。
进一步用内积K(x,x′)代替最优分类面中的点积,相当于把原特征空间变换到了某一新的特征空间,优化函数变成:
max &alpha; &Sigma; i = 1 n &alpha; i - 1 2 &Sigma; i , j = 1 n &alpha; i &alpha; j y i y j K ( x i , y i )
相应的判别函数变成:
f ( x ) = sgn ( &Sigma; i = 1 n &alpha; i * y i K ( x i , x ) + b * )
内积函数形式一般有多项式、径向基等,在我们的试验中采用径向基函数形式:
K ( x , x i ) = exp ( - | x - x i | 2 &sigma; 2 )
我们结合高斯混合模型和支持向量机的方法,构造出一类新的用于说话人识别的混合模型。首先是利用前面训练好的GMM模型将长度不一样的语句映射到一个固定大小的向量上;然后将映射后的向量作为支持向量机的输入进行训练。整个过程如下:
A)对于某帧向量xi,找到高斯混合模型λ={wi,μi,∑i}中得分最大的高斯分布
w t p t ( x i ) = arg min j = 1 . . . M { w j p j ( x i ) }
B)将xi映射到一个矩阵
                  Z(xi)=[v1·z1,...,vM-zM]
其中
z k = x i - &mu; t , k = t 0 , else
                    vi=wi·sqrt(diag(∑i)-1)
vi是权重系数,∑i是高斯混合模型的方差矩阵,wi是高斯混合模型中的各个高斯分布权重。
C)对语句的每帧累计其映射矩阵就可以得到语句的映射矩阵:
&Phi; ( X ) = 1 n &Sigma; i = 1 n Z ( x i )
D)通过简单的将矩阵Φ(X)扩展为一个一维向量,此向量就是语句映射后的向量。将此向量作为支持向量机的输入,采用不同类型的核函数进行训练。也可以直接根据矩阵值来得到两条语句的内积函数:
K linear ( X , Y ) = &Sigma; i = 1 d &Sigma; j = 1 M &Phi; ( X ) ij &CenterDot; &Phi; ( Y ) ij
类似的多项式核与径向基核如下所示:
K poly ( X , Y ) = ( &Sigma; i = 1 d &Sigma; j = 1 M ( &Phi; ( X ) ij &CenterDot; &Phi; ( Y ) ij ) + 1 ) n
K rbf ( X , Y ) = exp [ - 1 2 &CenterDot; &Sigma; i = 1 d &Sigma; j = 1 M ( &Phi; ( X ) ij - &Phi; ( Y ) ij ) 2 &sigma; 2 ]
其中σ和n分别示径向基函数和多项式函数的参数。
第五步、说话人识别
说话人识别可分为说话人确认(Speaker Verification)和说话人辨认(SpeakerIdentification)两方面。在说话人确认中,对于一条新的语句,经过特征提取之后得到语句的特征序列,然后利用自称的说话人的高斯混合模型将它映射到一个向量上去,然后将此向量作为自称说话人的支持向量机模型的输入,支持向量机的输出S作为此语句的得分,并将S与某个阈值T相比较,若S>T,则接受这条语句是自称说话人所说的,否则拒绝自称的说话人,即认为这个自称的说话人是冒认者。在这里我们采用等错误率(equal error rate)来评价说话人确认性能。
在说话人辨别中,这条语句对于所有的说话人模型都进行评分,对于某个说话人来说,首先将语句的特征向量序列根据这个说话人的高斯混合模型映射成为一个向量,把此向量输入这个说话人的支持向量机模型中,支持向量机的输出作为这条语句在这个说话人模型上的得分。这样对每个说话人进行评分后,取最大的那个得分的说话人作为此语句的说话人。在这里我们采用错误率来评判说话人辨认性能。
对于一条新的语句的说话人识别阶段可分两步:
A)根据指定说话人的高斯混合模型将语句映射到一个向量上去,并作为指定说话人的支持向量机的输入,在分类判别函数前的输出作为指定说话人的得分值。在说话人辨认中则需要根据各自的高斯混合模型进行映射与计分。
B)在说话人确认中,将指定说话人的得分值与某个阈值比较,若大于此阈值则接受,否则拒绝。在说话人辨认中则选取最大得分的说话人作为结果。
实验结果
本方法YOHO库上进行了实验。该库由138个说话人语音组成,每条都是6个数字的英文发音,长度约为2到3秒。在YOHO库中,每个说话人训练语音分4个部分,每部分有24条语句,测试语音分10个部分,每个部分是4条语句该数据库的,每个说话人的训练语音分4个部分,每个部分是24条语句。特征提取采用12阶的LPCC及其微分,组成24维的特征向量,帧长为30ms,每10ms取一帧,经过去静音,预加重后得到。
支持向量机一般用于解决一个二类分类问题,对于多类的分类,人们一般采用一对一或者一对多的方式进行。采用一对一时候需要构造n*(n-1)/2个分类器,分别将每两类数据进行分类;用一对多是只需要构造n个分类器,将每类数据和其他所有数据进行分开。在我们试验中采用一对多的方式,这样我们只要为每个说话人构造一个支持向量机,其正样本是某个说话人语句在自己的码本上映射后的向量,负样本是其他所有说话人语句在这个说话人的码本上映射后的向量。
我们采用数据库中的前50人进行试验,对每个说话人采用EM算法在所有训练数据上得到一个GMM模型,然后所有说话人的语句用这个GMM模型上进行映射得到训练样本,作为支持向量机的输入。对于多类问题,我们这里采用一对其他的方式进行,这样我们只需要为每个人构造一个支持向量机。
表1显示了模型在YOHO库上进行说话人辨认的试验结果:
表格1 SVM/GMM模型在YOHO库上说话人辨认性能(错误率)
  模型   64阶(%)   128阶(%)
  SVM/GMM(线性核)SVM/GMM(径向基核)SVM/GMM(多项式核)基本GMM   3.52.92.55.4   2.82.52.23.2

Claims (7)

1、一种基于内嵌GMM核的支持向量机模型的说话人识别方法,其特征在于:首先对每个说话人的语音进行特征提取,然后根据每个说话人的语音训练得到一个高斯混合模型,根据此高斯混合模型,可以将一条语句映射到一个固定大小的高维向量上,并将此向量作为支持向量机的输入进行训练与识别。
2、根据权利要求1所述的基于内嵌GMM核的支持向量机模型的说话人识别方法,其特征在于:所述多类的方法采用的是一对其他的方式。
3、根据权利要求1或2所述的基于内嵌GMM核的支持向量机模型的说话人识别方法,其特征在于:该方法的主要步骤:
3.1)、音频预处理:音频预处理分为采样量化,去零漂,预加重和加窗四个部分;
3.2)、语音帧上的特征提取:采用线性预测系数倒谱的提取,先求取语音信号的LPC特征,即线性预测系数特征,然后计算语音信号的倒谱特征;
3.3)、训练说话人的高斯混合模型:为每个说话人建立一个GMM模型,由形式一致的高斯混合概率密度函数中的参数λ唯一确定每个说话人的个性特征,用这一说话人的语音特征训练这一说话人的GMM模型,从而获得GMM模型中的参数λ;
M阶高斯混合模型GMM用M个单高斯分布的线性组合来描述帧特征在特征空间
中的分布,即:
p ( x ) = &Sigma; i = 1 M P i b i ( x )
其中
b i ( x ) = N ( x , &mu; , R i ) = 1 ( 2 &pi; ) p / 2 | R i | 1 / 2 exp ( - 1 2 ( x - &mu; i ) T R i - 1 ( x - &mu; i ) )
其中,p为特征维数,bbi(x)称为核函数,是均值向量为μi、协方差矩阵为Ri的高斯分布函数,M称为GMM模型的阶数;高斯混合分布的加权系数Pi满足
&Sigma; i = 1 M P i = 1 ;
3.4)、建立支持向量机模型:
3.4.1)、在线性可分情况下:支持向量机是从线性可分情况下的最优分类面提出的。设线性可分样本集为(xi,yi),i=1,...,n,x∈Rd,y∈{+1,-1}是类别标号,d维空间中线性判别函数的一般形式为g(x)=w·x+b,分类面方程为:w·x+b=0
将判别函数归一化,使两类所有样本都满足|g(x)|≥1,即使离分类面最近的样本|g(x)|=1,这样分类间隔等于2/‖w‖,因此使得间隔最大等价于使‖w‖最小;而要求分类线对所有样本正确分类,就是要求它满足:
                      yi(w·xi+b)-1≥0,i=1,2,...,n
满足上述条件且使得‖w‖2最小的分类面就是最优分类面,其对偶问题为:
max &alpha; &Sigma; i = 1 n &alpha; i - 1 2 &Sigma; i , j = 1 n &alpha; i &alpha; j y i y j ( x i &CenterDot; y i )
&Sigma; i = 1 n y i &alpha; i = 0
                             αi≥0,i=1,2,...,n
求解α*得为最优解,则权系数是训练样本向量的线性组合:
w * = &Sigma; i = 1 n &alpha; i * y i x i
最优分类函数是:
f ( x ) = sgn ( w * &CenterDot; x + b ) = sgn ( &Sigma; i = 1 n &alpha; i * y i ( x i &CenterDot; x ) + b * )
3.4.2)、在线性不可分的情况下,增加一个松弛项ξi≥0,分类条件变成
                      yi(w·xi+b)-1+ξi≥0  i=1,2,...n
最优分类面问题演化为求取下列函数的极小值:
&phi; ( w , &xi; ) = 1 2 ( w &CenterDot; w ) + C ( &Sigma; i = 1 n &xi; i )
其中C为常数,控制错分样本惩罚的程度;
进一步用内积K(x,x′)代替最优分类面中的点积,相当于把原特征空间变换到了某一新的特征空间,优化函数变成:
max &alpha; &Sigma; i = 1 n &alpha; i - 1 2 &Sigma; i , j = 1 n &alpha; i &alpha; j y i y j k ( x i , y i )
相应的判别函数变成:
f ( x ) = sgn ( &Sigma; i = 1 n &alpha; i * y i K ( x i , x ) + b * )
3.5)、结合高斯混合模型和支持向量机的方法,构造出用于说话人识别的混合模型:首先是利用前面训练好的GMM模型将长度不一样的语句映射到一个固定大小的向量上;然后将映射后的向量作为支持向量机的输入进行训练;
3.6)、说话人识别:说话人识别分为说话人确认和说话人辨认两方面;
3.6.1)、在说话人确认中,对于一条新的语句,经过特征提取之后得到语句的特征序列,然后利用自称的说话人的高斯混合模型将它映射到一个向量上去,然后将此向量作为自称说话人的支持向量机模型的输入,支持向量机的输出S作为此语句的得分,并将S与某个阈值T相比较,若S>T,则接受这条语句是自称说话人所说的,否则拒绝自称的说话人,即认为这个自称的说话人是冒认者;
3.6.2)、在说话人辨别中,这条语句对于所有的说话人模型都进行评分,对于某个说话人来说,首先将语句的特征向量序列根据这个说话人的高斯混合模型映射成为一个向量,把此向量输入这个说话人的支持向量机模型中,支持向量机的输出作为这条语句在这个说话人模型上的得分;这样对每个说话人进行评分后,取最大的那个得分的说话人作为此语句的说话人。
4、根据权利要求3所述的基于混合支持向量机的说话人识别的方法,其特征在于:在语音帧上的特征提取的步骤中:语音的p阶线性预测是用过去p个时刻的语音采样值的线性组合以最小的预测误差预测下一时刻的语音信号采样值;
设{sn|n=0,1,...,N-1}为一帧的语音采样序列,则sn的预测值为:
s ^ n = - &Sigma; i = 1 p &alpha; i s n - i
其中αi(i=1,2,...,p)称为p阶线性预测的预测系数,可由使这一帧的预测误差的平方和最小得到:
E = &Sigma; n = 0 N - p - 1 [ s n + &Sigma; i = 1 p &alpha; i s n - i ] 2 ;
整个计算过程具体如下:
A)、设置线性预测系数的阶数p;
B)、在一帧语音信号数据里面计算信号自相关函数:
R i = &Sigma; n = i N s n s n - i
C)、计算此帧计算协方差函数:
&psi; ik = &Sigma; n = 0 N - 1 s n - i s n - k
D)、将上面两步中的结果代入下面方程:
&Sigma; n s n - 1 s n - 1 &Sigma; n s n - 1 s n - 2 &CenterDot; &CenterDot; &CenterDot; &Sigma; n s n - 1 s n - p &Sigma; n s n - 2 s n - 1 &Sigma; n s n - 2 s n - 2 &CenterDot; &CenterDot; &CenterDot; &Sigma; n s n - 2 s n - p &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &Sigma; n s n - p s n - 1 &Sigma; n s n - p s n - 2 &CenterDot; &CenterDot; &CenterDot; &Sigma; n s n - p s n - p &alpha; 1 &alpha; 2 &CenterDot; &CenterDot; &CenterDot; &alpha; p = &Sigma; n s n s n - 1 &Sigma; n s n s n - 2 &CenterDot; &CenterDot; &CenterDot; &Sigma; n s n s n - p
其中∑是对n=0~N-p-1求和;
E)、计算线性预测倒谱特征:
LPC倒谱特征ci(i=1,2,...,p)可以通过下面等式获得:
c 1 = &alpha; 1 c n = &Sigma; k = 1 n - 1 ( 1 - k n ) &alpha; k c n - k + &alpha; n , ( 1 < n &le; p ) .
5、根据权利要求3所述的基于内嵌GMM核的支持向量机模型的说话人识别方法,其特征在于:采用EM算法来获得GMM模型中的参数λ,算法描述如下:
A)首先设定高斯混合模型的阶数M,设定初始状态各高斯分布的加权系数Pi=1/M,各个高斯分布的协方差矩阵Ri为单位矩阵,均值向量μi= μ+Δμi,其中 μ为说话人训练样本的均值向量,Δμi为较小的随即向量;
B)设某说话人训练语音的特征为{xt|t=1,2,...,T},按照下面公式对高斯混合模型参数进行重新估计:
P &prime; i = 1 T &Sigma; t = 1 T P i b i ( x t ) &Sigma; i = 1 M P i b i ( x t )
&mu; &prime; = &Sigma; t = 1 T P ( i t = i | x t , &lambda; ) x t &Sigma; t = 1 T P ( i t = i | x t , &lambda; )
R &prime; t = &Sigma; t = 1 T P ( i t = i | x t , &lambda; ) ( x t - &mu; &prime; i ) T ( x t - &mu; &prime; i ) &Sigma; t = 1 T P ( i t = i | x t , &lambda; )
C)重复B步骤,直到待估计参数的变化小于某个设定值。
6、根据权利要求3所述的基于混合支持向量机的说话人识别的方法,其特征在于:在
3.5)步骤中的整个过程如下:
A)对于某帧向量xi,找到高斯混合模型λ={wi,μi,∑i}中得分最大的高斯分布
w t p t ( x i ) = arg min j = 1 . . . M { w j p j ( x i ) }
B)将xi映射到一个矩阵
                       Z(xi)=[v1·z1,...,vM·zM]
其中
z k = x i - &mu; t , k = t 0 , else
                       vi=wi·sqrt(diag(∑i)-1)
vi是权重系数,∑i是高斯混合模型的方差矩阵,wi是高斯混合模型中的各个高斯分布权重。
C)对语句的每帧累计其映射矩阵就可以得到语句的映射矩阵:
&Phi; ( X ) = 1 n &Sigma; i = 1 n Z ( x i )
D)通过简单的将矩阵Ф(X)扩展为一个一维向量,此向量就是语句映射后的向量。将此向量作为支持向量机的输入,采用不同类型的核函数进行训练。也可以直接根据矩阵值来得到两条语句的内积函数:
K linear ( X , Y ) = &Sigma; i = 1 d &Sigma; j = 1 M &Phi; ( X ) ij &CenterDot; &Phi; ( Y ) ij
类似的多项式核与径向基核如下所示:
K poly ( X , Y ) = ( &Sigma; i = 1 d &Sigma; j = 1 M ( &Phi; ( X ) ij &CenterDot; &Phi; ( Y ) ij ) + 1 ) n
K rbf ( X , Y ) = exp [ - 1 2 &CenterDot; &Sigma; i = 1 d &Sigma; j = 1 M ( &Phi; ( X ) ij - &Phi; ( Y ) ij ) 2 &sigma; 2 ]
其中σ和n分别示径向基函数和多项式函数的参数。
7、根据权利要求3所述的基于内嵌GMM核的支持向量机模型的说话人识别方法,其特征在于:在步骤3.6)中,对于一条新的语句的说话人识别阶段可分两步:
A)、根据指定说话人的高斯混合模型将语句映射到一个向量上去,并作为指定说话人的支持向量机的输入,在分类判别函数前的输出作为指定说话人的得分值,在说话人辨认中则需要根据各自的高斯混合模型进行映射与计分;
B)、在说话人确认中,将指定说话人的得分值与某个阈值比较,若大于此阈值则接受,否则拒绝,在说话人辨认中则选取最大得分的说话人作为结果。
CNB200510061953XA 2005-12-13 2005-12-13 基于内嵌gmm核的支持向量机模型的说话人识别方法 Expired - Fee Related CN100570710C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB200510061953XA CN100570710C (zh) 2005-12-13 2005-12-13 基于内嵌gmm核的支持向量机模型的说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB200510061953XA CN100570710C (zh) 2005-12-13 2005-12-13 基于内嵌gmm核的支持向量机模型的说话人识别方法

Publications (2)

Publication Number Publication Date
CN1787075A true CN1787075A (zh) 2006-06-14
CN100570710C CN100570710C (zh) 2009-12-16

Family

ID=36784493

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB200510061953XA Expired - Fee Related CN100570710C (zh) 2005-12-13 2005-12-13 基于内嵌gmm核的支持向量机模型的说话人识别方法

Country Status (1)

Country Link
CN (1) CN100570710C (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101562012B (zh) * 2008-04-16 2011-07-20 创而新(中国)科技有限公司 语音分级测定方法及系统
CN102799899A (zh) * 2012-06-29 2012-11-28 北京理工大学 基于svm和gmm的特定音频事件分层泛化识别方法
CN103236260A (zh) * 2013-03-29 2013-08-07 京东方科技集团股份有限公司 语音识别系统
CN103474061A (zh) * 2013-09-12 2013-12-25 河海大学 基于分类器融合的汉语方言自动辨识方法
CN106373576A (zh) * 2016-09-07 2017-02-01 Tcl集团股份有限公司 一种基于vq和svm算法的说话人确认方法及其系统
CN106448681A (zh) * 2016-09-12 2017-02-22 南京邮电大学 一种超矢量的说话人辨认方法
CN107507611A (zh) * 2017-08-31 2017-12-22 苏州大学 一种语音分类识别的方法及装置
CN107610708A (zh) * 2017-06-09 2018-01-19 平安科技(深圳)有限公司 识别声纹的方法及设备
CN108681740A (zh) * 2018-04-04 2018-10-19 儒安科技有限公司 基于多分类支持向量机的车型分类方法
CN108903911A (zh) * 2018-05-23 2018-11-30 江西格律丝科技有限公司 一种中医脉象信息远程采集处理的方法
CN109461457A (zh) * 2018-12-24 2019-03-12 安徽师范大学 一种基于svm-gmm模型的语音识别方法
CN110085236A (zh) * 2019-05-06 2019-08-02 中国人民解放军陆军工程大学 一种基于自适应语音帧加权的说话人识别方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101562012B (zh) * 2008-04-16 2011-07-20 创而新(中国)科技有限公司 语音分级测定方法及系统
CN102799899A (zh) * 2012-06-29 2012-11-28 北京理工大学 基于svm和gmm的特定音频事件分层泛化识别方法
CN102799899B (zh) * 2012-06-29 2014-12-10 北京理工大学 基于svm和gmm的特定音频事件分层泛化识别方法
CN103236260A (zh) * 2013-03-29 2013-08-07 京东方科技集团股份有限公司 语音识别系统
WO2014153800A1 (zh) * 2013-03-29 2014-10-02 京东方科技集团股份有限公司 语音识别系统
CN103474061A (zh) * 2013-09-12 2013-12-25 河海大学 基于分类器融合的汉语方言自动辨识方法
CN106373576B (zh) * 2016-09-07 2020-07-21 Tcl科技集团股份有限公司 一种基于vq和svm算法的说话人确认方法及其系统
CN106373576A (zh) * 2016-09-07 2017-02-01 Tcl集团股份有限公司 一种基于vq和svm算法的说话人确认方法及其系统
CN106448681A (zh) * 2016-09-12 2017-02-22 南京邮电大学 一种超矢量的说话人辨认方法
CN107610708A (zh) * 2017-06-09 2018-01-19 平安科技(深圳)有限公司 识别声纹的方法及设备
CN107507611A (zh) * 2017-08-31 2017-12-22 苏州大学 一种语音分类识别的方法及装置
CN107507611B (zh) * 2017-08-31 2021-08-24 苏州大学 一种语音分类识别的方法及装置
CN108681740A (zh) * 2018-04-04 2018-10-19 儒安科技有限公司 基于多分类支持向量机的车型分类方法
CN108903911A (zh) * 2018-05-23 2018-11-30 江西格律丝科技有限公司 一种中医脉象信息远程采集处理的方法
CN109461457A (zh) * 2018-12-24 2019-03-12 安徽师范大学 一种基于svm-gmm模型的语音识别方法
CN110085236A (zh) * 2019-05-06 2019-08-02 中国人民解放军陆军工程大学 一种基于自适应语音帧加权的说话人识别方法

Also Published As

Publication number Publication date
CN100570710C (zh) 2009-12-16

Similar Documents

Publication Publication Date Title
CN1787075A (zh) 基于内嵌gmm核的支持向量机模型的说话人识别方法
CN1787076A (zh) 基于混合支持向量机的说话人识别方法
CN1236423C (zh) 说话人声音的后台学习
CN1188831C (zh) 具有多个话音识别引擎的话音识别系统和方法
CN1162839C (zh) 产生声学模型的方法和装置
CN1716380A (zh) 基于决策树和说话人改变检测的音频分割方法
CN1758332A (zh) 基于倒谱特征线性情感补偿的说话人识别方法
CN1185621C (zh) 语音识别装置与语音识别方法
CN1703734A (zh) 从声音确定音符的方法和装置
CN101030369A (zh) 基于子词隐含马尔可夫模型的嵌入式语音识别方法
CN1750120A (zh) 索引设备和索引方法
CN1758263A (zh) 基于得分差加权融合的多模态身份识别方法
CN103985381B (zh) 一种基于参数融合优化决策的音频索引方法
CN1920947A (zh) 用于低比特率音频编码的语音/音乐检测器
CN1622200A (zh) 多传感语音增强方法和装置
CN1787074A (zh) 基于情感迁移规则及语音修正的说话人识别方法
CN1315032A (zh) 用于执行音频信号的传输质量的机器支持的评估的方法
CN1758331A (zh) 基于基音频率的快速音频分割方法
CN1534597A (zh) 利用具有转换状态空间模型的变化推理的语音识别方法
CN1835075A (zh) 一种结合自然样本挑选与声学参数建模的语音合成方法
CN1223985C (zh) 语音识别置信度评价方法和系统及应用该方法的听写装置
Dall et al. Analysis of speaker clustering strategies for HMM-based speech synthesis
CN1253851C (zh) 基于事先知识的说话者检验及说话者识别系统和方法
CN1787077A (zh) 基于锚模型空间投影序数比较的快速说话人确认方法
CN1956057A (zh) 一种基于决策树的语音时长预测装置及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20091216

Termination date: 20171213

CF01 Termination of patent right due to non-payment of annual fee