CN1787076A - 基于混合支持向量机的说话人识别方法 - Google Patents

基于混合支持向量机的说话人识别方法 Download PDF

Info

Publication number
CN1787076A
CN1787076A CNA2005100619544A CN200510061954A CN1787076A CN 1787076 A CN1787076 A CN 1787076A CN A2005100619544 A CNA2005100619544 A CN A2005100619544A CN 200510061954 A CN200510061954 A CN 200510061954A CN 1787076 A CN1787076 A CN 1787076A
Authority
CN
China
Prior art keywords
centerdot
speaker
sigma
alpha
vector machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005100619544A
Other languages
English (en)
Other versions
CN100570711C (zh
Inventor
杨莹春
吴朝晖
雷震春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CNB2005100619544A priority Critical patent/CN100570711C/zh
Publication of CN1787076A publication Critical patent/CN1787076A/zh
Application granted granted Critical
Publication of CN100570711C publication Critical patent/CN100570711C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明涉及一种基于混合支持向量机的说话人识别的方法,是为每个说话人建立一个混合支持向量机模型,首先对每个说话人的语音进行特征提取,然后将每个说话人的所有训练样本数据采用聚类方法进行分区,每个区训练出一个支持向量机,在训练支持向量机的过程中,正样本为该说话人在这个分区里面的样本,负样本为冒认者的语音特征向量;在识别阶段,一条新的语句的每帧的得分值要综合所有支持向量机的输出,可以分别采用距离和概率两种方式得到。本发明有益的效果是:采用多个支持向量机混合的方法,在说话人识别上获得比采用单个支持向量机更好性能,同时其性能也优于相同高斯分量数目的高斯混合模型。

Description

基于混合支持向量机的说话人识别方法
技术领域
本发明涉及信号处理和模式识别领域,主要是一种基于混合支持向量机的说话人识别的方法。
背景技术
说话人识别技术是指通过对语音信号的分析和特征提取,自动地确定说话人身份的技术。说话人识别包括两个基本任务:说话人辨认(Speaker Identification)和说话人确认(SpeakerVerification)。说话人辨认是判别输入的声音是预先登记的说话人集合中的哪个用户所说,说话人确认是要确定输入的声音是否是申明的说话人的声音。
说话人识别基本原理都是为每个说话人建立一个能够描述这一说话人个性特征的模型,在目前语义特征与说话人个性特征还不能很好地从语音特征中得到分离的情况下,实际上是话者的语音特征模型。当前应用较广泛的说话人模型主要有模板模型,向量量化模型(VQ),高斯混合模型(GMM),隐马尔可夫模型(HMM)等。
支持向量机(Support Vector Machine)是上世纪九十年代发展出来的一种基于统计学习理论的模式识别方法,它采用分类间隔最大的最优分类超平面实现结构风险最小化原则,由于它具有良好的理论基础,得到越来越多的研究,并被应用到多个领域中。
发明内容
本发明要解决上述技术所存在的缺陷,提供一种基于混合支持向量机的说话人识别的方法,通过多个支持向量机混合的方法,构造一类新的混合模型用于说话人识别中。
本发明解决其技术问题所采用的技术方案:这种基于混合支持向量机的说话人识别的方法,是为每个说话人建立一个混合支持向量机模型,首先对每个说话人的语音进行特征提取,然后将每个说话人的所有训练样本数据采用聚类方法进行分区,每个区训练出一个支持向量机,在训练支持向量机的过程中,正样本为该说话人在这个分区里面的样本,负样本为冒认者的语音特征向量;在识别阶段,一条新的语句的每帧的得分值要综合所有支持向量机的输出,可以分别采用距离和概率两种方式得到。
本发明解决其技术问题所采用的技术方案还可以进一步完善。针对多类分类的方法在本方案中采用的是一对其他的方式,也可以采用一对一的方式或者其他方式进行;所述的分区方法在本方案中采用的是k-means聚类的方法,每类就是一个分区,然后在每类构造一个支持向量机。
本发明有益的效果是:采用多个支持向量机混合的方法,在说话人识别上获得比采用单个支持向量机更好性能,同时其性能也优于相同高斯分量数目的高斯混合模型。
附图说明
图1是本发明混合支持向量机模型的说话人识别拓扑结构图;
具体实施方式
下面结合附图和实施例对本发明作进一步介绍:本发明的方法共分四步。
第一步:语音预处理
语音预处理分为采样量化,去零漂,预加重和加窗三个部分。
1、采样量化
A)、用锐截止滤波器对语音信号进行滤波,使其奈奎斯特频率FN为4KHZ;
B)、设置语音采样率F=2FN
C)、对语音信号sa(t)按周期进行采样,得到数字语音信号的振幅序列 s ( n ) = s a ( n F ) ;
D)、用脉冲编码调制(PCM)对s(n)进行量化编码,得到振幅序列的量化表示s’(n)。
2、去零漂
A)、计算量化的振幅序列的平均值s;
B)、将每个振幅值减去平均值,得到去零漂后平均值为0的振幅序列s”(n)。
3、预加重
A)、设置数字滤波器的Z传递函数H(z)=1-αz-1中的预加重系数α,α可取1或比1稍小的值;
B)、s”(n)通过数字滤波器,得到语音信号的高、中、低频幅度相当的振幅序列s(n)。
4、加窗
A)、计算语音帧的帧长N(32毫秒)和帧移量T(10毫秒),分别满足:
N F = 0.032
T F = 0.010
这里F是语音采样率,单位为Hz;
B)、以帧长为N、帧移量为T,把s(n)划分成一系列的语音帧Fm,每一语音帧包含N个语音信号样本;
C)、计算哈明窗函数:
D)、对每一语音帧Fm加哈明窗:
ω(n)×Fm(n){Fm(n)|n=0,1,…,N-1}。
第二步:特征提取
语音帧上的特征提取采用线性预测系数倒谱(LPCC)的提取。
语音的p阶线性预测是用过去p个时刻的语音采样值的线性组合以最小的预测误差预测下一时刻的语音信号采样值。
设{sn|n=0,1,...,N-1}为一帧的语音采样序列,则sn的预测值为:
s ^ n = - Σ i = 1 p α i s n - i
其中αi(i=1,2,...,p)称为p阶线性预测的预测系数,可由使这一帧的预测误差的平方和最小得到:
E = Σ n = 0 N - p - 1 [ s n + Σ i = 1 p α i s n - i ] 2
一般采用自相关法和协方差法进行求取。语音信号的倒谱特征与语音信号的LPC特征是有关系的,可以先求取LPC特征,然后计算倒谱。
整个计算过程如下:
A)设置线性预测系数的阶数p;
B)在一帧语音信号数据里面计算信号自相关函数:
R i = Σ n = i N s n s n - i
C)计算此帧计算协方差函数:
ψ ik = Σ n = 0 N - 1 s n - i s n - k
D)将上面两步中的结果代入下面方程:
Σ n s n - 1 s n - 1 Σ n s n - 1 s n - 2 · · · Σ n s n - 1 s n - p Σ n s n - 2 s n - 1 Σ n s n - 2 s n - 2 · · · Σ n s n - 2 s n - p · · · · · · · · · · · · · · · · · · · · · Σ n s n - p s n - 1 Σ n s n - p s n - 2 · · · Σ n s n - p s n - p α 1 α 2 · · · α p = - Σ n s n s n - 1 Σ n s n s n - 2 · · · Σ n s n s n - p
其中∑是对n=0~N-p-1求和。
E)计算线性预测倒谱特征:
LPC倒谱特征ci(i=1,2,...,p)可以通过下面等式获得:
c 1 = &alpha; 1 c n = &Sigma; k = 1 n - 1 ( 1 - k n ) &alpha; k c n - k + &alpha; n ( 1 < n &le; p )
第三步、说话人的混合支持向量机模型
支持向量机是在统计学习理论的基础上发展出来的一种较新的机器学习方法,它实现了结构风险最小化思想
支持向量机是从线性可分情况下的最优分类面提出的。设线性可分样本集为(xi,yi),i=1,...,n,x∈Rd,y∈{+1,-1}是类别标号,d维空间中线性判别函数的一般形式为g(x)=w·x+b,分类面方程为:
w·x+b=0
将判别函数归一化,使两类所有样本都满足|g(x)|≥1,即使离分类面最近的样本|g(x))|=1,这样分类间隔等于2/‖w‖,因此使得间隔最大等价于使‖w‖最小;而要求分类线对所有样本正确分类,就是要求它满足:
                yi(w·x1+b)-1≥0,i=1,2,...,n
满足上述条件且使得‖w‖2最小的分类面就是最优分类面,其对偶问题为:
max &alpha; &Sigma; i = 1 n &alpha; i - 1 2 &Sigma; i , j = 1 n &alpha; i &alpha; j y i y j ( x i &CenterDot; y i )
&Sigma; i = 1 n y i &alpha; i = 0
                αi≥0,i=1,2,...,n
求解α*得为最优解,则权系数是训练样本向量的线性组合:
w * = &Sigma; i = 1 n &alpha; i * y i x i
最优分类函数是:
f ( x ) = sgn ( w * &CenterDot; x + b ) = sgn ( &Sigma; i = 1 n &alpha; i * y i ( x i &CenterDot; x ) + b * )
在线性不可分的情况下,增加一个松弛项ξ1≥0,分类条件变成
                 yi(w·xi+b)-1+ξ1≥0i=1,2,...n
最优分类面问题演化为求取下列函数的极小值:
&phi; ( w , &xi; ) = 1 2 ( w &CenterDot; w ) + C ( &Sigma; i = 1 n &xi; i )
其中C为常数,控制错分样本惩罚的程度。
进一步用内积K(x,x′)代替最优分类面中的点积,相当于把原特征空间变换到了某一新的特征空间,优化函数变成:
max &alpha; &Sigma; i = 1 n &alpha; i - 1 2 &Sigma; i , j = 1 n &alpha; i &alpha; j y i y j K ( x i , y i )
相应的判别函数变成:
f ( x ) = sgn ( &Sigma; i = 1 n &alpha; i * y i K ( x i , x ) + b * )
内积函数形式一般有多项式、径向基等,在我们的试验中采用径向基函数形式:
K ( x , x i ) = exp ( - | x - x i | 2 &sigma; 2 )
在为每个说话人建立一个混合支持向量机模型时候,首先对该说话人的所有训练样本数据进行聚类,在本试验中我们采用k-mean聚类的方式,每类就是一个分区,然后在每类构造一个支持向量机,在训练支持向量机的过程中,正样本为该说话人在这个分区里面的样本,负样本为冒认者的语音特征向量。
我们采用两种不同的方式对说话人的所有支持向量机的输出进行组合:
A)距离模型
在计分阶段,帧向量xi的得分为该说话人模型里面所有支持向量机的输出的最大值,一条语句X的得分S为所有帧得分值的平均值:
S = 1 T &Sigma; i = 1 T max j ( d ( x i , SVM j ) )
其中的d为帧向量在SVM上的软输出:
d ( x i , SVM j ) = &Sigma; k ( &alpha; jk y jk k ( x jk , x i ) + b jk )
B)概率混合模型
对于一个帧向量,它的得分采用概率的表达方式为
p ( x | &lambda; ) = &Sigma; i = 1 M w i p i ( d ( x , SVM i ) )
其中d为帧向量在SVM上的软输出,将其转化为概率输出:
p ( d ) = 1 1 + exp ( Ad + B )
其中A和B为参数。
权重w的值定义为:
这样对于整条语句,其得分值S为:
S = log p ( X | &lambda; ) = &Sigma; t = 1 T log ( p ( x t | &lambda; ) )
第四步、说话人识别
说话人识别可分为说话人确认(Speaker Verification)和说话人辨认(SpeakerIdentification)两方面。在说话人确认中,对于一条新的语句,经过特征提取后得到一个特征向量序列,利用申明的说话人的混合支持向量机模型对每帧的特征向量进行打分,然后取所有帧的得分的平均值S作为此语句的得分,并将S与某个阈值T相比较,若S>T,则接受这条语句是自称说话人所说的,否则拒绝自称的说话人,即认为这个自称的说话人是冒认者。在这里我们采用等错误率(equal error rate)来评价说话人确认性能。
在说话人辨别中,这条语句对于所有的说话人模型都进行评分,对于某个说话人来说,首先将语句的每帧的特征向量采用这个说话人的混合支持向量机模型进行计分,语句所有帧得分的平均值作为这条语句在这个说话人模型上的得分。这样对每个说话人进行评分后,取最大的那个得分的说话人作为此语句的说话人。在这里我们采用错误率来评判说话人辨认性能。
实验结果
本方法YOHO库上进行了实验。该库由138个说话人语音组成,每条都是6个数字的英文发音,长度约为2到3秒。在YOHO库中,每个说话人训练语音分4个部分,每部分有24条语句,测试语音分10个部分,每个部分是4条语句该数据库的,每个说话人的训练语音分4个部分,每个部分是24条语句。特征提取采用12阶的LPCC及其微分,组成24维的特征向量,分析帧长为30ms,每10ms取一帧,经过去静音,预加重后得到。
支持向量机一般用于解决一个二类分类问题,对于多类的分类,人们一般采用一对一或者一对多的方式进行。在我们试验中采用一对多的方式,其正样本是某个说话人的向量,负样本是其他所有说话人语句的向量。
我们采用数据库中的前50人进行试验,对每个说话人首先采用K-means聚类将语音数据聚成M类,在每个类上面采用支持向量机进行训练,其负样本是其他所有人语音数据聚类的中心,在我们试验中负样本个数为49×100。若正样本数目太多,我们也采用聚类的方式来选取代表性的样本点作为支持向量机的输入。
试验分别采用基于距离输出和概率输出两种模式,结果如下表所示:
表格1  混合支持向量机在YOHO库上进行的说话人辨认的错误率
  M   距离模型(%)   概率混合模型(%)  基本GMM(%)
  2481632   8.65.54.43.73.3   11.35.83.82.92.4  30.626.117.211.47.8
表2显示了50人在YOHO库上进行的说话人确认的试验结果。
表格2  混合支持向量机在YOHO库上进行的说话人确认的等错误率
  M   距离模型(%)   概率混合模型(%)
  2481632   8.34.83.01.71.5   5.83.42.22.11.9

Claims (6)

1、一种基于混合支持向量机的说话人识别的方法,其特征在于:为每个说话人建立一个混合支持向量机模型,首先对每个说话人的语音进行特征提取,然后将每个说话人的所有训练样本数据采用聚类方法进行分区,每个区训练出一个支持向量机,在训练支持向量机的过程中,正样本为该说话人在这个分区里面的样本,负样本为冒认者的语音特征向量;在识别阶段,一条新的语句的每帧的得分值要综合所有支持向量机的输出,可以分别采用距离和概率两种方式得到。
2、根据权利要求1所述的基于混合支持向量机的说话人识别的方法,其特征在于:针对多类分类的方法采用的是一对其他的方式;所述的分区方法在本方案中采用的是k-means聚类的方法,每类就是一个分区,然后在每类构造一个支持向量机。
3、根据权利要求1或2所述的基于混合支持向量机的说话人识别的方法,其特征在于:该方法的主要步骤:
3.1)、语音预处理:语音预处理分为采样量化,去零漂,预加重和加窗四个部分;
3.2)、语音帧上的特征提取:采用线性预测系数倒谱的提取,先求取语音信号的线性预测系数(LPC),然后计算语音信号的倒谱特征;
3.3)、说话人的支持向量机混合模型,对说话人的所有支持向量机的输出进行组合:
3.3.1)、在线性可分情况下:设线性可分样本集为(xi,yi),i=1,...,n,x∈Rd,y∈{+1,-1}是类别标号,d维空间中线性判别函数的一般形式为g(x)=w·x+b,分类面方程为:w·x+b=0
将判别函数归一化,使两类所有样本都满足|g(x)|≥1,即使离分类面最近的样本|g(x)|=1,这样分类间隔等于2/‖w‖,使得间隔最大等价于使‖w‖最小;而要求分类线对所有样本正确分类,就是要求它满足:
                        yi(w·xi+b)-1≥0,i=1,2,...,n
满足上述条件且使得‖w‖2最小的分类面就是最优分类面,其对偶问题为:
max &alpha; &Sigma; i = 1 n &alpha; i - 1 2 &Sigma; i , j = 1 n &alpha; i &alpha; j y i y j ( x i &CenterDot; y i )
&Sigma; i = 1 n y i &alpha; i = 0
                          αi≥0,i=1,2,...,n
求解α*得为最优解,则权系数是训练样本向量的线性组合:
w * = &Sigma; i = 1 n &alpha; i * y i x i
最优分类函数是:
f ( x ) = sgn ( w * &CenterDot; x + b ) = sgn ( &Sigma; i = 1 n &alpha; i * y i ( x i &CenterDot; x ) + b * ) ;
3.3.2)、在线性不可分的情况下,增加一个松弛项ξi≥0,分类条件变成
                      yi(w·xi+b)-1+ξi≥0   i=1,2,...n
最优分类面问题演化为求取下列函数的极小值:
&phi; ( w , &xi; ) = 1 2 ( w &CenterDot; w ) + C ( &Sigma; i = 1 n &xi; i )
其中C为常数,控制错分样本惩罚的程度;
进一步用内积K(x,x′)代替最优分类面中的点积,相当于把原特征空间变换到了某一新的特征空间,优化函数变成:
max &alpha; &Sigma; i = 1 n &alpha; i - 1 2 &Sigma; i , j = 1 n &alpha; i &alpha; j y i y j K ( x i , y i )
相应的判别函数变成:
f ( x ) = sgn ( &Sigma; i = 1 n &alpha; i * y i K ( x i , x ) + b * ) ;
第四步、说话人识别:说话人识别可分为说话人确认和说话人辨认两方面;
A)、在说话人确认中,对于一条新的语句,经过特征提取后得到一个特征向量序列,利用说话人的支持向量机混合模型对每帧的特征向量进行打分,然后取所有帧的得分的平均值S作为此语句的得分,并将S与某个阈值T相比较,若S>T,则接受这条语句是此说话人所说的,否则拒绝,即认为这个说话人是冒认者;
B)、在说话人辨别中,这条语句对于所有的说话人模型都进行评分,对于某个说话人来说,首先将语句的每帧的特征向量采用这个说话人的支持向量混合模型进行计分,语句所有帧得分的平均值作为这条语句在这个说话人模型上的得分,这样对每个说话人进行评分后,取最大的那个得分的说话人作为此语句的说话人。
4、根据权利要求3所述的基于混合支持向量机的说话人识别的方法,其特征在于:在语音帧上的特征提取的步骤中:语音的p阶线性预测是用过去p个时刻的语音采样值的线性组合以最小的预测误差预测下一时刻的语音信号采样值;
设{sn|n=0,1,...,N-1}为一帧的语音采样序列,则sn的预测值为:
s ^ n = - &Sigma; i = 1 p &alpha; i s n - i
其中αi(i=1,2,...,p)称为p阶线性预测的预测系数,可由使这一帧的预测误差的平方和最小得到:
E = &Sigma; n = 0 N - p - 1 [ s n + &Sigma; i = 1 p &alpha; i s n - i ] 2 ;
整个计算过程具体如下:
A)、设置线性预测系数的阶数p;
B)、在一帧语音信号数据里面计算信号自相关函数:
R i = &Sigma; n = i N s n s n - i
C)、计算此帧计算协方差函数:
&Psi; ik = &Sigma; n = 0 N - 1 s n - i s n - k
D)、将上面两步中的结果代入下面方程:
&Sigma; n s n - 1 s n - 1 &Sigma; n s n - 1 s n - 2 &CenterDot; &CenterDot; &CenterDot; &Sigma; n s n - 1 s n - p &Sigma; n s n - 2 s n - 1 &Sigma; n s n - 2 s n - 2 &CenterDot; &CenterDot; &CenterDot; &Sigma; n s n - 2 s n - p &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &Sigma; n s n - p s n - 1 &Sigma; n s n - p s n - 2 &CenterDot; &CenterDot; &CenterDot; &Sigma; n s n - p s n - p &alpha; 1 &alpha; 2 &CenterDot; &CenterDot; &CenterDot; &alpha; p = &Sigma; n s n s n - 1 &Sigma; n s n s n - 2 &CenterDot; &CenterDot; &CenterDot; &Sigma; n s n s n - p
其中∑是对n=0~N-p-1求和;
E)、计算线性预测倒谱特征:
    LPC倒谱特征ci(i=1,2,...,p)可以通过下面等式获得:
c 1 = &alpha; 1 c n = &Sigma; k = 1 n - 1 ( 1 - k n ) &alpha; k c n - k + &alpha; n , ( 1 < n &le; p ) .
5、根据权利要求3所述的基于混合支持向量机的说话人识别的方法,其特征在于:采用距离模型对说话人的所有支持向量机的输出进行组合:
在计分阶段,帧向量xi的得分为该说话人模型里面所有支持向量机的输出的最大值,一条语句X的得分S为所有帧得分值的平均值:
S = 1 T &Sigma; i = 1 T max j ( d ( x i , SVM j ) )
其中的d为帧向量在SVM上的软输出:
d ( x i , SVM j ) = &Sigma; k ( &alpha; jk y jk k ( x jk , x i ) ) + b jk .
6、根据权利要求3所述的基于混合支持向量机的说话人识别的方法,其特征在于:采用概率混合模型对说话人的所有支持向量机的输出进行组合:
对于一个帧向量,它的得分采用概率的表达方式为
p ( x | &lambda; ) = &Sigma; i = 1 M w i p i ( d ( x , SVM i ) )
其中d为帧向量在SVM上的软输出,将其转化为概率输出:
p ( d ) = 1 1 + exp ( Ad + B )
其中A和B为参数;
权重w的值定义为:
这样对于整条语句,其得分值S为:
S = log p ( X | &lambda; ) = &Sigma; t = 1 T log ( p ( x t | &lambda; ) ) .
CNB2005100619544A 2005-12-13 2005-12-13 基于混合支持向量机的说话人识别方法 Expired - Fee Related CN100570711C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2005100619544A CN100570711C (zh) 2005-12-13 2005-12-13 基于混合支持向量机的说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2005100619544A CN100570711C (zh) 2005-12-13 2005-12-13 基于混合支持向量机的说话人识别方法

Publications (2)

Publication Number Publication Date
CN1787076A true CN1787076A (zh) 2006-06-14
CN100570711C CN100570711C (zh) 2009-12-16

Family

ID=36784494

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100619544A Expired - Fee Related CN100570711C (zh) 2005-12-13 2005-12-13 基于混合支持向量机的说话人识别方法

Country Status (1)

Country Link
CN (1) CN100570711C (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101382934B (zh) * 2007-09-06 2010-08-18 华为技术有限公司 多媒体模型检索方法、装置及系统
CN101819637A (zh) * 2010-04-02 2010-09-01 南京邮电大学 利用图片的局部不变特征检测图像型垃圾邮件的方法
CN101552004B (zh) * 2009-05-13 2011-04-06 哈尔滨工业大学 一种集内说话者的识别方法
CN102129860A (zh) * 2011-04-07 2011-07-20 魏昕 基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法
CN102237089A (zh) * 2011-08-15 2011-11-09 哈尔滨工业大学 一种减少文本无关说话人识别系统误识率的方法
CN102810311A (zh) * 2011-06-01 2012-12-05 株式会社理光 说话人估计方法和说话人估计设备
CN105005629A (zh) * 2015-08-11 2015-10-28 福州大学 一种基于混合高斯的sdn流聚类方法
WO2016095218A1 (en) * 2014-12-19 2016-06-23 Dolby Laboratories Licensing Corporation Speaker identification using spatial information
CN106448682A (zh) * 2016-09-13 2017-02-22 Tcl集团股份有限公司 开集说话人识别的方法及装置
CN106653058A (zh) * 2016-10-28 2017-05-10 中国科学院计算技术研究所 基于双声道的脚步检测方法
CN109256138A (zh) * 2018-08-13 2019-01-22 平安科技(深圳)有限公司 身份验证方法、终端设备及计算机可读存储介质
CN109545015A (zh) * 2019-01-23 2019-03-29 广东小天才科技有限公司 一种科目类型的识别方法及家教设备
CN112669829A (zh) * 2016-04-01 2021-04-16 日本电信电话株式会社 异常音检测装置、异常音采样装置以及程序

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102426835B (zh) * 2011-08-30 2013-06-12 华南理工大学 一种基于支持向量机模型的开关柜局部放电信号识别方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101382934B (zh) * 2007-09-06 2010-08-18 华为技术有限公司 多媒体模型检索方法、装置及系统
CN101552004B (zh) * 2009-05-13 2011-04-06 哈尔滨工业大学 一种集内说话者的识别方法
CN101819637A (zh) * 2010-04-02 2010-09-01 南京邮电大学 利用图片的局部不变特征检测图像型垃圾邮件的方法
CN101819637B (zh) * 2010-04-02 2012-02-22 南京邮电大学 利用图片的局部不变特征检测图像型垃圾邮件的方法
CN102129860A (zh) * 2011-04-07 2011-07-20 魏昕 基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法
CN102129860B (zh) * 2011-04-07 2012-07-04 南京邮电大学 基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法
CN102810311A (zh) * 2011-06-01 2012-12-05 株式会社理光 说话人估计方法和说话人估计设备
CN102810311B (zh) * 2011-06-01 2014-12-03 株式会社理光 说话人估计方法和说话人估计设备
CN102237089A (zh) * 2011-08-15 2011-11-09 哈尔滨工业大学 一种减少文本无关说话人识别系统误识率的方法
CN102237089B (zh) * 2011-08-15 2012-11-14 哈尔滨工业大学 一种减少文本无关说话人识别系统误识率的方法
US9626970B2 (en) 2014-12-19 2017-04-18 Dolby Laboratories Licensing Corporation Speaker identification using spatial information
WO2016095218A1 (en) * 2014-12-19 2016-06-23 Dolby Laboratories Licensing Corporation Speaker identification using spatial information
CN105005629A (zh) * 2015-08-11 2015-10-28 福州大学 一种基于混合高斯的sdn流聚类方法
CN112669829A (zh) * 2016-04-01 2021-04-16 日本电信电话株式会社 异常音检测装置、异常音采样装置以及程序
CN106448682A (zh) * 2016-09-13 2017-02-22 Tcl集团股份有限公司 开集说话人识别的方法及装置
CN106653058A (zh) * 2016-10-28 2017-05-10 中国科学院计算技术研究所 基于双声道的脚步检测方法
CN106653058B (zh) * 2016-10-28 2020-03-17 中国科学院计算技术研究所 基于双声道的脚步检测方法
CN109256138A (zh) * 2018-08-13 2019-01-22 平安科技(深圳)有限公司 身份验证方法、终端设备及计算机可读存储介质
CN109256138B (zh) * 2018-08-13 2023-07-07 平安科技(深圳)有限公司 身份验证方法、终端设备及计算机可读存储介质
CN109545015A (zh) * 2019-01-23 2019-03-29 广东小天才科技有限公司 一种科目类型的识别方法及家教设备

Also Published As

Publication number Publication date
CN100570711C (zh) 2009-12-16

Similar Documents

Publication Publication Date Title
CN1787076A (zh) 基于混合支持向量机的说话人识别方法
CN1787075A (zh) 基于内嵌gmm核的支持向量机模型的说话人识别方法
CN1162839C (zh) 产生声学模型的方法和装置
CN1236423C (zh) 说话人声音的后台学习
CN103985381B (zh) 一种基于参数融合优化决策的音频索引方法
CN1188831C (zh) 具有多个话音识别引擎的话音识别系统和方法
CN1716380A (zh) 基于决策树和说话人改变检测的音频分割方法
CN1703734A (zh) 从声音确定音符的方法和装置
CN1758332A (zh) 基于倒谱特征线性情感补偿的说话人识别方法
CN1758263A (zh) 基于得分差加权融合的多模态身份识别方法
CN1758331A (zh) 基于基音频率的快速音频分割方法
CN1622200A (zh) 多传感语音增强方法和装置
CN1442845A (zh) 语音识别系统及方法、语音合成系统及方法及程序产品
CN1787074A (zh) 基于情感迁移规则及语音修正的说话人识别方法
CN1920947A (zh) 用于低比特率音频编码的语音/音乐检测器
CN1750121A (zh) 一种基于语音识别及语音分析的发音评估方法
CN1835075A (zh) 一种结合自然样本挑选与声学参数建模的语音合成方法
CN1534597A (zh) 利用具有转换状态空间模型的变化推理的语音识别方法
CN1924994A (zh) 一种嵌入式语音合成方法及系统
CN1300049A (zh) 汉语普通话话音识别的方法和设备
CN1442802A (zh) 信息识别装置与信息识别方法
Lugger et al. Psychological motivated multi-stage emotion classification exploiting voice quality features
CN1601605A (zh) 声道谐振跟踪方法和装置
Dall et al. Analysis of speaker clustering strategies for HMM-based speech synthesis
CN1201284C (zh) 一种语音识别系统中的快速解码方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20091216

Termination date: 20171213

CF01 Termination of patent right due to non-payment of annual fee