CN102664011B - 一种快速说话人识别方法 - Google Patents

一种快速说话人识别方法 Download PDF

Info

Publication number
CN102664011B
CN102664011B CN201210152435.9A CN201210152435A CN102664011B CN 102664011 B CN102664011 B CN 102664011B CN 201210152435 A CN201210152435 A CN 201210152435A CN 102664011 B CN102664011 B CN 102664011B
Authority
CN
China
Prior art keywords
characteristic parameter
speaker
sigma
alpha
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210152435.9A
Other languages
English (en)
Other versions
CN102664011A (zh
Inventor
林琳
金焕梅
陈虹
姜宏
孙晓颖
陈建
魏晓丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201210152435.9A priority Critical patent/CN102664011B/zh
Publication of CN102664011A publication Critical patent/CN102664011A/zh
Application granted granted Critical
Publication of CN102664011B publication Critical patent/CN102664011B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种快速说话人识别方法,属于说话人识别方法该方法。结合高斯混合模型,以高斯混合模型超向量作为说话人的特征参数。将高斯混合模型超向量作为输入,设计一种一类分类的支持向量机分类器。对于N个说话人,训练N个分类器,每个分类器由一个说话人的语音样本训练得到。本发明提高了说话人识别的速度。每增加一个注册说话人,只需要为新的说话人训练一个一类支持向量机模型,使说话人识别系统有很好的扩展性。

Description

一种快速说话人识别方法
技术领域
本发明涉及一种说话人识别方法。
背景技术
说话人识别,又称为声纹识别,是以语音对说话人进行区分,从而进行身份鉴别和认证的一种生物识别技术。目前基于支持向量的说话人识别方法已成为一种主流的说话人识别方法。
对于支持向量机而言,它是一个两类分类器,当要应用到说话人识别系统中时,需要完成两类到多类分类的转化。两类支持向量机分类器可以采用两种方式实现多类分类,一种是一对一的实现方法。这种方式是比较常用的一种多类分类方式。专利CN1787075、专利CN102201237A中采用的支持向量机多类分类器就是采用这种方式实现的。对于一对一的多类分类方式,对于N个类样本,分别进行两两分类,共需要构造                                                
Figure 247534DEST_PATH_IMAGE001
个分类器。尽管每个支持向量机分类器只需要两类样本训练就可以得到,样本数据量小,但随着分类类别数的增加,需要构造的两类支持向量机分类器的数目急剧增加,使得系统的运算量和存储量大大增加,同时其判决的速度也会较慢。当加入新的类别时,由于在分类的过程中,需要两两分类,因此新增加的类别样本需要与所有的其余类样本分别再设计N个分类器,当类别数N较大时,需要重新训练分类器的个数较多,在实际的应用环境中可能导致系统更新速度慢。
另一种多类支持向量机分类器的实现采用一对多对的方式。这种方式是支持向量机最早实现多类分类的方式,对于N个类样本,构造N个分类器。每个分类器以其自己的对应的样本为正样本,剩余的所有样本作为负样本进行分类器的训练。尽管一对多的实现方法简单直观,需要构造两类支持向量机数量少,但它将所有其他类的样本作为负样本,导致正负样本不均衡,负的训练样本过大,训练时间较长。尤其是当加入新的类别时,负样本发生变化,所有支持向量机都需要重新训练,导致系统的可扩展性不好。
发明内容
本发明提供一种快速说话人识别方法,以解决上述技术存在的缺陷,以高斯混合模型超向量作为说话人的特征参数,设计一种一类分类的支持向量机分类器实现说话人识别。
本发明采用的技术方案包括下列步骤:
(一)语音信号的预处理:包括语音信号的预滤波、端点检测、预加重,分帧;
(二)特征参数提取的过程如下:
(1)提取MFCC特征参数作为说话人的第一特征参数
Figure 474116DEST_PATH_IMAGE002
, 
Figure 715741DEST_PATH_IMAGE002
Figure 69493DEST_PATH_IMAGE003
维矩阵,
Figure 509702DEST_PATH_IMAGE004
为语音数据经预处理后的帧数,
Figure 110448DEST_PATH_IMAGE005
为特征参数的维数;
(2)利用第一特征参数生成GMM超向量,首先,将第一特征参数
Figure 386839DEST_PATH_IMAGE002
划分为若干个小的矩阵,每个小的矩阵包含50帧语音数据的特征参数,表示为
Figure 731233DEST_PATH_IMAGE006
Figure 25948DEST_PATH_IMAGE007
为小于或等于
Figure 610644DEST_PATH_IMAGE008
的最大整数;其次,利用依次对UBM模型进行自适应,得到相应的GMM超向量特征参数
Figure 316225DEST_PATH_IMAGE010
,其中UBM是一个由与目标说话人无关的大量的语音数据训练的混合度很高的GMM模型,具体的过程如下: 
1)UBM模型为
Figure 731025DEST_PATH_IMAGE011
其中
Figure 486623DEST_PATH_IMAGE012
Figure 986874DEST_PATH_IMAGE013
Figure 486120DEST_PATH_IMAGE014
Figure 755427DEST_PATH_IMAGE015
为UBM模型的参数,分别表示每个高斯函数的权重、均值和协方差,M为高斯函数的个数;
按以下公式对UBM模型参数
Figure 893782DEST_PATH_IMAGE015
进行更新
Figure 220858DEST_PATH_IMAGE016
Figure 49749DEST_PATH_IMAGE017
Figure 524593DEST_PATH_IMAGE018
Figure 365641DEST_PATH_IMAGE019
设更新后的GMM-UBM模型的参数为
Figure 547224DEST_PATH_IMAGE020
Figure 64793DEST_PATH_IMAGE021
Figure 512085DEST_PATH_IMAGE022
,由下面的公式计算
Figure 78196DEST_PATH_IMAGE023
Figure 442181DEST_PATH_IMAGE024
其中
Figure 2924DEST_PATH_IMAGE026
Figure 435042DEST_PATH_IMAGE027
采用下面公式计算得到
其中
Figure 198391DEST_PATH_IMAGE029
= 16;
Figure 869544DEST_PATH_IMAGE020
Figure 590507DEST_PATH_IMAGE021
Figure 663505DEST_PATH_IMAGE022
作为GMM-UBM模型的参数,GMM-UBM模型表示为
Figure 631461DEST_PATH_IMAGE030
2)将每个混合度的均值向量连接在一起形成GMM超向量
Figure 252246DEST_PATH_IMAGE032
3)最终得到说话人的所有的GMM超向量,构成说话人的特征参数
Figure 179751DEST_PATH_IMAGE033
(三)模型训练为每个说话人训练一个一类支持向量机模型,得到对应的判决函数,并将判决函数存入模型数据库,对于第n个说话人,模型训练的具体过程如下:
(1)输入第n说话人的一段语音,经过上述预处理和特征参数提取得到特征参数
Figure 131657DEST_PATH_IMAGE034
Figure 715086DEST_PATH_IMAGE035
表示第
Figure 292697DEST_PATH_IMAGE036
个说话人的第
Figure 822511DEST_PATH_IMAGE037
个特征参数,
Figure 194587DEST_PATH_IMAGE038
为特征参数的个数;
(2)求解优化问题
约束于 
Figure 131767DEST_PATH_IMAGE040
Figure 33864DEST_PATH_IMAGE041
其中
Figure 514524DEST_PATH_IMAGE042
Figure 885593DEST_PATH_IMAGE043
为变量,
Figure 477112DEST_PATH_IMAGE044
为松弛因子,
Figure 150856DEST_PATH_IMAGE046
为映射函数,将上述优化问题转化为如下对偶问题:
约束于                         
Figure 201168DEST_PATH_IMAGE048
Figure 15541DEST_PATH_IMAGE049
其中
Figure 671560DEST_PATH_IMAGE050
是核函数,为Lagrange系数,求解上述对偶问题得到最优解
Figure 199811DEST_PATH_IMAGE052
(3)得到判决函数的表达式
Figure 868689DEST_PATH_IMAGE053
其中,
Figure 675102DEST_PATH_IMAGE054
为满足的样本;
(四)识别过程包括以下步骤:
(1)输入待识别语音,经过预处理和特征参数提取得到特征参数
Figure 228760DEST_PATH_IMAGE056
Figure 565195DEST_PATH_IMAGE057
表示带测试语音的第个特征参数,
Figure 298982DEST_PATH_IMAGE059
Figure 574105DEST_PATH_IMAGE060
为特征参数的个数;
(2)对每一个特征参数进行分类,将
Figure 30626DEST_PATH_IMAGE061
依次代入入训练阶段得到的N个判决函数
Figure 428109DEST_PATH_IMAGE062
中,然后根据下式进行判决:
Figure 157030DEST_PATH_IMAGE063
最大值对应的即为
Figure 543942DEST_PATH_IMAGE061
对应的说话人所属的类别;
对所有特征参数分类后,统计属于各个类别的特征参数的个数,将最多特征参数所属的类别作为识别结果。
本发明以高斯混合模型超向量作为说话人的特征参数;在模型训练阶段,为每个说话人训练一个分类器,每个分类器训练只需要一个说话人的语音数据,减少了计算数据量,提高了模型训练的速度;在识别阶段,输入待识别语音,经过预处理和特征参数提取得到特征参数,对所有特征参数进行分类,统计属于各个类别的特征参数的个数,将最多特征参数所属的类别作为识别结果。
本专利发明设计了一种一类分类的支持向量机分类器实现说话人识别方法,能够解决多类支持向量机分类器的实现采用一对多对的方式中存在的问题。基于一类分类的支持向量机分类器,对于N个类样本,采用N个分类器,训练每个分类器只需要该分类器对应说话人的语音数据,无需其他说话人的语音数据,避免了训练过程中正负样本不均衡的问题,减少了计算时需要的存储量和数据量。当有新的类别加入时,只需要训练新类别对应的分类器即可,不需要再进行其他分类器设计,更不需要对所有分类器进行重新设计,系统可扩展性好,更适合于说话人识别系统的实用化发展。
本专利与传统的支持向量机相比较,该方法实现说话人识别需要训练的分类器少,训练每个分类器只需一个说话人的语音数据,训练数据量少,减少了运算时间,提高了说话人识别的速度。每增加一个注册说话人,只需要为新的说话人训练一个一类支持向量机模型,使说话人识别系统有很好的扩展性。
本发明的优点在于:
1、为每个说话人训练一个分类器,每个分类器训练只需要一个说话人的语音数据,计算数据量少,训练与识别速度快。 
2、每增加一个注册说话人,只需要为新的说话人训练一个一类支持向量机模型,使说话人识别系统有很好的扩展性。
3、以高斯混合模型超向量作为说话人的特征参数,在语音数据较少的情况下仍然可以取得较好的识别率。
附图说明
图1是本发明的语音信号预处理的流程图;
图2是本发明的特征参数提取的流程图;
图3是本发明的模型训练流程图;
图4是本发明的识别流程图。
具体实施方案
本发明包括以下步骤:
(一)语音信号的预处理,如图1所示,该流程包括:输入语音信号,对其进行预滤波、端点检测、预加重、分帧,预加重系数为0.95;采用汉明窗分帧,其中窗宽256个采样点,窗移128个采样点;
(二)特征参数提取流程,如图2所示,该流程包括两步:
(1)提取美尔倒谱系数(Mel-Frequency Cepstrum Coefficient)MFCC特征参数作为说话人的第一特征参数, 
Figure 328544DEST_PATH_IMAGE002
Figure 24099DEST_PATH_IMAGE003
维矩阵,
Figure 376583DEST_PATH_IMAGE004
为语音数据经预处理后的帧数,
Figure 381448DEST_PATH_IMAGE005
为特征参数的维数;
(2)利用第一特征参数
Figure 632432DEST_PATH_IMAGE002
生成GMM超向量,作为说话人的特征参数,具体步骤如下:
1)将第一特征参数
Figure 53049DEST_PATH_IMAGE002
划分为若干个小的矩阵,每个小的矩阵包含50帧语音数据的特征参数,表示为
Figure 587935DEST_PATH_IMAGE006
为小于或等于
Figure 439665DEST_PATH_IMAGE008
的最大整数;
2)利用
Figure 663973DEST_PATH_IMAGE009
依次对通用背景模型(Universal Background Model)UBM模型进行自适应,得到相应的GMM超向量
Figure 787787DEST_PATH_IMAGE065
,其中UBM是一个由与目标说话人无关的大量的语音数据训练的混合度很高的GMM模型,具体步骤如下: 
UBM模型为
其中
Figure 294784DEST_PATH_IMAGE066
Figure 385100DEST_PATH_IMAGE013
Figure 566682DEST_PATH_IMAGE014
Figure 569404DEST_PATH_IMAGE015
为UBM模型的参数,分别表示每个高斯函数的权重、均值和协方差,M为高斯函数的个数;
按以下公式对UBM模型参数
Figure 97655DEST_PATH_IMAGE014
进行更新
Figure 572947DEST_PATH_IMAGE016
Figure 22383DEST_PATH_IMAGE017
Figure 95829DEST_PATH_IMAGE019
设更新后的GMM-UBM模型的参数为
Figure 892884DEST_PATH_IMAGE020
Figure 564036DEST_PATH_IMAGE021
Figure 547648DEST_PATH_IMAGE022
,由下面的公式计算:
Figure 588603DEST_PATH_IMAGE024
Figure 684735DEST_PATH_IMAGE067
其中
Figure 136893DEST_PATH_IMAGE027
采用下面公式计算得到:
Figure 275750DEST_PATH_IMAGE028
其中
Figure 672227DEST_PATH_IMAGE029
= 16;
Figure 969534DEST_PATH_IMAGE021
作为GMM-UBM模型的参数,得到说话人的GMM-UBM模型
Figure 163066DEST_PATH_IMAGE030
3)将每个混合度的均值向量
Figure 278789DEST_PATH_IMAGE031
连接在一起形成GMM超向量
Figure 118569DEST_PATH_IMAGE032
4)得到说话人的所有的GMM超向量,构成说话人的特征参数
Figure 409349DEST_PATH_IMAGE033
(三)一种快速说话人识别方法的训练流程如图3所示,包括以下步骤:
设有N个说话人需要注册;
(1)
Figure 701790DEST_PATH_IMAGE068
(2)输入第个说话人的一段语音,经过预处理流程和特征参数提取流程,得到特征参数
Figure 315491DEST_PATH_IMAGE034
Figure 780101DEST_PATH_IMAGE035
表示第
Figure 887735DEST_PATH_IMAGE036
个说话人的第
Figure 282944DEST_PATH_IMAGE037
个特征参数,
Figure 644786DEST_PATH_IMAGE038
为特征参数的个数;
(3)求解如下的优化问题
约束于 
Figure 62178DEST_PATH_IMAGE040
Figure 74128DEST_PATH_IMAGE041
其中
Figure 477427DEST_PATH_IMAGE042
Figure 798687DEST_PATH_IMAGE043
为变量,
Figure 553016DEST_PATH_IMAGE044
Figure 100148DEST_PATH_IMAGE045
为松弛因子,为映射函数,将上述优化问题转化为如下对偶问题:
约束于                         
Figure 904790DEST_PATH_IMAGE048
Figure 445493DEST_PATH_IMAGE049
其中
Figure 151281DEST_PATH_IMAGE050
是核函数,为Lagrange系数,求解上述对偶问题得到最优解
Figure 28418DEST_PATH_IMAGE069
得到判决函数的表达式
Figure 169549DEST_PATH_IMAGE053
其中,为满足
Figure 986644DEST_PATH_IMAGE055
的样本;
(4)将判决函数
Figure 202861DEST_PATH_IMAGE070
存入模型数据库;
(5)若
Figure 147684DEST_PATH_IMAGE071
,则
Figure 310287DEST_PATH_IMAGE072
,执行 (2) (3) (4);若
Figure 252835DEST_PATH_IMAGE073
,训练结束;
(四)一种快速说话人识别方法的识别流程如图4所示,包括以下步骤:
输入待识别语音,经过预处理和特征参数提取得到特征参数
Figure 753087DEST_PATH_IMAGE056
表示带测试语音的第个特征参数,
Figure 369510DEST_PATH_IMAGE059
Figure 294741DEST_PATH_IMAGE060
为特征参数的个数;
LN维向量;
(1)
Figure 659174DEST_PATH_IMAGE075
(2)将特征参数
Figure 5842DEST_PATH_IMAGE061
带入模型数据库中存储的各个判决函数
Figure 418369DEST_PATH_IMAGE062
中,然后根据下式进行判决
Figure 993838DEST_PATH_IMAGE076
Figure 237737DEST_PATH_IMAGE064
即为
Figure 692989DEST_PATH_IMAGE061
所属的类别;
(3)
(4)如果
Figure 969042DEST_PATH_IMAGE078
Figure 67448DEST_PATH_IMAGE079
,执行(1) (2) (3);否则执行下一步;
(5)采用投票决策判决,
Figure 693602DEST_PATH_IMAGE080
 Label的值即为识别输出结果。

Claims (1)

1.一种快速说话人识别方法,其特征在于包括下列步骤:
(一)语音信号的预处理:包括语音信号的预滤波、端点检测、预加重,分帧;
(二)特征参数提取的过程如下:
(1)提取MFCC特征参数作为说话人的第一特征参数Yc,Yc为l×d维矩阵,l为语音数据经预处理后的帧数,d为特征参数的维数;
(2)利用第一特征参数生成GMM超向量,首先,将第一特征参数Yc划分为若干个小的矩阵,每个小的矩阵包含50帧语音数据的特征参数,表示为xt,t=1,...,fnum,fnum为小于或等于
Figure FDA0000386829480000011
的最大整数;其次,利用x1,...,xfnum依次对UBM模型进行自适应,得到相应的GMM超向量特征参数X=[X1,...,Xfnum],其中UBM是一个由与目标说话人无关的大量的语音数据训练的混合度很高的GMM模型,具体的过程如下:
1)UBM模型为
g ( x ) = Σ i = 1 M w i p i ( x )
其中 p i ( x ) = 1 ( 2 π ) d / 2 | σ i 2 | 1 / 2 exp { - 1 2 ( x - μ i ) T ( σ i 2 ) - 1 ( x - μ i ) } , wi、μi
Figure FDA00003868294800000110
为UBM模型的参数,分别表示每个高斯函数的权重、均值和协方差,M为高斯函数的个数;
按以下公式对UBM模型参数
Figure FDA0000386829480000014
进行更新
Pr ( i | x t ) = w i p i ( x t ) Σ j = 1 M w j p j ( x t )
n i = Σ t = 1 T Pr ( i | x t )
E i ( x ) = 1 n i Σ t = 1 T Pr ( i | x t ) x t
E i ( x 2 ) = 1 n i Σ t = 1 T Pr ( i | x t ) x t 2
设更新后的GMM-UBM模型的参数为
Figure FDA0000386829480000019
由下面的公式计算
w ^ i = α w n i + ( 1 - α w ) w i
μ ^ i = α μ E i ( x ) + ( 1 - α μ ) μ i
σ ^ i 2 = α σ E i ( x 2 ) + ( 1 - α σ ) ( σ i 2 + μ i 2 ) - μ ^ i 2
其中αp,p∈{w,μ,σ}采用下面公式计算得到
α p = n i n i + r p
其中rp=16;
Figure FDA0000386829480000023
作为GMM-UBM模型的参数,GMM-UBM模型表示为 Λ = { w ^ i , μ ^ i , σ ^ i 2 } , i = 1 , . . . , M ;
2)将每个混合度的均值向量连接在一起形成GMM超向量
Figure FDA0000386829480000025
3)最终得到说话人的所有的GMM超向量,构成说话人的特征参数 X = [ X 1 , . . . , X fnum ] ;
(三)模型训练为每个说话人训练一个一类支持向量机模型,得到对应的判决函数,并将判决函数存入模型数据库,对于第n个说话人,模型训练的具体过程如下:
(1)输入第n说话人的一段语音,经过上述预处理和特征参数提取得到特征参数
Figure FDA0000386829480000027
表示第n个说话人的第i个特征参数,m为特征参数的个数;
(2)求解优化问题
min c , r , ξ 1 , . . . ξ m r 2 + 1 mv Σ i = 1 m ξ i
约束于 | | φ ( Xr ni ) - c | | 2 ≤ r 2 + ξ i
ξ i ≥ 0 , i = 1 , . . . , m
其中r和c为变量,ν∈(0,1),ξi为松弛因子,φ为映射函数,将上述优化问题转化为如下对偶问题:
min α 1 , . . . α m Σ i = 1 m Σ j = 1 m α j α j k ( Xr ni , Xr nj ) - Σ i = 1 m α i k ( Xr ni , Xr ni )
约束于
Σ i = 1 m α i = 1
0 ≤ α i ≤ 1 mv ; i = 1 , . . . , m
其中k(x,y)=φ(x)·φ(y)是核函数,αi为Lagrange系数,求解上述对偶问题得到最优解
Figure FDA0000386829480000032
(3)得到判决函数的表达式
f n ( x ) = [ - 2 Σ i = 1 m α i k ( Xr ni , y ) + k ( y , y ) ] - [ - 2 Σ i = 1 m α i k ( Xr ni , x ) + k ( x , x ) ]
其中,y为满足
Figure FDA0000386829480000034
的样本;
(四)识别过程包括以下步骤:
(1)输入待识别语音,经过预处理和特征参数提取得到特征参数Xt=[Xt1,...,XtS],Xts表示待识别语音的第s个特征参数,s=1,...,S,S为特征参数的个数;
(2)对每一个特征参数进行分类,将Xts依次代入训练阶段得到的N个判决函数fn(x)中,N是说话人的个数,然后根据下式进行判决:
e = arg n = 1 , . . . , N max f n ( Xt s )
最大值对应的e即为Xts对应的说话人所属的类别;
对所有特征参数分类后,统计属于各个类别的特征参数的个数,将最多特征参数所属的类别作为识别结果。
CN201210152435.9A 2012-05-17 2012-05-17 一种快速说话人识别方法 Expired - Fee Related CN102664011B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210152435.9A CN102664011B (zh) 2012-05-17 2012-05-17 一种快速说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210152435.9A CN102664011B (zh) 2012-05-17 2012-05-17 一种快速说话人识别方法

Publications (2)

Publication Number Publication Date
CN102664011A CN102664011A (zh) 2012-09-12
CN102664011B true CN102664011B (zh) 2014-03-12

Family

ID=46773477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210152435.9A Expired - Fee Related CN102664011B (zh) 2012-05-17 2012-05-17 一种快速说话人识别方法

Country Status (1)

Country Link
CN (1) CN102664011B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104167208B (zh) * 2014-08-08 2017-09-15 中国科学院深圳先进技术研究院 一种说话人识别方法和装置
CN104240706B (zh) * 2014-09-12 2017-08-15 浙江大学 一种基于GMM Token配比相似度校正得分的说话人识别方法
CN104464738B (zh) * 2014-10-31 2018-01-02 北京航空航天大学 一种面向智能移动设备的声纹识别方法
CN104361224B (zh) * 2014-10-31 2018-08-03 深圳信息职业技术学院 置信分类方法及置信机器
CN105810199A (zh) * 2014-12-30 2016-07-27 中国科学院深圳先进技术研究院 一种说话人的身份确认方法和装置
CN105161093B (zh) * 2015-10-14 2019-07-09 科大讯飞股份有限公司 一种判断说话人数目的方法及系统
CN105845143A (zh) * 2016-03-23 2016-08-10 广州势必可赢网络科技有限公司 基于支持向量机的说话人确认方法及其系统
CN106373576B (zh) * 2016-09-07 2020-07-21 Tcl科技集团股份有限公司 一种基于vq和svm算法的说话人确认方法及其系统
CN106448682A (zh) * 2016-09-13 2017-02-22 Tcl集团股份有限公司 开集说话人识别的方法及装置
CN108091340B (zh) * 2016-11-22 2020-11-03 北京京东尚科信息技术有限公司 声纹识别方法、声纹识别系统和计算机可读存储介质
CN108268948B (zh) * 2017-01-03 2022-02-18 富士通株式会社 数据处理装置和数据处理方法
EP3433854B1 (en) * 2017-06-13 2020-05-20 Beijing Didi Infinity Technology and Development Co., Ltd. Method and system for speaker verification
WO2019023879A1 (zh) * 2017-07-31 2019-02-07 深圳和而泰智能家居科技有限公司 咳嗽声音识别方法、设备和存储介质
ES2895478T3 (es) * 2017-11-17 2022-02-21 Numares Ag Disposición de RMN y método para transportar un tubo de muestras en una disposición de RMN
CN108074576B (zh) * 2017-12-14 2022-04-08 讯飞智元信息科技有限公司 审讯场景下的说话人角色分离方法及系统
CN109119069B (zh) * 2018-07-23 2020-08-14 深圳大学 特定人群识别方法、电子装置及计算机可读存储介质
CN109378014A (zh) * 2018-10-22 2019-02-22 华中师范大学 一种基于卷积神经网络的移动设备源识别方法及系统
CN109461457A (zh) * 2018-12-24 2019-03-12 安徽师范大学 一种基于svm-gmm模型的语音识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0870300B1 (en) * 1995-06-07 2006-04-19 Rutgers University Speaker verification system
CN101833951A (zh) * 2010-03-04 2010-09-15 清华大学 用于说话人识别的多背景模型建立方法
CN101997689A (zh) * 2010-11-19 2011-03-30 吉林大学 基于声纹识别的usb身份认证方法及其系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2048656B1 (en) * 2007-10-10 2010-02-10 Harman/Becker Automotive Systems GmbH Speaker recognition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0870300B1 (en) * 1995-06-07 2006-04-19 Rutgers University Speaker verification system
CN101833951A (zh) * 2010-03-04 2010-09-15 清华大学 用于说话人识别的多背景模型建立方法
CN101997689A (zh) * 2010-11-19 2011-03-30 吉林大学 基于声纹识别的usb身份认证方法及其系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JOSEPH P.CAMPBELL et.al.Speaker Recognition: A Tutorial.《PROCEEDINGS OF THE IEEE》.1997,第85卷(第9期),第1437-1462页.
Speaker Recognition: A Tutorial;JOSEPH P.CAMPBELL et.al;《PROCEEDINGS OF THE IEEE》;19970930;第85卷(第9期);第1437-1462页 *
杨建华等.说话人识别中语音特征参数研究.《大理学院学报》.2009,第8卷(第8期),第32-35页.
说话人识别中语音特征参数研究;杨建华等;《大理学院学报》;20090831;第8卷(第8期);第32-35页 *

Also Published As

Publication number Publication date
CN102664011A (zh) 2012-09-12

Similar Documents

Publication Publication Date Title
CN102664011B (zh) 一种快速说话人识别方法
CN102881284B (zh) 非特定人语音情感识别方法及系统
CN105261367B (zh) 一种说话人识别方法
CN110299142B (zh) 一种基于网络融合的声纹识别方法及装置
CN106503805A (zh) 一种基于机器学习的双模态人人对话情感分析系统及其方法
CN106952649A (zh) 基于卷积神经网络和频谱图的说话人识别方法
CN106228980A (zh) 数据处理方法和装置
Zeghidour et al. A deep scattering spectrum—deep siamese network pipeline for unsupervised acoustic modeling
CN102799899A (zh) 基于svm和gmm的特定音频事件分层泛化识别方法
CN108364662B (zh) 基于成对鉴别任务的语音情感识别方法与系统
CN107393554A (zh) 一种声场景分类中融合类间标准差的特征提取方法
CN105609116B (zh) 一种语音情感维度区域的自动识别方法
CN103605990A (zh) 基于图聚类标签传播的集成多分类器融合分类方法和系统
CN103456302B (zh) 一种基于情感gmm模型权重合成的情感说话人识别方法
CN103474061A (zh) 基于分类器融合的汉语方言自动辨识方法
CN104091602A (zh) 一种基于模糊支持向量机的语音情感识别方法
CN102156871A (zh) 基于类别相关的码本和分类器投票策略的图像分类方法
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
CN104182621A (zh) 基于深度信念网络的adhd判别分析方法
CN105702251B (zh) 基于Top-k加强音频词袋模型的语音情感识别方法
CN109166591A (zh) 一种基于音频特征信号的分类方法
CN109119069A (zh) 特定人群识别方法、电子装置及计算机可读存储介质
CN107491729A (zh) 基于余弦相似度激活的卷积神经网络的手写数字识别方法
CN110288028A (zh) 心电检测方法、系统、设备及计算机可读存储介质
CN103761965A (zh) 一种乐器信号的分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140312