CN102664011B - 一种快速说话人识别方法 - Google Patents
一种快速说话人识别方法 Download PDFInfo
- Publication number
- CN102664011B CN102664011B CN201210152435.9A CN201210152435A CN102664011B CN 102664011 B CN102664011 B CN 102664011B CN 201210152435 A CN201210152435 A CN 201210152435A CN 102664011 B CN102664011 B CN 102664011B
- Authority
- CN
- China
- Prior art keywords
- characteristic parameter
- speaker
- sigma
- alpha
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000012706 support-vector machine Methods 0.000 claims abstract description 20
- 239000013598 vector Substances 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 11
- 230000009977 dual effect Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 4
- 241001269238 Data Species 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims description 2
- 239000000203 mixture Substances 0.000 abstract 3
- 230000006870 function Effects 0.000 description 15
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 235000012364 Peperomia pellucida Nutrition 0.000 description 2
- 240000007711 Peperomia pellucida Species 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
Images
Landscapes
- Complex Calculations (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种快速说话人识别方法,属于说话人识别方法该方法。结合高斯混合模型,以高斯混合模型超向量作为说话人的特征参数。将高斯混合模型超向量作为输入,设计一种一类分类的支持向量机分类器。对于N个说话人,训练N个分类器,每个分类器由一个说话人的语音样本训练得到。本发明提高了说话人识别的速度。每增加一个注册说话人,只需要为新的说话人训练一个一类支持向量机模型,使说话人识别系统有很好的扩展性。
Description
技术领域
本发明涉及一种说话人识别方法。
背景技术
说话人识别,又称为声纹识别,是以语音对说话人进行区分,从而进行身份鉴别和认证的一种生物识别技术。目前基于支持向量的说话人识别方法已成为一种主流的说话人识别方法。
对于支持向量机而言,它是一个两类分类器,当要应用到说话人识别系统中时,需要完成两类到多类分类的转化。两类支持向量机分类器可以采用两种方式实现多类分类,一种是一对一的实现方法。这种方式是比较常用的一种多类分类方式。专利CN1787075、专利CN102201237A中采用的支持向量机多类分类器就是采用这种方式实现的。对于一对一的多类分类方式,对于N个类样本,分别进行两两分类,共需要构造 个分类器。尽管每个支持向量机分类器只需要两类样本训练就可以得到,样本数据量小,但随着分类类别数的增加,需要构造的两类支持向量机分类器的数目急剧增加,使得系统的运算量和存储量大大增加,同时其判决的速度也会较慢。当加入新的类别时,由于在分类的过程中,需要两两分类,因此新增加的类别样本需要与所有的其余类样本分别再设计N个分类器,当类别数N较大时,需要重新训练分类器的个数较多,在实际的应用环境中可能导致系统更新速度慢。
另一种多类支持向量机分类器的实现采用一对多对的方式。这种方式是支持向量机最早实现多类分类的方式,对于N个类样本,构造N个分类器。每个分类器以其自己的对应的样本为正样本,剩余的所有样本作为负样本进行分类器的训练。尽管一对多的实现方法简单直观,需要构造两类支持向量机数量少,但它将所有其他类的样本作为负样本,导致正负样本不均衡,负的训练样本过大,训练时间较长。尤其是当加入新的类别时,负样本发生变化,所有支持向量机都需要重新训练,导致系统的可扩展性不好。
发明内容
本发明提供一种快速说话人识别方法,以解决上述技术存在的缺陷,以高斯混合模型超向量作为说话人的特征参数,设计一种一类分类的支持向量机分类器实现说话人识别。
本发明采用的技术方案包括下列步骤:
(一)语音信号的预处理:包括语音信号的预滤波、端点检测、预加重,分帧;
(二)特征参数提取的过程如下:
(2)利用第一特征参数生成GMM超向量,首先,将第一特征参数划分为若干个小的矩阵,每个小的矩阵包含50帧语音数据的特征参数,表示为,为小于或等于的最大整数;其次,利用依次对UBM模型进行自适应,得到相应的GMM超向量特征参数,其中UBM是一个由与目标说话人无关的大量的语音数据训练的混合度很高的GMM模型,具体的过程如下:
1)UBM模型为
(三)模型训练为每个说话人训练一个一类支持向量机模型,得到对应的判决函数,并将判决函数存入模型数据库,对于第n个说话人,模型训练的具体过程如下:
(2)求解优化问题
约束于
(3)得到判决函数的表达式
(四)识别过程包括以下步骤:
对所有特征参数分类后,统计属于各个类别的特征参数的个数,将最多特征参数所属的类别作为识别结果。
本发明以高斯混合模型超向量作为说话人的特征参数;在模型训练阶段,为每个说话人训练一个分类器,每个分类器训练只需要一个说话人的语音数据,减少了计算数据量,提高了模型训练的速度;在识别阶段,输入待识别语音,经过预处理和特征参数提取得到特征参数,对所有特征参数进行分类,统计属于各个类别的特征参数的个数,将最多特征参数所属的类别作为识别结果。
本专利发明设计了一种一类分类的支持向量机分类器实现说话人识别方法,能够解决多类支持向量机分类器的实现采用一对多对的方式中存在的问题。基于一类分类的支持向量机分类器,对于N个类样本,采用N个分类器,训练每个分类器只需要该分类器对应说话人的语音数据,无需其他说话人的语音数据,避免了训练过程中正负样本不均衡的问题,减少了计算时需要的存储量和数据量。当有新的类别加入时,只需要训练新类别对应的分类器即可,不需要再进行其他分类器设计,更不需要对所有分类器进行重新设计,系统可扩展性好,更适合于说话人识别系统的实用化发展。
本专利与传统的支持向量机相比较,该方法实现说话人识别需要训练的分类器少,训练每个分类器只需一个说话人的语音数据,训练数据量少,减少了运算时间,提高了说话人识别的速度。每增加一个注册说话人,只需要为新的说话人训练一个一类支持向量机模型,使说话人识别系统有很好的扩展性。
本发明的优点在于:
1、为每个说话人训练一个分类器,每个分类器训练只需要一个说话人的语音数据,计算数据量少,训练与识别速度快。
2、每增加一个注册说话人,只需要为新的说话人训练一个一类支持向量机模型,使说话人识别系统有很好的扩展性。
3、以高斯混合模型超向量作为说话人的特征参数,在语音数据较少的情况下仍然可以取得较好的识别率。
附图说明
图1是本发明的语音信号预处理的流程图;
图2是本发明的特征参数提取的流程图;
图3是本发明的模型训练流程图;
图4是本发明的识别流程图。
具体实施方案
本发明包括以下步骤:
(一)语音信号的预处理,如图1所示,该流程包括:输入语音信号,对其进行预滤波、端点检测、预加重、分帧,预加重系数为0.95;采用汉明窗分帧,其中窗宽256个采样点,窗移128个采样点;
(二)特征参数提取流程,如图2所示,该流程包括两步:
2)利用依次对通用背景模型(Universal Background Model)UBM模型进行自适应,得到相应的GMM超向量,其中UBM是一个由与目标说话人无关的大量的语音数据训练的混合度很高的GMM模型,具体步骤如下:
UBM模型为
(三)一种快速说话人识别方法的训练流程如图3所示,包括以下步骤:
设有N个说话人需要注册;
(3)求解如下的优化问题
约束于
得到判决函数的表达式
(四)一种快速说话人识别方法的识别流程如图4所示,包括以下步骤:
设,L为N维向量;
(3);
Claims (1)
1.一种快速说话人识别方法,其特征在于包括下列步骤:
(一)语音信号的预处理:包括语音信号的预滤波、端点检测、预加重,分帧;
(二)特征参数提取的过程如下:
(1)提取MFCC特征参数作为说话人的第一特征参数Yc,Yc为l×d维矩阵,l为语音数据经预处理后的帧数,d为特征参数的维数;
(2)利用第一特征参数生成GMM超向量,首先,将第一特征参数Yc划分为若干个小的矩阵,每个小的矩阵包含50帧语音数据的特征参数,表示为xt,t=1,...,fnum,fnum为小于或等于的最大整数;其次,利用x1,...,xfnum依次对UBM模型进行自适应,得到相应的GMM超向量特征参数X=[X1,...,Xfnum],其中UBM是一个由与目标说话人无关的大量的语音数据训练的混合度很高的GMM模型,具体的过程如下:
1)UBM模型为
其中αp,p∈{w,μ,σ}采用下面公式计算得到
其中rp=16;
3)最终得到说话人的所有的GMM超向量,构成说话人的特征参数
(三)模型训练为每个说话人训练一个一类支持向量机模型,得到对应的判决函数,并将判决函数存入模型数据库,对于第n个说话人,模型训练的具体过程如下:
(2)求解优化问题
约束于
其中r和c为变量,ν∈(0,1),ξi为松弛因子,φ为映射函数,将上述优化问题转化为如下对偶问题:
约束于
(3)得到判决函数的表达式
(四)识别过程包括以下步骤:
(1)输入待识别语音,经过预处理和特征参数提取得到特征参数Xt=[Xt1,...,XtS],Xts表示待识别语音的第s个特征参数,s=1,...,S,S为特征参数的个数;
(2)对每一个特征参数进行分类,将Xts依次代入训练阶段得到的N个判决函数fn(x)中,N是说话人的个数,然后根据下式进行判决:
最大值对应的e即为Xts对应的说话人所属的类别;
对所有特征参数分类后,统计属于各个类别的特征参数的个数,将最多特征参数所属的类别作为识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210152435.9A CN102664011B (zh) | 2012-05-17 | 2012-05-17 | 一种快速说话人识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210152435.9A CN102664011B (zh) | 2012-05-17 | 2012-05-17 | 一种快速说话人识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102664011A CN102664011A (zh) | 2012-09-12 |
CN102664011B true CN102664011B (zh) | 2014-03-12 |
Family
ID=46773477
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210152435.9A Expired - Fee Related CN102664011B (zh) | 2012-05-17 | 2012-05-17 | 一种快速说话人识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102664011B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104167208B (zh) * | 2014-08-08 | 2017-09-15 | 中国科学院深圳先进技术研究院 | 一种说话人识别方法和装置 |
CN104240706B (zh) * | 2014-09-12 | 2017-08-15 | 浙江大学 | 一种基于GMM Token配比相似度校正得分的说话人识别方法 |
CN104464738B (zh) * | 2014-10-31 | 2018-01-02 | 北京航空航天大学 | 一种面向智能移动设备的声纹识别方法 |
CN104361224B (zh) * | 2014-10-31 | 2018-08-03 | 深圳信息职业技术学院 | 置信分类方法及置信机器 |
CN105810199A (zh) * | 2014-12-30 | 2016-07-27 | 中国科学院深圳先进技术研究院 | 一种说话人的身份确认方法和装置 |
CN105161093B (zh) * | 2015-10-14 | 2019-07-09 | 科大讯飞股份有限公司 | 一种判断说话人数目的方法及系统 |
CN105845143A (zh) * | 2016-03-23 | 2016-08-10 | 广州势必可赢网络科技有限公司 | 基于支持向量机的说话人确认方法及其系统 |
CN106373576B (zh) * | 2016-09-07 | 2020-07-21 | Tcl科技集团股份有限公司 | 一种基于vq和svm算法的说话人确认方法及其系统 |
CN106448682A (zh) * | 2016-09-13 | 2017-02-22 | Tcl集团股份有限公司 | 开集说话人识别的方法及装置 |
CN108091340B (zh) * | 2016-11-22 | 2020-11-03 | 北京京东尚科信息技术有限公司 | 声纹识别方法、声纹识别系统和计算机可读存储介质 |
CN108268948B (zh) * | 2017-01-03 | 2022-02-18 | 富士通株式会社 | 数据处理装置和数据处理方法 |
EP3433854B1 (en) * | 2017-06-13 | 2020-05-20 | Beijing Didi Infinity Technology and Development Co., Ltd. | Method and system for speaker verification |
WO2019023879A1 (zh) * | 2017-07-31 | 2019-02-07 | 深圳和而泰智能家居科技有限公司 | 咳嗽声音识别方法、设备和存储介质 |
ES2895478T3 (es) * | 2017-11-17 | 2022-02-21 | Numares Ag | Disposición de RMN y método para transportar un tubo de muestras en una disposición de RMN |
CN108074576B (zh) * | 2017-12-14 | 2022-04-08 | 讯飞智元信息科技有限公司 | 审讯场景下的说话人角色分离方法及系统 |
CN109119069B (zh) * | 2018-07-23 | 2020-08-14 | 深圳大学 | 特定人群识别方法、电子装置及计算机可读存储介质 |
CN109378014A (zh) * | 2018-10-22 | 2019-02-22 | 华中师范大学 | 一种基于卷积神经网络的移动设备源识别方法及系统 |
CN109461457A (zh) * | 2018-12-24 | 2019-03-12 | 安徽师范大学 | 一种基于svm-gmm模型的语音识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0870300B1 (en) * | 1995-06-07 | 2006-04-19 | Rutgers University | Speaker verification system |
CN101833951A (zh) * | 2010-03-04 | 2010-09-15 | 清华大学 | 用于说话人识别的多背景模型建立方法 |
CN101997689A (zh) * | 2010-11-19 | 2011-03-30 | 吉林大学 | 基于声纹识别的usb身份认证方法及其系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2048656B1 (en) * | 2007-10-10 | 2010-02-10 | Harman/Becker Automotive Systems GmbH | Speaker recognition |
-
2012
- 2012-05-17 CN CN201210152435.9A patent/CN102664011B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0870300B1 (en) * | 1995-06-07 | 2006-04-19 | Rutgers University | Speaker verification system |
CN101833951A (zh) * | 2010-03-04 | 2010-09-15 | 清华大学 | 用于说话人识别的多背景模型建立方法 |
CN101997689A (zh) * | 2010-11-19 | 2011-03-30 | 吉林大学 | 基于声纹识别的usb身份认证方法及其系统 |
Non-Patent Citations (4)
Title |
---|
JOSEPH P.CAMPBELL et.al.Speaker Recognition: A Tutorial.《PROCEEDINGS OF THE IEEE》.1997,第85卷(第9期),第1437-1462页. |
Speaker Recognition: A Tutorial;JOSEPH P.CAMPBELL et.al;《PROCEEDINGS OF THE IEEE》;19970930;第85卷(第9期);第1437-1462页 * |
杨建华等.说话人识别中语音特征参数研究.《大理学院学报》.2009,第8卷(第8期),第32-35页. |
说话人识别中语音特征参数研究;杨建华等;《大理学院学报》;20090831;第8卷(第8期);第32-35页 * |
Also Published As
Publication number | Publication date |
---|---|
CN102664011A (zh) | 2012-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102664011B (zh) | 一种快速说话人识别方法 | |
CN102881284B (zh) | 非特定人语音情感识别方法及系统 | |
CN105261367B (zh) | 一种说话人识别方法 | |
CN110299142B (zh) | 一种基于网络融合的声纹识别方法及装置 | |
CN106503805A (zh) | 一种基于机器学习的双模态人人对话情感分析系统及其方法 | |
CN106952649A (zh) | 基于卷积神经网络和频谱图的说话人识别方法 | |
CN106228980A (zh) | 数据处理方法和装置 | |
Zeghidour et al. | A deep scattering spectrum—deep siamese network pipeline for unsupervised acoustic modeling | |
CN102799899A (zh) | 基于svm和gmm的特定音频事件分层泛化识别方法 | |
CN108364662B (zh) | 基于成对鉴别任务的语音情感识别方法与系统 | |
CN107393554A (zh) | 一种声场景分类中融合类间标准差的特征提取方法 | |
CN105609116B (zh) | 一种语音情感维度区域的自动识别方法 | |
CN103605990A (zh) | 基于图聚类标签传播的集成多分类器融合分类方法和系统 | |
CN103456302B (zh) | 一种基于情感gmm模型权重合成的情感说话人识别方法 | |
CN103474061A (zh) | 基于分类器融合的汉语方言自动辨识方法 | |
CN104091602A (zh) | 一种基于模糊支持向量机的语音情感识别方法 | |
CN102156871A (zh) | 基于类别相关的码本和分类器投票策略的图像分类方法 | |
CN110992988B (zh) | 一种基于领域对抗的语音情感识别方法及装置 | |
CN104182621A (zh) | 基于深度信念网络的adhd判别分析方法 | |
CN105702251B (zh) | 基于Top-k加强音频词袋模型的语音情感识别方法 | |
CN109166591A (zh) | 一种基于音频特征信号的分类方法 | |
CN109119069A (zh) | 特定人群识别方法、电子装置及计算机可读存储介质 | |
CN107491729A (zh) | 基于余弦相似度激活的卷积神经网络的手写数字识别方法 | |
CN110288028A (zh) | 心电检测方法、系统、设备及计算机可读存储介质 | |
CN103761965A (zh) | 一种乐器信号的分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20140312 |