CN101051463A - 说话人认证的验证方法及装置 - Google Patents
说话人认证的验证方法及装置 Download PDFInfo
- Publication number
- CN101051463A CN101051463A CNA2006100731426A CN200610073142A CN101051463A CN 101051463 A CN101051463 A CN 101051463A CN A2006100731426 A CNA2006100731426 A CN A2006100731426A CN 200610073142 A CN200610073142 A CN 200610073142A CN 101051463 A CN101051463 A CN 101051463A
- Authority
- CN
- China
- Prior art keywords
- speaker
- mentioned
- voice
- identified
- dtw
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012795 verification Methods 0.000 title claims abstract description 22
- 230000009466 transformation Effects 0.000 claims abstract description 23
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims abstract description 7
- 230000008878 coupling Effects 0.000 claims description 19
- 238000010168 coupling process Methods 0.000 claims description 19
- 238000005859 coupling reaction Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004304 visual acuity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Collating Specific Patterns (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明提供了说话人认证的验证方法和装置以及说话人认证系统。本发明的说话人认证的验证方法包括:输入说话人说出的包含密码的语音;从上述输入的语音提取声学特征向量序列;对上述提取出的声学特征向量序列与注册说话人注册的说话人模板进行DTW匹配;计算DTW匹配后的声学特征向量序列与说话人模板之间的各个节点距离;对上述计算所得的各个节点距离进行非线性变换,以使对较小的节点距离给予较大的权重;根据上述非线性变换后的各个节点距离,计算DTW匹配得分;以及比较上述匹配得分和预先定义的分辨阈值,以确定上述输入的语音是否为上述注册说话人说出的包含密码的语音。
Description
技术领域
本发明涉及信息处理技术,具体地涉及说话人认证(speakerauthentification)的技术。
背景技术
利用每个人说话时的发音特点可以识别出不同的说话人,从而可以进行说话人的认证。在K.Yu,J.Mason,J.Oglesby发表的文章“Speakerrecognition using hidden Markov models,dynamic time warping andvector quantisation”(Vision,Image and Signal Processing,IEEProceedings,Vol.142,Oct.1995,pp.313-18)中介绍了常见的三种说话人识别引擎技术:HMM(Hidden Markov Model,隐马尔可夫模型),DTW(Dynamic Timing Warping,动态时间规整)和VQ(Vector Quantization,矢量量化)。
通常,一个说话人认证系统包括注册(enrollment)和验证(verification)两个部分。在注册阶段,根据说话人(用户)本人说出的包含密码的语音,生成该说话人的说话人模板;在验证阶段,根据说话人模板判断测试语音是否为该说话人本人说出的相同密码的语音。具体地,在验证过程中通常应用DTW算法对测试语音的声学特征向量序列与说话人模板进行DTW匹配,从而得到匹配得分,并将匹配得分与在测试阶段得到的分辨阈值进行比较,来判断测试语音是否为该说话人本人说出的相同密码的语音。在DTW中,计算测试语音的声学特征向量序列和说话人模板的全局匹配得分的方法通常是直接沿着最优的匹配路径将所有节点距离相加求和。然而,由于匹配错误在用户测试的时候常常会出现一些较大的节点距离。这给区分用户和冒充者带来了困难。
在X.Wen and R.Liu发表的文章“Enhancing the stability of speakerverification with compressed templates”,ISCSLP2002,pp.111-114(2002)中提出了一个基于帧级验证的说话人验证系统。在P.Mills,J.Bowles发表的文章“Fuzzy logic enhanced symmetric dynamic programming forspeech recognition”,Fuzzy Systems,Proceedings of the Fifth IEEEInternational Conference on,Vol.3,pp.2013-2019(1996)中则描述了一个基于模糊逻辑的语音识别系统。这两种方法的本质都是在DTW算法的节点距离上做了一种变换。然而,这两种变换都对参数非常敏感,只有为每个模板都设置合适的参数才能取得较好的效果。
发明内容
为了解决上述现有技术中存在的问题,本发明提供了说话人认证的验证方法和装置以及说话人认证系统。
根据本发明的一个方面,提供了一种说话人认证的验证方法,包括:输入说话人说出的包含密码的语音;从上述输入的语音提取声学特征向量序列;对上述提取出的声学特征向量序列与注册说话人注册的说话人模板进行DTW匹配;计算DTW匹配后的声学特征向量序列与说话人模板之间的各个节点距离;对上述计算所得的各个节点距离进行非线性变换,以使对较小的节点距离给予较大的权重;根据上述非线性变换后的各个节点距离,计算DTW匹配得分;以及比较上述匹配得分和预先定义的分辨阈值,以确定上述输入的语音是否为上述注册说话人说出的包含密码的语音。
根据本发明的另一个方面,提供了一种说话人认证的验证装置,包括:语音输入单元(utterance input unit),用于输入说话人说出的包含密码语音;声学特征向量序列提取单元(acoustic feature vector sequenceextractor),用于从上述输入的语音提取声学特征向量序列;DTW匹配单元(DTW-matching unit),用于对上述提取出的声学特征向量序列与注册说话人注册的说话人模板进行DTW匹配;节点距离计算单元(localdistance calculator),用于计算DTW匹配后的声学特征向量序列与说话人模板之间的各个节点距离;节点距离非线性变换单元(local distancenonlinear-transform unit),用于对上述计算所得的各个节点距离进行非线性变换,以使对较小的节点距离给予较大的权重;匹配得分计算单元(matching score calculator),用于根据上述非线性变换后的各个节点距离,计算DTW匹配得分;以及比较单元(compare unit),用于比较上述匹配得分和预先定义的分辨阈值,以确定上述输入的语音是否为上述注册说话人说出的包含密码的语音。
根据本发明的另一个方面,提供了一种说话人认证系统,包括:前面所述的说话人认证的验证装置。
附图说明
相信通过以下结合附图对本发明具体实施方式的说明,能够使人们更好地了解本发明上述的特点、优点和目的。
图1是根据本发明一个实施例的说话人认证的验证方法的流程图;
图2示出了输入样本和参考模板的DTW匹配实例;
图3示出了非线性变换曲线的一个实例;
图4是根据本发明一个实施例的说话人认证的验证装置的方框图;以及
图5是根据本发明一个实施例的说话人认证系统的方框图。
具体实施方式
下面就结合附图对本发明的各个优选实施例进行详细的说明。
图1是根据本发明一个实施例的说话人认证的验证方法的流程图。下面就结合该图,对本实施例进行描述。
如图1所示,首先在步骤101,由进行验证的用户输入包含密码的语音。其中,密码是用户在注册阶段设定的用于验证的特定短语或发音序列。
接着,在步骤105,从输入的语音提取声学特征向量序列。本发明对于表示声学特征的方式并没有特别的限制,可以采用例如,MFCC(Mel-scale Frequency Cepstral Coefficients,梅尔倒频谱参数)、LPCC(Linear Prediction Cepstrum Coefficient,线性预测倒谱参数)或者其它基于能量、基音频率或小波分析等得到的各种系数等,只要是能够表现说话人的个人语音特点即可;但是,应当与在注册阶段用于表示声学特征的方式相对应。
接着,在步骤110,对上述提取出的声学特征向量序列与注册说话人注册的说话人模板进行DTW匹配,获得最优匹配路径。具体地,图2示出了输入样本和参考模板的DTW匹配实例。如图2所示,横轴为说话人模板的帧节点,纵轴为输入语音的帧节点。在进行DTW匹配时,计算说话人模板的一个帧节点与对应的输入语音的帧节点和其相邻的帧节点之间的节点距离,选择节点距离最小的输入语音的帧节点作为与说话人模板的所述帧节点相对应的帧节点。重复上述步骤,找出与说话人模板的每个帧节点相对应的输入语音的帧节点,从而获得最优匹配路径。
本实施例中的说话人模板是利用说话人认证的注册方法生成的说话人模板,其中至少包含与密码语音对应的声学特征和分辨阈值。在此,对说话人认证的注册过程进行简要描述。首先,输入说话人说出的包含密码的语音。接着,从输入的密码语音提取声学特征。然后,生成说话人模板。为了提高说话人模板的质量,可以采用多个训练语音来构建一个说话人模板。首先选定一个训练语音作为初始模板,然后用DTW的方法将第二个训练语音与之时间对齐,并用两段语音中相对应的特征向量的平均来生成一个新的模板,然后再将第三个训练语音与新模板时间对齐,如此循环直到所有的训练语音都结合到一个独立的模板中,即所谓的模板合并。详细内容可以参考W.H.Abdulla、D.Chow和G.Sin发表的文章“Cross-wordsreference template for DTW-based speech recognition systems”(IEEETENCON 2003,pp.1576-1579)。
此外,在说话人认证的注册过程中,说话人模板中包含的分辨阈值可以如下确定。首先,通过采集大量说话人和他人对同一密码发音的语音数据,分别与训练出的说话人模板进行DTW匹配,得到说话人和他人的匹配得分分布。然后,至少可以通过以下三种方法来估计该说话人模板的分辨阈值:
a)将两条分布曲线的交叉点,即,错误接受率(FAR,False Accept Rate)和错误拒绝率(FRR,False Reject Rate)的和最小处的值作为阈值;
b)将等误识率(EER,Equal Error Rate)对应的值作为阈值;或者
c)将错误接受率在某个值(如0.1%)时对应的值作为阈值。
返回到图1,接着,在步骤115,计算DTW匹配后的声学特征向量序列与说话人模板之间的各个节点距离。也就是说,计算在图2的最优匹配路径中输入语音与说话人模板的对应的各个帧节点之间的节点距离。
然后,在步骤120,对上述计算所得的各个节点距离进行非线性变换,以使对较小的节点距离给予较大的权重。在本实施例中,利用函数:S=exp(-d/para)进行非线性变换,该函数的曲线如图3所示。在图3中,横轴为节点距离d,纵轴为函数值S。在本实施例的非线性变换公式中,d是节点距离,para为该变换的一个参数,可以调整该函数曲线的形状。
在具体实现中,这个参数para可以是不依赖于模板,即一个定值;也可以依赖于模板,即每个模板对应一个固定的参数值,例如将模板的分辨阈值作为参数值;或者可以是既依赖于模板也依赖于帧(节点),即每个模板的每一帧都有一个独立的参数值。
依赖于模板的参数可以通过上述计算说话人模板的分辨阈值的方法获得。
依赖于帧的参数可以通过与上述计算说话人模板的分辨阈值同样的方法获得,只是分别对每帧进行独立统计。具体地,通过采集大量说话人和他人对同一密码发音的语音数据,分别与训练出的说话人模板进行DTW匹配,得到说话人和他人的每个帧节点距离的分布。然后,至少可以通过以下三种方法来估计依赖于每个帧的参数:
a)将每个帧对应的说话人和他人的两条分布曲线的交叉点,即,错误接受率(FAR,False Accept Rate)和错误拒绝率(FRR,False Reject Rate)的和最小处的值作为参数;
b)将等误识率(EER,Equal Error Rate)对应的值作为参数;或者
c)将错误接受率在某个值(如0.1%)时对应的值作为参数。
当然,参数也可以根据不同的非线性变换函数作适当的调整,如加上一个常数4,即S=exp(-d/(para+4)),以期得到最佳的性能。
此外,本发明的非线性变换并不限于S=exp(-d/para),所有三阶导函数在(0,∞)区间内为负值的函数都可以达到上文提及的“对较小的节点距离给予较大的权重”的目的。例如S=ln(d/para),S=arctan(d/para),S=para/d以及它们的嵌套组合如S=arctan(exp(-d/para))或者基于它们的扩展如S=pow(exp(-d/para),2)。
然后,在步骤125,根据上述非线性变换后的各个节点距离,计算DTW匹配得分。具体地,可以通过累加非线性变换后的各个节点距离来获得匹配得分。
接着,在步骤130,判断上述DTW匹配得分是否小于上述说话人模板中设定的分辨阈值。如果是,则在步骤135认定是同一说话人说出的相同的密码,验证成功;如果否,则在步骤140认定验证失败。
通过以上描述可知,如果采用本实施例的说话人认证的验证方法,通过非线性变换可以在计算整体匹配距离时着重强调较小的节点距离,所以它对参数不敏感。即使对所有的模板使用一个固定的参数,这个变换仍然是有效的。另外,如果使用了依赖于模板的参数,该变换具有比上述的两个方法更好的性能。不仅如此,还可以使用依赖于帧的参数,通过使用这种依赖于帧的参数,系统性能可以得到进一步提高。
在同一发明构思下,图4是根据本发明一个实施例的说话人认证的验证装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图2所示,本实施例的说话人认证的验证装置200包括:语音输入单元(utterance input unit)201,用于输入说话人说出的包含密码语音;声学特征向量序列提取单元(acoustic feature vector sequence extractor)202,用于从上述输入的语音提取声学特征向量序列;DTW匹配单元(DTW-matching unit)203,用于对上述提取出的声学特征向量序列与注册说话人注册的说话人模板进行DTW匹配;节点距离计算单元(localdistance calculator)204,用于计算DTW匹配后的声学特征向量序列与说话人模板之间的各个节点距离;节点距离非线性变换单元(local distancenonlinear-transform unit)205,用于对上述计算所得的各个节点距离进行非线性变换,以使对较小的节点距离给予较大的权重;匹配得分计算单元(matching score calculator)206,用于根据上述非线性变换后的各个节点距离,计算DTW匹配得分;以及比较单元(compare unit)207,用于比较上述匹配得分和预先定义的分辨阈值,以确定上述输入的语音是否为上述注册说话人说出的包含密码的语音。
在本实施例中,上述说话人模板是利用说话人认证的注册方法生成的说话人模板,包含说话人在注册过程中使用的密码语音的声学特征以及分辨阈值。本实施例的说话人认证的验证装置200被设计为在比较单元207进行比较,如果由匹配得分计算单元206计算出的DTW匹配得分小于预先定义的分辨阈值,则判断输入的语音是上述注册说话人说出的包含密码的语音,否则,判断为验证失败。
本实施例的说话人认证的验证装置200及其各个组成部分,可以用专用的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。并且,本实施例的说话人认证的验证装置200,操作上可以实现前面结合图1描述的实施例的说话人认证的验证方法。
在同一发明构思下,图5是根据本发明一个实施例的说话人认证系统的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图5所示,本实施例的说话人认证系统包括:注册装置300,其可以为说话人认证的注册装置300;以及验证装置200,其可以为前面实施例描述的说话人认证的验证装置200。由注册装置300生成的说话人模板通过任意的通信方式,例如,网络、内部信道、磁盘等记录媒体等,传递给验证装置200。
这样,如果采用本实施例的说话人认证系统,经变换后求得的匹配得分将比传统方法更具有分辨力,从而显著提供系统的性能。此外,如果使用依赖于帧的参数将比以往仅仅依赖于模板的参数获得更好的性能。
以上虽然通过一些示例性的实施例对本发明的说话人认证的验证方法和装置以及说话人认证系统进行了详细的描述,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明的范围仅由所附权利要求为准。
Claims (10)
1.一种说话人认证的验证方法,包括:
输入说话人说出的包含密码的语音;
从上述输入的语音提取声学特征向量序列;
对上述提取出的声学特征向量序列与注册说话人注册的说话人模板进行DTW匹配;
计算DTW匹配后的声学特征向量序列与说话人模板之间的各个节点距离;
对上述计算所得的各个节点距离进行非线性变换,以使对较小的节点距离给予较大的权重;
根据上述非线性变换后的各个节点距离,计算DTW匹配得分;以及
比较上述匹配得分和预先定义的分辨阈值,以确定上述输入的语音是否为上述注册说话人说出的包含密码的语音。
2.根据权利要求1所述的说话人认证的验证方法,其中,通过三阶导数在(0,∞)区间内为负值的函数进行非线性变换。
3.根据权利要求2所述的说话人认证的验证方法,其中,所述函数包括选自如下的一种:exp(-d/para)、ln(d/para)、arctan(d/para)、d/para以及它们的组合,其中d为节点距离,para为参数。
4.根据权利要求3所述的说话人认证的验证方法,其中,所述参数是常数。
5.根据权利要求3所述的说话人认证的验证方法,其中,所述参数是依赖于上述说话人模板的参数。
6.根据权利要求5所述的说话人认证的验证方法,其中,所述依赖于上述说话人模板的参数是所述分辨阈值。
7.根据权利要求3所述的说话人认证的验证方法,其中,所述参数是依赖于帧的参数。
8.根据权利要求7所述的说话人认证的验证方法,其中,通过在注册过程中对每个帧距离独立进行统计获得所述依赖于帧的参数。
9.一种说话人认证的验证装置,包括:
语音输入单元(utterance input unit),用于输入说话人说出的包含密码语音;
声学特征向量序列提取单元(acoustic feature vector sequenceextractor),用于从上述输入的语音提取声学特征向量序列;
DTW匹配单元(DTW-matching unit),用于对上述提取出的声学特征向量序列与注册说话人注册的说话人模板进行DTW匹配;
节点距离计算单元(local distance calculator),用于计算DTW匹配后的声学特征向量序列与说话人模板之间的各个节点距离;
节点距离非线性变换单元(local distance nonlinear-transform unit),用于对上述计算所得的各个节点距离进行非线性变换,以使对较小的节点距离给予较大的权重;
匹配得分计算单元(matching score calculator),用于根据上述非线性变换后的各个节点距离,计算DTW匹配得分;以及
比较单元(compare unit),用于比较上述匹配得分和预先定义的分辨阈值,以确定上述输入的语音是否为上述注册说话人说出的包含密码的语音。
10.一种说话人认证系统,包括:
根据权利要求9所述的说话人认证的验证装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2006100731426A CN101051463B (zh) | 2006-04-06 | 2006-04-06 | 说话人认证的验证方法及装置 |
US11/692,470 US7809561B2 (en) | 2006-04-06 | 2007-03-28 | Method and apparatus for verification of speaker authentication |
JP2007099946A JP2007279742A (ja) | 2006-04-06 | 2007-04-06 | 話者認証確認方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2006100731426A CN101051463B (zh) | 2006-04-06 | 2006-04-06 | 说话人认证的验证方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101051463A true CN101051463A (zh) | 2007-10-10 |
CN101051463B CN101051463B (zh) | 2012-07-11 |
Family
ID=38576540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006100731426A Expired - Fee Related CN101051463B (zh) | 2006-04-06 | 2006-04-06 | 说话人认证的验证方法及装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7809561B2 (zh) |
JP (1) | JP2007279742A (zh) |
CN (1) | CN101051463B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101465123B (zh) * | 2007-12-20 | 2011-07-06 | 株式会社东芝 | 说话人认证的验证方法和装置以及说话人认证系统 |
CN101599127B (zh) * | 2009-06-26 | 2011-09-14 | 安徽大学 | 眼电信号的特征提取与识别方法 |
CN102254559A (zh) * | 2010-05-20 | 2011-11-23 | 盛乐信息技术(上海)有限公司 | 基于声纹的身份认证系统及方法 |
CN105427863A (zh) * | 2015-12-18 | 2016-03-23 | 合肥寰景信息技术有限公司 | 一种语音即时识别方法 |
CN109192223A (zh) * | 2018-09-20 | 2019-01-11 | 广州酷狗计算机科技有限公司 | 音频对齐的方法和装置 |
WO2022007846A1 (zh) * | 2020-07-08 | 2022-01-13 | 华为技术有限公司 | 语音增强方法、设备、系统以及存储介质 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8762149B2 (en) * | 2008-12-10 | 2014-06-24 | Marta Sánchez Asenjo | Method for verifying the identity of a speaker and related computer readable medium and computer |
US20130066632A1 (en) * | 2011-09-14 | 2013-03-14 | At&T Intellectual Property I, L.P. | System and method for enriching text-to-speech synthesis with automatic dialog act tags |
US9443522B2 (en) | 2013-11-18 | 2016-09-13 | Beijing Lenovo Software Ltd. | Voice recognition method, voice controlling method, information processing method, and electronic apparatus |
CN103594089A (zh) * | 2013-11-18 | 2014-02-19 | 联想(北京)有限公司 | 一种语音识别方法及电子设备 |
US9646613B2 (en) | 2013-11-29 | 2017-05-09 | Daon Holdings Limited | Methods and systems for splitting a digital signal |
CN104899503B (zh) * | 2014-03-03 | 2018-08-10 | 联想(北京)有限公司 | 一种信息处理方法和第一电子设备 |
CN106373575B (zh) * | 2015-07-23 | 2020-07-21 | 阿里巴巴集团控股有限公司 | 一种用户声纹模型构建方法、装置及系统 |
US10957318B2 (en) * | 2018-11-02 | 2021-03-23 | Visa International Service Association | Dynamic voice authentication |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58209794A (ja) * | 1982-05-31 | 1983-12-06 | 富士通株式会社 | パターンマッチング装置 |
JPS62113197A (ja) * | 1985-11-13 | 1987-05-25 | ソニー株式会社 | 音声認識装置 |
JPH02167599A (ja) * | 1988-09-14 | 1990-06-27 | Ricoh Co Ltd | 音声認識方式及び標準パターン作成方式 |
US5054083A (en) * | 1989-05-09 | 1991-10-01 | Texas Instruments Incorporated | Voice verification circuit for validating the identity of an unknown person |
JPH07104952B2 (ja) * | 1989-12-28 | 1995-11-13 | シャープ株式会社 | パターンマッチング装置 |
JPH03201027A (ja) * | 1989-12-28 | 1991-09-02 | Sharp Corp | 学習を用いた動的計画法 |
US5167004A (en) * | 1991-02-28 | 1992-11-24 | Texas Instruments Incorporated | Temporal decorrelation method for robust speaker verification |
US5839103A (en) * | 1995-06-07 | 1998-11-17 | Rutgers, The State University Of New Jersey | Speaker verification system using decision fusion logic |
WO1998022936A1 (en) * | 1996-11-22 | 1998-05-28 | T-Netix, Inc. | Subword-based speaker verification using multiple classifier fusion, with channel, fusion, model, and threshold adaptation |
EP1027700A4 (en) * | 1997-11-03 | 2001-01-31 | T Netix Inc | MODEL ADAPTATION SYSTEM AND SPEAKER CHECKING METHOD |
US6466906B2 (en) * | 1999-01-06 | 2002-10-15 | Dspc Technologies Ltd. | Noise padding and normalization in dynamic time warping |
US7050973B2 (en) * | 2002-04-22 | 2006-05-23 | Intel Corporation | Speaker recognition using dynamic time warp template spotting |
US7085717B2 (en) * | 2002-05-21 | 2006-08-01 | Thinkengine Networks, Inc. | Scoring and re-scoring dynamic time warping of speech |
US7389228B2 (en) * | 2002-12-16 | 2008-06-17 | International Business Machines Corporation | Speaker adaptation of vocabulary for speech recognition |
US7509257B2 (en) * | 2002-12-24 | 2009-03-24 | Marvell International Ltd. | Method and apparatus for adapting reference templates |
JP2004302786A (ja) * | 2003-03-31 | 2004-10-28 | Casio Comput Co Ltd | ベクトル系列の比較装置、比較方法、プログラム及び記憶媒体 |
US7386448B1 (en) * | 2004-06-24 | 2008-06-10 | T-Netix, Inc. | Biometric voice authentication |
US7529669B2 (en) * | 2006-06-14 | 2009-05-05 | Nec Laboratories America, Inc. | Voice-based multimodal speaker authentication using adaptive training and applications thereof |
-
2006
- 2006-04-06 CN CN2006100731426A patent/CN101051463B/zh not_active Expired - Fee Related
-
2007
- 2007-03-28 US US11/692,470 patent/US7809561B2/en not_active Expired - Fee Related
- 2007-04-06 JP JP2007099946A patent/JP2007279742A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101465123B (zh) * | 2007-12-20 | 2011-07-06 | 株式会社东芝 | 说话人认证的验证方法和装置以及说话人认证系统 |
CN101599127B (zh) * | 2009-06-26 | 2011-09-14 | 安徽大学 | 眼电信号的特征提取与识别方法 |
CN102254559A (zh) * | 2010-05-20 | 2011-11-23 | 盛乐信息技术(上海)有限公司 | 基于声纹的身份认证系统及方法 |
CN105427863A (zh) * | 2015-12-18 | 2016-03-23 | 合肥寰景信息技术有限公司 | 一种语音即时识别方法 |
CN109192223A (zh) * | 2018-09-20 | 2019-01-11 | 广州酷狗计算机科技有限公司 | 音频对齐的方法和装置 |
WO2022007846A1 (zh) * | 2020-07-08 | 2022-01-13 | 华为技术有限公司 | 语音增强方法、设备、系统以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN101051463B (zh) | 2012-07-11 |
JP2007279742A (ja) | 2007-10-25 |
US20070239449A1 (en) | 2007-10-11 |
US7809561B2 (en) | 2010-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101051463A (zh) | 说话人认证的验证方法及装置 | |
CN101465123B (zh) | 说话人认证的验证方法和装置以及说话人认证系统 | |
Yu et al. | Spoofing detection in automatic speaker verification systems using DNN classifiers and dynamic acoustic features | |
AU2002311452B2 (en) | Speaker recognition system | |
US7877254B2 (en) | Method and apparatus for enrollment and verification of speaker authentication | |
Tiwari | MFCC and its applications in speaker recognition | |
US7603275B2 (en) | System, method and computer program product for verifying an identity using voiced to unvoiced classifiers | |
US20030033143A1 (en) | Decreasing noise sensitivity in speech processing under adverse conditions | |
JPH11507443A (ja) | 話者確認システム | |
CN101154380B (zh) | 说话人认证的注册及验证的方法和装置 | |
JP2000507714A (ja) | 言語処理 | |
Baloul et al. | Challenge-based speaker recognition for mobile authentication | |
JPH02238495A (ja) | 時系列信号認識装置 | |
US7490043B2 (en) | System and method for speaker verification using short utterance enrollments | |
CN103794207A (zh) | 一种双模语音身份识别方法 | |
Saritha et al. | A comprehensive review on speaker recognition | |
Ilyas et al. | Speaker verification using vector quantization and hidden Markov model | |
US7509257B2 (en) | Method and apparatus for adapting reference templates | |
CN1963918A (zh) | 说话人模板的压缩、合并装置和方法,以及说话人认证 | |
WO2002029785A1 (en) | Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm) | |
Kari et al. | Real time implementation of speaker recognition system with MFCC and neural networks on FPGA | |
Srinivas | LFBNN: robust and hybrid training algorithm to neural network for hybrid features-enabled speaker recognition system | |
Maurya et al. | Speaker recognition for noisy speech in telephonic channel | |
Melin et al. | Voice recognition with neural networks, fuzzy logic and genetic algorithms | |
Thakur et al. | Speaker Authentication Using GMM-UBM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120711 Termination date: 20150406 |
|
EXPY | Termination of patent right or utility model |