CN103794207A - 一种双模语音身份识别方法 - Google Patents

一种双模语音身份识别方法 Download PDF

Info

Publication number
CN103794207A
CN103794207A CN201210420105.3A CN201210420105A CN103794207A CN 103794207 A CN103794207 A CN 103794207A CN 201210420105 A CN201210420105 A CN 201210420105A CN 103794207 A CN103794207 A CN 103794207A
Authority
CN
China
Prior art keywords
voice
vocal print
recognition
bimodulus
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210420105.3A
Other languages
English (en)
Inventor
曾向阳
邓刚
王志刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Yuansheng Electronic Science And Technology Co Ltd
Original Assignee
Xi'an Yuansheng Electronic Science And Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Yuansheng Electronic Science And Technology Co Ltd filed Critical Xi'an Yuansheng Electronic Science And Technology Co Ltd
Priority to CN201210420105.3A priority Critical patent/CN103794207A/zh
Publication of CN103794207A publication Critical patent/CN103794207A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明公开了一种双模语音身份识别方法,应用于包括声音采集装置和信息处理装置的身份识别系统,所述的系统还包括语音密码特征库和声纹特征库,将密码识别和声纹识别集成到一个身份识别系统。本发明的技术效果:本发明提出基于孤立词识别即密码识别和说话人识别即声纹识别的双模语音身份鉴别方法,在不大量增加计算量的前提下,大大提高了以单一说话人声纹特征识别的鉴别系统的稳定性,增加了这类系统的实用价值,提高了识别系统安全性。通过双重判定,能够在一定程度上克服由于模仿导致的说话人识别系统误判的缺点,又能克服单一语音密码鉴别系统密码容易泄露的缺点。

Description

一种双模语音身份识别方法
技术领域
本发明涉及语音识别技术,具体涉及一种双模语音身份识别方法。 
背景技术
说话人识别是指使用机器算法从一段语音信号提取独特的特征信息,由此识别出说话人的身份。该技术主要用于基于语音的身份确认、语音侦听、法庭证物鉴定等。说话人识别的方法主要包括矢量量化(VQ)、支持向量机(SVM)、高斯混合模型(GMM)等。其中,VQ及其改进算法较为简单,且性能表现良好,在说话人识别中一直广泛应用。 
目前,基于说话人识别的身份确认技术已经开始运用到智能门禁系统中来。但是,由于语音信号的不确定性以及人声的可模仿性,单纯基于说话人特征的识别系统很难在实际的应用中保持良好的鲁棒性。 
发明内容
考虑到孤立词识别在对单词和短语识别上出色的性能,本发明提供了一种以单词或者短语为语音密码,将其识别作为身份识别系统的判别元素之一,然后结合说话人声纹特征进行身份权限判定。 
本发明解决上述技术问题的方案是:一种双模语音身份识别方法,应用于包括声音采集装置和信息处理装置的身份识别系统,所述的系统还包括语音密码特征库和声纹特征库,包括如下步骤: 
步骤1,用户对声音采集装置说出输入语音,采集装置采集该输入语音;
步骤2,密码识别,采集装置将采集的输入语音输入信息处理装置,所述的信息处理装置将所述输入语音与语音密码特征库进行模板匹配,计算得到匹配距离;
步骤3,声纹识别,所述的信息处理装置将所述的输入语音进行声纹特征提取,并对提取的声纹特征与声纹特征库进行欧式距离计算;
步骤4,将密码识别和声纹识别所得的结果结合,如果密码识别和声纹识别的结果一致,则判定说话者身份确认有效;否则,认为身份鉴别失败。
本发明还包括以下改进方案: 
所述的语音密码特征由用户在使用前经声音采集装置录入语音信号,所述录入的语音信号由信息处理装置进行预处理并提取语音密码特征,对符合要求的语音密码特征保存至语音密码特征库。
所述的声纹特征由用户在使用前经声音采集装置录入语音信号,所述录入的语音信号由信息处理装置进行预处理并提取声纹特征,对提取的声纹特征进行LBG算法进行矢量量化,量化后的声纹特征即为用户码本,所述码本保持至声纹特征库。 
所述的预处理包括对语音信号进行预加重处理,所述的预加重的形式如下: 
所述的为预加重系数,取值为0.90-0.98。
所述的预加重处理由一阶零点数字滤波器实现,所述滤波器频域对应的形式是。 
所述的预处理还包括对预加重后的语音信号进行分帧加窗处理,所述的分帧加窗处理包括将预加重后的语音信号分成每帧10-30ms短时语音信号,并对每帧语音信号加上hamming窗。 
所述的预处理还包括对分帧后的语音进行端点检测,所述端点检测完成后对语音信号进行MFCC特征提取,生产语音密码特征库。 
所述的预处理依次包括预加重、分帧加窗和端点检测。 
本发明的技术效果: 
本发明提出基于孤立词识别即密码识别和说话人识别即声纹识别的双模语音身份鉴别方法,在不大量增加计算量的前提下,大大提高了以单一说话人声纹特征识别的鉴别系统的稳定性,增加了这类系统的实用价值,提高了识别系统安全性。通过双重判定,能够在一定程度上克服由于模仿导致的说话人识别系统误判的缺点,又能克服单一语音密码鉴别系统密码容易泄露的缺点。
  
附图说明
图1本发明的总流程图。 
图2孤立词识别流程框图。 
图3说话人识别流程框图。 
具体实施方式
本发明公开了一种双模语音身份识别方法,应用于包括声音采集装置和信息处理装置的身份识别系统,所述的系统还包括语音密码特征库和声纹特征库,将密码识别和声纹识别集成到一个身份识别系统,提高了以单一说话人声纹特征识别的鉴别系统的稳定性,增加了这类系统的实用价值,提高了识别系统安全性。 
请参阅图1为本发的总流程图。 
步骤101,用户对声音采集装置说出输入语音,采集装置采集该输入语音; 
步骤102,信息处理装置对输入语音进行信号的预处理;
步骤103,对预处理完成后的信号进行端点检测;
步骤104,进一步的对信号进行特征提取,所述的特征包括密码特征和声纹特征;
步骤105A,所述的信息处理装置将所述处理后的输入语音的密码特征与语音密码特征库进行模板匹配,计算得到匹配距离;
步骤105B,所述的信息处理装置将所述处理后的输入语音的声纹特征与声纹特征库进行欧式距离计算;
步骤106,将密码识别和声纹识别所得的结果结合,如果密码识别和声纹识别的结果一致,则判定说话者身份确认有效;否则,认为身份鉴别失败。
所述的预处理还包括对预加重后的语音信号进行分帧加窗处理,所述的分帧加窗处理包括将预加重后的语音信号分成每帧10-30ms短时语音信号,并对每帧语音信号加上hamming窗。所述的预处理包括对语音信号进行预加重处理,所述的预加重的形式如下: 
Figure 101184DEST_PATH_IMAGE001
所述的
Figure 216907DEST_PATH_IMAGE002
为预加重系数,取值为0.90-0.98。所述的预加重处理由一阶零点数字滤波器实现,所述滤波器频域对应的形式是
Figure 246568DEST_PATH_IMAGE003
所述步骤105A中匹配距离的计算方法如下: 
 a)使用如下方法计算新特征
Figure 789544DEST_PATH_IMAGE004
和语音密码特征库某词特征m的每帧之间的欧式距离。
b)初始化一个新的距离矩阵D使其与
Figure 1400DEST_PATH_IMAGE006
的维数完全相同,将
Figure 525047DEST_PATH_IMAGE007
的值赋给
Figure 238926DEST_PATH_IMAGE008
; 
c)计算
Figure 18663DEST_PATH_IMAGE009
的方法如下,令
Figure 352878DEST_PATH_IMAGE011
,如果
Figure 175341DEST_PATH_IMAGE012
,则赋给
Figure 6156DEST_PATH_IMAGE013
一个极大值,
Figure 267373DEST_PATH_IMAGE014
,如果
Figure 998568DEST_PATH_IMAGE015
则赋给
Figure 991932DEST_PATH_IMAGE016
一个极大值;为取
Figure 886618DEST_PATH_IMAGE019
Figure 175516DEST_PATH_IMAGE013
Figure 417142DEST_PATH_IMAGE016
之间的最小值;
d)将k逐渐变大,直到算出
Figure 20162DEST_PATH_IMAGE020
或者
Figure 961835DEST_PATH_IMAGE021
,作为最后的匹配距离,
Figure 624898DEST_PATH_IMAGE022
 或者
Figure 88240DEST_PATH_IMAGE022
;按照上述的方法取最小的dis作为匹配结果。
所述步骤105B中的欧式距离的计算方法如下: 
假设某说话人码本是,其中
Figure 125094DEST_PATH_IMAGE023
都是的列向量,为先前保存的说话人声纹特征,计算所有帧与所有新码本的欧式距离,求法如下,
Figure 20555DEST_PATH_IMAGE026
求出每一帧对应每个码本的距离,按列寻找其最小值,如果第k行的最小值在第j列,则第k帧是属于第j个码本的;用
Figure 440221DEST_PATH_IMAGE028
表示第k帧及其所属于的码本的欧式距离,用
Figure 441937DEST_PATH_IMAGE029
,求出d的均值作为新的失真度误差 ;按照上述的方法对比新的说话人MFCC特征和每个说话人声纹特征库中的数据得到若干个失真度误差
Figure 128134DEST_PATH_IMAGE030
,假设有l个说话人,则
Figure 397441DEST_PATH_IMAGE031
,取其中最小的失真度误差
Figure 573207DEST_PATH_IMAGE030
所对应的第j个说话人作为说话人确认的结果。
     所述密码特征库的生成方法包括: 
a)进入系统,假设为初次使用,调用录音功能,用户说出事先想好的词(语音密码),这样采集系统就能以采集到语音信号,假设该信号为
Figure 785063DEST_PATH_IMAGE033
b)对进行预处理,使用的方法是一阶零点数字滤波器实现预加重,形式如下: 
Figure 757009DEST_PATH_IMAGE001
该滤波器频域对应的形式:
Figure 231853DEST_PATH_IMAGE003
。其中,
Figure 322169DEST_PATH_IMAGE002
为预加重系数,取值为0.90-0.98,本系统取值为0.9375。
Figure 67533DEST_PATH_IMAGE035
进行分帧加窗处理,由于语音信号的非平稳特性,通常需要将语音分成每帧10-30ms短时语音信号进行分析。本发明使用的帧长
Figure 647419DEST_PATH_IMAGE036
为256个点,使用0.5帧的帧移。并对每帧加上hamming窗。得到新的矩阵形式的信号
Figure 343979DEST_PATH_IMAGE037
,n为帧数。 
然后就是对分帧后的语音进行端点检测,本发明中端点检测采用基于临界带功率谱方差的方法。具体步骤如下: 
预处理后的语音帧
Figure 473872DEST_PATH_IMAGE038
,通过FFT变换求出语音帧对应的功率谱
Figure 837857DEST_PATH_IMAGE039
划分临界带,按照公式:           
Figure 526327DEST_PATH_IMAGE040
Figure 710184DEST_PATH_IMAGE041
之间确定临界带频率分割点
Figure 643767DEST_PATH_IMAGE042
将每个临界带中的
Figure 862259DEST_PATH_IMAGE039
取和即可得到相应的临界带特征矢量。如果用
Figure 721630DEST_PATH_IMAGE043
表示每一帧的临界带特征矢量,那么
Figure 392783DEST_PATH_IMAGE044
可表示为: 
Figure 300696DEST_PATH_IMAGE045
其中
Figure 886878DEST_PATH_IMAGE046
,512为FFT的点数,
Figure 917151DEST_PATH_IMAGE047
为采样频率。
求临界带功率谱方差。对临界带特征矢量
Figure 75600DEST_PATH_IMAGE048
求均值,用
Figure 849521DEST_PATH_IMAGE049
表示:    
Figure 278490DEST_PATH_IMAGE050
再求临界带功率谱方差,根据方差的定义:     
Figure 125410DEST_PATH_IMAGE052
Figure 703022DEST_PATH_IMAGE051
值随着信噪比SNR的下降而增大,固定的门限值在这种情况下不适用。为此,需要设计一个与SNR自适应的门限值,使其对噪声具有良好的跟踪性能。门限值
Figure 986498DEST_PATH_IMAGE053
由初始项和调整项两部分构成,
Figure 358573DEST_PATH_IMAGE054
为调整系数,为初始项。
通过大量仿真实验,得出
Figure 607338DEST_PATH_IMAGE054
Figure 10899DEST_PATH_IMAGE055
的经验值: 
                 
Figure 553876DEST_PATH_IMAGE056
             
                        
Figure 174213DEST_PATH_IMAGE057
                
其中,
Figure 828049DEST_PATH_IMAGE058
为最小的20个
Figure 86117DEST_PATH_IMAGE051
值的平均。
取大于以上阈值且连接在一起的若干语音帧作为有效语音段,将这若干帧进行后面的处理。假设处理以后得到一个新的矩阵s,帧数是
Figure 127891DEST_PATH_IMAGE059
,维度是256。 
c)将按以上检测方法检出的语音进行MFCC特征提取,生成语音密码特征参数库。 
在本发明中使用通用的MFCC参数特征。提取MFCC特征首先是将实际频率转化为符合人耳听觉特性的Mel频率,Mel频率与实际频率的对应关系如下: 
Figure 969945DEST_PATH_IMAGE060
使用melbankm函数将信号在mel频率线性的分为13个频带,并计算出每个频带的加权系数。MFCC参数是将每一帧语音频谱按照Mel频率划分的频带,进行一个滤波器滤波后加权求和输出这段频率范围的能量,再对每个频带的输出能量进行离散余弦变换(DCT),即得一帧的MFCC参数。将各帧MFCC组合起来,就得到一个新的矩阵记为m,帧数是,维度是13。其中MFCC滤波器个数可以从8-24变化,以12或者13效果最好。
在关键词识别系统中,将训练阶段所有输入语音密码的MFCC参数特征以数据形式存储起来,这样语音密码库就建立起来了。 
所述声纹特征库的建立方法包括: 
a)进入系统,调用录音功能,用户说出一定长度的句子,要求录音30秒,这样采集系统采集到语音信号,假设该信号为信号为
Figure 743308DEST_PATH_IMAGE032
b)对
Figure 957438DEST_PATH_IMAGE034
进行预处理,使用的方法是一阶零点数字滤波器实现预加重,形式如下: 
Figure 218655DEST_PATH_IMAGE061
频域对应的形式:
Figure 451316DEST_PATH_IMAGE003
。其中,为预加重系数,取值为0.90-0.98,本系统取值为0.9375。
Figure 506996DEST_PATH_IMAGE035
进行分帧加窗处理,由于语音信号的非平稳特性,通常需要将语音分成每帧10-30ms短时语音信号进行分析。本发明使用的帧长为256个点,使用0.5帧的帧移。并对每帧加上hamming窗。得到新的矩阵形式的信号
Figure 323643DEST_PATH_IMAGE037
,n为帧数。 
c)将按以上检测方法检出的语音进行同步骤1中(c)的MFCC特征提取, 
d)在提取说话人的MFCC特征参数后,采用通用的LBG算法进行矢量量化,得到说话人的码本。码本个数可以从16-128个,本发明使用了64个码本,每个说话人都有一个相应的码本。这样存储不同说话人的不同码本数据,声纹库就建立起来了。对任意一个说话人声音样本,在完成a、b、c3步后,使用的LBG算法具体如下:(假设MFCC特征m,帧数是
Figure 122971DEST_PATH_IMAGE059
,维度是13,即MFCC特征共有13行,
Figure 210138DEST_PATH_IMAGE059
列)
1)设定门限t=0.01,初始化失真度误差drt=10000,e=0.01;
2)计算输入数据m按列求均值,假设计算结果为
Figure 702299DEST_PATH_IMAGE062
Figure 6242DEST_PATH_IMAGE025
的列向量),并将作为第一个码本;
3)使用r(1+e), r(1-e)将原来某个码本分裂为两个码本,如果原来有p个码本,则能分裂出2p个码本,分别记为
Figure 539216DEST_PATH_IMAGE023
,其中
Figure 936700DEST_PATH_IMAGE063
Figure 727938DEST_PATH_IMAGE023
都是
Figure 806752DEST_PATH_IMAGE025
的列向量。计算所有帧与所有新码本的欧式距离,求法如下
Figure 367047DEST_PATH_IMAGE064
这样就求出了每一帧对应每个码本的距离
Figure 702475DEST_PATH_IMAGE027
,按列寻找其最小值,如果第k行的最小值在第j列,则第k帧是属于第j个码本的;
4)用
Figure 715431DEST_PATH_IMAGE028
表示第k帧及其所属于的码本的欧式距离,用
Figure 660253DEST_PATH_IMAGE065
求出d的均值作为新的失真度误差;
5)使用求出的新失真度误差
Figure 75054DEST_PATH_IMAGE066
,比较两次循环前后的差距,如果小于t则循环结束,条件为
Figure 81635DEST_PATH_IMAGE067
,满足条件,则使用这次求出来的
Figure 663238DEST_PATH_IMAGE068
作为新的码本。否则继续回到步骤3。使用更新
6)回到步骤(3)共循环6次出直到分裂出64个码本为止。
将64个码本(
Figure 113176DEST_PATH_IMAGE023
Figure 738455DEST_PATH_IMAGE024
)保存起来,就得到了一个说话人声纹特征,将所有测试的说话人特征以这种形式保存起来,就得到了说话人声纹特征库。 
如图2所示的孤立词识别即密码识别流程框图,在规定的录音时间内,待确认身份者输入语音密码(允许语速和语气等有一定变化)。 
对输入的语音密码进行预处理,端点检测和特征提取提取出语音MFCC特征
Figure 85123DEST_PATH_IMAGE004
,帧数是
Figure 622283DEST_PATH_IMAGE069
,维度是13。计算新特征
Figure 214064DEST_PATH_IMAGE004
和语音密码库的某一个词的特征m(维数为
Figure 520280DEST_PATH_IMAGE070
)的方法是立词语音识别中常用的DTW算法,具体方法如下: 
a)使用如下方法计算新特征
Figure 772270DEST_PATH_IMAGE004
和语音库某词特征m的每帧之间的欧式距离。
Figure 235875DEST_PATH_IMAGE005
b)初始化一个新的距离矩阵D使其与
Figure 864302DEST_PATH_IMAGE006
的维数完全相同,将的值赋给
Figure 588862DEST_PATH_IMAGE008
; 
c)计算
Figure 38297DEST_PATH_IMAGE009
的方法如下,令,如果
Figure 784165DEST_PATH_IMAGE012
,则赋给
Figure 455318DEST_PATH_IMAGE013
一个极大值,
Figure 204310DEST_PATH_IMAGE014
,如果
Figure 277309DEST_PATH_IMAGE015
则赋给
Figure 307582DEST_PATH_IMAGE016
一个极大值。
Figure 466030DEST_PATH_IMAGE017
Figure 741416DEST_PATH_IMAGE018
为取
Figure 668921DEST_PATH_IMAGE019
Figure 870095DEST_PATH_IMAGE013
Figure 515840DEST_PATH_IMAGE016
之间的最小值。
d)将k逐渐变大,直到算出
Figure 329338DEST_PATH_IMAGE020
或者
Figure 376928DEST_PATH_IMAGE021
,作为最后的匹配距离,
Figure 749004DEST_PATH_IMAGE022
或者
Figure 882045DEST_PATH_IMAGE022
。 
按照上面的方法取最小的dis作为匹配结果。 
如图3所示的说话人识别即声纹识别流程框图,假设某说话人码本
Figure 499233DEST_PATH_IMAGE023
,其中
Figure 401330DEST_PATH_IMAGE024
Figure 881990DEST_PATH_IMAGE023
都是
Figure 299065DEST_PATH_IMAGE025
的列向量,为先前保存的说话人声纹特征。计算所有帧与所有新码本的欧式距离,求法如下: 
Figure 719944DEST_PATH_IMAGE026
这样就求出了每一帧对应每个码本的距离
Figure 476547DEST_PATH_IMAGE027
,按列寻找其最小值,如果第k行的最小值在第j列,则第k帧是属于第j个码本的;
Figure 190426DEST_PATH_IMAGE028
表示第k帧及其所属于的码本的欧式距离,用,求出d的均值作为新的失真度误差
这样按照上面的方法对比新的说话人MFCC特征和每个说话人声纹特征库中的数据得到若干个失真度误差
Figure 805843DEST_PATH_IMAGE030
,假设有l个说话人,则
Figure 956201DEST_PATH_IMAGE031
,取其中最小的失真度误差
Figure 285552DEST_PATH_IMAGE030
所对应的第j个说话人作为说话人确认的结果。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。 
  

Claims (10)

1.一种双模语音身份识别方法,应用于包括声音采集装置和信息处理装置的身份识别系统,所述的系统还包括语音密码特征库和声纹特征库,其特征在于,包括如下步骤:
步骤1,用户对声音采集装置说出输入语音,采集装置采集该输入语音;
步骤2,密码识别,采集装置将采集的输入语音输入信息处理装置,所述的信息处理装置将所述输入语音与语音密码特征库进行模板匹配,计算得到匹配距离;
步骤3,声纹识别,所述的信息处理装置将所述的输入语音进行声纹特征提取,并对提取的声纹特征与声纹特征库进行欧式距离计算;
步骤4,将密码识别和声纹识别所得的结果结合,如果密码识别和声纹识别的结果一致,则判定说话者身份确认有效;否则,认为身份鉴别失败。
2.根据权利要求1所述的一种双模语音身份识别方法,其特征在于,所述的语音密码特征由用户在使用前经声音采集装置录入语音信号,所述录入的语音信号由信息处理装置进行预处理并提取语音密码特征,对符合要求的语音密码特征保存至语音密码特征库。
3.根据权利要求1所述的一种双模语音身份识别方法,其特征在于,所述的声纹特征由用户在使用前经声音采集装置录入语音信号,所述录入的语音信号由信息处理装置进行预处理并提取声纹特征,对提取的声纹特征进行LBG算法进行矢量量化,量化后的声纹特征即为用户码本,所述码本保持至声纹特征库。
4.根据权利要求2所述的一种双模语音身份识别方法,其特征在于,所述的预处理包括对语音信号进行预加重处理,所述的预加重的形式如下:
Figure 966731DEST_PATH_IMAGE001
所述的
Figure DEST_PATH_IMAGE002
为预加重系数,取值为0.90-0.98。
5.根据权利要求5所述的一种双模语音身份识别方法,其特征在于,所述的预加重处理由一阶零点数字滤波器实现,所述滤波器频域对应的形式是
6.根据权利要求5所述的一种双模语音身份识别方法,其特征在于,所述的预处理还包括对预加重后的语音信号进行分帧加窗处理,所述的分帧加窗处理包括将预加重后的语音信号分成每帧10-30ms短时语音信号,并对每帧语音信号加上hamming窗。
7.根据权利要求7所述的一种双模语音身份识别方法,其特征在于,所述的预处理还包括对分帧后的语音进行端点检测,所述端点检测完成后对语音信号进行MFCC特征提取,生产语音密码特征库。
8.根据权利要求3所述的一种双模语音身份识别方法,其特征在于,所述的预处理依次包括预加重、分帧加窗和端点检测。
9.根据权利要求1所述的一种双模语音身份识别方法,其特征在于,所述步骤1还包括对输入语音进行预处理、端点检测和特征提取。
10.根据权利要求9所述的一种双模语音身份识别方法,其特征在于,所述的预处理包括预加重和分帧加窗。
CN201210420105.3A 2012-10-29 2012-10-29 一种双模语音身份识别方法 Pending CN103794207A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210420105.3A CN103794207A (zh) 2012-10-29 2012-10-29 一种双模语音身份识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210420105.3A CN103794207A (zh) 2012-10-29 2012-10-29 一种双模语音身份识别方法

Publications (1)

Publication Number Publication Date
CN103794207A true CN103794207A (zh) 2014-05-14

Family

ID=50669796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210420105.3A Pending CN103794207A (zh) 2012-10-29 2012-10-29 一种双模语音身份识别方法

Country Status (1)

Country Link
CN (1) CN103794207A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103986725A (zh) * 2014-05-29 2014-08-13 中国农业银行股份有限公司 一种客户端、服务器端以及身份认证系统和方法
CN104167208A (zh) * 2014-08-08 2014-11-26 中国科学院深圳先进技术研究院 一种说话人识别方法和装置
CN105575385A (zh) * 2015-12-16 2016-05-11 中国建设银行股份有限公司 语音密码设置系统及方法、语音密码验证系统及方法
CN106057212A (zh) * 2016-05-19 2016-10-26 华东交通大学 基于语音个性特征和模型自适应的驾驶疲劳检测方法
CN107077848A (zh) * 2014-09-18 2017-08-18 纽昂斯通讯公司 用于执行说话人识别的方法和设备
CN108269573A (zh) * 2017-01-03 2018-07-10 蓝盾信息安全技术有限公司 基于矢量量化和高斯混合模型的说话人识别系统
CN108281147A (zh) * 2018-03-31 2018-07-13 南京火零信息科技有限公司 基于lpcc和adtw的声纹识别系统
CN108335699A (zh) * 2018-01-18 2018-07-27 浙江大学 一种基于动态时间规整和语音活动检测的声纹识别方法
CN109242492A (zh) * 2018-09-02 2019-01-18 珠海横琴现联盛科技发展有限公司 针对声音模仿的声纹识别支付信息防伪方法
CN110853652A (zh) * 2019-10-10 2020-02-28 平安科技(深圳)有限公司 身份识别方法、装置及计算机可读存储介质
CN111415447A (zh) * 2019-12-10 2020-07-14 南京工业大学 一种多重认证的门禁系统
CN111613228A (zh) * 2020-04-15 2020-09-01 上海雷尘智能科技有限公司 一种基于声纹码的身份与内容识别系统
CN112017658A (zh) * 2020-08-28 2020-12-01 北京计算机技术及应用研究所 一种基于智能人机交互的操作控制系统
CN113611284A (zh) * 2021-08-06 2021-11-05 工银科技有限公司 语音库构建方法、识别方法、构建系统和识别系统
CN113886792A (zh) * 2021-12-06 2022-01-04 北京惠朗时代科技有限公司 一种声纹识别和人脸识别相结合的印控仪应用方法和系统
CN113890658A (zh) * 2021-10-20 2022-01-04 四川启睿克科技有限公司 基于安卓车机系统的安全广播方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1447278A (zh) * 2002-11-15 2003-10-08 郑方 一种声纹识别方法
CN1547191A (zh) * 2003-12-12 2004-11-17 北京大学 结合语义和声纹信息的说话人身份确认系统
CN1941080A (zh) * 2005-09-26 2007-04-04 吴田平 一种楼宇对讲门口机声纹识别开锁模块及识别开锁方法
CN101923855A (zh) * 2009-06-17 2010-12-22 复旦大学 文本无关的声纹识别系统
CN102509547A (zh) * 2011-12-29 2012-06-20 辽宁工业大学 基于矢量量化的声纹识别方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1447278A (zh) * 2002-11-15 2003-10-08 郑方 一种声纹识别方法
CN1547191A (zh) * 2003-12-12 2004-11-17 北京大学 结合语义和声纹信息的说话人身份确认系统
CN1941080A (zh) * 2005-09-26 2007-04-04 吴田平 一种楼宇对讲门口机声纹识别开锁模块及识别开锁方法
CN101923855A (zh) * 2009-06-17 2010-12-22 复旦大学 文本无关的声纹识别系统
CN102509547A (zh) * 2011-12-29 2012-06-20 辽宁工业大学 基于矢量量化的声纹识别方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
何佳若等: ""室内语音报警词识别系统设计"", 《声学技术》 *
南京航空航天大学科技部: "《南京航空航天大学论文集_2009年_第33册_民航学院_第1分册》", 31 May 2010 *
张春雷等: ""基于临界带功率谱方差的端点检测"", 《声学技术》 *
蔡莲红等: "《现代语音技术基础与应用》", 30 November 2003 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103986725A (zh) * 2014-05-29 2014-08-13 中国农业银行股份有限公司 一种客户端、服务器端以及身份认证系统和方法
CN104167208A (zh) * 2014-08-08 2014-11-26 中国科学院深圳先进技术研究院 一种说话人识别方法和装置
CN104167208B (zh) * 2014-08-08 2017-09-15 中国科学院深圳先进技术研究院 一种说话人识别方法和装置
CN107077848A (zh) * 2014-09-18 2017-08-18 纽昂斯通讯公司 用于执行说话人识别的方法和设备
CN105575385A (zh) * 2015-12-16 2016-05-11 中国建设银行股份有限公司 语音密码设置系统及方法、语音密码验证系统及方法
CN106057212A (zh) * 2016-05-19 2016-10-26 华东交通大学 基于语音个性特征和模型自适应的驾驶疲劳检测方法
CN106057212B (zh) * 2016-05-19 2019-04-30 华东交通大学 基于语音个性特征和模型自适应的驾驶疲劳检测方法
CN108269573A (zh) * 2017-01-03 2018-07-10 蓝盾信息安全技术有限公司 基于矢量量化和高斯混合模型的说话人识别系统
CN108335699A (zh) * 2018-01-18 2018-07-27 浙江大学 一种基于动态时间规整和语音活动检测的声纹识别方法
CN108281147A (zh) * 2018-03-31 2018-07-13 南京火零信息科技有限公司 基于lpcc和adtw的声纹识别系统
CN109242492A (zh) * 2018-09-02 2019-01-18 珠海横琴现联盛科技发展有限公司 针对声音模仿的声纹识别支付信息防伪方法
CN110853652A (zh) * 2019-10-10 2020-02-28 平安科技(深圳)有限公司 身份识别方法、装置及计算机可读存储介质
CN111415447A (zh) * 2019-12-10 2020-07-14 南京工业大学 一种多重认证的门禁系统
CN111613228A (zh) * 2020-04-15 2020-09-01 上海雷尘智能科技有限公司 一种基于声纹码的身份与内容识别系统
CN112017658A (zh) * 2020-08-28 2020-12-01 北京计算机技术及应用研究所 一种基于智能人机交互的操作控制系统
CN113611284A (zh) * 2021-08-06 2021-11-05 工银科技有限公司 语音库构建方法、识别方法、构建系统和识别系统
CN113890658A (zh) * 2021-10-20 2022-01-04 四川启睿克科技有限公司 基于安卓车机系统的安全广播方法及系统
CN113890658B (zh) * 2021-10-20 2023-05-05 四川启睿克科技有限公司 基于安卓车机系统的安全广播方法及系统
CN113886792A (zh) * 2021-12-06 2022-01-04 北京惠朗时代科技有限公司 一种声纹识别和人脸识别相结合的印控仪应用方法和系统

Similar Documents

Publication Publication Date Title
CN103794207A (zh) 一种双模语音身份识别方法
CN102509547B (zh) 基于矢量量化的声纹识别方法及系统
Yu et al. Spoofing detection in automatic speaker verification systems using DNN classifiers and dynamic acoustic features
CN102968990B (zh) 说话人识别方法和系统
Dey et al. Speech biometric based attendance system
Shum et al. On the use of spectral and iterative methods for speaker diarization
CN105261367B (zh) 一种说话人识别方法
CN108694954A (zh) 一种性别年龄识别方法、装置、设备及可读存储介质
Baloul et al. Challenge-based speaker recognition for mobile authentication
WO2012075641A1 (en) Device and method for pass-phrase modeling for speaker verification, and verification system
CN105096955B (zh) 一种基于模型生长聚类的说话人快速识别方法及系统
CN101923855A (zh) 文本无关的声纹识别系统
CN102324232A (zh) 基于高斯混合模型的声纹识别方法及系统
CN108986824A (zh) 一种回放语音检测方法
CN113223536B (zh) 声纹识别方法、装置及终端设备
US20100223057A1 (en) Method and system to authenticate a user and/or generate cryptographic data
CN110767239A (zh) 一种基于深度学习的声纹识别方法、装置及设备
CN102789779A (zh) 一种语音识别系统及其识别方法
Todkar et al. Speaker recognition techniques: A review
CN101887722A (zh) 快速声纹认证方法
CN104732972A (zh) 一种基于分组统计的hmm声纹识别签到方法及系统
CN110570870A (zh) 一种文本无关的声纹识别方法、装置及设备
CN109545226B (zh) 一种语音识别方法、设备及计算机可读存储介质
Weng et al. The sysu system for the interspeech 2015 automatic speaker verification spoofing and countermeasures challenge
Desai et al. Speaker recognition using MFCC and hybrid model of VQ and GMM

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140514