CN103794207A - 一种双模语音身份识别方法 - Google Patents
一种双模语音身份识别方法 Download PDFInfo
- Publication number
- CN103794207A CN103794207A CN201210420105.3A CN201210420105A CN103794207A CN 103794207 A CN103794207 A CN 103794207A CN 201210420105 A CN201210420105 A CN 201210420105A CN 103794207 A CN103794207 A CN 103794207A
- Authority
- CN
- China
- Prior art keywords
- voice
- vocal print
- recognition
- bimodulus
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
本发明公开了一种双模语音身份识别方法,应用于包括声音采集装置和信息处理装置的身份识别系统,所述的系统还包括语音密码特征库和声纹特征库,将密码识别和声纹识别集成到一个身份识别系统。本发明的技术效果:本发明提出基于孤立词识别即密码识别和说话人识别即声纹识别的双模语音身份鉴别方法,在不大量增加计算量的前提下,大大提高了以单一说话人声纹特征识别的鉴别系统的稳定性,增加了这类系统的实用价值,提高了识别系统安全性。通过双重判定,能够在一定程度上克服由于模仿导致的说话人识别系统误判的缺点,又能克服单一语音密码鉴别系统密码容易泄露的缺点。
Description
技术领域
本发明涉及语音识别技术,具体涉及一种双模语音身份识别方法。
背景技术
说话人识别是指使用机器算法从一段语音信号提取独特的特征信息,由此识别出说话人的身份。该技术主要用于基于语音的身份确认、语音侦听、法庭证物鉴定等。说话人识别的方法主要包括矢量量化(VQ)、支持向量机(SVM)、高斯混合模型(GMM)等。其中,VQ及其改进算法较为简单,且性能表现良好,在说话人识别中一直广泛应用。
目前,基于说话人识别的身份确认技术已经开始运用到智能门禁系统中来。但是,由于语音信号的不确定性以及人声的可模仿性,单纯基于说话人特征的识别系统很难在实际的应用中保持良好的鲁棒性。
发明内容
考虑到孤立词识别在对单词和短语识别上出色的性能,本发明提供了一种以单词或者短语为语音密码,将其识别作为身份识别系统的判别元素之一,然后结合说话人声纹特征进行身份权限判定。
本发明解决上述技术问题的方案是:一种双模语音身份识别方法,应用于包括声音采集装置和信息处理装置的身份识别系统,所述的系统还包括语音密码特征库和声纹特征库,包括如下步骤:
步骤1,用户对声音采集装置说出输入语音,采集装置采集该输入语音;
步骤2,密码识别,采集装置将采集的输入语音输入信息处理装置,所述的信息处理装置将所述输入语音与语音密码特征库进行模板匹配,计算得到匹配距离;
步骤3,声纹识别,所述的信息处理装置将所述的输入语音进行声纹特征提取,并对提取的声纹特征与声纹特征库进行欧式距离计算;
步骤4,将密码识别和声纹识别所得的结果结合,如果密码识别和声纹识别的结果一致,则判定说话者身份确认有效;否则,认为身份鉴别失败。
本发明还包括以下改进方案:
所述的语音密码特征由用户在使用前经声音采集装置录入语音信号,所述录入的语音信号由信息处理装置进行预处理并提取语音密码特征,对符合要求的语音密码特征保存至语音密码特征库。
所述的声纹特征由用户在使用前经声音采集装置录入语音信号,所述录入的语音信号由信息处理装置进行预处理并提取声纹特征,对提取的声纹特征进行LBG算法进行矢量量化,量化后的声纹特征即为用户码本,所述码本保持至声纹特征库。
所述的预处理包括对语音信号进行预加重处理,所述的预加重的形式如下:
所述的为预加重系数,取值为0.90-0.98。
所述的预加重处理由一阶零点数字滤波器实现,所述滤波器频域对应的形式是。
所述的预处理还包括对预加重后的语音信号进行分帧加窗处理,所述的分帧加窗处理包括将预加重后的语音信号分成每帧10-30ms短时语音信号,并对每帧语音信号加上hamming窗。
所述的预处理还包括对分帧后的语音进行端点检测,所述端点检测完成后对语音信号进行MFCC特征提取,生产语音密码特征库。
所述的预处理依次包括预加重、分帧加窗和端点检测。
本发明的技术效果:
本发明提出基于孤立词识别即密码识别和说话人识别即声纹识别的双模语音身份鉴别方法,在不大量增加计算量的前提下,大大提高了以单一说话人声纹特征识别的鉴别系统的稳定性,增加了这类系统的实用价值,提高了识别系统安全性。通过双重判定,能够在一定程度上克服由于模仿导致的说话人识别系统误判的缺点,又能克服单一语音密码鉴别系统密码容易泄露的缺点。
附图说明
图1本发明的总流程图。
图2孤立词识别流程框图。
图3说话人识别流程框图。
具体实施方式
本发明公开了一种双模语音身份识别方法,应用于包括声音采集装置和信息处理装置的身份识别系统,所述的系统还包括语音密码特征库和声纹特征库,将密码识别和声纹识别集成到一个身份识别系统,提高了以单一说话人声纹特征识别的鉴别系统的稳定性,增加了这类系统的实用价值,提高了识别系统安全性。
请参阅图1为本发的总流程图。
步骤101,用户对声音采集装置说出输入语音,采集装置采集该输入语音;
步骤102,信息处理装置对输入语音进行信号的预处理;
步骤103,对预处理完成后的信号进行端点检测;
步骤104,进一步的对信号进行特征提取,所述的特征包括密码特征和声纹特征;
步骤105A,所述的信息处理装置将所述处理后的输入语音的密码特征与语音密码特征库进行模板匹配,计算得到匹配距离;
步骤105B,所述的信息处理装置将所述处理后的输入语音的声纹特征与声纹特征库进行欧式距离计算;
步骤106,将密码识别和声纹识别所得的结果结合,如果密码识别和声纹识别的结果一致,则判定说话者身份确认有效;否则,认为身份鉴别失败。
所述的预处理还包括对预加重后的语音信号进行分帧加窗处理,所述的分帧加窗处理包括将预加重后的语音信号分成每帧10-30ms短时语音信号,并对每帧语音信号加上hamming窗。所述的预处理包括对语音信号进行预加重处理,所述的预加重的形式如下:
所述步骤105A中匹配距离的计算方法如下:
所述步骤105B中的欧式距离的计算方法如下:
求出每一帧对应每个码本的距离,按列寻找其最小值,如果第k行的最小值在第j列,则第k帧是属于第j个码本的;用表示第k帧及其所属于的码本的欧式距离,用,求出d的均值作为新的失真度误差 ;按照上述的方法对比新的说话人MFCC特征和每个说话人声纹特征库中的数据得到若干个失真度误差,假设有l个说话人,则,取其中最小的失真度误差所对应的第j个说话人作为说话人确认的结果。
所述密码特征库的生成方法包括:
b)对进行预处理,使用的方法是一阶零点数字滤波器实现预加重,形式如下:
对进行分帧加窗处理,由于语音信号的非平稳特性,通常需要将语音分成每帧10-30ms短时语音信号进行分析。本发明使用的帧长为256个点,使用0.5帧的帧移。并对每帧加上hamming窗。得到新的矩阵形式的信号,n为帧数。
然后就是对分帧后的语音进行端点检测,本发明中端点检测采用基于临界带功率谱方差的方法。具体步骤如下:
划分临界带,按照公式:
再求临界带功率谱方差,根据方差的定义:
c)将按以上检测方法检出的语音进行MFCC特征提取,生成语音密码特征参数库。
在本发明中使用通用的MFCC参数特征。提取MFCC特征首先是将实际频率转化为符合人耳听觉特性的Mel频率,Mel频率与实际频率的对应关系如下:
使用melbankm函数将信号在mel频率线性的分为13个频带,并计算出每个频带的加权系数。MFCC参数是将每一帧语音频谱按照Mel频率划分的频带,进行一个滤波器滤波后加权求和输出这段频率范围的能量,再对每个频带的输出能量进行离散余弦变换(DCT),即得一帧的MFCC参数。将各帧MFCC组合起来,就得到一个新的矩阵记为m,帧数是,维度是13。其中MFCC滤波器个数可以从8-24变化,以12或者13效果最好。
在关键词识别系统中,将训练阶段所有输入语音密码的MFCC参数特征以数据形式存储起来,这样语音密码库就建立起来了。
所述声纹特征库的建立方法包括:
对进行分帧加窗处理,由于语音信号的非平稳特性,通常需要将语音分成每帧10-30ms短时语音信号进行分析。本发明使用的帧长为256个点,使用0.5帧的帧移。并对每帧加上hamming窗。得到新的矩阵形式的信号,n为帧数。
c)将按以上检测方法检出的语音进行同步骤1中(c)的MFCC特征提取,
d)在提取说话人的MFCC特征参数后,采用通用的LBG算法进行矢量量化,得到说话人的码本。码本个数可以从16-128个,本发明使用了64个码本,每个说话人都有一个相应的码本。这样存储不同说话人的不同码本数据,声纹库就建立起来了。对任意一个说话人声音样本,在完成a、b、c3步后,使用的LBG算法具体如下:(假设MFCC特征m,帧数是,维度是13,即MFCC特征共有13行,列)
1)设定门限t=0.01,初始化失真度误差drt=10000,e=0.01;
求出d的均值作为新的失真度误差;
6)回到步骤(3)共循环6次出直到分裂出64个码本为止。
如图2所示的孤立词识别即密码识别流程框图,在规定的录音时间内,待确认身份者输入语音密码(允许语速和语气等有一定变化)。
按照上面的方法取最小的dis作为匹配结果。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (10)
1.一种双模语音身份识别方法,应用于包括声音采集装置和信息处理装置的身份识别系统,所述的系统还包括语音密码特征库和声纹特征库,其特征在于,包括如下步骤:
步骤1,用户对声音采集装置说出输入语音,采集装置采集该输入语音;
步骤2,密码识别,采集装置将采集的输入语音输入信息处理装置,所述的信息处理装置将所述输入语音与语音密码特征库进行模板匹配,计算得到匹配距离;
步骤3,声纹识别,所述的信息处理装置将所述的输入语音进行声纹特征提取,并对提取的声纹特征与声纹特征库进行欧式距离计算;
步骤4,将密码识别和声纹识别所得的结果结合,如果密码识别和声纹识别的结果一致,则判定说话者身份确认有效;否则,认为身份鉴别失败。
2.根据权利要求1所述的一种双模语音身份识别方法,其特征在于,所述的语音密码特征由用户在使用前经声音采集装置录入语音信号,所述录入的语音信号由信息处理装置进行预处理并提取语音密码特征,对符合要求的语音密码特征保存至语音密码特征库。
3.根据权利要求1所述的一种双模语音身份识别方法,其特征在于,所述的声纹特征由用户在使用前经声音采集装置录入语音信号,所述录入的语音信号由信息处理装置进行预处理并提取声纹特征,对提取的声纹特征进行LBG算法进行矢量量化,量化后的声纹特征即为用户码本,所述码本保持至声纹特征库。
5.根据权利要求5所述的一种双模语音身份识别方法,其特征在于,所述的预加重处理由一阶零点数字滤波器实现,所述滤波器频域对应的形式是。
6.根据权利要求5所述的一种双模语音身份识别方法,其特征在于,所述的预处理还包括对预加重后的语音信号进行分帧加窗处理,所述的分帧加窗处理包括将预加重后的语音信号分成每帧10-30ms短时语音信号,并对每帧语音信号加上hamming窗。
7.根据权利要求7所述的一种双模语音身份识别方法,其特征在于,所述的预处理还包括对分帧后的语音进行端点检测,所述端点检测完成后对语音信号进行MFCC特征提取,生产语音密码特征库。
8.根据权利要求3所述的一种双模语音身份识别方法,其特征在于,所述的预处理依次包括预加重、分帧加窗和端点检测。
9.根据权利要求1所述的一种双模语音身份识别方法,其特征在于,所述步骤1还包括对输入语音进行预处理、端点检测和特征提取。
10.根据权利要求9所述的一种双模语音身份识别方法,其特征在于,所述的预处理包括预加重和分帧加窗。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210420105.3A CN103794207A (zh) | 2012-10-29 | 2012-10-29 | 一种双模语音身份识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210420105.3A CN103794207A (zh) | 2012-10-29 | 2012-10-29 | 一种双模语音身份识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103794207A true CN103794207A (zh) | 2014-05-14 |
Family
ID=50669796
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210420105.3A Pending CN103794207A (zh) | 2012-10-29 | 2012-10-29 | 一种双模语音身份识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103794207A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103986725A (zh) * | 2014-05-29 | 2014-08-13 | 中国农业银行股份有限公司 | 一种客户端、服务器端以及身份认证系统和方法 |
CN104167208A (zh) * | 2014-08-08 | 2014-11-26 | 中国科学院深圳先进技术研究院 | 一种说话人识别方法和装置 |
CN105575385A (zh) * | 2015-12-16 | 2016-05-11 | 中国建设银行股份有限公司 | 语音密码设置系统及方法、语音密码验证系统及方法 |
CN106057212A (zh) * | 2016-05-19 | 2016-10-26 | 华东交通大学 | 基于语音个性特征和模型自适应的驾驶疲劳检测方法 |
CN107077848A (zh) * | 2014-09-18 | 2017-08-18 | 纽昂斯通讯公司 | 用于执行说话人识别的方法和设备 |
CN108269573A (zh) * | 2017-01-03 | 2018-07-10 | 蓝盾信息安全技术有限公司 | 基于矢量量化和高斯混合模型的说话人识别系统 |
CN108281147A (zh) * | 2018-03-31 | 2018-07-13 | 南京火零信息科技有限公司 | 基于lpcc和adtw的声纹识别系统 |
CN108335699A (zh) * | 2018-01-18 | 2018-07-27 | 浙江大学 | 一种基于动态时间规整和语音活动检测的声纹识别方法 |
CN109242492A (zh) * | 2018-09-02 | 2019-01-18 | 珠海横琴现联盛科技发展有限公司 | 针对声音模仿的声纹识别支付信息防伪方法 |
CN110853652A (zh) * | 2019-10-10 | 2020-02-28 | 平安科技(深圳)有限公司 | 身份识别方法、装置及计算机可读存储介质 |
CN111415447A (zh) * | 2019-12-10 | 2020-07-14 | 南京工业大学 | 一种多重认证的门禁系统 |
CN111613228A (zh) * | 2020-04-15 | 2020-09-01 | 上海雷尘智能科技有限公司 | 一种基于声纹码的身份与内容识别系统 |
CN112017658A (zh) * | 2020-08-28 | 2020-12-01 | 北京计算机技术及应用研究所 | 一种基于智能人机交互的操作控制系统 |
CN113611284A (zh) * | 2021-08-06 | 2021-11-05 | 工银科技有限公司 | 语音库构建方法、识别方法、构建系统和识别系统 |
CN113886792A (zh) * | 2021-12-06 | 2022-01-04 | 北京惠朗时代科技有限公司 | 一种声纹识别和人脸识别相结合的印控仪应用方法和系统 |
CN113890658A (zh) * | 2021-10-20 | 2022-01-04 | 四川启睿克科技有限公司 | 基于安卓车机系统的安全广播方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1447278A (zh) * | 2002-11-15 | 2003-10-08 | 郑方 | 一种声纹识别方法 |
CN1547191A (zh) * | 2003-12-12 | 2004-11-17 | 北京大学 | 结合语义和声纹信息的说话人身份确认系统 |
CN1941080A (zh) * | 2005-09-26 | 2007-04-04 | 吴田平 | 一种楼宇对讲门口机声纹识别开锁模块及识别开锁方法 |
CN101923855A (zh) * | 2009-06-17 | 2010-12-22 | 复旦大学 | 文本无关的声纹识别系统 |
CN102509547A (zh) * | 2011-12-29 | 2012-06-20 | 辽宁工业大学 | 基于矢量量化的声纹识别方法及系统 |
-
2012
- 2012-10-29 CN CN201210420105.3A patent/CN103794207A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1447278A (zh) * | 2002-11-15 | 2003-10-08 | 郑方 | 一种声纹识别方法 |
CN1547191A (zh) * | 2003-12-12 | 2004-11-17 | 北京大学 | 结合语义和声纹信息的说话人身份确认系统 |
CN1941080A (zh) * | 2005-09-26 | 2007-04-04 | 吴田平 | 一种楼宇对讲门口机声纹识别开锁模块及识别开锁方法 |
CN101923855A (zh) * | 2009-06-17 | 2010-12-22 | 复旦大学 | 文本无关的声纹识别系统 |
CN102509547A (zh) * | 2011-12-29 | 2012-06-20 | 辽宁工业大学 | 基于矢量量化的声纹识别方法及系统 |
Non-Patent Citations (4)
Title |
---|
何佳若等: ""室内语音报警词识别系统设计"", 《声学技术》 * |
南京航空航天大学科技部: "《南京航空航天大学论文集_2009年_第33册_民航学院_第1分册》", 31 May 2010 * |
张春雷等: ""基于临界带功率谱方差的端点检测"", 《声学技术》 * |
蔡莲红等: "《现代语音技术基础与应用》", 30 November 2003 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103986725A (zh) * | 2014-05-29 | 2014-08-13 | 中国农业银行股份有限公司 | 一种客户端、服务器端以及身份认证系统和方法 |
CN104167208A (zh) * | 2014-08-08 | 2014-11-26 | 中国科学院深圳先进技术研究院 | 一种说话人识别方法和装置 |
CN104167208B (zh) * | 2014-08-08 | 2017-09-15 | 中国科学院深圳先进技术研究院 | 一种说话人识别方法和装置 |
CN107077848A (zh) * | 2014-09-18 | 2017-08-18 | 纽昂斯通讯公司 | 用于执行说话人识别的方法和设备 |
CN105575385A (zh) * | 2015-12-16 | 2016-05-11 | 中国建设银行股份有限公司 | 语音密码设置系统及方法、语音密码验证系统及方法 |
CN106057212A (zh) * | 2016-05-19 | 2016-10-26 | 华东交通大学 | 基于语音个性特征和模型自适应的驾驶疲劳检测方法 |
CN106057212B (zh) * | 2016-05-19 | 2019-04-30 | 华东交通大学 | 基于语音个性特征和模型自适应的驾驶疲劳检测方法 |
CN108269573A (zh) * | 2017-01-03 | 2018-07-10 | 蓝盾信息安全技术有限公司 | 基于矢量量化和高斯混合模型的说话人识别系统 |
CN108335699A (zh) * | 2018-01-18 | 2018-07-27 | 浙江大学 | 一种基于动态时间规整和语音活动检测的声纹识别方法 |
CN108281147A (zh) * | 2018-03-31 | 2018-07-13 | 南京火零信息科技有限公司 | 基于lpcc和adtw的声纹识别系统 |
CN109242492A (zh) * | 2018-09-02 | 2019-01-18 | 珠海横琴现联盛科技发展有限公司 | 针对声音模仿的声纹识别支付信息防伪方法 |
CN110853652A (zh) * | 2019-10-10 | 2020-02-28 | 平安科技(深圳)有限公司 | 身份识别方法、装置及计算机可读存储介质 |
CN111415447A (zh) * | 2019-12-10 | 2020-07-14 | 南京工业大学 | 一种多重认证的门禁系统 |
CN111613228A (zh) * | 2020-04-15 | 2020-09-01 | 上海雷尘智能科技有限公司 | 一种基于声纹码的身份与内容识别系统 |
CN112017658A (zh) * | 2020-08-28 | 2020-12-01 | 北京计算机技术及应用研究所 | 一种基于智能人机交互的操作控制系统 |
CN113611284A (zh) * | 2021-08-06 | 2021-11-05 | 工银科技有限公司 | 语音库构建方法、识别方法、构建系统和识别系统 |
CN113890658A (zh) * | 2021-10-20 | 2022-01-04 | 四川启睿克科技有限公司 | 基于安卓车机系统的安全广播方法及系统 |
CN113890658B (zh) * | 2021-10-20 | 2023-05-05 | 四川启睿克科技有限公司 | 基于安卓车机系统的安全广播方法及系统 |
CN113886792A (zh) * | 2021-12-06 | 2022-01-04 | 北京惠朗时代科技有限公司 | 一种声纹识别和人脸识别相结合的印控仪应用方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103794207A (zh) | 一种双模语音身份识别方法 | |
CN102509547B (zh) | 基于矢量量化的声纹识别方法及系统 | |
Yu et al. | Spoofing detection in automatic speaker verification systems using DNN classifiers and dynamic acoustic features | |
CN102968990B (zh) | 说话人识别方法和系统 | |
Dey et al. | Speech biometric based attendance system | |
Shum et al. | On the use of spectral and iterative methods for speaker diarization | |
CN105261367B (zh) | 一种说话人识别方法 | |
CN108694954A (zh) | 一种性别年龄识别方法、装置、设备及可读存储介质 | |
Baloul et al. | Challenge-based speaker recognition for mobile authentication | |
WO2012075641A1 (en) | Device and method for pass-phrase modeling for speaker verification, and verification system | |
CN105096955B (zh) | 一种基于模型生长聚类的说话人快速识别方法及系统 | |
CN101923855A (zh) | 文本无关的声纹识别系统 | |
CN102324232A (zh) | 基于高斯混合模型的声纹识别方法及系统 | |
CN108986824A (zh) | 一种回放语音检测方法 | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
US20100223057A1 (en) | Method and system to authenticate a user and/or generate cryptographic data | |
CN110767239A (zh) | 一种基于深度学习的声纹识别方法、装置及设备 | |
CN102789779A (zh) | 一种语音识别系统及其识别方法 | |
Todkar et al. | Speaker recognition techniques: A review | |
CN101887722A (zh) | 快速声纹认证方法 | |
CN104732972A (zh) | 一种基于分组统计的hmm声纹识别签到方法及系统 | |
CN110570870A (zh) | 一种文本无关的声纹识别方法、装置及设备 | |
CN109545226B (zh) | 一种语音识别方法、设备及计算机可读存储介质 | |
Weng et al. | The sysu system for the interspeech 2015 automatic speaker verification spoofing and countermeasures challenge | |
Desai et al. | Speaker recognition using MFCC and hybrid model of VQ and GMM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140514 |