CN109273012B - 一种基于说话人识别和数字语音识别的身份认证方法 - Google Patents
一种基于说话人识别和数字语音识别的身份认证方法 Download PDFInfo
- Publication number
- CN109273012B CN109273012B CN201811035366.7A CN201811035366A CN109273012B CN 109273012 B CN109273012 B CN 109273012B CN 201811035366 A CN201811035366 A CN 201811035366A CN 109273012 B CN109273012 B CN 109273012B
- Authority
- CN
- China
- Prior art keywords
- speaker
- recognition
- voice
- text
- tester
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 11
- 238000012360 testing method Methods 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims description 22
- 239000013598 vector Substances 0.000 claims description 17
- 239000000203 mixture Substances 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开一种基于说话人识别和数字语音识别的身份认证方法,用十个汉语数字组成的数字系统进行说话人识别和语音识别,确定用户的身份。首先对测试者提出答案是数字序列的某个问题,并读取测试者回答的语音,用语音识别技术得到其文本序列;然后,用每个人的声学模型和已识别的文本序列对测试语音进行说话人识别,并结合文本信息进行身份认证,得到认证结果。本发明将语音识别的结果用于与文本相关的说话人识别,减小了说话人识别的发音长度要求;根据说话人识别的结果读取问题的答案,检查测试者回答的问题是否正确,提高了身份认证的可靠性。数字语音系统所占的资源少,运算量小,易于实现,可以在识别性能和运算复杂度之间取得较好地平衡。
Description
技术领域
本发明属于语音处理技术领域,具体涉及到对数字语音序列进行说话人识别和语音识别,确定说话人身份的身份认证方法。
背景技术
说话人识别也称为声纹识别,可以从说话人发出的声音中提取其个性特征,从而识别出当前说话人的身份。与其他生物识别技术相比,说话人识别具有一些特别的优点,比如声音获取的成本较低,用户心理上容易接受,算法负责度低,适合远程操作等。但是,人的发音容易受身体状况、情绪和外部环境的影响,因此每个人的声纹特征只具有相对稳定性,不是恒定不变的,这就给声纹识别带来不利影响。
传统的说话人识别一般是与文本无关(Text-Independent)的技术,它不限制说话人的发音内容,用户使用更加方便。但是它对发音的长度有较高的要求,通常发音长度需要达到30秒以上,才能取得令人满意的识别率,过长的发音要求降低了识别过程中用户的体验感。另一方面,在模型训练阶段,需要为每个说话人收集足够多的发音样本,用它们训练生成每个人的声学模型,这给系统管理员和用户都带来了巨大的工作量。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供了一种基于说话人识别和数字语音识别的身份认证方法。
技术方案:一种基于说话人识别和数字语音识别的身份认证方法,对十个汉语数字语音(0~9)组成的数字语音序列同时进行说话人识别和语音识别,以确定说话人的身份;用每个数字的声学模型对测试语音特征向量进行语音识别,得到文本序列;用每个人的声学模型和已识别的文本序列对测试语音特征向量进行说话人识别,得到说话人信息,并结合文本信息进行身份认证,得到认证结果。
本发明的具体步骤如下:
(1)在训练阶段,首先为每个说话人配置每个数字发音的多个发音样本(每个说话人对每个数字发音30次);
(2)然后,用每个人的训练语音(发音样本)训练生成用于说话人识别的高斯混合模型(GMM:Gaussian Mixture Model),用每个数字的全部训练语音训练生成用于语音识别的隐马尔可夫模型(HMM:Hidden Markov Model);
(3)最后,为身份认证配置若干个涉及数字的问题,如“你的出生年月日?”,“你的身份证号码?”,“你的工号”以及简单的数学运算题;
(4)在测试阶段,首先从预设的问题中随机挑选一个问题,向测试者提出问题;
(5)其次,读取测试者回答的问题,提取其测试语音特征向量,并用HMM对测试语音特征向量进行语音识别,得到文本序列;
(6)再次,用GMM和已识别的文本序列对测试语音特征向量进行与文本相关(Text-Dependent)的说话人识别,得到当前发音的说话人信息;
(7)然后,根据识别的说话人信息读取问题的答案,与文本序列进行匹配,核对当前说话人回答的问题是否正确;
(8)最后,根据文本匹配的结果和已识别的说话人信息,进行身份认证,只有在文本匹配通过的前提下,才能将当前说话人判定为系统中的某一用户。
本发明采用上述技术方案,具有以下有益效果:
本发明将语音识别的结果用于与文本相关的说话人识别,减小了说话人识别的发音长度要求;根据说话人识别的结果读取问题的答案,检查测试者回答的问题是否正确,提高了身份认证的可靠性。数字语音系统所占的资源少,运算量小,易于实现,可以在识别性能和运算复杂度之间取得较好地平衡。
附图说明
图1为本发明实施例的总体框架图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于说话人识别和数字语音识别的身份认证方法,主要包括特征提取、模型训练、语音识别、说话人识别、文本匹配和身份认证部分。
1、特征提取
为每个说话人配置数字发音样本,每个说话人对每个数字发音30次,形成每个人和每个数字的训练语音;对加窗、分帧后的训练语音或测试语音进行快速傅里叶变换,得到每帧信号的幅度谱;然后,对每帧信号的幅度谱进行Mel滤波,取对数,离散余弦变换,得到倒谱特征向量,用于训练生成GMM和HMM。在进行GMM训练和说话人识别时,特征参数还包括基音周期。
2、模型训练
在训练阶段,用每个人的训练语音训练生成用于说话人识别的GMM,用每个数字的全部训练语音训练生成用于语音识别的HMM。
3、语音识别
首先将测试语音切分为字音序列;然后用HMM对每个字音进行语音识别,得到文本序列。由于测试者回答的语音中可能包含非数字发音,比如“年”和“月”,所以要对HMM的输出概率设置阈值。对输出概率的最大值低于阈值的字音,将其判断为非数字语音,输出的文本序列不包含其信息。此外,语音识别还对前后字音之间的连贯性进行检查,以防止用预先录制好的数字发音拼接生成答案。只要连贯性检查不通过,就直接将当前测试者判断为非系统用户。
4、说话人识别
首先根据语音识别部分输出的文本序列信息,将非数字发音从测试语音特征向量中删除;然后,用GMM和文本序列对测试语音特征向量进行与文本相关的说话人识别,得到当前发音的说话人信息。在说话人识别中,同样要设置阈值。若测试语音的输出概率的最大值低于阈值,则将当前测试者判断为非系统用户。
5、文本匹配
得到当前发音的说话人信息后,即可读取问题的正确答案,将其与语音识别模块输出的文本序列进行文本匹配,判断测试者回答的问题是否正确。
6、身份认证
身份认证的原则有三个:①若当前测试语音没有通过连贯性检查,则说明它是通过预先录制好的数字录音拼接而成的,将当前测试者判断为非法用户;②若当前测试语音的文本匹配未通过,即测试者回答的问题不正确,则将当前测试者判断为非法用户;③只有当前测试语音同时通过连贯性检查和文本匹配,才根据说话人识别的结果将测试者判断为系统中的某个合法用户或非系统用户。
Claims (1)
1.一种基于说话人识别和数字语音识别的身份认证方法,其特征在于,用每个数字的声学模型对测试语音特征向量进行语音识别,得到文本序列;用每个人的声学模型和已识别的文本序列对测试语音特征向量进行说话人识别,得到说话人信息,并结合文本信息进行身份认证,得到认证结果;
在训练阶段,首先为训练样本中每个说话人配置每个数字发音的多个的发音样本,形成每个人和每个数字的训练语音,所述数字指的是0-9十个数字,用每个人的训练语音训练生成用于说话人识别的高斯混合模型(GMM:Gaussian Mixture Model),用每个数字的全部训练语音训练生成用于语音识别的隐马尔可夫模型(HMM:Hidden Markov Model);
为身份认证配置若干个涉及数字的问题;在测试阶段,首先从预设的问题中随机挑选一个问题,向测试者提出问题;其次,读取测试者回答的问题,提取测试者的测试语音特征向量,并用HMM对测试语音特征向量进行语音识别,得到文本序列;
用GMM和已识别的文本序列对测试语音特征向量进行与文本相关的说话人识别,得到当前发音的说话人信息;然后,根据识别的说话人信息读取问题的答案,与文本序列进行匹配,核对当前说话人回答的问题是否正确;最后,根据文本匹配的结果和已识别的说话人信息,进行身份认证,只有在文本匹配通过的前提下,才能将当前说话人判定为系统中的某一用户;
对于测试者的测试语音特征向量,将其切分为字音序列;然后用HMM对每个字音进行语音识别,得到文本序列;根据文本序列将非数字发音从测试语音特征向量中删除;然后,用GMM和文本序列对测试语音特征向量进行与文本相关的说话人识别,得到当前发音的说话人信息;在说话人信息识别中,设置阈值;若测试语音的输出概率的最大值低于阈值,则将当前测试者判断为非系统用户;
得到当前发音的说话人信息后,即可读取问题的正确答案,将其与文本序列进行文本匹配,判断测试者回答的问题是否正确;
其中,身份认证的原则有三个:①若当前测试语音没有通过连贯性检查,将当前测试者判断为非法用户;②若当前测试语音的文本匹配未通过,则将当前测试者判断为非法用户;③只有当前测试语音同时通过连贯性检查和文本匹配,才根据说话人识别的结果将测试者判断为系统中的某个合法用户或非系统用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811035366.7A CN109273012B (zh) | 2018-09-06 | 2018-09-06 | 一种基于说话人识别和数字语音识别的身份认证方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811035366.7A CN109273012B (zh) | 2018-09-06 | 2018-09-06 | 一种基于说话人识别和数字语音识别的身份认证方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109273012A CN109273012A (zh) | 2019-01-25 |
CN109273012B true CN109273012B (zh) | 2023-01-31 |
Family
ID=65187989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811035366.7A Active CN109273012B (zh) | 2018-09-06 | 2018-09-06 | 一种基于说话人识别和数字语音识别的身份认证方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109273012B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110136727B (zh) * | 2019-04-16 | 2024-04-16 | 平安科技(深圳)有限公司 | 基于说话内容的说话者身份识别方法、装置及存储介质 |
CN112151018A (zh) * | 2019-06-10 | 2020-12-29 | 阿里巴巴集团控股有限公司 | 语音评测及语音识别方法、装置、设备及存储介质 |
CN113053395B (zh) * | 2021-03-05 | 2023-11-17 | 深圳市声希科技有限公司 | 发音纠错学习方法、装置、存储介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1547191A (zh) * | 2003-12-12 | 2004-11-17 | 北京大学 | 结合语义和声纹信息的说话人身份确认系统 |
CN102254559A (zh) * | 2010-05-20 | 2011-11-23 | 盛乐信息技术(上海)有限公司 | 基于声纹的身份认证系统及方法 |
CN102314877A (zh) * | 2010-07-08 | 2012-01-11 | 盛乐信息技术(上海)有限公司 | 字符内容提示的声纹识别方法 |
JP2012032538A (ja) * | 2010-07-29 | 2012-02-16 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、音声認識装置及び音声認識プログラム |
CN102737634A (zh) * | 2012-05-29 | 2012-10-17 | 百度在线网络技术(北京)有限公司 | 一种基于语音的认证方法及装置 |
CN104064189A (zh) * | 2014-06-26 | 2014-09-24 | 厦门天聪智能软件有限公司 | 一种声纹动态口令的建模和验证方法 |
-
2018
- 2018-09-06 CN CN201811035366.7A patent/CN109273012B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1547191A (zh) * | 2003-12-12 | 2004-11-17 | 北京大学 | 结合语义和声纹信息的说话人身份确认系统 |
CN102254559A (zh) * | 2010-05-20 | 2011-11-23 | 盛乐信息技术(上海)有限公司 | 基于声纹的身份认证系统及方法 |
CN102314877A (zh) * | 2010-07-08 | 2012-01-11 | 盛乐信息技术(上海)有限公司 | 字符内容提示的声纹识别方法 |
JP2012032538A (ja) * | 2010-07-29 | 2012-02-16 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、音声認識装置及び音声認識プログラム |
CN102737634A (zh) * | 2012-05-29 | 2012-10-17 | 百度在线网络技术(北京)有限公司 | 一种基于语音的认证方法及装置 |
CN104064189A (zh) * | 2014-06-26 | 2014-09-24 | 厦门天聪智能软件有限公司 | 一种声纹动态口令的建模和验证方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109273012A (zh) | 2019-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Reynolds | An overview of automatic speaker recognition technology | |
WO2021128741A1 (zh) | 语音情绪波动分析方法、装置、计算机设备及存储介质 | |
US4773093A (en) | Text-independent speaker recognition system and method based on acoustic segment matching | |
Reynolds | Automatic speaker recognition: Current approaches and future trends | |
JP2016080916A (ja) | 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム | |
CN101923855A (zh) | 文本无关的声纹识别系统 | |
CN104143326A (zh) | 一种语音命令识别方法和装置 | |
CN109273012B (zh) | 一种基于说话人识别和数字语音识别的身份认证方法 | |
Karlsson et al. | Speaker verification with elicited speaking styles in the VeriVox project | |
Paulose et al. | Performance evaluation of different modeling methods and classifiers with MFCC and IHC features for speaker recognition | |
CN113823293B (zh) | 一种基于语音增强的说话人识别方法及系统 | |
Chauhan et al. | Speech to text converter using Gaussian Mixture Model (GMM) | |
CN109920435A (zh) | 一种声纹识别方法及声纹识别装置 | |
CN110570870A (zh) | 一种文本无关的声纹识别方法、装置及设备 | |
Charisma et al. | Speaker recognition using mel-frequency cepstrum coefficients and sum square error | |
Beigi | Challenges of LargeScale Speaker Recognition | |
Sapijaszko et al. | An overview of recent window based feature extraction algorithms for speaker recognition | |
CN108665901B (zh) | 一种音素/音节提取方法及装置 | |
Wildermoth et al. | GMM based speaker recognition on readily available databases | |
Saundade et al. | Speech recognition using digital signal processing | |
Bansal et al. | lllllllllllllll ç Medwell Journals, 2007 Automatic Speaker Identification Using Vector Quantization | |
CN113409774A (zh) | 语音识别方法、装置及电子设备 | |
Mishra et al. | Speaker identification, differentiation and verification using deep learning for human machine interface | |
Mishra | A vector quantization approach to speaker recognition | |
Jagtap et al. | Speaker verification using Gaussian mixture model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |