CN109273012B - 一种基于说话人识别和数字语音识别的身份认证方法 - Google Patents

一种基于说话人识别和数字语音识别的身份认证方法 Download PDF

Info

Publication number
CN109273012B
CN109273012B CN201811035366.7A CN201811035366A CN109273012B CN 109273012 B CN109273012 B CN 109273012B CN 201811035366 A CN201811035366 A CN 201811035366A CN 109273012 B CN109273012 B CN 109273012B
Authority
CN
China
Prior art keywords
speaker
recognition
voice
text
tester
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811035366.7A
Other languages
English (en)
Other versions
CN109273012A (zh
Inventor
吕勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201811035366.7A priority Critical patent/CN109273012B/zh
Publication of CN109273012A publication Critical patent/CN109273012A/zh
Application granted granted Critical
Publication of CN109273012B publication Critical patent/CN109273012B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开一种基于说话人识别和数字语音识别的身份认证方法,用十个汉语数字组成的数字系统进行说话人识别和语音识别,确定用户的身份。首先对测试者提出答案是数字序列的某个问题,并读取测试者回答的语音,用语音识别技术得到其文本序列;然后,用每个人的声学模型和已识别的文本序列对测试语音进行说话人识别,并结合文本信息进行身份认证,得到认证结果。本发明将语音识别的结果用于与文本相关的说话人识别,减小了说话人识别的发音长度要求;根据说话人识别的结果读取问题的答案,检查测试者回答的问题是否正确,提高了身份认证的可靠性。数字语音系统所占的资源少,运算量小,易于实现,可以在识别性能和运算复杂度之间取得较好地平衡。

Description

一种基于说话人识别和数字语音识别的身份认证方法
技术领域
本发明属于语音处理技术领域,具体涉及到对数字语音序列进行说话人识别和语音识别,确定说话人身份的身份认证方法。
背景技术
说话人识别也称为声纹识别,可以从说话人发出的声音中提取其个性特征,从而识别出当前说话人的身份。与其他生物识别技术相比,说话人识别具有一些特别的优点,比如声音获取的成本较低,用户心理上容易接受,算法负责度低,适合远程操作等。但是,人的发音容易受身体状况、情绪和外部环境的影响,因此每个人的声纹特征只具有相对稳定性,不是恒定不变的,这就给声纹识别带来不利影响。
传统的说话人识别一般是与文本无关(Text-Independent)的技术,它不限制说话人的发音内容,用户使用更加方便。但是它对发音的长度有较高的要求,通常发音长度需要达到30秒以上,才能取得令人满意的识别率,过长的发音要求降低了识别过程中用户的体验感。另一方面,在模型训练阶段,需要为每个说话人收集足够多的发音样本,用它们训练生成每个人的声学模型,这给系统管理员和用户都带来了巨大的工作量。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供了一种基于说话人识别和数字语音识别的身份认证方法。
技术方案:一种基于说话人识别和数字语音识别的身份认证方法,对十个汉语数字语音(0~9)组成的数字语音序列同时进行说话人识别和语音识别,以确定说话人的身份;用每个数字的声学模型对测试语音特征向量进行语音识别,得到文本序列;用每个人的声学模型和已识别的文本序列对测试语音特征向量进行说话人识别,得到说话人信息,并结合文本信息进行身份认证,得到认证结果。
本发明的具体步骤如下:
(1)在训练阶段,首先为每个说话人配置每个数字发音的多个发音样本(每个说话人对每个数字发音30次);
(2)然后,用每个人的训练语音(发音样本)训练生成用于说话人识别的高斯混合模型(GMM:Gaussian Mixture Model),用每个数字的全部训练语音训练生成用于语音识别的隐马尔可夫模型(HMM:Hidden Markov Model);
(3)最后,为身份认证配置若干个涉及数字的问题,如“你的出生年月日?”,“你的身份证号码?”,“你的工号”以及简单的数学运算题;
(4)在测试阶段,首先从预设的问题中随机挑选一个问题,向测试者提出问题;
(5)其次,读取测试者回答的问题,提取其测试语音特征向量,并用HMM对测试语音特征向量进行语音识别,得到文本序列;
(6)再次,用GMM和已识别的文本序列对测试语音特征向量进行与文本相关(Text-Dependent)的说话人识别,得到当前发音的说话人信息;
(7)然后,根据识别的说话人信息读取问题的答案,与文本序列进行匹配,核对当前说话人回答的问题是否正确;
(8)最后,根据文本匹配的结果和已识别的说话人信息,进行身份认证,只有在文本匹配通过的前提下,才能将当前说话人判定为系统中的某一用户。
本发明采用上述技术方案,具有以下有益效果:
本发明将语音识别的结果用于与文本相关的说话人识别,减小了说话人识别的发音长度要求;根据说话人识别的结果读取问题的答案,检查测试者回答的问题是否正确,提高了身份认证的可靠性。数字语音系统所占的资源少,运算量小,易于实现,可以在识别性能和运算复杂度之间取得较好地平衡。
附图说明
图1为本发明实施例的总体框架图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于说话人识别和数字语音识别的身份认证方法,主要包括特征提取、模型训练、语音识别、说话人识别、文本匹配和身份认证部分。
1、特征提取
为每个说话人配置数字发音样本,每个说话人对每个数字发音30次,形成每个人和每个数字的训练语音;对加窗、分帧后的训练语音或测试语音进行快速傅里叶变换,得到每帧信号的幅度谱;然后,对每帧信号的幅度谱进行Mel滤波,取对数,离散余弦变换,得到倒谱特征向量,用于训练生成GMM和HMM。在进行GMM训练和说话人识别时,特征参数还包括基音周期。
2、模型训练
在训练阶段,用每个人的训练语音训练生成用于说话人识别的GMM,用每个数字的全部训练语音训练生成用于语音识别的HMM。
3、语音识别
首先将测试语音切分为字音序列;然后用HMM对每个字音进行语音识别,得到文本序列。由于测试者回答的语音中可能包含非数字发音,比如“年”和“月”,所以要对HMM的输出概率设置阈值。对输出概率的最大值低于阈值的字音,将其判断为非数字语音,输出的文本序列不包含其信息。此外,语音识别还对前后字音之间的连贯性进行检查,以防止用预先录制好的数字发音拼接生成答案。只要连贯性检查不通过,就直接将当前测试者判断为非系统用户。
4、说话人识别
首先根据语音识别部分输出的文本序列信息,将非数字发音从测试语音特征向量中删除;然后,用GMM和文本序列对测试语音特征向量进行与文本相关的说话人识别,得到当前发音的说话人信息。在说话人识别中,同样要设置阈值。若测试语音的输出概率的最大值低于阈值,则将当前测试者判断为非系统用户。
5、文本匹配
得到当前发音的说话人信息后,即可读取问题的正确答案,将其与语音识别模块输出的文本序列进行文本匹配,判断测试者回答的问题是否正确。
6、身份认证
身份认证的原则有三个:①若当前测试语音没有通过连贯性检查,则说明它是通过预先录制好的数字录音拼接而成的,将当前测试者判断为非法用户;②若当前测试语音的文本匹配未通过,即测试者回答的问题不正确,则将当前测试者判断为非法用户;③只有当前测试语音同时通过连贯性检查和文本匹配,才根据说话人识别的结果将测试者判断为系统中的某个合法用户或非系统用户。

Claims (1)

1.一种基于说话人识别和数字语音识别的身份认证方法,其特征在于,用每个数字的声学模型对测试语音特征向量进行语音识别,得到文本序列;用每个人的声学模型和已识别的文本序列对测试语音特征向量进行说话人识别,得到说话人信息,并结合文本信息进行身份认证,得到认证结果;
在训练阶段,首先为训练样本中每个说话人配置每个数字发音的多个的发音样本,形成每个人和每个数字的训练语音,所述数字指的是0-9十个数字,用每个人的训练语音训练生成用于说话人识别的高斯混合模型(GMM:Gaussian Mixture Model),用每个数字的全部训练语音训练生成用于语音识别的隐马尔可夫模型(HMM:Hidden Markov Model);
为身份认证配置若干个涉及数字的问题;在测试阶段,首先从预设的问题中随机挑选一个问题,向测试者提出问题;其次,读取测试者回答的问题,提取测试者的测试语音特征向量,并用HMM对测试语音特征向量进行语音识别,得到文本序列;
用GMM和已识别的文本序列对测试语音特征向量进行与文本相关的说话人识别,得到当前发音的说话人信息;然后,根据识别的说话人信息读取问题的答案,与文本序列进行匹配,核对当前说话人回答的问题是否正确;最后,根据文本匹配的结果和已识别的说话人信息,进行身份认证,只有在文本匹配通过的前提下,才能将当前说话人判定为系统中的某一用户;
对于测试者的测试语音特征向量,将其切分为字音序列;然后用HMM对每个字音进行语音识别,得到文本序列;根据文本序列将非数字发音从测试语音特征向量中删除;然后,用GMM和文本序列对测试语音特征向量进行与文本相关的说话人识别,得到当前发音的说话人信息;在说话人信息识别中,设置阈值;若测试语音的输出概率的最大值低于阈值,则将当前测试者判断为非系统用户;
得到当前发音的说话人信息后,即可读取问题的正确答案,将其与文本序列进行文本匹配,判断测试者回答的问题是否正确;
其中,身份认证的原则有三个:①若当前测试语音没有通过连贯性检查,将当前测试者判断为非法用户;②若当前测试语音的文本匹配未通过,则将当前测试者判断为非法用户;③只有当前测试语音同时通过连贯性检查和文本匹配,才根据说话人识别的结果将测试者判断为系统中的某个合法用户或非系统用户。
CN201811035366.7A 2018-09-06 2018-09-06 一种基于说话人识别和数字语音识别的身份认证方法 Active CN109273012B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811035366.7A CN109273012B (zh) 2018-09-06 2018-09-06 一种基于说话人识别和数字语音识别的身份认证方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811035366.7A CN109273012B (zh) 2018-09-06 2018-09-06 一种基于说话人识别和数字语音识别的身份认证方法

Publications (2)

Publication Number Publication Date
CN109273012A CN109273012A (zh) 2019-01-25
CN109273012B true CN109273012B (zh) 2023-01-31

Family

ID=65187989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811035366.7A Active CN109273012B (zh) 2018-09-06 2018-09-06 一种基于说话人识别和数字语音识别的身份认证方法

Country Status (1)

Country Link
CN (1) CN109273012B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110136727B (zh) * 2019-04-16 2024-04-16 平安科技(深圳)有限公司 基于说话内容的说话者身份识别方法、装置及存储介质
CN112151018A (zh) * 2019-06-10 2020-12-29 阿里巴巴集团控股有限公司 语音评测及语音识别方法、装置、设备及存储介质
CN113053395B (zh) * 2021-03-05 2023-11-17 深圳市声希科技有限公司 发音纠错学习方法、装置、存储介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1547191A (zh) * 2003-12-12 2004-11-17 北京大学 结合语义和声纹信息的说话人身份确认系统
CN102254559A (zh) * 2010-05-20 2011-11-23 盛乐信息技术(上海)有限公司 基于声纹的身份认证系统及方法
CN102314877A (zh) * 2010-07-08 2012-01-11 盛乐信息技术(上海)有限公司 字符内容提示的声纹识别方法
JP2012032538A (ja) * 2010-07-29 2012-02-16 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、音声認識装置及び音声認識プログラム
CN102737634A (zh) * 2012-05-29 2012-10-17 百度在线网络技术(北京)有限公司 一种基于语音的认证方法及装置
CN104064189A (zh) * 2014-06-26 2014-09-24 厦门天聪智能软件有限公司 一种声纹动态口令的建模和验证方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1547191A (zh) * 2003-12-12 2004-11-17 北京大学 结合语义和声纹信息的说话人身份确认系统
CN102254559A (zh) * 2010-05-20 2011-11-23 盛乐信息技术(上海)有限公司 基于声纹的身份认证系统及方法
CN102314877A (zh) * 2010-07-08 2012-01-11 盛乐信息技术(上海)有限公司 字符内容提示的声纹识别方法
JP2012032538A (ja) * 2010-07-29 2012-02-16 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、音声認識装置及び音声認識プログラム
CN102737634A (zh) * 2012-05-29 2012-10-17 百度在线网络技术(北京)有限公司 一种基于语音的认证方法及装置
CN104064189A (zh) * 2014-06-26 2014-09-24 厦门天聪智能软件有限公司 一种声纹动态口令的建模和验证方法

Also Published As

Publication number Publication date
CN109273012A (zh) 2019-01-25

Similar Documents

Publication Publication Date Title
Reynolds An overview of automatic speaker recognition technology
WO2021128741A1 (zh) 语音情绪波动分析方法、装置、计算机设备及存储介质
US4773093A (en) Text-independent speaker recognition system and method based on acoustic segment matching
Reynolds Automatic speaker recognition: Current approaches and future trends
JP2016080916A (ja) 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム
CN101923855A (zh) 文本无关的声纹识别系统
CN104143326A (zh) 一种语音命令识别方法和装置
CN109273012B (zh) 一种基于说话人识别和数字语音识别的身份认证方法
Karlsson et al. Speaker verification with elicited speaking styles in the VeriVox project
Paulose et al. Performance evaluation of different modeling methods and classifiers with MFCC and IHC features for speaker recognition
CN113823293B (zh) 一种基于语音增强的说话人识别方法及系统
Chauhan et al. Speech to text converter using Gaussian Mixture Model (GMM)
CN109920435A (zh) 一种声纹识别方法及声纹识别装置
CN110570870A (zh) 一种文本无关的声纹识别方法、装置及设备
Charisma et al. Speaker recognition using mel-frequency cepstrum coefficients and sum square error
Beigi Challenges of LargeScale Speaker Recognition
Sapijaszko et al. An overview of recent window based feature extraction algorithms for speaker recognition
CN108665901B (zh) 一种音素/音节提取方法及装置
Wildermoth et al. GMM based speaker recognition on readily available databases
Saundade et al. Speech recognition using digital signal processing
Bansal et al. lllllllllllllll ç Medwell Journals, 2007 Automatic Speaker Identification Using Vector Quantization
CN113409774A (zh) 语音识别方法、装置及电子设备
Mishra et al. Speaker identification, differentiation and verification using deep learning for human machine interface
Mishra A vector quantization approach to speaker recognition
Jagtap et al. Speaker verification using Gaussian mixture model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant