CN107104803B - 一种基于数字口令与声纹联合确认的用户身份验证方法 - Google Patents

一种基于数字口令与声纹联合确认的用户身份验证方法 Download PDF

Info

Publication number
CN107104803B
CN107104803B CN201710208226.4A CN201710208226A CN107104803B CN 107104803 B CN107104803 B CN 107104803B CN 201710208226 A CN201710208226 A CN 201710208226A CN 107104803 B CN107104803 B CN 107104803B
Authority
CN
China
Prior art keywords
user
audio
verification
text
short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710208226.4A
Other languages
English (en)
Other versions
CN107104803A (zh
Inventor
刘艺
何亮
田垚
陈仙红
刘加
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huacong Zhijia Technology Co., Ltd.
Original Assignee
Beijing Huacong Zhijia Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huacong Zhijia Technology Co Ltd filed Critical Beijing Huacong Zhijia Technology Co Ltd
Priority to CN201710208226.4A priority Critical patent/CN107104803B/zh
Publication of CN107104803A publication Critical patent/CN107104803A/zh
Application granted granted Critical
Publication of CN107104803B publication Critical patent/CN107104803B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3226Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using a predetermined code, e.g. password, passphrase or PIN
    • H04L9/3228One-time or temporary data, i.e. information which is sent for every authentication or authorization, e.g. one-time-password, one-time-token or one-time-key
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3215Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using a plurality of channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3226Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using a predetermined code, e.g. password, passphrase or PIN
    • H04L9/3231Biological data, e.g. fingerprint, voice or retina

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提出一种基于数字口令与声纹联合确认的用户身份验证方法,属于身份验证技术领域。该方法包括初始化阶段:获取初始化训练音频并建立文本相关的通用背景模型;注册阶段:记录用户注册信息并建立文本相关的用户模型;验证阶段:用户按照服务器指定的顺序录制用户验证音频,根据用户验证音频的短时谱特征以及文本相关的用户模型与文本相关的通用背景模型,验证该用户验证音频的声纹是否属于目标用户且内容与正确数字串文本是否相符,得到声纹验证分数和文本验证分数;将两个验证分数加权求和得到最终验证分数,当最终验证分数超过设定阈值时,验证通过。本发明在传统口令验证的基础上,结合数字口令确认和声纹确认,增强了身份验证的安全性。

Description

一种基于数字口令与声纹联合确认的用户身份验证方法
技术领域
本发明属于身份验证技术领域,尤其是涉及一种基于数字口令与声纹联合确认的用户身份验证方法。
背景技术
传统基于口令的身份验证方法,往往采用密码或者动态验证码的形式。密码广泛应用于生产生活的各个方面。但是单一的密码可能被盗取,密码一旦丢失,将给账户安全造成极大的威胁。而随着电子技术以及移动通信工具的普及,动态验证码也开始流行。在服务终端、网页或手机客户端登录账户时,用户常常被要求输入手机接收到的短信验证码;在使用网上银行进行交易时,可采用电子口令卡(又被称为e-token)随机生成的动态数字验证码。动态验证码由于每次更换、有效时间短,相较密码增大了窃取的难度,且往往需要相应的硬件支持(手机、电子口令卡等)。但是不法分子仍可以通过硬件克隆等手段截取到动态码,账户安全风险依然存在。
随着模式识别和人工智能的发展,语音技术、特别是语音识别和声纹识别技术,得到了长足的进步并开始在实际生活中发挥着越来越重要的作用。
语音识别指的是将语音转化为文本的技术,通过语音识别,计算机能够知道用户口述的文本内容。语音识别的分类,从词汇量多少上,可分为大、中、小规模;从形式上,可分为孤立词和连续语音识别。语音识别技术自20世纪80年代发展到现在,随着语料积累以及算法进步,在识别能力上有了极大的提高。识别对象从最初的小词汇量朗读语音,逐渐扩展为几十万乃至上百万词的大词汇量口语对话。从2012年至今,随着深度学习的推广,基于深度神经网络的语音识别方法再一次大幅度提升了语音识别性能,推动语音识别进入大规模实用阶段。现有技术已经可以在大多数情况下准确识别朗读的数字口令。
同语音识别从声音到文字的过程不同,声纹识别又称为说话人识别,实现的是从声音到说话人身份的转换。声音作为人固有的生物信息,有着难以冒充的特点。根据语音内容的限制范围,声纹识别可以分为文本相关与文本无关两大类。文本无关的声纹识别不依赖于特定的语音内容,而文本相关的技术则需要对训练和测试的语音内容进行相应的限制。声纹识别的相关研究从20世纪60年代就已经开始。2000年左右麻省理工学院林肯实验室的Douglas A.Reynolds提出了通用背景模型,奠定了现代声纹识别技术的基础。之后,W.M.Campbell、Patrick J.Kenny、NajimDehak等人逐步提出了基于支持向量机(SupportVector Machine,SVM)、联合因子分析(Joint Factor Analysis,JFA)、鉴别向量(IdentityVector,i-vector)等声纹识别方法,综合考虑了由信道和背景噪声产生的干扰,保证了在实际情况中的识别效果。目前,声纹识别已经在军事、司法刑侦、电子商务等领域得到了广泛的应用。虽然文本无关的声纹识别在应用中更为灵活方便,但在语音时长受限的情况下,识别准确率并不理想;而文本相关的声纹识别技术由于利用了语音结构信息,能够保证短语音下的识别效果,更适合在基于语音口令的身份认证中使用。
将语音技术应用于身份验证已有一些先例。中国专利公开号CN106302339A,公开日2017.01.04,公开了一种登录验证方法和装置、登录方法和装置,联合用户语音声纹以及验证文本提升用户登录账户的安全性。该发明所述的方法包括以下步骤:步骤一,根据用户登录请求生成验证文本返回给用户终端;步骤二,接收用户终端上传的待验证语音;步骤三,采用文本无关的语音识别算法对待验证语音进行语音声纹验证;步骤四,语音声纹验证通过后,将待验证语音转化为文本;步骤五,比较待验证语音文本与步骤一生成的验证文本内容是否相同,从而判断是否允许登录。该发明通过结合语音验证与文本内容验证的双重验证,避免了用户被钓鱼网站窃取账号、密码以及语音后被冒充身份的可能。该发明的主要缺陷在于:(1)实际应用中用户验证语音长度短、环境复杂,采用文本无关的语音验证算法无法利用验证码的文本结构信息,难以达到准确的验证效果;(2)在验证时,采用语音声纹与文本内容验证分步进行的做法,可能由于文本内容识别的微小错误造成拒识。
中国专利公开号CN104951930A,公开日2015.09.30,公开了一种基于生物信息身份验证的电子密码票据方法及系统,采用声纹识别算法判断客户身份,减少由用户手持票据造成的丢失以及冒认。该技术主要步骤为:
1)以用户唯一的身份识别号码为索引建立用户数据库,当服务器收到用户端购票信息时,返回固定一次性秘钥或多次使用的小范围字典。所述固定一次性秘钥为由常用字字典生成的包含5个常用字的字符串文本。其中,所述常用字字典是指《现代汉语常用字表》(1988年版)所规定的2500个常用字。所述多次使用的小范围字典为从{0,1,2,3,4,5,6,7,8,9}中随机生成的6位数字。
2)用户根据收到的固定一次性秘钥或小范围字典进行朗读,相应的音频文件被反馈至服务器。服务器根据文本相关说话人模型训练算法建立声纹票据对应的说话人模型,具体方法为:
2.1)建立说话人识别通用背景模型(Universal Background Model,UBM)。所述通用背景模型的训练数据为各种型号的手机录制的中文语音数据,用于训练的数据可达几百小时,每句话的长度从1s到9s不等,男女数据都有,每个人都有几十句甚至上百句的话可供选择。训练过程为:首先提取原始语音的感知线性预测系数(Perceptual LinearPredictive,PLP)作为特征,之后采用最大期望算法(Expectation Maximization,EM)算法训练1024个高斯分布的高斯混合模型,表示为表达式如式(0-1)所示:
Figure BDA0001260382890000031
式中,Λ表示高斯混合模型参数,cm表示第m个高斯的权重,μm、Σm分别为第m个高斯的均值与方差,M表示该高斯混合模型中含有的高斯分布数量,p(x|Λ)表示特征数据x在该高斯混合模型中的整体似然概率。
所述最大期望算法表达式如下:
Figure BDA0001260382890000032
Figure BDA0001260382890000033
Figure BDA0001260382890000034
Figure BDA0001260382890000035
式中,γm(n)代表第n个特征xn在第m个高斯分布中的似然概率,N为所有特征的数量。μm、Σm、cm分别为第m个高斯的均值、方差和权重。
2.2)将用户所读入的单子音频拼接为连续语句。所述的拼接的顺序按照固定一次性密钥或小范围字典决定。
2.3)对通用背景模型进行最大后验概率(Maximum a posteriori,MAP)注册并生成说话人模型。所述注册数据为拼接后的用户音频,说话人模型估计的表达式如式(0-6)所示:
Figure BDA0001260382890000036
其中,Λ为高斯混合模型的模型参数,包括高斯分布数量M、每个高斯分布上的均值μm、方差Σm以及权重cm;p(Λ)为参数Λ的先验分布。X为注册音频特征集合{x1,x2,...,xN},N为注册音频特征数量。p(X|Λ)为在模型Λ条件下特征集合X的似然概率。
Figure BDA0001260382890000037
为通过式(0-6)优化得到的说话人模型参数。
3)当用户发出验证请求时,服务器通过文本相关说话人验证算法比较待测音频和说话人模型是否为同一说话人,并输出认证结果。
所述文本相关说话人验证算法是指:分别计算测试音频在通用背景模型和说话人模型的似然分数。对某段测试音频Y,H0表示Y来自目标说话人S,H1表示Y不是来自目标说话人S。评分
Figure BDA0001260382890000041
T为该段测试语音的特征总数。通过使用校验集设置阈值θ在等错误率点。当评分s大于阈值θ时则认为Y为说话人S所说,否则认为它是冒认者所说。
在该发明中,一次性和多次使用电子票据在完全使用之后一段时间内自动失效,语音经用户同意后作为训练数据进入系统训练数据库。
该发明为声纹识别技术找到了合适的应用场景,同时采用文本相关声纹识别技术提高识别效果。但该技术的主要缺陷在于:(1)发明中虽提及文本相关的声纹识别技术,但在具体叙述用户的注册与验证过程时,并没有对用户语音中已知的文本结构信息加以利用;(2)发明仅仅考虑了用户语音的声纹信息,没有考虑验证文本的内容,不法分子有可能盗取用户录音欺骗验证系统。
此外,中国专利公开号CN105069872A(公开日2015.11.18),以及中国专利公开号CN104392353A(公开日2015.03.04),发明内容中都涉及使用用户语音进行声纹及动态验证码进行内容验证,但均未指明所使用的具体技术方法,对其他试图采用语音技术进行身份验证的实施者不具有足够的借鉴作用。
发明内容
本发明的目的是为克服已有技术的不足之处,提出一种基于数字口令与声纹联合确认的用户身份验证方法。本发明在传统口令验证的基础上,结合数字口令确认和声纹确认,增强了身份验证的安全性。
本发明提出的一种基于数字口令与声纹联合确认的用户身份验证方法,其特征在于,分为初始化阶段、注册阶段和验证阶段三个阶段,包括以下步骤:
1)初始化阶段;具体包括以下步骤:
1-1)获取初始化训练音频;所述初始化训练音频为在实际信道条件下录制的中文数字串朗读语音;由人工听过后,对每一条初始化训练音频所包含的数字串文本进行记录;
1-2)建立文本相关的通用背景模型;具体步骤如下:
1-2-1)提取步骤1-1)得到的初始化训练音频的短时谱特征;所述短时谱特征指从语音的0时刻开始,起始位置每次向后移动10ms,选取长度为25ms的片段,利用特征提取算法得到的特征系数;
1-2-2)根据步骤1-2-1)得到的初始化训练音频的短时谱特征,通过语音识别技术将初始化训练音频转化为数字串文本,并得到0到9十个数字及静音符号sil在每条初始化训练音频中的起始、结束时间;若通过语音识别技术得到的数字串文本与步骤1-1)标注的数字串文本比对后不相符,则该条初始化训练音频无效,不参与后续训练;
1-2-3)除去无效音频后,将步骤1-2-1)中得到的初始化训练音频的短时谱特征按照步骤1-2-2)得到的所有数字以及静音符号在每条初始化训练音频中的起始、结束时间,划分到每个数字和静音符号,得到每个数字以及静音符号对应的短时谱特征;利用每个数字以及静音符号对应的短时谱特征,训练得到每个数字以及静音符号对应的文本相关的通用背景模型;
2)注册阶段;具体包括以下步骤:
2-1)记录用户信息;
当任意用户要求注册时,用户端向服务器发送注册请求,服务器为该用户分配唯一的标识号码作为索引并要求用户输入长度为6-12位数字的个人密码,服务器在用户数据库中记录该用户的身份信息以及个人密码;
2-2)建立文本相关的用户模型;具体步骤如下:
2-2-1)服务器生成数字串动态验证码发送给用户;所述数字串动态验证码长度为6到12位,用户根据收到的数字串动态验证码进行朗读并录制成音频,所生成的音频被发送给服务器;
2-2-2)当服务器收到用户朗读音频后,提取步骤2-2-1)录制的用户朗读音频的短时谱特征;
2-2-3)根据步骤2-2-2)得到的用户朗读音频的短时谱特征,通过语音识别技术将用户朗读音频转化为数字串文本,并得到0到9十个数字及静音符号在该段用户朗读音频上的起始、结束时间;若语音识别技术得到的数字串文本与步骤2-2-1)生成的动态验证码内容相同,则将该段用户朗读音频标记为一段有效用户注册音频;若语音识别技术得到的数字串文本与动态验证码内容不同,则将该段用户朗读音频标记为无效音频;
2-2-4)重复步骤2-2-1)到步骤2-2-3),连续录制若干段用户朗读音频并得到K段用户有效注册音频,K≥5;
2-2-5)将步骤2-2-2)中得到的用户有效注册音频的短时谱特征,按照步骤2-2-3)生成的十个数字及静音符号在每段有效注册音频上的起始、结束时间,划分到每个数字和静音符号后,得到每个数字以及静音符号对应的短时谱特征;利用用户有效注册音频中每个数字以及静音符号对应的短时谱特征,采用最大后验概率方法更新步骤1)得到文本相关的通用背景模型,生成该用户的文本相关的用户模型;
3)验证阶段;具体包括以下步骤:
3-1)当用户发出验证请求时,服务器首先寻找到步骤2-1)分配的该用户唯一的标识号码并读取该用户的身份信息、个人密码以及步骤2-2)得到的文本相关的用户模型;服务器生成数字串动态验证码发送给用户,所述数字串动态验证码长度为6到12位,用户将收到的数字串动态验证码以及个人密码按照服务器指定的顺序整合后进行朗读并录制成用户验证音频,所生成的用户验证音频被发送给服务器;若用户在一定持续时间内未能录入语音,则当前动态验证码失效,用户验证失败;
3-2)服务器收到用户验证音频后,提取步骤3-1)录制的用户验证音频的短时谱特征;
3-3)根据步骤3-2)得到的用户验证音频的短时谱特征以及步骤2)得到的文本相关的用户模型与步骤1)得到的文本相关的通用背景模型,验证该用户验证音频的声纹是否属于目标用户且内容与正确数字串文本是否相符,分别得到声纹验证分数S1和文本验证分数S2;所述正确数字串文本指按照服务器要求在数字串动态验证码指定位置插入用户个人密码后的合成数字串;
3-4)将步骤3-3)得到的声纹验证分数S1与文本验证分数S2加权求和后得到最终验证分数,与设定阈值比较并进行判定:当最终验证分数超过设定阈值时,则认为用户验证音频由验证用户所说且文本内容正确,验证通过;否则验证失败;所述设定阈值为使得验证集上的验证结果错误最少的值;
最终验证分数的计算表达式如式(14)所示:
S=wS1+(1-w)S2 (14)
式中,S为最终验证分数,w为权重,0<w<1,权重w决定声纹验证结果与文本验证结果的相对重要程度。
本发明的特点及有益效果在于:
(1)本发明在传统口令验证的基础上,结合数字口令确认和声纹确认,增强了身份验证的安全性。
(2)本发明中,声纹验证和口令验证结果均使用分数表示,避免单一步骤的微小错误对最终验证结果的影响。
(3)本发明采用文本相关的声纹识别技术,利用验证文本的结构信息,更适合用户主动验证的场景,能够以较短的录音时间保证验证准确率。
(4)针对语音验证易受窃听、盗录、合成等攻击威胁的特点,本发明使用用户密码与动态验证码相结合的口令形式,进一步保证身份验证的安全性。动态验证码使得非法的录音回放变得困难;而用户密码则使得他人难以通过语音合成、音色转换等语音处理技术合成目标用户的语音口令。
(5)本发明可用于如电子门禁、金融交易、电话客服、网上银行等能够使用动态验证码的场合。
附图说明
图1是本发明的整体流程框图。
图2是本发明的初始化阶段流程框图。
图3是本发明的注册阶段流程框图。
图4是本发明的验证阶段流程框图。
图5是依照正确数字串文本的顺序,且数字串文本长度为6位时,文本相关的通用背景模型构成的第一个隐马尔可夫模型示意图。
具体实施方式
本发明提出的一种基于数字口令与声纹联合确认的用户身份验证方法,下面结合附图和具体实施例对本发明进一步详细说明如下。
本发明提出的一种基于数字口令与声纹联合确认的用户身份验证方法,所述数字口令为由0到9共十个数字组成的数字串,数字串长度为6到24位,长度根据需要的安全等级选择。
本发明提出的一种基于数字口令与声纹联合确认的用户身份验证方法,分为初始化阶段、注册阶段和验证阶段三个阶段,整体流程如图1所示,包括以下步骤:
1)初始化阶段;流程如图2所示,具体包括以下步骤:
1-1)获取初始化训练音频;所述初始化训练音频为在实际信道条件下录制的中文数字串朗读语音。训练音频可达几百小时,每句话的长度从1s到9s不等,男女数据都有,每个人都有几十句甚至上百句的话可供选择。例如:在手机网上银行的应用中,需要符合时间与数量要求的各种型号的手机录制的中文数字串朗读语音。
由人工听过后,将每一条初始化训练音频所包含的数字串文本记录在标注文件中。
1-2)建立文本相关的通用背景模型;具体步骤如下:
1-2-1)提取步骤1-1)得到的初始化训练音频的短时谱特征。所述短时谱特征指从语音的0时刻开始,起始位置每次向后移动10ms,选取长度为25ms的片段,利用特征提取算法得到的特征系数,例如感知线性预测系数。
1-2-2)文本相关的发音单元由0到9十个数字及静音符号sil组成。根据步骤1-2-1) 得到的初始化训练音频的短时谱特征,通过语音识别技术(此处所述语音识别技术为常用的商用语音识别技术),将初始化训练音频转化为数字串文本,并得到所有数字以及静音符号在每条初始化训练音频中的起始、结束时间;若通过语音识别技术得到的数字串文本与步骤1-1)标注的数字串文本比对后不相符,则该条初始化训练音频无效,不参与后续训练;
1-2-3)除去无效音频后,将步骤1-2-1)中得到的初始化训练音频的短时谱特征按照步骤1-2-2)得到的所有数字以及静音符号在每条初始化训练音频中的起始、结束时间,划分到每个数字和静音符号,得到每个数字以及静音符号对应的短时谱特征;利用每个数字以及静音符号对应的短时谱特征,训练得到每个数字以及静音符号对应的文本相关的通用背景模型。
所述训练过程为:对每个数字和静音符号的短时谱特征,分别采用最大期望算法(Expectation Maximization,EM)训练高斯混合模型。将某一数字或静音符号记为d,其高斯混合模型表达式如式(1)所示:
Figure BDA0001260382890000081
式中,Λd代表某一数字或静音符号d对应的高斯混合模型,由参数
Figure BDA0001260382890000082
组成,
Figure BDA0001260382890000083
分别为第m个高斯分布的权重、均值与方差,Md表示该高斯混合模型中含有的高斯分布数量。
Figure BDA0001260382890000084
表示特征x在均值为
Figure BDA0001260382890000085
方差为
Figure BDA0001260382890000086
的高斯分布上的似然概率。p(x|Λd)表示特征x在该数字或静音符号d对应的高斯混合模型上的整体似然概率。
所述最大期望算法为,首先计算初始化训练音频中某一数字或静音符号d对应的第n帧短时谱特征在该数字或静音符号的高斯混合模型中第m个高斯分布上的后验概率
Figure BDA0001260382890000087
b代表初始化训练音频,表达式如式(2)所示:
Figure BDA0001260382890000088
然后根据表达式如式(3)-式(6)更新权重
Figure BDA0001260382890000089
均值
Figure BDA00012603828900000810
和方差
Figure BDA00012603828900000811
Figure BDA00012603828900000813
Figure BDA0001260382890000091
式中,为初始化训练音频中该数字或静音符号d对应的第n帧短时谱特征,
Figure BDA0001260382890000094
表示初始化训练音频中划分到该数字或静音符号d的全部短时谱特征的数量。所述最大期望算法为迭代算法,每次迭代得到一组新的
Figure BDA0001260382890000095
的取值。迭代一般进行8——12次,本实施例中选择迭代10次,得到文本相关的通用背景模型。
所述高斯混合模型的高斯分布数目Md,可以根据训练音频的多少,从8到2048之间依照2的幂次递增,选择在验证集上效果最好的高斯分布数目。所述验证集为依照实际情况采集的注册与验证语音,可以用来模拟该方法的实际使用效果。例如:在手机网上银行的应用中,验证集由使用不同手机的用户分别录制的注册与验证音频构成。
2)注册阶段;流程如图3所示,具体包括以下步骤:
2-1)记录用户信息;
当任意用户要求注册时,用户端向服务器发送注册请求,服务器为该用户分配唯一的标识号码作为索引并要求用户输入长度为6-12位数字的个人密码,本实施例中用户输入的个人密码长度为6位。服务器在用户数据库中记录该用户的身份信息以及个人密码。
2-2)建立文本相关的用户模型;具体步骤如下:
2-2-1)服务器生成数字串动态验证码发送给用户。所述数字串动态验证码长度为6到12位,该长度根据实际需要设定,长度越长验证准确度越高。用户根据收到的数字串动态验证码进行朗读并录制成音频,所生成的音频被发送给服务器。
2-2-2)当服务器收到用户朗读音频后,提取步骤2-2-1)录制的用户朗读音频的短时谱特征。
2-2-3)根据步骤2-2-2)得到的用户朗读音频的短时谱特征,通过语音识别技术将用户朗读音频转化为数字串文本,并得到0到9十个数字及静音符号在该段用户朗读音频上的起始、结束时间。若语音识别技术得到的数字串文本与步骤2-2-1)生成的动态验证码内容相同,则将该段用户朗读音频标记为一段有效用户注册音频;若语音识别技术得到的数字串文本与动态验证码内容不同,则将该段用户朗读音频标记为无效音频;
2-2-4)重复步骤2-2-1)到步骤2-2-3),连续录制若干段用户朗读音频。当得到的用户有效注册音频段数到达5段后,用户可停止录制;也可以选择继续录制更多有效注册音频以提高验证准确度。
2-2-5)将步骤2-2-2)中得到的用户有效注册音频的短时谱特征,按照步骤2-2-3)生成的十个数字及静音符号在每段有效注册音频上的起始、结束时间,划分到每个数字和静音符号后,得到每个数字以及静音符号对应的短时谱特征;利用用户有效注册音频中每个数字以及静音符号对应的短时谱特征,采用最大后验概率(MAP)方法更新步骤1)得到文本相关的通用背景模型,生成该用户的文本相关的用户模型。
所述最大后验概率方法为:针对每个数字以及静音符号,更新步骤1)得到的文本相关的通用背景模型中高斯分布的均值。对某一数字或静音符号d,所述更新过程如式(7)所示:
Figure BDA0001260382890000101
式中,
Figure BDA0001260382890000102
为通过MAP更新后某一数字或静音符号d第m个高斯分布的均值。
Figure BDA0001260382890000103
为加权因子,
Figure BDA0001260382890000104
为用户有效注册音频中划分到某一数字或静音符号d第m个高斯分布的一阶统计量。
Figure BDA0001260382890000105
计算方法如式(8)-式(10)所示:
Figure BDA0001260382890000107
Figure BDA0001260382890000108
式中,
Figure BDA0001260382890000109
为用户有效注册音频中某一数字或静音符号d对应的第n帧短时谱特征,e代表用户有效注册音频。
Figure BDA00012603828900001010
代表用户有效注册音频中某一数字或静音符号d对应的第n帧短时谱特征在该数字或静音符号的高斯混合模型中第m个高斯分布上的后验概率;
Figure BDA00012603828900001011
表示用户有效注册音频中划分到数字或静音符号d的全部短时谱特征的数量。r为相关因子,取值范围为2到16,取值要求为选择使得验证集上的验证结果错误最少的数值。某一数字及静音符号d对应文本相关的用户模型用
Figure BDA00012603828900001012
表示,由参数
Figure BDA00012603828900001013
组成。
3)验证阶段;流程如图4所示,具体包括以下步骤:
3-1)当用户发出验证请求时,服务器首先寻找到步骤2-1)分配的该用户唯一的标识号码并读取该用户的身份信息、个人密码以及步骤2-2)得到的文本相关的用户模型。服务器生成数字串动态验证码发送给用户。所述数字串动态验证码长度为6到12位,长度根据实际需要设定,长度越长验证准确度越高。可选地,服务器能够告知用户在数字串动态验证码指定位置插入在注册时设定的个人密码。用户将收到的数字串动态验证码以及个人密码按照服务器指定的顺序整合后进行朗读并录制成用户验证音频,所生成的用户验证音频被发送给服务器。若用户在一定持续时间内未能录入语音,则当前动态验证码失效,用户验证失败。所述持续时间根据具体使用情况在几分钟到几十分钟的范围内设定,时间越短安全性越高。
3-2)服务器收到用户验证音频后,提取步骤3-1)录制的用户验证音频的短时谱特征。
3-3)根据步骤3-2)得到的用户验证音频的短时谱特征以及步骤2)得到的文本相关的用户模型与步骤1)得到的文本相关的通用背景模型,验证该用户验证音频的声纹是否属于目标用户且内容与正确数字串文本是否相符,分别得到声纹验证分数S1和文本验证分数S2。所述正确数字串文本指按照服务器要求在数字串动态验证码指定位置插入用户个人密码后的合成数字串。所述验证方法为:
3-3-1)依照正确数字串文本的顺序,使用步骤1)得到的文本相关的通用背景模型构建第一个隐马尔可夫模型(Hidden Markov Model,HMM)。所述隐马尔可夫模型为语音识别中的常用技术,每个状态具有一定的概率密度分布,各状态之间具有一定的转移概率。在本实施例中,每一状态的概率密度分布对应一个数字或静音符号的高斯混合模型,即该数字或静音符号的文本相关的通用背景模型。
所述依照正确数字串文本的顺序构建第一个隐马尔可夫模型的方法为:首先在正确数字串文本前后添加静音符号。例如:用英文字母a-f代表0到9中的任意数字,当数字串文本为a-b-c-d-e-f时,添加静音符号后的文本为sil-a-b-c-d-e-f-sil。然后使用文本相关的通用背景模型中数字以及静音符号对应的高斯混合模型依照图4的方式构成第一个隐马尔可夫模型。图4展示了当数字串长度为6时,文本相关的通用背景模型构成的第一个隐马尔可夫模型。状态转移关系用有向箭头表示,a-b-c-d-e-f表示数字串6位数字,sil表示静音符号,每个状态对应的高斯混合模型即步骤1)得到的该数字或静音符号对应的文本相关的通用背景模型。其中,第一个状态为静音符号sil,可以转移到其本身或下一个数字a;数字a-e都能转移到其自身或下一个数字;数字f可以转移到其自身或最后一个静音符号sil;最终的静音符号sil只能转移到其自身。除了最后一个静音符号转移到其自身的概率为1外,其余状态间的转移概率均为0.5。
3-3-2)根据步骤3-2)得到的验证音频的短时谱特征以及步骤3-3-1)得到的第一个隐马尔可夫模型,采用维特比(Viterbi)算法得到用户验证音频的短时谱特征与第一个隐马尔可夫模型状态之间的对应关系,所述维特比算法为语音识别中的常用技术,用于在给定语音短时谱特征以及隐马尔可夫模型时找到每帧短时谱特征与隐马尔可夫模型状态之间的对应关系,使得:
式中,Xt为用户验证音频的短时谱特征集合{xt(1),xt(2),...,xt(Nt)},Nt为验证音频特征总数量,下标t代表验证音频。H为隐马尔可夫模型,此处为步骤3-3-1)构建的第一个隐马尔可夫模型,Φt为一种可能的用户验证音频短时谱特征与隐马尔可夫模型状态的对应关系,p(Xt|H,Φt)表示用户验证音频短时谱特征集合Xt在第一个隐马尔可夫模型H以及状态对应方式Φt下的整体似然概率。为维特比算法找到的用户验证音频短时谱特征与隐马尔可夫模型状态之间的最优对应关系。
3-3-3)根据步骤3-3-2)得到的用户验证音频的短时谱特征与第一个隐马尔可夫模型状态之间的对应关系,进而得到在正确数字串文本条件下用户验证音频短时谱特征与各个数字以及静音符号的对应关系。隐马尔可夫模型每个状态代表一个数字或静音符号;而状态的概率密度分布,由该数字或静音符号的在通用背景模型中的高斯混合模型表示。计算用户验证音频在步骤2)得到的文本相关的用户模型以及步骤1)得到的文本相关的通用背景模型上的对数似然比,作为声纹验证分数S1。所述声纹验证分数S1的计算表达式表达式如式(12)所示:
Figure BDA0001260382890000122
式中,xt(n)为用户验证音频的第n帧短时谱特征,
Figure BDA0001260382890000123
表示用户验证音频中十个数字对应的短时谱特征数量,qt(n)为步骤3-3-2)得到的正确数字串文本条件下用户验证音频第n帧短时谱特征对应的数字或静音符号,qt(n)≠sil表示在式(12)中∑所示的求和项中仅包含数字对应的用户验证音频帧。d(n)为由步骤3-3-2)得到的正确数字串文本条件下用户验证音频第n帧短时谱特征对应的数字,Λd(n)分别为数字d(n)对应的文本相关的用户模型和文本相关的通用背景模型,p(xt(n)|Λd(n))分别为xt(n)在数字d(n)的文本相关的用户模型以及文本相关的通用背景模型上的整体似然概率,计算表达式如式(1)所示。
3-3-4)采用语音识别技术识别用户验证音频的数字串内容,将验证得到的数字串内容作为最优数字串序列。依照最优数字串序列,使用步骤1)得到的文本相关的通用背景模型构建第二个隐马尔可夫模型。所述使用文本相关的通用背景模型构建第二个隐马尔可夫模型的方法与步骤3-3-1)相同,但将正确数字串文本更换为最优数字串序列。
3-3-5)在最优数字串序列条件下,重复步骤3-3-2),采用维特比算法得到用户验证音频的短时谱特征与第二个隐马尔可夫模型状态之间的对应关系,进而得到在最优数字串序列条件下用户验证音频短时谱特征与各个数字以及静音符号的对应关系。
3-3-6)根据步骤3-3-2)以及步骤3-3-5)分别得到的在正确数字串文本以及最优数字串序列下用户验证音频短时谱特征与各个数字以及静音符号的对应关系,计算用户验证音频在文本相关的用户模型与文本相关的通用背景模型上的对数似然比,作为文本验证分数S2。所述文本验证分数S2的计算表达式如式(13)所示:
Figure BDA0001260382890000131
式中,为步骤3-3-5)得到的最优数字串序列条件下用户验证音频第n帧短时谱特征对应的数字或静音符号,
Figure BDA0001260382890000133
表示在式(13)中等式右边的第二个∑所示的求和项中仅包含数字对应的用户验证音频帧。d2(n)为由步骤3-3-5)得到的最优数字串序列条件下用户验证音频第n帧短时谱特征对应的数字,
Figure BDA0001260382890000134
为数字d2(n)对应的文本相关的通用背景模型,为xt(n)在数字d2(n)的文本相关的通用背景模型上的整体似然概率,计算表达式如式(1)所示。
3-4)将步骤3-3)得到的声纹验证分数S1与文本验证分数S2加权求和后得到最终验证分数,与设定阈值比较并进行判定:当最终验证分数超过设定阈值时,则认为用户验证音频由验证用户所说且文本内容正确,验证通过;否则验证失败。所述设定阈值为使得验证集上的验证结果错误最少的值,一般取值在-1到1之间,本实施例中取0.5。所述最终验证分数的计算表达式如式(14)所示:
S=wS1+(1-w)S2 (14)
式中,S为最终验证分数,w为权重,0<w<1,权重w决定声纹验证结果与文本验证结果的相对重要程度,一般取值为0.5,代表两者相同重要。

Claims (4)

1.一种基于数字口令与声纹联合确认的用户身份验证方法,其特征在于,分为初始化阶段、注册阶段和验证阶段三个阶段,包括以下步骤:
1)初始化阶段;具体包括以下步骤:
1-1)获取初始化训练音频;所述初始化训练音频为在实际信道条件下录制的中文数字串朗读语音;由人工听过后,对每一条初始化训练音频所包含的数字串文本进行记录;
1-2)建立文本相关的通用背景模型;具体步骤如下:
1-2-1)提取步骤1-1)得到的初始化训练音频的短时谱特征;所述短时谱特征指从语音的0时刻开始,起始位置每次向后移动10ms,选取长度为25ms的片段,利用特征提取算法得到的特征系数;
1-2-2)根据步骤1-2-1)得到的初始化训练音频的短时谱特征,通过语音识别技术将初始化训练音频转化为数字串文本,并得到0到9十个数字及静音符号sil在每条初始化训练音频中的起始、结束时间;若通过语音识别技术得到的数字串文本与步骤1-1)标注的数字串文本比对后不相符,则该条初始化训练音频无效,不参与后续训练;
1-2-3)除去无效音频后,将步骤1-2-1)中得到的初始化训练音频的短时谱特征按照步骤1-2-2)得到的所有数字以及静音符号在每条初始化训练音频中的起始、结束时间,划分到每个数字和静音符号,得到每个数字以及静音符号对应的短时谱特征;利用每个数字以及静音符号对应的短时谱特征,训练得到每个数字以及静音符号对应的文本相关的通用背景模型;
2)注册阶段;具体包括以下步骤:
2-1)记录用户信息;
当任意用户要求注册时,用户端向服务器发送注册请求,服务器为该用户分配唯一的标识号码作为索引并要求用户输入长度为6-12位数字的个人密码,服务器在用户数据库中记录该用户的身份信息以及个人密码;
2-2)建立文本相关的用户模型;具体步骤如下:
2-2-1)服务器生成数字串动态验证码发送给用户;所述数字串动态验证码长度为6到12位,用户根据收到的数字串动态验证码进行朗读并录制成音频,所生成的音频被发送给服务器;
2-2-2)当服务器收到用户朗读音频后,提取步骤2-2-1)录制的用户朗读音频的短时谱特征;
2-2-3)根据步骤2-2-2)得到的用户朗读音频的短时谱特征,通过语音识别技术将用户朗读音频转化为数字串文本,并得到0到9十个数字及静音符号在该段用户朗读音频上的起始、结束时间;若语音识别技术得到的数字串文本与步骤2-2-1)生成的动态验证码内容相同,则将该段用户朗读音频标记为一段用户有效注册音频;若语音识别技术得到的数字串文本与动态验证码内容不同,则将该段用户朗读音频标记为无效音频;
2-2-4)重复步骤2-2-1)到步骤2-2-3),连续录制若干段用户朗读音频并得到K段用户有效注册音频,K≥5;
2-2-5)将用户有效注册音频的短时谱特征,按照步骤2-2-3)生成的十个数字及静音符号在每段有效注册音频上的起始、结束时间,划分到每个数字和静音符号后,得到每个数字以及静音符号对应的短时谱特征;利用用户有效注册音频中每个数字以及静音符号对应的短时谱特征,采用最大后验概率方法更新步骤1)得到文本相关的通用背景模型,生成该用户的文本相关的用户模型;
3)验证阶段;具体包括以下步骤:
3-1)当用户发出验证请求时,服务器首先寻找到步骤2-1)分配的该用户唯一的标识号码并读取该用户的身份信息、个人密码以及步骤2-2)得到的文本相关的用户模型;服务器生成数字串动态验证码发送给用户,所述数字串动态验证码长度为6到12位,用户将收到的数字串动态验证码以及个人密码按照服务器指定的顺序整合后进行朗读并录制成用户验证音频,所生成的用户验证音频被发送给服务器;若用户在一定持续时间内未能录入语音,则当前动态验证码失效,用户验证失败;
3-2)服务器收到用户验证音频后,提取步骤3-1)录制的用户验证音频的短时谱特征;
3-3)根据步骤3-2)得到的用户验证音频的短时谱特征以及步骤2)得到的文本相关的用户模型与步骤1)得到的文本相关的通用背景模型,验证该用户验证音频的声纹是否属于目标用户且内容与正确数字串文本是否相符,分别得到声纹验证分数S1和文本验证分数S2;所述正确数字串文本指按照服务器要求在数字串动态验证码指定位置插入用户个人密码后的合成数字串;
3-4)将步骤3-3)得到的声纹验证分数S1与文本验证分数S2加权求和后得到最终验证分数,与设定阈值比较并进行判定:当最终验证分数超过设定阈值时,则认为用户验证音频由验证用户所说且文本内容正确,验证通过;否则验证失败;所述设定阈值为使得验证集上的验证结果错误最少的值;
最终验证分数的计算表达式如式(14)所示:
S=wS1+(1-w)S2 (14)
式中,S为最终验证分数,w为权重,0<w<1,权重w决定声纹验证结果与文本验证结果的相对重要程度。
2.如权利要求1所述的方法,其特征在于,所述步骤1-2-3)中训练得到每个数字以及静音符号对应的文本相关的通用背景模型,具体步骤如下:
1-2-3-1)将某一数字或静音符号记为d,其高斯混合模型表达式如式(1)所示:
Figure FDA0002196634880000031
式中,Λd代表某一数字或静音符号d对应的高斯混合模型,由参数
Figure FDA0002196634880000032
组成,
Figure FDA0002196634880000033
分别为第m个高斯分布的权重、均值与方差,Md表示该高斯混合模型中含有的高斯分布数量;
Figure FDA0002196634880000034
表示特征x在均值为
Figure FDA0002196634880000035
方差为
Figure FDA0002196634880000036
的高斯分布上的似然概率;p(x|Λd)表示特征x在该数字或静音符号d对应的高斯混合模型上的整体似然概率;
1-2-3-2)对每个数字和静音符号的短时谱特征,分别采用最大期望算法训练高斯混合模型;
所述最大期望算法为,首先计算初始化训练音频中某一数字或静音符号d对应的第n帧短时谱特征在该数字或静音符号的高斯混合模型中第m个高斯分布上的后验概率
Figure FDA0002196634880000037
b代表初始化训练音频,表达式如式(2)所示:
Figure FDA0002196634880000038
然后根据表达式如式(3)-式(6)更新权重
Figure FDA0002196634880000039
均值和方差
Figure FDA00021966348800000311
Figure FDA00021966348800000313
Figure FDA00021966348800000314
Figure FDA00021966348800000315
式中,
Figure FDA00021966348800000316
为初始化训练音频中该数字或静音符号d对应的第n帧短时谱特征,表示初始化训练音频中划分到该数字或静音符号d的全部短时谱特征的数量,Md为所述高斯混合模型的高斯分布数目;所述最大期望算法为迭代算法,每次迭代得到一组新的
Figure FDA0002196634880000041
Figure FDA0002196634880000042
的取值,达到迭代次数后,得到该数字或静音符号d对应的文本相关的通用背景模型。
3.如权利要求1所述的方法,其特征在于,所述步骤2-2-5)中采用最大后验概率方法更新步骤1)得到的文本相关的通用背景模型,生成该用户的文本相关的用户模型;具体步骤如下:
2-2-5-1)针对每个数字以及静音符号,更新步骤1)得到的文本相关的通用背景模型中高斯分布的均值;对某一数字或静音符号d,所述更新过程如式(7)所示:
Figure FDA0002196634880000043
式中,为通过最大后验概率方法更新后某一数字或静音符号d第m个高斯分布的均值,
Figure FDA0002196634880000045
为加权因子,
Figure FDA0002196634880000046
为用户有效注册音频中划分到某一数字或静音符号d第m个高斯分布的一阶统计量;
Figure FDA0002196634880000047
计算方法如式(8)-式(10)所示:
Figure FDA0002196634880000048
Figure FDA0002196634880000049
Figure FDA00021966348800000410
式中,
Figure FDA00021966348800000411
为用户有效注册音频中某一数字或静音符号d对应的第n帧短时谱特征,e代表用户有效注册音频,
Figure FDA00021966348800000412
代表用户有效注册音频中某一数字或静音符号d对应的第n帧短时谱特征在该数字或静音符号的高斯混合模型中第m个高斯分布上的后验概率;
Figure FDA00021966348800000413
表示用户有效注册音频中划分到数字或静音符号d的全部短时谱特征的数量;r为相关因子;
2-2-5-2)根据得到的更新后的
Figure FDA00021966348800000414
得到某一数字及静音符号d对应文本相关的用户模型
Figure FDA00021966348800000415
由参数
Figure FDA00021966348800000416
组成。
4.如权利要求1所述的方法,其特征在于,所述步骤3-3)具体包括以下步骤:
3-3-1)依照正确数字串文本的顺序,使用步骤1)得到的文本相关的通用背景模型构建第一个隐马尔可夫模型;
3-3-2)根据步骤3-2)得到的验证音频的短时谱特征以及步骤3-3-1)得到的第一个隐马尔可夫模型,采用维特比算法得到用户验证音频的短时谱特征与第一个隐马尔可夫模型状态之间的对应关系,使得:
式中,Xt为用户验证音频的短时谱特征集合{xt(1),xt(2),...,xt(Nt)},Nt为验证音频特征总数量,下标t代表验证音频,H为步骤3-3-1)构建的第一个隐马尔可夫模型,Φt为一种可能的用户验证音频短时谱特征与隐马尔可夫模型状态的对应关系,p(Xt|H,Φt)表示用户验证音频短时谱特征集合Xt在第一个隐马尔可夫模型H以及状态对应方式Φt下的整体似然概率,
Figure FDA0002196634880000052
为维特比算法找到的用户验证音频短时谱特征与第一个隐马尔可夫模型状态之间的最优对应关系;
3-3-3)根据步骤3-3-2)得到的用户验证音频的短时谱特征与第一个隐马尔可夫模型状态之间的对应关系,进而得到用户验证音频短时谱特征与各个数字以及静音符号的对应关系,计算用户验证音频在步骤2)得到的文本相关的用户模型以及步骤1)得到的文本相关的通用背景模型上的对数似然比,作为声纹验证分数S1;所述声纹验证分数S1的计算表达式如式(12)所示:
Figure FDA0002196634880000053
式中,xt(n)为用户验证音频的第n帧短时谱特征,
Figure FDA0002196634880000054
表示用户验证音频中十个数字对应的短时谱特征数量,qt(n)为步骤3-3-2)得到的正确数字串文本条件下用户验证音频第n帧短时谱特征对应的数字或静音符号,qt(n)≠sil表示在式(12)中∑所示的求和项中仅包含数字对应的用户验证音频帧,d(n)为由步骤3-3-2)得到的正确数字串文本条件下用户验证音频第n帧短时谱特征对应的数字,
Figure FDA0002196634880000055
Λd(n)分别为数字d(n)对应的文本相关的用户模型和文本相关的通用背景模型,
Figure FDA0002196634880000056
p(xt(n)|Λd(n))分别为xt(n)在数字d(n)的文本相关的用户模型以及文本相关的通用背景模型上的整体似然概率,计算表达式如式(1)所示;
3-3-4)采用语音识别技术识别用户验证音频的数字串内容,将验证得到的数字串内容作为最优数字串序列;依照最优数字串序列,使用步骤1)得到的文本相关的通用背景模型构建第二个隐马尔可夫模型;
3-3-5)在最优数字串序列条件下,重复步骤3-3-2),采用维特比算法得到用户验证音频的短时谱特征与第二个隐马尔可夫模型状态之间的对应关系,进而得到用户验证音频短时谱特征与各个数字以及静音符号的对应关系;
3-3-6)根据步骤3-3-2)以及步骤3-3-5)分别得到的在正确数字串文本以及最优数字串序列下用户验证音频短时谱特征与各个数字以及静音符号的对应关系,计算用户验证音频在文本相关的用户模型与文本相关的通用背景模型上的对数似然比,作为文本验证分数S2;所述文本验证分数S2的计算表达式如式(13)所示:
Figure FDA0002196634880000061
式中,
Figure FDA0002196634880000062
为步骤3-3-5)得到的最优数字串序列条件下用户验证音频第n帧短时谱特征对应的数字或静音符号,
Figure FDA0002196634880000063
表示在式(13)中等式右边的第二个∑所示的求和项中仅包含数字对应的用户验证音频帧,d2(n)为由步骤3-3-5)得到的最优数字串序列条件下用户验证音频第n帧短时谱特征对应的数字,
Figure FDA0002196634880000064
为数字d2(n)对应的文本相关的通用背景模型,
Figure FDA0002196634880000065
为xt(n)在数字d2(n)的文本相关的通用背景模型上的整体似然概率,计算表达式如式(1)所示。
CN201710208226.4A 2017-03-31 2017-03-31 一种基于数字口令与声纹联合确认的用户身份验证方法 Active CN107104803B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710208226.4A CN107104803B (zh) 2017-03-31 2017-03-31 一种基于数字口令与声纹联合确认的用户身份验证方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710208226.4A CN107104803B (zh) 2017-03-31 2017-03-31 一种基于数字口令与声纹联合确认的用户身份验证方法

Publications (2)

Publication Number Publication Date
CN107104803A CN107104803A (zh) 2017-08-29
CN107104803B true CN107104803B (zh) 2020-01-07

Family

ID=59675983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710208226.4A Active CN107104803B (zh) 2017-03-31 2017-03-31 一种基于数字口令与声纹联合确认的用户身份验证方法

Country Status (1)

Country Link
CN (1) CN107104803B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108512664A (zh) * 2017-09-11 2018-09-07 平安科技(深圳)有限公司 基于声纹识别的坐席登录方法、电子装置及存储介质
CN107833572A (zh) * 2017-11-06 2018-03-23 芋头科技(杭州)有限公司 一种模拟用户说话的语音合成方法及系统
CN108039177A (zh) * 2017-12-20 2018-05-15 广州势必可赢网络科技有限公司 一种网络实名购票的用户身份验证方法及装置
CN107993662A (zh) * 2017-12-20 2018-05-04 广州势必可赢网络科技有限公司 一种应用于电话客服的用户身份识别方法及装置
CN110047491A (zh) * 2018-01-16 2019-07-23 中国科学院声学研究所 一种随机数字口令相关的说话人识别方法及装置
CN108447491B (zh) * 2018-03-19 2021-08-10 成都信达智胜科技有限公司 一种智能语音识别方法
CN108900725B (zh) * 2018-05-29 2020-05-29 平安科技(深圳)有限公司 一种声纹识别方法、装置、终端设备及存储介质
CN110634478A (zh) * 2018-06-25 2019-12-31 百度在线网络技术(北京)有限公司 用于处理语音信号的方法及装置
CN110875044B (zh) * 2018-08-30 2022-05-03 中国科学院声学研究所 一种基于字相关得分计算的说话人识别方法
CN109242492A (zh) * 2018-09-02 2019-01-18 珠海横琴现联盛科技发展有限公司 针对声音模仿的声纹识别支付信息防伪方法
CN111445904A (zh) * 2018-12-27 2020-07-24 北京奇虎科技有限公司 基于云端的语音控制方法、装置及电子设备
CN109785834B (zh) * 2019-01-24 2021-06-11 中国—东盟信息港股份有限公司 一种基于验证码的语音数据样本采集系统及其方法
CN110111798B (zh) * 2019-04-29 2023-05-05 平安科技(深圳)有限公司 一种识别说话人的方法、终端及计算机可读存储介质
CN110634492B (zh) * 2019-06-13 2023-08-25 中信银行股份有限公司 登录验证方法、装置、电子设备及计算机可读存储介质
CN110365691B (zh) * 2019-07-22 2021-12-28 云南财经大学 基于深度学习的钓鱼网站判别方法及装置
CN110379433B (zh) * 2019-08-02 2021-10-08 清华大学 身份验证的方法、装置、计算机设备及存储介质
CN111026844B (zh) * 2019-12-04 2023-08-01 河北数云堂智能科技有限公司 一种识别数字串读法的方法及装置
CN111081256A (zh) * 2019-12-31 2020-04-28 苏州思必驰信息科技有限公司 数字串声纹密码验证方法及系统
TWI728636B (zh) * 2020-01-02 2021-05-21 中華電信股份有限公司 智慧身分驗證系統及方法
CN111429913B (zh) * 2020-03-26 2023-03-31 厦门快商通科技股份有限公司 一种数字串语音识别方法、身份验证装置及计算机可读存储介质
CN114582346A (zh) * 2022-03-07 2022-06-03 云知声智能科技股份有限公司 一种识别的方法、装置、终端及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254559A (zh) * 2010-05-20 2011-11-23 盛乐信息技术(上海)有限公司 基于声纹的身份认证系统及方法
US9489950B2 (en) * 2012-05-31 2016-11-08 Agency For Science, Technology And Research Method and system for dual scoring for text-dependent speaker verification
CN104064189A (zh) * 2014-06-26 2014-09-24 厦门天聪智能软件有限公司 一种声纹动态口令的建模和验证方法
CN104168270B (zh) * 2014-07-31 2016-01-13 腾讯科技(深圳)有限公司 身份验证方法、服务器、客户端及系统
CN104158664A (zh) * 2014-08-11 2014-11-19 北京唐桓科技发展有限公司 一种身份认证方法及系统
CN104392353A (zh) * 2014-10-08 2015-03-04 无锡指网生物识别科技有限公司 语音识别终端的支付方法及系统
CN104951930A (zh) * 2015-04-27 2015-09-30 上海交通大学 基于生物信息身份验证的电子密码票据方法及系统
CN106302339A (zh) * 2015-05-25 2017-01-04 腾讯科技(深圳)有限公司 登录验证方法和装置、登录方法和装置
CN105069872A (zh) * 2015-07-23 2015-11-18 青岛文创科技有限公司 一种基于短信及语音的门控系统

Also Published As

Publication number Publication date
CN107104803A (zh) 2017-08-29

Similar Documents

Publication Publication Date Title
CN107104803B (zh) 一种基于数字口令与声纹联合确认的用户身份验证方法
Yu et al. Spoofing detection in automatic speaker verification systems using DNN classifiers and dynamic acoustic features
Dey et al. Speech biometric based attendance system
US9646614B2 (en) Fast, language-independent method for user authentication by voice
Reynolds An overview of automatic speaker recognition technology
Naik Speaker verification: A tutorial
Mukhopadhyay et al. All your voices are belong to us: Stealing voices to fool humans and machines
WO2017215558A1 (zh) 一种声纹识别方法和装置
US7386448B1 (en) Biometric voice authentication
US6233555B1 (en) Method and apparatus for speaker identification using mixture discriminant analysis to develop speaker models
WO2017114307A1 (zh) 能够防止录音攻击的声纹认证方法、服务器、终端及系统
Das et al. Development of multi-level speech based person authentication system
US11348590B2 (en) Methods and devices for registering voiceprint and for authenticating voiceprint
US7529669B2 (en) Voice-based multimodal speaker authentication using adaptive training and applications thereof
Reynolds Automatic speaker recognition: Current approaches and future trends
Saquib et al. A survey on automatic speaker recognition systems
US6697779B1 (en) Combined dual spectral and temporal alignment method for user authentication by voice
CN1808567A (zh) 验证真人在场状态的声纹认证设备和其认证方法
Camlikaya et al. Multi-biometric templates using fingerprint and voice
CN110111798B (zh) 一种识别说话人的方法、终端及计算机可读存储介质
Safavi et al. Fraud detection in voice-based identity authentication applications and services
CN111613230A (zh) 声纹验证方法、装置、设备及存储介质
Maghsoodi et al. Speaker recognition with random digit strings using uncertainty normalized HMM-based i-vectors
Wildermoth et al. GMM based speaker recognition on readily available databases
US6499012B1 (en) Method and apparatus for hierarchical training of speech models for use in speaker verification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20181204

Address after: 100085 Beijing Haidian District Shangdi Information Industry Base Pioneer Road 1 B Block 2 Floor 2030

Applicant after: Beijing Huacong Zhijia Technology Co., Ltd.

Address before: 100084 Tsinghua Yuan, Haidian District, Beijing, No. 1

Applicant before: Tsinghua University

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant