CN108989349A - 用户帐号解锁方法、装置、计算机设备及存储介质 - Google Patents

用户帐号解锁方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN108989349A
CN108989349A CN201811012228.7A CN201811012228A CN108989349A CN 108989349 A CN108989349 A CN 108989349A CN 201811012228 A CN201811012228 A CN 201811012228A CN 108989349 A CN108989349 A CN 108989349A
Authority
CN
China
Prior art keywords
account number
user account
data
user
registration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811012228.7A
Other languages
English (en)
Other versions
CN108989349B (zh
Inventor
黄锦伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811012228.7A priority Critical patent/CN108989349B/zh
Publication of CN108989349A publication Critical patent/CN108989349A/zh
Application granted granted Critical
Publication of CN108989349B publication Critical patent/CN108989349B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices

Abstract

本发明公开一种用户帐号解锁方法、装置、计算机设备及存储介质,该方法包括:获取帐号解锁请求,帐号解锁请求包括用户帐号和验证语音数据;采用目标语音静态解码网络对验证语音数据进行文本翻译,获取验证文本数据;基于用户帐号和验证文本数据查询用户信息库,获取第一匹配结果;采用与用户帐号相对应的专用声纹识别模型对验证语音数据进行处理,获取验证声纹特征,对验证声纹特征与预先存储的注册声纹特征进行匹配处理,获取第二匹配结果;若第一匹配结果和第二匹配结果均为匹配成功时,对用户账号进行解锁处理,以更新用户帐号在用户信息库中的状态。该方法对用户帐号进行解锁处理,可简化用户帐号解锁的流程,并保障用户帐号解锁的安全性。

Description

用户帐号解锁方法、装置、计算机设备及存储介质
技术领域
本发明涉及语音处理领域,尤其涉及一种用户帐号解锁方法、装置、计算机设备及存储介质。
背景技术
随着计算机技术的发展和智能手机的普及,越来越多企业选择网络营销作为企业营销的重要环节。在网络营销过程中,除了借助第三方平台方式,企业还自主开发相应的业务系统(如银行的理财APP),每一业务系统对应的客户端和服务器,用户通过该客户端完成在业务系统的用户帐号注册操作之后,可基于预先注册的用户帐号和账号密码进行相关操作。为了保障用户账号安全,一般设置帐号密码输错预设次数时,锁定该用户账号。当前用户帐号被锁定时,除了用户到相关网点现场解锁这种费时费力的方式之外,最常用的解锁方式为通过手机输入身份证号进行解锁,这种用户帐号解锁方式只需知道用户的身份证号就可以进行解锁,安全性较低,容易给用户造成损失。
发明内容
本发明实施例提供一种用户帐号解锁方法、装置、计算机设备及存储介质,以解决当前用户帐号解锁存在的安全性较低的问题。
一种用户帐号解锁方法,包括:
获取帐号解锁请求,所述帐号解锁请求包括用户帐号和验证语音数据;
采用目标语音静态解码网络对所述验证语音数据进行文本翻译,获取验证文本数据;
基于所述用户帐号和所述验证文本数据查询用户信息库,获取第一匹配结果;
采用与所述用户帐号相对应的专用声纹识别模型对所述验证语音数据进行处理,获取验证声纹特征,对所述验证声纹特征与预先存储的注册声纹特征进行匹配处理,获取第二匹配结果;
若所述第一匹配结果和所述第二匹配结果均为匹配成功时,对所述用户账号进行解锁处理,以更新所述用户帐号在所述用户信息库中的状态。
一种用户帐号解锁装置,包括:
帐号解锁请求获取模块,用于获取帐号解锁请求,所述帐号解锁请求包括用户帐号和验证语音数据;
验证文本数据获取模块,用于采用目标语音静态解码网络对所述验证语音数据进行文本翻译,获取验证文本数据;
第一匹配结果获取模块,用于基于所述用户帐号和所述验证文本数据查询用户信息库,获取第一匹配结果;
第二匹配结果获取模块,用于采用与所述用户帐号相对应的专用声纹识别模型对所述验证语音数据进行处理,获取验证声纹特征,对所述验证声纹特征与预先存储的注册声纹特征进行匹配处理,获取第二匹配结果;
匹配成功处理模块,用于若所述第一匹配结果和所述第二匹配结果均为匹配成功时,对所述用户账号进行解锁处理,以更新所述用户帐号在所述用户信息库中的状态。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述用户帐号解锁方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述用户帐号解锁方法的步骤。
上述用户帐号解锁方法、装置、计算机设备及存储介质中,基于帐号解锁请求中的验证语音数据,可从文本内容层面和声纹特征层面这两个层面对用户身份进行验证,以保障用户帐号对应的用户身份的准确性和安全性。在基于验证语音数据进行身份验证所获得的第一匹配结果和第二匹配结果均为匹配成功时,对用户帐号进行解锁处理,以简化用户帐号解锁的流程,并保障用户帐号解锁的安全性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中用户帐号解锁方法的一应用环境示意图;
图2是本发明一实施例中用户帐号解锁方法的一流程图;
图3是本发明一实施例中用户帐号解锁方法的另一流程图;
图4是本发明一实施例中用户帐号解锁方法的另一流程图;
图5是本发明一实施例中用户帐号解锁方法的另一流程图;
图6是本发明一实施例中用户帐号解锁方法的另一流程图;
图7是本发明一实施例中用户帐号解锁方法的另一流程图;
图8是本发明一实施例中用户帐号解锁装置的一示意图;
图9是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的用户帐号解锁方法,该用户帐号解锁方法可应用如图1所示的应用环境中。具体地,该用户帐号解锁方法应用在可实现用户帐号自主解锁的业务系统中,该业务系统包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于实现对业务系统中被锁定的用户帐号进行自主解锁,提高用户帐号解锁的安全性和便捷性。其中,客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上,本实施例以智能手机为例。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种用户帐号解锁方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S201:获取帐号解锁请求,帐号解锁请求包括用户帐号和验证语音数据。
其中,帐号解锁请求是用户通过客户端向服务器发送的用于请求对被锁定的用户帐号进行解锁处理的请求。用户帐号是本次帐号解锁请求所针对的需要进行解锁处理的帐号,例如保险业务系统中被锁定的保险帐号,或者银行业务系统中被锁定的一帐通帐号等。验证语音数据是客户端向服务器上传的以语音形式存在的用于验证用户身份信息的数据。本实施例中,该验证语音数据具体为用户在回复帐号解锁界面提示的目标安全问题的语音数据。该目标安全问题为用户帐号注册时选定的安全问题。
本实施例中,业务系统的客户端上设有帐号解锁界面,用户通过操作客户端进入到该帐号解锁界面时,在该帐号解锁界面上显示用户帐号注册过程中选定的与该用户帐号相对应的目标安全问题,每一目标安全问题对应的录音按键,用户可点击该录音按键后,依据该目标安全问题进行语音回复,以使客户端采集到相应的验证语音数据,并在所有目标安全问题均回复完成之后,点击提交按键,即可向服务器发送帐号解锁请求。进一步地,该目标安全问题包括但不限于用于提问用户的身份证号、手机号、银行卡号、家庭住址、办公地址和其他个人信息的问题。
S202:采用目标语音静态解码网络对验证语音数据进行文本翻译,获取验证文本数据。
目标语音静态解码网络是预先采用特定领域的训练文本数据和对应的注册语音数据进行模型训练后获取到的用于识别语音中文本内容的静态解码网络。该训练文本数据具体为与回复安全问题相对应的文本数据,例如,“我的姓名是张三”、“我的家庭住址是北京市海淀区海淀南路甲21号中关村知识产权大厦”等。由于目标语音静态解码网络是基于特定领域的训练文本数据进行训练所获取的静态解码网络,使得其在对该特定领域的验证语音数据进行识别时针对性强,使得解码准确率较高。由于静态解码网络已经把搜索空间全部展开,因此其在进行文本翻译时,解码速度非常快,从而可快速获取验证文本数据。本实施例中,采用目标语音静态解码网络对验证语音数据进行文本翻译,可快速获取识别准确率较高的验证文本数据。该验证文本数据是采用目标语音静态解码网络对验证语音数据进行识别后,获取到的以文本形式存在的数据。
S203:基于用户帐号和验证文本数据查询用户信息库,获取第一匹配结果。
其中,用户信息库是用于存储用户信息的数据库,具体用于存储与用户帐号相对应的用户信息的数据库。本实施例中,用户信息库中存储有用户在帐户注册时,所选定的与该用户帐号相关联的目标安全问题以及对该目标安全问题的回复答案(即注册文本数据),该回复回答(即注册文本数据)可以作为后续验证用户身份的依据。
本实施例中,服务器基于用户帐号查询用户信息库,获取与该用户帐号相对应的注册文本数据,将验证文本数据与注册文本数据进行对比匹配,若所有验证文本数据与注册文本数据均匹配成功,则获取匹配成功的第一匹配结果;相应地,若任一验证文本数据与注册文本数据不匹配,则获取匹配不成功的第一匹配结果。其中,注册文本数据是与用户帐号相关联的目标安全问题以及对该目标安全问题的回复答案。由于注册文本数据和验证文本数据是基于同一目标安全问题进行回复的数据,两者的区别在于注册文本数据是在用户帐号注册过程中配置的回复答案,而验证文本数据是基于目标安全问题进行语音回复后识别出的回复答案,若所有目标安全问题对应的注册文本数据和验证文本数据相匹配,则获取匹配成功的第一匹配结果。可以理解地,第一匹配结果是从验证语音数据对应的文本内容层面对用户信息进行验证用户身份的结果,可保障用户信息的安全性。
例如,用户在帐号注册过程中选定的目标安全问题为身份证号、家庭住址和毕业学校,并在用户帐号注册时输入相应的回复答案作为注册文本数据,将该注册文本数据与用户帐号关联存储在用户信息库中。在用户帐号解锁阶段,客户端的帐号解锁界面显示关于身份证号、家庭住址和毕业学校相对应的目标安全问题,用户基于该目标安全问题进行语音回复即可获取验证语音数据。再采用目标语音静态解码网络对该验证语音数据进行处理,可快速获取识别准确率较高的验证文本数据。然后,将该验证文本数据分别与对应的注册文本数据进行一一对比,若所有目标安全问题对应的验证文本数据与注册文本数据均匹配,则获取匹配成功的第一匹配结果;若任一目标安全问题对应的验证文本数据与注册文本数据不匹配,则获取匹配不成功的第一匹配结果。
S204:采用与用户帐号相对应的专用声纹识别模型对验证语音数据进行处理,获取验证声纹特征,对验证声纹特征与预先存储的注册声纹特征进行匹配处理,获取第二匹配结果。
其中,与用户帐号相对应的专用声纹识别模型是基于与用户帐号对应的用户的语音数据所训练获得声纹识别模型,该声纹识别模型在对用户帐号对应的验证语音数据进行识别时,识别结果更准确。该声纹识别模型专门用于识别某一语音的说话人是否为用户帐号对应的用户,以便进行用户身份验证。本实施例中,该专用声纹识别模型可基于用户帐号注册过程采集到的注册语音数据,采用PLDA、GMM或者其他声纹识别算法训练与用户身份相对应的专用声纹识别模型。PLDA(Probabilistic Linear Discriminant Analysis,概率线性判别分析)也一种信道补偿算法,PLDA是基于I-vector特征的,因为I-vector特征即包含说话人信息又包含信道信息,而我们只关心说话人信息,所以才需要信道补偿。GMM(Gaussian Mixed Model,即混合高斯模型)指的是多个高斯分布函数的线性组合,理论上GMM可以拟合出任意类型的分布,通常用于解决同一集合下的数据包含多个不同的分布的情况(或者是同一类分布但参数不一样,或者是不同类型的分布,比如正态分布和伯努利分布)。
验证声纹特征是将验证语音数据输入到专用声纹识别模型进行处理,所获得的声纹特征。注册声纹特征是基于用户帐号注册过程中采集到的注册语音数据进行声纹提取之后获取的声纹特征,该注册声纹特征可以作为后续判断验证声纹特征是否为用户帐号对应的声纹特征的依据,以便进行用户身份验证。
本实施例,验证声纹特征和注册声纹特征均为i-vector向量,具体可采用余弦相似度公式对验证声纹特征与预先存储的注册声纹特征进行匹配处理,获取声纹相似度。若该声纹相似度大于预设阈值,则获取匹配成功的第二匹配结果;若该声纹相似度不大于预设阈值,则获取匹配不成功的第二匹配结果。其中,余弦相似度公式为S为声纹相似度,Ai为验证声纹特征的各个分量,Bi为注册声纹特征的各个分量,i为维度,n为维度数量。本实施例中,计算获得的声纹相似度的取值范围在[-1,1],用于表示两个声纹特征之间的相似度,该声纹相似度的绝对值越大,则表示这两个声纹特征的相似度越大,越有可能为同一说话人的声纹特征。
S205:若第一匹配结果和第二匹配结果均为匹配成功时,对用户账号进行解锁处理,以更新用户帐号在用户信息库中的状态。
本实施例中,第一匹配结果是对验证语音数据从文本内容层面对用户身份进行验证的结果,第二匹配结果是对验证语音数据从声纹这一生物特性层面对用户身份进行验证的结果,若第一匹配结果和第二匹配结果均为匹配成功时,将其身份验证结果确定为验证通过,此时,服务器可对用户帐号进行解锁处理,以实现对业务系统中被锁定的用户帐号进行自主解锁,以简化解锁流程,并保障解锁过程中的安全性。
进一步地,服务器在对用户帐号进行解锁处理之后,会及时更新用户帐号在用户信息库中的状态,以避免后续用户使用该用户帐号登录业务系统时,需重复进行解锁操作,影响用户对业务系统的用户帐号自主解锁这一功能的满意度。可以理解地,在用户帐号解锁过程中,只需上传验证语音数据,服务器即可对该验证语音数据进行文本内容层面和声纹特性层面进行身份识别,无需采集两种不同的数据,有利于简化用户帐号解锁的流程,提高用户对业务系统中用户帐号自主解锁这一功能的满意度。
在一实施例中,在获取第一匹配结果的步骤之后,且获取第二匹配结果的步骤之后,用户帐号解锁方法还包括:若第一匹配结果和第二匹配结果中的至少一个为匹配不成功时,更新解锁失败次数,若解锁失败次数大于预设次数,则在预设时间内锁定语音解锁功能,生成锁定提醒信息;若解锁失败次数不大于预设次数,则生成解锁失败信息。
本实施例中,若第一匹配结果和第二匹配结果中的至少一个为匹配不成功具体包括第一匹配结果为匹配不成功、第二匹配结果为匹配不成功以及第一匹配结果和第二匹配结果均为匹配不成功的三种情况,而三种情况中任一种的出现均表示用户身份验证不通过,此时用户帐号解锁失败。
预设次数是服务器预先设置的用于评估解锁失败次数是否达到锁定语音解锁功能的次数。具体地,服务器预先配置计数器,服务器在第一匹配结果和第二匹配结果中的至少一个为匹配不成功时,即解锁失败时,会更新解锁失败次数,使得计数器中记录的解锁失败次数加1,以达到更新解锁失败次数的目的。服务器在更新解锁失败次数之后,会将该解锁失败次数与预设次数进行比较,若解锁失败次数大于预设次数,则预设时间内锁定语音解锁功能,以限制用户在预设时间内重复多次尝试语音解锁功能,防止非法用户通过多次尝试,最终解锁用户帐号,导致用户信息泄露。服务器在锁定语音解锁功能之后,生成锁定提醒信息。该锁定提醒信息提示本次解锁失败以及语音解锁功能的锁定时间(即预设时间),以提醒用户在预设时间内不要重复进行语音解锁用户帐号的操作,以免浪费时间。相应地,在将解锁失败次数与预设次数进行比较之后,若解锁失败次数不大于预设次数时,则直接生成解锁失败信息,以提示本次解锁失败。进一步地,该解锁失败信息还可以包括剩余解锁次数,即在解锁失败之后,服务器可基于预设次数和更新解锁失败次数计算两者的差作为剩余解锁次数,并在解锁失败信息中显示该剩余解锁次数,以提醒用户还可以进行多少次语音解锁操作。
进一步地,服务器在预设时间内锁定语音解锁功能之后,需记录功能锁定时间,该功能锁定时间具体可以为接收到解锁失败次数大于预设次数对应的帐号解锁请求时的系统时间,例如通过预先设置的currentTimeMillis方法获取功能锁定时间,以便在该功能锁定时间之后的预设时间内锁定语音解锁功能,更新其当前状态为账号锁定且语音解锁功能已锁定状态;在该功能锁定时间的预设时间后解锁语音解锁功能,更新其当前状态为账号锁定且语音解锁功能未锁定状态。
本实施例所提供的用户帐号解锁方法中,基于帐号解锁请求中的验证语音数据,可从文本内容层面和声纹特征层面这两个层面对用户身份进行验证,以保障用户帐号对应的用户身份的准确性和安全性。在基于验证语音数据进行身份验证所获得的第一匹配结果和第二匹配结果均为匹配成功时,对用户帐号进行解锁处理,以简化用户帐号解锁的流程,并保障用户帐号解锁的安全性。相应地,在基于验证语音数据进行身份验证所获得的第一匹配结果和/或第二匹配结果为匹配不成功时,需更新解锁失败次数,并在解锁失败次数大于预设次数时,在预设时间内锁定语音解锁功能,以防止非法用户通过多次尝试而解锁用户帐号,以达到进一步保障用户帐号安全的目的。
在一实施例中,如图3所示,在获取帐号解锁请求的步骤(即步骤S201)之后,且采用目标语音静态解码网络对验证语音数据进行文本翻译的步骤(即步骤S202)之前,用户帐号解锁方法还包括:
S301:基于用户帐号查询用户信息库,获取用户帐号对应的当前状态。
由于用户信息库是用于存储用户信息的数据库,服务器在接收到帐号解锁请求并获取其中所携带的用户帐号之后,会基于该用户帐号查询用户信息库,以获取用户帐号所处的当前状态,以确定是否需要进行后续的步骤。可以理解地,若用户帐号的当前状态为帐号未锁定时,则无需执行该帐号语音解锁的功能,则服务器直接生成帐号未锁定的提示信息,以在客户端显示该提示信息,以便用户了解其对应的用户帐号处于帐号未锁定状态。若用户帐号的当前状态为帐号锁定时,需要执行的步骤S302和S303。
S302:若当前状态为账号锁定且语音解锁功能未锁定时,则执行采用目标语音静态解码网络对验证语音数据进行文本翻译的步骤。
语音解锁功能未锁定是指在接收到本次帐号解锁请求之前,解锁失败次数不大于预设次数时所处的状态。本实施例中,服务器在获知用户帐号的当前状态为帐号锁定且语音解锁功能未锁定时,说明此时用户可继续使用语音解锁功能,则服务器执行步骤S202。
S303:若当前状态为账号锁定且语音解锁功能已锁定时,则获取语音解锁功能锁定的剩余时间,基于剩余时间生成状态提醒信息。
语音解锁功能已锁定是指在接收到本次帐号解锁请求之前,解锁失败次数大于预设次数时所处的状态。由于解锁失败次数大于预设次数时,服务器会在预设时间内锁定语音解锁功能,此时,服务器会获取语音解锁功能锁定的剩余时间,并基于该剩余时间生成状态提醒信息,以提醒用户在该剩余时间内不能使用帐号语音解锁功能对被锁定的用户帐号进行解锁,以防止用户多次尝试仍无法解锁,影响用户体验。
进一步地,服务器在预设时间内锁定语音解锁功能之后,记录功能锁定时间,并在该功能锁定时间的预设时间内锁定语音解锁功能,更新其当前状态为账号锁定且语音解锁功能已锁定;在该功能锁定时间的预设时间后解锁语音解锁功能,更新其当前状态为账号锁定且语音解锁功能未锁定。本实施例中,服务器每次接收到帐号解锁请求时,需获取接收到帐号解锁请求的系统时间,如通过预先设置的currentTimeMillis方法获取系统时间。如该系统时间在功能锁定时间的预设时间内,则用户帐号的当前状态仍然为账号锁定且语音解锁功能已锁定,需计算该系统时间与功能锁定时间的时间差,再将预设时间减去该时间差,即可获取语音解锁功能锁定的剩余时间,以基于剩余时间生成状态提醒信息,以防止用户重复多次尝试而影响其体验。相对应地,若该系统时间在功能锁定时间的预设时间外,则用户帐号的当前状态更新为账号锁定且语音解锁功能未锁定,可进行语音解锁处理,则进行步骤S202。
本实施例所提供的用户帐号解锁方法中,在接收到帐号解锁请求之后,先基于其所携带的用户帐号查询用户信息库,以获取该用户帐号对应的当前状态,以便根据当前状态的情况不同分别进行处理,只在当前状态为账号锁定且语音解锁功能未锁定时,执行后续的步骤S202;在当前状态为账号锁定且语音解锁功能已锁定时,获取语音解锁功能锁定的剩余时间,并基于该剩余时间生成状态提醒信息,以避免用户用户多次尝试仍无法解锁,影响用户体验。
在一实施例中,如图4所示,步骤S201中的获取帐号解锁请求,具体包括如下步骤:
S401:接收客户端发送的帐号解锁请求,帐号解锁请求携带用户账号和语音解锁标识。
帐号解锁请求是用户通过客户端向服务器发送的用于对被锁定的用户帐号进行解锁的请求。语音解锁标识是用于标明需要执行语音解锁功能的标识。
本实施例中,业务系统的客户端上设有帐号解锁界面,用户通过操作客户端进入到该帐号解锁界面时,在该帐号解锁界面中输入用户帐号并点击“语音解锁”按键,即可生成帐号解锁请求,该帐号解锁请求携带用户帐号和语音解锁标识。客户端将该帐号解锁请求发送给服务器之后,服务器基于该帐号解锁请求控制客户端进入语音解锁界面。
S402:基于用户帐号查询用户信息库,获取与用户帐号相对应的目标安全问题。
服务器在依据帐号解锁请求获得用户帐号之后,基于用户帐号查询用户信息库,获取与用户帐号相对应的目标安全问题,该目标安全问题是用户帐号注册时选定的安全问题,目标安全问题包括但不限于用于提问用户的身份证号、手机号、银行卡号、家庭住址、办公地址和其他个人信息的问题。
S403:基于语音解锁标识,获取与目标安全问题相对应的引导录音,通过客户端播放引导录音。
具体地,服务器预先基于设置的目标安全问题,配置相对应的引导话术,如“请问您的姓名为……”和“请录入您的手机号”等。然后,基于该引导话术采集相应的引导录音,即将引导话术转换成语音形式的引导录音。服务器预先将用户帐号、目标安全问题及其对应的引导录音关联存储在用户信息库中,以便后续根据用户帐号查询获取相对应的目标安全问题和引导录音。
服务器在依据帐号解锁请求获得语音解锁标识之后,先基于目标安全问题查询获取到对应的引导录音,以控制客户端播放该引导录音,使得用户可通过客户端听到该引导录音,基于该引导录音进行语音回复,以输入相对应的验证语音数据,从而进入后续语音解锁功能的处理流程。本实施例中,采用语音导航引导方式播放与目标安全问题相对应的引导录音,可方便视力较弱(如老花或散光)的用户可根据该引导录音完成后续语音解锁功能的处理流程,提高用户的适用性。
S404:获取客户端发送的验证语音数据,验证语音数据是客户端基于引导录音采集到的语音数据。
客户端在播放引导录音之后,用户可点击帐号解锁界面的录音按键,开始录音,采集用户基于引导录音提及的目标安全问题进行回复的语音数据,作为验证语音数据。在验证语音数据采集完成之后,用户可点击帐号解锁界面上的提交按键,以向服务器发送验证语音数据,使服务器可接收客户端发送的验证语音数据。或者,在验证语音数据采集完成之后,服务器采集语音检测算法检测在特定时间内没有新的语音数据,则将验证语音数据自动发送给服务器,无需用户手动操作,提高语音解锁功能的便捷性。该语音检测算法可以采用语音端点检测(Voice Activity Detection,VAD)算法。
本实施例所提供的用户帐号解锁方法中,基于用户帐号和语音解锁标识,控制客户端播放与目标安全问题相对应的引导录音,以使视力较弱的用户可依据该引导录音进行语音回复,从而输入相验证语音数据,提高语音解锁功能的适用性。然后,基于引导录音采集获取到相对应的验证语音数据,以便后续基于该验证语音数据从文本内容层面和声纹特征层面这两个层面对用户身份进行验证,提高用户身份验证的安全性。还可以采用语音检测算法自动识别到是否完成验证语音数据的采集,在采集完成之后自动上传验证语音数据,以实现自动化操作,提高语音解锁功能的便捷性。
在一实施例中,如图5所示,在接收客户端发送的帐号解锁请求的步骤(步骤S401)之前,用户帐号解锁方法还包括:
S501:接收客户端发送的账号注册请求,账号注册请求携带注册标识。
帐号注册请求是用户通过客户端向服务器发送的用于在业务系统进行帐号注册的请求。标注标识是用于识别该请求目的为帐号注册的标识。可以理解地,业务系统可预先设置特定的注册标识,以便在后续处理过程中,若识别到客户端发送的帐号注册请求中携带有该注册标识,使得服务器了解到该帐号注册的功能需要,以进入到帐号注册流程。
S502:基于注册标识进入帐号注册界面,帐号注册界面包括待选择安全问题。
待选取安全问题是服务器预先设置的可供用户选择的安全问题。本实施例中,服务器在基于帐号注册请求中的注册标识,识别到相应的功能需要之后,进入到帐号注册流程,以使客户端显示帐号注册界面,在帐号注册界面上显示多个待选择安全问题,以供用户采用拖拽、钩选或输入等方式选择所需的目标安全问题。
S503:从待选择安全问题中选取预设数量的目标安全问题,基于目标安全问题获取对应的注册文本数据和注册语音数据。
其中,预设数量是服务器预先业务的用于评估需要达到身份认证所需要验证的问题数量。预设数量越大,其后续验证时需要回复的目标安全问题越多,从文本内容层面进行身份识别的安全性越好。本实施例中,客户端显示的帐号注册界面上显示多个待选择安全问题,用户可采用拖拽、钩选或输入等方式选择所需的预设数量的目标安全问题。然后,基于所确定的目标安全问题采集相对应的注册文本数据和注册语音数据,以将该注册文本数据和注册语音数据作为后续评估验证语音数据是否通过身份验证的依据,是实现用户帐号安全的评估依据。
S504:基于用户帐号、目标安全问题、注册文本数据和注册语音数据,完成用户帐号注册,并关联存储用户帐号、目标安全问题、注册文本数据和注册语音数据。
服务器在获取到目标安全问题、以及与该目标安全问题相对应的注册文本数据和注册语音数据之后,完成用户帐号注册,将该用户帐号、目标安全问题、注册文本数据和注册语音数据关联存储在用户信息库中,以便后续基于用户帐号和验证语音数据查找该用户信息库,以完成相应用户帐号的身份验证过程,保障用户帐号的安全性。
本实施例所提供的用户帐号解锁方法中,可从待选择安全问题中选择预设数量的目标安全问题,使得目标安全问题的设置由用户自主确定,保险目标安全问题的随机性,提高后续身份验证的安全性。基于目标安全问题分别采集相对应的注册文本数据和注册语音数据,以便后续基于该注册文本数据和注册语音数据分别对验证语音数据进行文本内容层面和声纹特征层面的身份验证,提高身份验证的安全性和可靠性。
在一实施例中,如图6所示,在采用目标语音静态解码网络对验证语音数据进行文本翻译的步骤(即步骤S202)之前,用户帐号解锁方法还包括:
S601:从训练语料库中获取训练数据,训练数据包括注册文本数据和注册语音数据。
训练语料库是用于存储训练数据的数据库,该训练数据是用于训练目标语音静态解码网络的数据。本实施例中,训练数据包括存储在用户信息库中的注册文本数据和注册语音数据。
进一步地,训练语料库中的训练数据依据数据类型分类存储,本实施例中的数据类型包括身份证类型、手机号码类型、地址类型和其他类型。其中,身份证类型、手机号码类型和地址类型这三种类型的训练文本数据具有一定的约束条件,而其他类型是无约束条件的类型。
本实施例以身份证类型为例进行说明,存储在身份证语料库中的训练文本数据是基于身份证号码形成的训练文本数据。身份证号码的结构有固定格式,这个固定格式即为其约束条件。身份证号码是特征组合码,由十七位数字本体码和一位校验码组成,其排列顺序从左至右依次为:六位数字地址码、八位数字出生日期码、三位数字顺序码和一位数字校验码。其地址码表示编码对象常住户口所在县(市、旗、区)的行政区划代码,按GB/T2260的规定执行。出生日期码表示编码对象出生的年、月、日,按GB/T7408的规定执行,年、月、日代码之间不用分隔符。顺序码表示在同一地址码所标识的区域范围内,对同年、同月、同日出生的人编定的顺序号,顺序码的奇数分配给男性,偶数分配给女性。校验码(第十八位数)其获取过程包括如下步骤:
1)十七位数字本体码加权求和公式S=Sum(Ai*Wi),i=0,...,16,先对前17位数字的权求和,其中,Ai表示第i位置上的身份证号码数字值;Wi表示第i位置上的加权因子Wi为7 9 10 5 8 4 2 1 6 3 7 9 10 5 8 4 2
2)计算模Y=mod(S,11)
3)通过模得到对应的校验码Y:0 1 2 3 4 5 6 7 8 9 10,校验码:1 0 X 9 8 7 65 4 3 2*/
例如,校验码的计算方法为:1)将前面的身份证号码17位数分别乘以不同的系数,从第一位到第十七位的系数分别为:7 9 10 5 8 4 2 1 6 3 7 9 10 5 8 4。2)将这17位数字和系数相乘的结果相加。3)用加出来和除以11,获取余数。4)余数只可能有0 1 2 3 4 56 7 8 9 10这11个数字,其分别对应的最后一位身份证的号码为1 0 X 9 8 7 6 5 4 3 2。如果余数是2,就会在身份证的第18位数字上出现罗马数字的Ⅹ,如果余数是10,身份证的最后一位号码就是2。
S602:将注册文本数据输入到N-gram模型进行模型训练,获取目标语言模型。
其中,N-gram是大词汇连续语音识别中常用的基于统计语言模型算法,利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音转换成汉字串(即句子)时,可以计算出具有最大概率的句子,从而实现到汉字的自动转换,无需用户手动选择,避开许多汉字对应一个相同拼音而导致重码问题。N-gram是将文本里面的内容按照字节进行大小为n的滑动窗口操作,形成了长度是n的字节片段序列。每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种gram就是一个特征向量维度。
N-gram基于马尔科夫假设:第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从所有训练文本数据中统计N个词同时出现的次数得到。即
P(T)=P(W1W2W3…Wn)=P(W1)P(W2|W1)P(W3|W1w2)…P(Wn|W1W2…Wn-1),其中,P(Wn|W1W2…Wn-1)是指第n个分词出现在n-1个分词组成的语序序列之后的概率。在N-gram模型中,通常使用最大似然估计(Maximum Likelihood Estimate)来计算P(Wn|W1W2…Wn-1),即其中,C(Wn)为第n个分词在所有训练文本数据中的词频,C(W1W2…Wn)为(W1W2…Wn)序列在所有训练文本数据中的词序列频度,C(W1W2…Wn-1)为(W1W2…Wn-1)序列在所有训练文本数据中的词序列频度。本实施例中,基于不同数据类型对应的语料库中的训练文本数据(包括同一不同用户基于同一目标安全问题回复的注册文本数据)对N-gram模型进行训练,使得获取的目标语言模型针对数据类型相对应的注册文本数据的识别更准确。
S603:将注册语音数据输入到GMM-HMM模型进行模型训练,获取目标声学模型。
其中,目标声学模型是采用同一用户的注册语音数据对GMM-HMM模型进行训练后获取的声学模型。具体地,服务器将注册语音数据输入到GMM-HMM模型进行模型训练,获取目标声学模型的过程包括如下步骤:
首先,对注册语音数据进行特征提取,获取MFCC(Mel-frequency CepstrumCoefficients,即梅尔频率倒谱系数)特征。其中,梅尔频率倒谱系数可采用多维特征向量(m维n列)的方式表达,m维1列向量为一帧波形,若干帧波形对应一个状态,每三个状态组合成一个音素。
然后,采用MFCC特征对GMM(Gaussian Mixed Model,高斯混合模型)进行训练,获取目标GMM模型,其过程具体包括:(1)初始化GMM的参数,该初始参数包括分量数目K,混合系数πk,均值μk和协方差∑k,对于所有MFCC特征所形成的点x={x1,x2,...,xN},其GMM模型为(2)采用EM(Expectation Maximization Algorithm,最大期望)算法更新GMM的参数,获取目标GMM。该EM算法包括E step和M Step。在E step中,根据当前的混合系数πk,均值μk和协方差∑k,计算后验概率γ(znk),其中,在M step中,根据计算得到的后验概率γ(znk),计算新的混合系数πk,均值μk和协方差Σk,在参数收敛时获取目标GMM模型,即其中,N为点的个数。
最后,将目标GMM模型输入到HMM进行模型训练,获取目标声学模型,其过程具体包括:(1)假设状态观测序列中服从单核高斯概率分布bj(x)=p(x|sj)=N(x;μj,∑j),初始化HMM的参数λ,该参数λ包括前向转移概率αij、后面转移概率βt(sj)、均值μj和协方差∑j,其中,αij为从状态si转移到其他状态sj的转移概率,且βt(sj)为时刻t处于状态sj的话,t时刻未来观测的概率,即βt(sj)=p(xt+1,xt+2,xT|s(t)=sj,λ),其中,αij为从状态si转移到其他状态sj的转移概率,bj(xt+1)为状态i下观测到xt+1的概率,βt+1(sj)为t时刻处于状态sj的话,t+1后观测的概率。(2)采用EM算法更新HMM的前向转移概率αij、均值μj和协方差∑j,获取目标声学模型。采用EM算法更新HMM中参数的过程与更新GMM中参数的过程一致,在此不一一赘述。
S604:基于目标语言模型和目标声学模型,构建目标语音静态解码网络。
具体地,服务器基于目标语言模型、目标声学模型和预先设置的发音词典和声学上下文,构建目标语音静态解码网络,其构建过程包括如下步骤:
(1)将目标语言模型、目标声学模型、发音词典和声学上下文转换成WFST(Weighted Finite-state Transduce,加权有限状态转换器)网络,即分别获得语言模型WFST(以下简称为G)、发音词典WFST(以下简称为L)、声学上下文WFST(以下简称为C)和声学模型WFST(以下简称为H)。该语言模型WFST中,是一个WFSA(acceptor接受机),可与其它三个WFST进行操作,将其视为一个输入符号和输出符号相同的WFST,具体定义词序列出现的概率。发音词典WFST,输入符号为monophone(音素),输出符号为词。发音词典定义音素序列所表示的词,根据跨词三音子模型产生的可能的音素序列,可以得到相应的词序列。声学上下文WFST,输入符号为triphone(三音子),输出符号为monophnoe(音素),该WFST网络定义从三音子到音素的对应关系,根据HMM模型产生的三音子序列。声学模型WFST,输入符号为HMM transitions-ids(transition identifiers转换标识符,用于指示对应的特征向量),输出符号为triphone(三音子),定义每个三音子所对应的HMM状态序列。在语音识别时,通过对每一帧所对应的状态进行假设,可以在HMM的状态序列上进行搜索,从而产生可能的三音子序列。
(2)对四个WFST网络进行合并和压缩优化,获取目标语音静态解码网络。
具体地,先采用H℃°L°G°对四个WFST网络进行合并,获取原始语音静态解码网络,其中,H为声学模型WFST,C为声学上下文WFST,L为发音词典WFST,G为语言模型WFST,°指模型合并(Composition)。然后,对原始语音静态解码网络进行压缩优化,获取目标语音静态解码网络。由于原始语音静态解码网络的占用内存非常大,需进一步优化,以使优化后的目标语音静态解码网络能够有较小的体积。具体地,采用N=πε(min(det(H°det(C°det(L°G)))))对原始语音静态解码网络进行压缩优化,获取目标语音静态解码网络,使得其形成的识别网络较小,其中,det(Determinization)为确定化算法,min(Minimization)为最小化算法,πε为空转移去除(ε-Removal)算法。
本实施例中,所获取的目标语音静态解码网络采用迭代计算,让概率信息在网络节点间传递更新,以进行语音解码,并且由于静态解码网络已经把搜索空间全部展开,因此,不需要根据解码路径的前驱词构造搜索空间副本,也不需要在词尾节点根据历史信息查询语音模型,使得其后续进行语音识别时,解码速度非常快。
在一实施例中,依据四个WFST对应的输入输出关系可知,步骤S202中目标语音静态解码网络对验证语音数据进行文本翻译,获取验证文本数据,具体包括如下步骤:(1)采用声学模型WFST对验证语音数据进行处理,获取HMM状态序列,每一HMM状态序列为一triphone(三音子)的状态序列。HMM(Hidden Markov Model,隐马尔可夫模型)是预先训练好的状态网络,将获取到的每一帧语音数据属于每个状态的概率输入HMM中,可从该状态网络中寻找帧与状态间最匹配路径,将最匹配路径对应的状态作为目标状态,从状态网络中寻找状态与音素间最匹配路径,依据该最匹配路径确定音素序列。其中,HMM中路径搜索的算法是一种动态规划剪枝的算法,称之为Viterbi(维特比)算法,用于寻找全局最优路径,进而实现将MFCC特征转换为HMM状态序列。(2)采用声学上下文WFST对HMM状态序列进行处理,获取对应的音素序列。声学上下文WFST定义了三音子到音素的对应关系,因此,可采用声学上下文WFST对HMM状态序列进行处理,获取对应的音素序列。(3)采用发音词典WFST对音素序列进行处理,获取对应的词序列。(4)采用语言模型WFST对词序列进行处理,获取验证文本数据。
可以理解地,由于声学模型WFST、声学上下文WFST、发音词典WFST和语言模型WFST是训练好的目标语音静态解码网络中四个串联的子系统,每一个子系统的输出是下一个子系统的输入,使得对四个WFST进行合并、确定化、最小化和空转移去除之后获得的静态解码网络,可以直接将验证语音数据输入到声学模型WFST,依次经过声学上下文WFST、发音词典WFST和语言模型WFST处理,可获取对应的验证文本数据,其解码过程中由于已经将搜索空间全部展开,可采用Viterbi(维特比)算法快速获取最优解码结果,使得其解码速度快。
在一实施例中,注册声纹特征为注册i-vector向量。如图7所示,在基于目标安全问题获取对应的注册文本数据和注册语音数据的步骤之后,用户帐号解锁方法还包括:
S701:对注册语音数据进行特征提取,获取对应的注册语音特征。
注册语音特征是对注册语音数据进行特征提取后获取的语音特征,该语音特征具体为MFCC(Mel-Frequency Cepstral Coefficients,梅尔频率倒谱系数)特征,MFCC特征在低频部分的分辨率较高,与人耳的听觉特性相符。对注册语音数据进行特征提取具体包括预加重、分帧和加窗等预处理过程,还包括快速傅里叶变换,获取注册语音数据的频谱,并根据频谱获取注册语音数据的功率谱,再采用采用梅尔刻度滤波器组处理注册语音数据的功率谱,获取注册语音数据的梅尔功率谱,然后在梅尔功率谱上进行倒谱分析,获取注册语音数据的MFCC特征。该MFCC特征可作为注册语音特征与其他语音的区别特征。
S702:基于注册语音特征训练专用UBM模型,将基于专用UBM模型训练出的总体变化子空间作为专用声纹识别模型。
UBM(Universal Background Model,通用背景模型)是一个表征大量非特定说话人语音特征分布的高斯混合模型(Gaussian Mixture Models,高斯混合模型)。专用UBM模型的训练通常采用大量的与特定说话人无关、信道无关的语音数据进行UBM模型训练,所获取的与特定说话人无关的模型,它只是拟合人的语音特征分布,而并不代表某个具体的说话人。由于注册语音数据的数据量较少,只使用GMM模型对注册语音特征进行建模,注册语音特征通常无法覆盖到GMM所在的特征空间。本实施例中,基于注册语音特征训练专用UBM模型是指采用注册语音特征和UBM进行建模,获取到专用UBM模型,具体采用注册语音特征调整UBM模型的参数来表征特定说话人的个性信息,注册语音特征覆盖不到的特征用UBM模型中相似的特征分布来近似,以获取专用UBM模型,可较好地解决注册语音特征不足带来的系统性能的问题。
总体变化子空间(Total Variability Space,简称T空间),是直接设置一个全局变化的投影矩阵,用以包含语音数据中说话人所有可能的信息,在T空间内不分开说话人空间和信道空间。T空间能把高维充分统计量(超矢量)投影到可以作为低维说话人表征的i-vector,起到降维作用。T空间的训练过程包括:获取专用UBM模型的高维充分统计量,通过EM(Expectation Maximization Algorithm,最大期望)算法迭代更新上述高维充分统计量即可生成收敛的T空间,从其中收敛计算出T空间。
本步骤中,基于预设UBM模型训练得到的总体变化子空间不区分说话人空间和信道空间,将声道空间的信息和信道空间的信息收敛于一个空间,以降低计算复杂度,便于进一步基于总体变化子空间获取i-vector向量。
S703:将注册语音特征投影到专用声纹识别模型上,获取第一i-vector向量。
其中,第一i-vector向量是将注册语音特征投影到低维的总体变化子空间,得到的一个固定长度的矢量表征的向量,即i-vector向量。具体地,本步骤中采用公式w1=(s1-m)/T将注册语音特征投影到总体变化子空间上,获取第一i-vector向量,其中,s1是D*G维的与第一i-vector向量相对应的均值超矢量;m是与说话人无关且信道无关的D*G维超向量;T是总体变化子空间,维度为DG*M;w1是第一i-vector向量,维度为M。本实施例中,由于投影在T空间中的所有i-vector向量均满足公式s1=m+Tw1,因s1、m和T都是已知的,即可获取w1,也即第一i-vector向量,其中,w1=(s1-m)/T。本实施例中,步骤S703可获取高维的注册语音特征投影在总体变化子空间后形成低维的第一i-vector向量,降低注册语音特征投影的维度和去除更多的噪声,便于基于第一i-vector向量对说话人进行识别。
S704:将第一i-vector向量投影到专用声纹识别模型上,获取对应的注册i-vector向量。
注册i-vector向量是将第一i-vector向量投影到低维的总体变化子空间,得到的一个用于记录在识别服务器的数据库中、固定长度的矢量表征的向量,即i-vector向量。步骤S704中,采用公式w2=(s2-m)/T将第一i-vector向量投影在总体变化子空间上,获取注册i-vector向量,其中,s2是D*G维的与注册i-vector向量相对应的均值超矢量;m是与说话人无关且信道无关的D*G维超向量;T是总体变化子空间,维度为DG*M;w2是注册i-vector向量,维度为M。本实施例中,由于投影在T空间中的所有i-vector向量均满足公式s2=m+Tw2,因s2、m和T都是已知的,即可获取w2,也即注册i-vector向量,其中,w2=(s2-m)/T。
本实施例中,通过将注册语音特征投影在总体变化子空间上获取第一i-vector向量后,再将第一i-vector向量第二次投影在总体变化子空间上获取注册i-vector向量,使得注册i-vector向量经过两次投影(也即降低维度)后可去除更多的噪音特征,提高了提取注册i-vector向量的纯净度,同时降维后减少计算空间也提高语音识别的识别效率,降低识别复杂度。
进一步地,步骤S204中的采用与用户帐号相对应的专用声纹识别模型对验证语音数据进行处理,获取验证声纹特征,具体包括如下步骤:采用专用声纹识别模型对验证语音数据提取的验证语音特征进行二次投影,获取验证i-vector向量。
具体地,服务器在获取验证语音数据之后,先对验证语音数据进行特征提取,以获取对应的验证语音特征,其过程与步骤S701相似,在此不一一表述。然后,将验证语音数据投影到专用声纹识别模型上进行二次投影,其投影过程如步骤S703和步骤S704所示,在此不一一表述。可以理解地,将验证语音特征经专用声纹识别模型进行二次摄影,可以去除更多的噪音特征,提高验证i-vector向量的纯净度,进而提高后续对比验证i-vector向量和注册i-vector向量相似度的识别效率,保证识别准确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种用户帐号解锁装置,该用户帐号解锁装置与上述实施例中用户帐号解锁方法一一对应。如图8所示,该用户帐号解锁装置包括帐号解锁请求获取模块201、验证文本数据获取模块202、第一匹配结果获取模块203、第二匹配结果获取模块204和匹配成功处理模块205。各功能模块详细说明如下:
帐号解锁请求获取模块201,用于获取帐号解锁请求,帐号解锁请求包括用户帐号和验证语音数据。
验证文本数据获取模块202,用于采用目标语音静态解码网络对验证语音数据进行文本翻译,获取验证文本数据。
第一匹配结果获取模块203,用于基于用户帐号和验证文本数据查询用户信息库,获取第一匹配结果。
第二匹配结果获取模块204,用于采用与用户帐号相对应的专用声纹识别模型对验证语音数据进行处理,获取验证声纹特征,对验证声纹特征与预先存储的注册声纹特征进行匹配处理,获取第二匹配结果。
匹配成功处理模块205,用于若第一匹配结果和第二匹配结果均为匹配成功时,对用户账号进行解锁处理,以更新用户帐号在用户信息库中的状态。
优选地,在第一匹配结果获取模块203之后,且第二匹配结果获取模块204之后,用户帐号解锁装置还包括:匹配不成功处理模块,用于若第一匹配结果和第二匹配结果中的至少一个为匹配不成功时,更新解锁失败次数,若解锁失败次数大于预设次数,则在预设时间内锁定语音解锁功能,生成锁定提醒信息;若解锁失败次数不大于预设次数,则生成解锁失败信息。
优选地,在帐号解锁请求获取模块201之后,且验证文本数据获取模块202之前,用户帐号解锁装置还包括当前状态获取单元、未锁定处理单元和已锁定处理单元。
当前状态获取单元,用于基于用户帐号查询用户信息库,获取用户帐号对应的当前状态。
未锁定处理单元,用于若当前状态为账号锁定且语音解锁功能未锁定时,则执行采用目标语音静态解码网络对验证语音数据进行文本翻译的步骤。
已锁定处理单元,用于若当前状态为账号锁定且语音解锁功能已锁定时,则获取语音解锁功能锁定的剩余时间,基于剩余时间生成状态提醒信息。
优选地,帐号解锁请求获取模块201包括帐号解锁请求接收单元、目标安全问题获取单元、引导录音播放单元和验证语音数据获取单元。
帐号解锁请求接收单元,用于接收客户端发送的帐号解锁请求,帐号解锁请求携带用户账号和语音解锁标识。
目标安全问题获取单元,用于基于用户帐号查询用户信息库,获取与用户帐号相对应的目标安全问题。
引导录音播放单元,用于基于语音解锁标识,获取与目标安全问题相对应的引导录音,通过客户端播放引导录音。
验证语音数据获取单元,用于获取客户端发送的验证语音数据,验证语音数据是客户端基于引导录音采集到的语音数据。
优选地,在帐号解锁请求接收单元之前,用户帐号解锁装置还包括帐号注册请求接收单元、帐号注册界面显示单元、注册数据获取单元和注册数据关联存储单元。
帐号注册请求接收单元,用于接收客户端发送的账号注册请求,账号注册请求携带注册标识。
帐号注册界面显示单元,用于基于注册标识进入帐号注册界面,帐号注册界面包括待选择安全问题。
注册数据获取单元,用于从待选择安全问题中选取预设数量的目标安全问题,基于目标安全问题获取对应的注册文本数据和注册语音数据。
注册数据关联存储单元,用于基于用户帐号、目标安全问题、注册文本数据和注册语音数据,完成用户帐号注册,并关联存储用户帐号、目标安全问题、注册文本数据和注册语音数据。
优选地,在验证文本数据获取模块202之前,用户帐号解锁装置还包括注册向量获取单元、目标语言模型获取单元、目标声学模型获取单元和静态解码网络获取单元。
训练数据获取单元,用于从训练语料库中获取训练数据,训练数据包括注册文本数据和注册语音数据。
目标语言模型获取单元,用于将注册文本数据输入到N-gram模型进行模型训练,获取目标语言模型。
目标声学模型获取单元,用于将注册语音数据输入到GMM-HMM模型进行模型训练,获取目标声学模型。
静态解码网络获取单元,用于基于目标语言模型和目标声学模型,构建目标语音静态解码网络。
优选地,注册声纹特征为注册i-vector向量。
在注册数据获取单元之后,用户帐号解锁装置还包括注册语音特征获取单元、声纹识别模型获取单元、第一向量获取单元和注册向量获取单元。
注册语音特征获取单元,用于对注册语音数据进行特征提取,获取对应的注册语音特征。
声纹识别模型获取单元,用于基于注册语音特征训练专用UBM模型,将基于专用UBM模型训练出的总体变化子空间作为专用声纹识别模型。
第一向量获取单元,用于将注册语音特征投影到专用声纹识别模型上,获取第一i-vector向量。
注册向量获取单元,用于将第一i-vector向量投影到专用声纹识别模型上,获取对应的注册i-vector向量。
第二匹配结果获取模块204,用于采用专用声纹识别模型对验证语音数据提取的验证语音特征进行二次投影,获取验证i-vector向量。
关于用户帐号解锁装置的具体限定可以参见上文中对于用户帐号解锁方法的限定,在此不再赘述。上述用户帐号解锁装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于用于执行用户帐号解锁方法过程中所形成的数据,如验证语音数据、第一匹配结果和第二匹配结果。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用户帐号解锁方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中用户帐号解锁方法的步骤,例如图2所示的步骤S201-S205,或者图3至图7中所示的步骤。或者,处理器执行计算机程序时实现用户帐号解锁装置这一实施例中的各模块/单元的功能,例如图8所示的帐号解锁请求获取模块201至匹配成功处理模块205的功能,为避免重复,这里不再赘述。
在一实施例中,提供一计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中用户帐号解锁方法的步骤,例如图2所示的步骤S201-S205,或者图3至图7中所示的步骤,为避免重复,这里不再赘述。或者,该计算机程序被处理器执行时实现上述用户帐号解锁装置这一实施例中的各模块/单元的功能,例如图8所示的帐号解锁请求获取模块201至匹配成功处理模块205的功能,为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用户帐号解锁方法,其特征在于,包括:
获取帐号解锁请求,所述帐号解锁请求包括用户帐号和验证语音数据;
采用目标语音静态解码网络对所述验证语音数据进行文本翻译,获取验证文本数据;
基于所述用户帐号和所述验证文本数据查询用户信息库,获取第一匹配结果;
采用与所述用户帐号相对应的专用声纹识别模型对所述验证语音数据进行处理,获取验证声纹特征,对所述验证声纹特征与预先存储的注册声纹特征进行匹配处理,获取第二匹配结果;
若所述第一匹配结果和所述第二匹配结果均为匹配成功时,对所述用户账号进行解锁处理,以更新所述用户帐号在所述用户信息库中的状态。
2.如权利要求1所述的用户帐号解锁方法,其特征在于,在所述获取第一匹配结果的步骤之后,且所述获取第二匹配结果的步骤之后,所述用户帐号解锁方法还包括:
若所述第一匹配结果和所述第二匹配结果中的至少一个为匹配不成功时,更新解锁失败次数,若所述解锁失败次数大于预设次数,则在预设时间内锁定语音解锁功能,生成锁定提醒信息;若所述解锁失败次数不大于预设次数,则生成解锁失败信息。
3.如权利要求1所述的用户帐号解锁方法,其特征在于,在所述获取帐号解锁请求的步骤之后,且所述采用目标语音静态解码网络对所述验证语音数据进行文本翻译的步骤之前,所述用户帐号解锁方法还包括:
基于所述用户帐号查询用户信息库,获取所述用户帐号对应的当前状态;
若所述当前状态为账号锁定且语音解锁功能未锁定时,则执行所述采用目标语音静态解码网络对所述验证语音数据进行文本翻译的步骤;
若所述当前状态为账号锁定且语音解锁功能已锁定时,则获取语音解锁功能锁定的剩余时间,基于所述剩余时间生成状态提醒信息。
4.如权利要求1所述的用户帐号解锁方法,其特征在于,所述获取帐号解锁请求包括:
接收客户端发送的帐号解锁请求,所述帐号解锁请求携带用户账号和语音解锁标识;
基于所述用户帐号查询用户信息库,获取与所述用户帐号相对应的目标安全问题;
基于所述语音解锁标识,获取与所述目标安全问题相对应的引导录音,通过所述客户端播放所述引导录音;
获取客户端发送的验证语音数据,所述验证语音数据是所述客户端基于所述引导录音采集到的语音数据。
5.如权利要求1所述的用户帐号解锁方法,其特征在于,在所述接收客户端发送的帐号解锁请求的步骤之前,所述用户帐号解锁方法还包括:
接收客户端发送的账号注册请求,所述账号注册请求携带注册标识;
基于所述注册标识进入帐号注册界面,所述帐号注册界面包括待选择安全问题;
从所述待选择安全问题中选取预设数量的目标安全问题,基于所述目标安全问题获取对应的注册文本数据和注册语音数据;
基于所述用户帐号、目标安全问题、注册文本数据和注册语音数据,完成用户帐号注册,并关联存储所述用户帐号、所述目标安全问题、所述注册文本数据和所述注册语音数据。
6.如权利要求5所述的用户帐号解锁方法,其特征在于,在所述采用目标语音静态解码网络对所述验证语音数据进行文本翻译的步骤之前,所述用户帐号解锁方法还包括:
从训练语料库中获取训练数据,所述训练数据包括所述注册文本数据和所述注册语音数据;
将所述注册文本数据输入到N-gram模型进行模型训练,获取目标语言模型;
将所述注册语音数据输入到GMM-HMM模型进行模型训练,获取目标声学模型;
基于所述目标语言模型和所述目标声学模型,构建与所述数据类型相对应的目标语音静态解码网络。
7.如权利要求5所述的用户帐号解锁方法,其特征在于,所述注册声纹特征为注册i-vector向量;
在所述基于所述目标安全问题获取对应的注册文本数据和注册语音数据的步骤之后,所述用户帐号解锁方法还包括:
对注册语音数据进行特征提取,获取对应的注册语音特征;
基于注册语音特征训练专用UBM模型,将基于专用UBM模型训练出的总体变化子空间作为专用声纹识别模型;
将所述注册语音特征投影到所述专用声纹识别模型上,获取第一i-vector向量;
将所述第一i-vector向量投影到所述专用声纹识别模型上,获取对应的注册i-vector向量;
所述采用与所述用户帐号相对应的专用声纹识别模型对所述验证语音数据进行处理,获取验证声纹特征,包括:
采用所述专用声纹识别模型对所述验证语音数据提取的验证语音特征进行二次投影,获取验证i-vector向量。
8.一种用户帐号解锁装置,其特征在于,包括:
帐号解锁请求获取模块,用于获取帐号解锁请求,所述帐号解锁请求包括用户帐号和验证语音数据;
验证文本数据获取模块,用于采用目标语音静态解码网络对所述验证语音数据进行文本翻译,获取验证文本数据;
第一匹配结果获取模块,用于基于所述用户帐号和所述验证文本数据查询用户信息库,获取第一匹配结果;
第二匹配结果获取模块,用于采用与所述用户帐号相对应的专用声纹识别模型对所述验证语音数据进行处理,获取验证声纹特征,对所述验证声纹特征与预先存储的注册声纹特征进行匹配处理,获取第二匹配结果;
匹配成功处理模块,用于若所述第一匹配结果和所述第二匹配结果均为匹配成功时,对所述用户账号进行解锁处理,以更新所述用户帐号在所述用户信息库中的状态。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述用户帐号解锁方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述用户帐号解锁方法的步骤。
CN201811012228.7A 2018-08-31 2018-08-31 用户账号解锁方法、装置、计算机设备及存储介质 Active CN108989349B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811012228.7A CN108989349B (zh) 2018-08-31 2018-08-31 用户账号解锁方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811012228.7A CN108989349B (zh) 2018-08-31 2018-08-31 用户账号解锁方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN108989349A true CN108989349A (zh) 2018-12-11
CN108989349B CN108989349B (zh) 2022-11-29

Family

ID=64547771

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811012228.7A Active CN108989349B (zh) 2018-08-31 2018-08-31 用户账号解锁方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN108989349B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109493494A (zh) * 2018-12-15 2019-03-19 深圳壹账通智能科技有限公司 基于智能锁的开锁方法、装置、设备及介质
CN110322888A (zh) * 2019-05-21 2019-10-11 平安科技(深圳)有限公司 信用卡解锁方法、装置、设备及计算机可读存储介质
CN110572368A (zh) * 2019-08-13 2019-12-13 平安科技(深圳)有限公司 基于电话渠道的域账号解锁方法、系统和可读存储介质
CN111708861A (zh) * 2020-04-29 2020-09-25 平安科技(深圳)有限公司 基于双重匹配的匹配集获取方法、装置和计算机设备
WO2020199473A1 (zh) * 2019-04-04 2020-10-08 平安科技(深圳)有限公司 语音密码验证方法、装置、存储介质及计算机设备
CN112530441A (zh) * 2020-10-23 2021-03-19 深圳市声扬科技有限公司 合法用户的验证方法、装置、计算机设备和存储介质
CN112751838A (zh) * 2020-12-25 2021-05-04 中国人民解放军陆军装甲兵学院 身份认证方法、装置及身份认证系统
CN112802479A (zh) * 2021-01-07 2021-05-14 北京小米松果电子有限公司 语音验证方法、装置以及存储介质
WO2021232213A1 (zh) * 2020-05-19 2021-11-25 华为技术有限公司 一种声纹识别、注册装置、及跨设备声纹识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971686A (zh) * 2013-01-30 2014-08-06 腾讯科技(深圳)有限公司 自动语音识别方法和系统
CN106778162A (zh) * 2016-11-29 2017-05-31 深圳天珑无线科技有限公司 一种锁定账户的方法及云服务器
CN107068149A (zh) * 2017-03-23 2017-08-18 上海与德科技有限公司 解锁方法及装置
CN107195296A (zh) * 2016-03-15 2017-09-22 阿里巴巴集团控股有限公司 一种语音识别方法、装置、终端及系统
CN107729730A (zh) * 2016-08-11 2018-02-23 中兴通讯股份有限公司 一种设备解锁方法、系统、解锁设备及待解锁设备
CN108305633A (zh) * 2018-01-16 2018-07-20 平安科技(深圳)有限公司 语音验证方法、装置、计算机设备和计算机可读存储介质
CN108417202A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 语音识别方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971686A (zh) * 2013-01-30 2014-08-06 腾讯科技(深圳)有限公司 自动语音识别方法和系统
CN107195296A (zh) * 2016-03-15 2017-09-22 阿里巴巴集团控股有限公司 一种语音识别方法、装置、终端及系统
CN107729730A (zh) * 2016-08-11 2018-02-23 中兴通讯股份有限公司 一种设备解锁方法、系统、解锁设备及待解锁设备
CN106778162A (zh) * 2016-11-29 2017-05-31 深圳天珑无线科技有限公司 一种锁定账户的方法及云服务器
CN107068149A (zh) * 2017-03-23 2017-08-18 上海与德科技有限公司 解锁方法及装置
CN108305633A (zh) * 2018-01-16 2018-07-20 平安科技(深圳)有限公司 语音验证方法、装置、计算机设备和计算机可读存储介质
CN108417202A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 语音识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨凤芹等: "大词汇量连续语音识别中搜索空间的表示及相关搜索方法的研究进展", 《计算机科学》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109493494A (zh) * 2018-12-15 2019-03-19 深圳壹账通智能科技有限公司 基于智能锁的开锁方法、装置、设备及介质
WO2020199473A1 (zh) * 2019-04-04 2020-10-08 平安科技(深圳)有限公司 语音密码验证方法、装置、存储介质及计算机设备
CN110322888A (zh) * 2019-05-21 2019-10-11 平安科技(深圳)有限公司 信用卡解锁方法、装置、设备及计算机可读存储介质
CN110322888B (zh) * 2019-05-21 2023-05-30 平安科技(深圳)有限公司 信用卡解锁方法、装置、设备及计算机可读存储介质
CN110572368A (zh) * 2019-08-13 2019-12-13 平安科技(深圳)有限公司 基于电话渠道的域账号解锁方法、系统和可读存储介质
CN110572368B (zh) * 2019-08-13 2022-07-19 平安科技(深圳)有限公司 基于电话渠道的域账号解锁方法、系统和可读存储介质
CN111708861A (zh) * 2020-04-29 2020-09-25 平安科技(深圳)有限公司 基于双重匹配的匹配集获取方法、装置和计算机设备
CN111708861B (zh) * 2020-04-29 2024-01-23 平安科技(深圳)有限公司 基于双重匹配的匹配集获取方法、装置和计算机设备
WO2021232213A1 (zh) * 2020-05-19 2021-11-25 华为技术有限公司 一种声纹识别、注册装置、及跨设备声纹识别方法
CN112530441A (zh) * 2020-10-23 2021-03-19 深圳市声扬科技有限公司 合法用户的验证方法、装置、计算机设备和存储介质
CN112751838A (zh) * 2020-12-25 2021-05-04 中国人民解放军陆军装甲兵学院 身份认证方法、装置及身份认证系统
CN112802479A (zh) * 2021-01-07 2021-05-14 北京小米松果电子有限公司 语音验证方法、装置以及存储介质

Also Published As

Publication number Publication date
CN108989349B (zh) 2022-11-29

Similar Documents

Publication Publication Date Title
CN108989349A (zh) 用户帐号解锁方法、装置、计算机设备及存储介质
CN108989341A (zh) 语音自主注册方法、装置、计算机设备及存储介质
CN107680600B (zh) 声纹模型训练方法、语音识别方法、装置、设备及介质
CN106098068A (zh) 一种声纹识别方法和装置
Bonastre et al. ALIZE/SpkDet: a state-of-the-art open source software for speaker recognition
Larcher et al. Text-dependent speaker verification: Classifiers, databases and RSR2015
CN106057206B (zh) 声纹模型训练方法、声纹识别方法及装置
KR101323061B1 (ko) 스피커 인증 방법 및 이 방법을 수행하기 위한 컴퓨터 실행가능 명령어를 갖는 컴퓨터 판독가능 매체
US6529871B1 (en) Apparatus and method for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
Das et al. Development of multi-level speech based person authentication system
CN107104803A (zh) 一种基于数字口令与声纹联合确认的用户身份验证方法
Tomashenko et al. The VoicePrivacy 2020 challenge evaluation plan
CN109493494A (zh) 基于智能锁的开锁方法、装置、设备及介质
Saquib et al. A survey on automatic speaker recognition systems
CN109274845A (zh) 智能语音自动回访方法、装置、计算机设备及存储介质
CN109448732B (zh) 一种数字串语音处理方法及装置
CN107346568A (zh) 一种门禁系统的认证方法和装置
Qian et al. Speech sanitizer: Speech content desensitization and voice anonymization
CN110111798A (zh) 一种识别说话人的方法及终端
Beigi Challenges of LargeScale Speaker Recognition
Chin et al. Speaker identification using discriminative features and sparse representation
Büyük Sentence‐HMM state‐based i‐vector/PLDA modelling for improved performance in text dependent single utterance speaker verification
Maes et al. Conversational speech biometrics
ES2239650T3 (es) Identificacion y verificacion de interlocutores.
US6499012B1 (en) Method and apparatus for hierarchical training of speech models for use in speaker verification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant