CN106033670B - 声纹密码认证方法及系统 - Google Patents

声纹密码认证方法及系统 Download PDF

Info

Publication number
CN106033670B
CN106033670B CN201510121720.8A CN201510121720A CN106033670B CN 106033670 B CN106033670 B CN 106033670B CN 201510121720 A CN201510121720 A CN 201510121720A CN 106033670 B CN106033670 B CN 106033670B
Authority
CN
China
Prior art keywords
feature
tested speech
departure
registration
likelihood score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510121720.8A
Other languages
English (en)
Other versions
CN106033670A (zh
Inventor
殷兵
方昕
魏思
胡国平
王影
胡郁
刘庆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201510121720.8A priority Critical patent/CN106033670B/zh
Publication of CN106033670A publication Critical patent/CN106033670A/zh
Application granted granted Critical
Publication of CN106033670B publication Critical patent/CN106033670B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种声纹密码认证方法及系统,该方法包括:接收登录用户的语音数据,并将所述语音数据作为测试语音数据;提取所述测试语音数据的特征,得到测试语音特征;利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差,得到第一特征域偏差;根据所述第一特征域偏差对所述测试语音特征进行修正,得到第一修正测试语音特征;利用所述第一修正测试语音特征进行声纹认证。本发明可以提升声纹认证的准确度。

Description

声纹密码认证方法及系统
技术领域
本发明涉及声纹认证技术领域,具体涉及一种声纹密码认证方法及系统。
背景技术
声纹密码认证即根据用户输入的语音信号中所反映的说话人生理特征和行为特征的声纹信息自动识别认证说话人身份的技术。相比于其它生物认证,声纹密码认证具有更简便、准确、经济及良好扩展性等优势,已被广泛应用于安全验证控制等领域,如在门禁系统、开机密码、银行支付密码、手机支付等应用场景都发挥着有效作用。然而,认证系统在实际应用中会存在各种跨场景问题,如输入密码设备的更换,注册密码及登录时存在的时间漂移,地点环境的变化(如室内、室外)等,在这些情况下,短短几个字的声纹密码会受到各种信道因素的干扰,导致声纹密码认证效果不理想。因此提高声纹密码系统在不同应用场景下的稳定性对提高声纹密码系统的实用价值有重要意义。
为此,现有技术中采用对提取的声纹特征进行特征补偿的方法来减少不同环境因素的影响,并根据补偿后的声纹特征对说话人进行身份认证。现有的声纹密码认证系统在特征补偿上主要使用因子分析的方法,来降低不同信道对认证结果的影响。而所述方法需要利用注册说话人大量跨场景数据训练信道因子载荷矩阵;如果训练数据不足,则会对声纹密码系统的认证性能带来较大的损失,然而大量数据的获取对于声纹密码系统往往比较困难。此外,预训练的信道因子载荷矩阵只能表示训练时的状态,而无法解决用户登录的时间漂移问题。
发明内容
本发明实施例提供一种声纹密码认证方法及系统,以提升声纹认证的准确度。
为此,本发明实施例提供如下技术方案:
一种声纹密码认证方法,包括:
接收登录用户的语音数据,并将所述语音数据作为测试语音数据;
提取所述测试语音数据的特征,得到测试语音特征;
利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差,得到第一特征域偏差;
根据所述第一特征域偏差对所述测试语音特征进行修正,得到第一修正测试语音特征;
利用所述第一修正测试语音特征进行声纹认证。
优选地,所述利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差包括:
针对所述测试语音特征,采用迭代方式计算所述特征的偏差量,并根据所述偏差量对所述测试语音特征进行补偿,计算补偿后的测试语音特征与所述注册说话人模型的似然度;
在迭代次数达到设定次数或者所述似然度达到稳定后,获取最大似然度对应的偏差量作为当前测试语音特征的最优偏差量;
根据测试语音特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。
优选地,在每次迭代过程中计算所述特征的偏差量包括:
计算所述特征相对于所述注册说话人模型的后验概率;
根据所述注册说话人模型参数,计算所述特征的参数距离;
根据所述后验概率及所述特征的参数距离计算所述特征的偏差量。
优选地,所述根据所述后验概率及所述特征的参数距离计算所述特征的偏差量包括:
以帧为单位,根据当前帧数据对应的所述特征的后验概率及所述参数距离,计算所述特征的偏差量;或者
根据所有帧数据对应的所述特征的后验概率及所述参数距离,计算所述特征的偏差量。
优选地,所述利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差包括:
对描述所述注册说话人模型的高斯分量进行聚类,得到每个聚类包含的高斯分量;
针对所述测试语音特征,采用迭代方式计算所述特征相对于各聚类的偏差量,并根据所述偏差量对所述测试语音特征进行补偿,计算补偿后的测试语音特征与所述注册说话人模型的似然度;
在迭代次数达到设定次数或所述似然度达到稳定后,获取最大似然度对应的偏差量作为所述特征相对于所述聚类的最优偏差量;
根据所述特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。
优选地,在每次迭代过程中计算所述特征相对于各聚类的偏差量包括:
计算所述特征相对于所述注册说话人模型的后验概率;
根据所述注册说话人模型参数,计算所述特征的参数距离;
根据所述后验概率及所述特征的参数距离计算所述特征相对于各聚类的偏差量。
优选地,所述利用第一修正测试语音特征进行声纹认证包括:
计算所述第一修正测试语音特征与所述注册说话人模型的似然度,得到说话人似然度;
计算所述第一修正测试语音特征与通用背景模型的似然度,得到第一背景似然度;
计算所述说话人似然度与所述第一背景似然度的比值,得到第一判决得分;
如果所述第一判决得分大于第一阈值,则确定用户认证通过。
优选地,所述方法还包括:
利用所述测试语音特征及通用背景模型估计测试语音相对于注册语音的特征域偏差,得到第二特征域偏差;
根据所述第二特征域偏差对所述测试语音特征进行修正,得到第二修正测试语音特征;
所述利用所述第一修正测试语音特征进行声纹认证包括:
计算所述第一修正测试语音特征与所述注册说话人模型的似然度,得到说话人似然度;
计算所述第二修正测试语音特征与通用背景模型的似然度,得到第二背景似然度;
计算所述说话人似然度与所述第二背景似然度的比值,得到第二判决得分;
如果所述第二判决得分大于第二阈值,则确定用户认证通过。
一种声纹密码认证系统,包括:
接收模块,用于接收登录用户的语音数据,并将所述语音数据作为测试语音数据;
特征提取模块,用于提取所述测试语音数据的特征,得到测试语音特征;
第一估计模块,用于利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差,得到第一特征域偏差;
第一修正模块,用于根据所述第一特征域偏差对所述测试语音特征进行修正,得到第一修正测试语音特征;
认证模块,用于利用所述第一修正测试语音特征进行声纹认证。
优选地,所述第一估计模块包括:
迭代处理单元,用于针对所述测试语音特征,采用迭代方式计算所述特征的偏差量,根据所述偏差量对所述测试语音特征进行补偿,并计算补偿后的测试语音特征与所述注册说话人模型的似然度;
检测单元,用于检测迭代次数是否达到设定次数或者所述似然度是否达到稳定;
特征域偏差输出单元,用于在所述检测单元检测到迭代次数达到设定次数或者所述似然度达到稳定后,获取最大似然度对应的偏差量作为当前测试语音特征的最优偏差量,并根据测试语音特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。
优选地,所述迭代处理单元在每次迭代过程中根据所述特征相对于所述注册说话人模型的后验概率、以及所述特征与所述注册说话人模型参数的参数距离,计算所述特征的偏差量。
优选地,所述迭代处理单元,以帧为单位,根据当前帧数据对应的所述特征的后验概率及所述参数距离,计算所述特征的偏差量;或者根据所有帧数据对应的所述特征的后验概率及所述参数距离,计算所述特征的偏差量。
优选地,所述第一估计模块包括:
聚类单元,用于对描述所述注册说话人模型的高斯分量进行聚类,得到每个聚类包含的高斯分量;
迭代处理单元,用于针对所述测试语音特征,采用迭代方式计算所述特征相对于各聚类的偏差量,并根据所述偏差量对所述测试语音特征进行补偿,计算补偿后的测试语音特征与所述注册说话人模型的似然度;
检测单元,用于检测迭代次数是否达到设定次数或者所述似然度是否达到稳定;
特征域偏差输出单元,用于在所述检测单元检测到迭代次数达到设定次数或者所述似然度达到稳定后,获取最大似然度对应的偏差量作为所述特征相对于所述聚类的最优偏差量,并根据所述特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。
优选地,所述迭代处理单元在每次迭代过程中根据所述特征相对于所述注册说话人模型的后验概率、以及所述特征与所述注册说话人模型参数的参数距离,计算所述特征的偏差量。
优选地,所述认证模块包括:
说话人似然度计算单元,用于计算所述第一修正测试语音特征与所述注册说话人模型的似然度,得到说话人似然度;
第一背景似然度计算单元,用于计算所述第一修正测试语音特征与通用背景模型的似然度,得到第一背景似然度;
判决得分计算单元,用于计算所述说话人似然度与所述第一背景似然度的比值,得到第一判决得分;
判决单元,用于在所述第一判决得分大于第一阈值时,确定用户认证通过。
优选地,所述系统还包括:
第二估计模块,用于利用所述测试语音特征及通用背景模型估计测试语音相对于注册语音的特征域偏差,得到第二特征域偏差;
第二修正模块,用于根据所述第二特征域偏差对所述测试语音特征进行修正,得到第二修正测试语音特征;
所述认证模块包括:
说话人似然度计算单元,用于计算所述第一修正测试语音特征与所述注册说话人模型的似然度,得到说话人似然度;
第二背景似然度计算单元,用于计算所述第二修正测试语音特征与通用背景模型的似然度,得到第二背景似然度;
判决得分计算单元,用于计算所述说话人似然度与所述第二背景似然度的比值,得到第二判决得分;
判决单元,用于在所述第二判决得分大于第二阈值时,确定用户认证通过。
本发明实施例提供的声纹密码认证方法及系统,利用登录用户的测试语音及注册说话人模型估计测试语音相对于注册语音的特征域偏差,利用所述特征域偏差描述注册语音和测试语音之间的信道偏差,并利用该偏差对测试语音特征进行修正,得到修正后的测试语音特征,然后根据修正后的测语音特征对登录用户进行声纹密码认证。本发明方案可以在没有较多的跨场景训练数据情况下,估计测试语音与注册语音之间的信道偏差,利用所述偏差对登录用户登录时的测试语音进行修正,解决了注册语音和测试语音信道不匹配的问题,及用户登录时间飘移问题,从而有效提升了声纹认证的准确度。
进一步地,本发明方案还提出了利用通用背景模型进行偏差估计,从而降低了测试语音特征与通用背景模型之间的差异,进一步提升了声纹认证的准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例声纹密码认证方法的一种流程图;
图2是本发明实施例声纹密码认证方法的另一种流程图;
图3是本发明实施例声纹密码认证系统的一种结构示意图;
图4是本发明实施例中第一估计模块的一种结构示意图;
图5是本发明实施例中第一估计模块的另一种结构示意图;
图6是本发明实施例声纹密码认证系统的另一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
如图1所示,是本发明实施例声纹密码认证方法的一种流程图,包括以下步骤:
步骤101,接收登录用户的语音数据,并将所述语音数据作为测试语音数据。
步骤102,提取所述测试语音数据的特征,得到测试语音特征。
在本发明实施例中,测试语音特征和注册语音特征可以使用39维的MFCC(Mel-scale Frequency Cepstral Coefficients,Mel频率倒谱系数)作为频谱特征,为了便于描述,后面将测试语音特征用Y={y1,y2,...,yT}表示,其中T表示测试语音数据的帧数,将注册语音特征用X={x1,x2,...,xN}表示,其中N表示注册语音数据的帧数。
步骤103,利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差,得到第一特征域偏差。
在实际应用中,所述第一特征域偏差的估计可以采用多种方法实现,比如:局部偏差估计方法、全局偏差估计方法、高斯聚类偏差估计方法。下面对这三种偏差估计方法分别进行详细说明。
1.局部偏差估计方法
局部偏差估计时,利用测试语音的每一帧数据及注册说话人模型进行偏差估计,具体偏差估计过程如下:
步1)利用初始偏差估计值对当前帧测试语音特征进行局部偏差估计,具体计算方法如下式:
其中,γ(ytc|bt)表示在给定第t帧初始偏差bt条件下,测试语音特征yt对于注册说话人模型的第c个高斯分量的后验概率,yt,d表示第t帧第d维的测试语音特征,μc,d和σc,d分别表示第c个高斯分量第d维的均值和标准差,C表示描述注册说话人模型的高斯总数,为测试语音第t帧数据第d维特征yt,d的参数距离;
步2)利用上面得到的偏差量对当前帧测试语音特征进行补偿,得到当前帧补偿后的测试语音特征;
步3)计算当前帧补偿后的测试语音特征相对于注册说话人模型的似然度;
步4)将当前帧估计得到的偏差量作为初始偏差值,迭代执行步2)至步4),直到达到预先设定的迭代次数或者所述似然度达到稳定;
步5)将迭代过程中最大似然度对应的偏差量作为当前帧估计得到的最优偏差量;
步6)根据各帧测试语音特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。
2.全局偏差估计方法
全局偏差估计方法中,利用所有帧测试语音特征及注册说话人模型进行偏差估计,具体估计过程如下所述:
步1)利用初始偏差估计值进行全局偏差估计,具体计算方法如下式:
其中,T表示测试语音的总帧数;
步2)利用上面估计到的偏差量对所有帧测试语音特征进行补偿,得到补偿后的测试语音特征;
步3)计算补偿后的测试语音特征相对于注册说话人模型的似然度;
步4)将估计得到的偏差量作为初始偏差值,迭代执行步1)至步4),直到达到预先设定的迭代次数或者所述似然度达到稳定;
步5)将迭代过程中最大似然度对应的偏差量作为估计得到的最优偏差量;
步6)根据所述最优偏差量确定测试语音相对于注册语音的特征域偏差。
3.高斯聚类偏差估计方法
高斯聚类偏差估计方法需要先对描述注册说话人模型的高斯分量进行聚类,利用聚类后每类的高斯分量及每类对应的测试语音特征进行偏差估计;具体如下所述:
步1)对描述注册说话人模型的高斯分量进行聚类,得到每个聚类包含的高斯分量;
步2)利用初始偏差估计值进行高斯聚类偏差估计,具体计算方法如下式:
其中,Nk表示第k个高斯聚类中包含的高斯分量总数;
步3)利用上面得到的测试语音特征偏差量对测试语音特征进行补偿,具体补偿时需要首先找到与当前高斯聚类所对应的测试语音特征,然后利用当前高斯聚类估计出的偏差量对所述测试语音特征进行补偿,从而得到补偿后的测试语音特征;
步4)计算补偿后的测试语音特征相对于注册说话人模型的似然度;
步5)将估计得到的偏差量作为初始偏差值,迭代执行步2)至步5),直到达到预先设定的迭代次数或者所述似然度达到稳定;
步6)将迭代过程中最大似然度对应的偏差量作为估计得到的最优偏差量;
步7)根据各聚类对应的测试语音特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。
相应地,在后续利用上述不同方法得到的第一特征域偏差对测试语音特征进行修正时,也有所不同,具体将在后面详细说明。
步骤104,根据所述第一特征域偏差对所述测试语音特征进行修正,得到第一修正测试语音特征。
假设注册语音特征X={x1,x2,...,xN}和测试语音特征Y={y1,y2,...,yT}属于同一发音人朗读相同文本的语音,则由于信道因素的影响,两者的特征矢量之间存在一定的偏差,注册语音特征和测试语音特征两两之间长度可以完全对齐或者采用DTW(DynamicTime Warping,动态时间规整)方法强制对齐,则存在以下对应关系:
xt=yt-bt
其中xt表示第t帧注册语音特征,yt表示第t帧测试语音特征,bt表示第t帧测试语音特征相对于注册语音特征的偏差值。
根据上述不同的偏差估计方法进行偏差估计,得到相应的偏差,利用得到的偏差值对测试语音特征进行修正,具体如下:
1)利用局部偏差估计方法得到的偏差进行修正,如下式:
y′t,d=yt,d-b′t,d
其中,y′t,d表示修正后的第t帧第d维测试语音特征,yt,d表示修正前的第t帧第d维测试语音特征,b′t,d表示第t帧第d维测试语音特征相对于注册语音特征的偏差(即第一特征域偏差)。
2)利用全局偏差估计方法得到的偏差进行修正,如下式:
y′t,d=yt,d-b′d
其中,b′d表示第d维测试语音特征相对于注册语音特征的偏差(即第一特征域偏差)。
3)利用高斯聚类偏差估计方法得到的偏差进行修正,如下式:
y′t,d=yt,d-b′k,d
其中,y′t,d表示修正后的与第k个高斯聚类对应的第t帧第d维的测试语音特征,yt,d表示修正前的与第k个高斯聚类对应的第t帧第d维的测试语音特征,b′k,d表示与第k个高斯聚类对应的第t帧第d维测试语音特征相对于注册语音特征的偏差(即第一特征域偏差)。
步骤105,利用所述第一修正测试语音特征进行声纹认证。
用y′t表示第一修正测试语音特征,声纹认证过程如下:
1)计算所述第一修正测试语音特征与所述注册说话人模型的似然度,得到说话人似然度P(y′t|mspk),其中mspk表示注册说话人模型的均值;
2)计算所述第一修正测试语音特征与通用背景模型的似然度,得到第一背景似然度P(y′t|mubm),其中mubm表示通用背景模型的均值;
3)计算说话人似然度与第一背景似然度的比值,得到第一判决得分score1,即:
4)将第一判决得分score1与预先设定的第一阈值进行比较,如果第一判决得分score1大于第一阈值,则确定用户认证通过。
所述第一阈值可以根据大量数据训练得出或根据经验设定。
可见,本发明实施例提供的声纹密码认证方法,利用登录用户的测试语音及注册说话人模型估计测试语音相对于注册语音的特征域偏差,利用所述特征域偏差描述注册语音和测试语音之间的信道偏差,并利用该偏差对测试语音特征进行修正,得到修正后的测试语音特征,然后根据修正后的测语音特征对登录用户进行声纹密码认证。本发明方案可以在没有较多的跨场景训练数据情况下,估计测试语音与注册语音之间的信道偏差,利用所述偏差对登录用户登录时的测试语音进行修正,解决了注册语音和测试语音信道不匹配的问题,及用户登录时间飘移问题,从而有效提升了声纹认证的准确度
进一步地,本发明方案还提出了利用通用背景模型进行偏差估计,以降低测试语音特征与通用背景模型之间的差异,进一步提升声纹认证的准确度。
如图2所示,是本发明实施例声纹密码认证方法的另一种流程图,包括以下步骤:
步骤201,接收登录用户的语音数据,并将所述语音数据作为测试语音数据。
步骤202,提取所述测试语音数据的特征,得到测试语音特征。
步骤203,利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差,得到第一特征域偏差。
步骤204,利用所述测试语音特征及通用背景模型估计测试语音相对于注册语音的特征域偏差,得到第二特征域偏差。
在计算所述第二特征域偏差时,同样可以利用前面提到的三种不同偏差估计方法,只需将其中的注册说话人模型用通用背景模型替代即可,具体过程不再赘述。
步骤205,分别根据所述第一特征域偏差和所述第二特征域偏差对所述测试语音特征进行修正,得到第一修正测试语音特征及第二修正测试语音特征。
步骤206,根据所述第一修正测试语音特征及第二修正测试语音特征进行声纹认证。
用yt'表示第一修正测试语音特征,用yt”表示第二修正测试语音特征,声纹认证过程如下:
1)分别计算所述第一修正测试语音特征与所述注册说话人模型的似然度,得到说话人似然度P(yt'|mspk),以及所述第二修正测试语音特征与通用背景模型的似然度,得到第二背景似然度P(yt”|mubm);
2)计算说话人似然度P(yt'|mspk)与第二背景似然度P(yt”|mubm)的比值,得到第二判决得分score2,即:
3)将第二判决得分score2与预先设定的第一阈值进行比较,如果第二判决得分score2大于第二阈值,则确定用户认证通过。
所述第二阈值可以根据大量数据训练得出或根据经验设定。而且,所述第二阈值与前面提到的第一阈值可以相同,也可以不同。
相应地,本发明实施例还提供了一种声纹密码认证系统,如图3所示,是该系统的一种结构示意图。
在该实施例中,所述系统包括:
接收模块301,用于接收登录用户的语音数据,并将所述语音数据作为测试语音数据;
特征提取模块302,用于提取所述测试语音数据的特征,得到测试语音特征;
第一估计模块303,用于利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差,得到第一特征域偏差;
第一修正模块304,用于根据所述第一特征域偏差对所述测试语音特征进行修正,得到第一修正测试语音特征;
认证模块305,用于利用所述第一修正测试语音特征进行声纹认证。
上述认证模块305可以包括以下各单元:
说话人似然度计算单元,用于计算所述第一修正测试语音特征与所述注册说话人模型的似然度,得到说话人似然度;
第一背景似然度计算单元,用于计算所述第一修正测试语音特征与通用背景模型的似然度,得到第一背景似然度;
判决得分计算单元,用于计算所述说话人似然度与所述第一背景似然度的比值,得到第一判决得分;
判决单元,用于在所述第一判决得分大于第一阈值时,确定用户认证通过。
在实际应用中,第一估计模块303在进行第一特征域偏差的估计时可以采用多种方式实现,比如:局部偏差估计方法、全局偏差估计方法、高斯聚类偏差估计方法,其中:
局部偏差估计是指利用测试语音的每一帧数据及注册说话人模型进行偏差估计;
全局偏差估计是指利用所有帧测试语音特征及注册说话人模型进行偏差估计;
高斯聚类偏差估计是指先对描述注册说话人模型的高斯分量进行聚类,利用聚类后每类的高斯分量及每类对应的测试语音特征进行偏差估计。
相应地,针对局部偏差估计和全局偏差估计,第一估计模块303可采用如图4所示的结构。
在该实施例中,第一估计模块303包括:
迭代处理单元311,用于针对所述测试语音特征,采用迭代方式计算所述特征的偏差量,根据所述偏差量对所述测试语音特征进行补偿,并计算补偿后的测试语音特征与所述注册说话人模型的似然度。具体地,迭代理处理单元311在每次迭代过程中根据所述特征相对于所述注册说话人模型的后验概率、以及所述特征与所述注册说话人模型参数的参数距离,计算所述特征的偏差量。
检测单元312,用于检测迭代次数是否达到设定次数或者所述似然度是否达到稳定;
特征域偏差输出单元313,用于在所述检测单元312检测到迭代次数达到设定次数或者所述似然度达到稳定后,获取最大似然度对应的偏差量作为当前测试语音特征的最优偏差量,并根据测试语音特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。
上述迭代处理单元311在每次迭代过程中可以根据所述特征相对于所述注册说话人模型的后验概率、以及所述特征与所述注册说话人模型参数的参数距离,计算所述特征的偏差量。而且,可以帧为单位,根据当前帧数据对应的所述特征的后验概率及所述参数距离,计算所述特征的偏差量;或者根据所有帧数据对应的所述特征的后验概率及所述参数距离,计算所述特征的偏差量。具体计算过程可参见前面本发明方法实施例中的描述,在此不再赘述。
相应地,针对高斯聚类偏差估计,第一估计模块303可采用如图5所示的结构。
与图4不同的是,在该实施例中,还包括:聚类单元320,用于对描述所述注册说话人模型的高斯分量进行聚类,得到每个聚类包含的高斯分量。而且,在该实施例中,迭代处理单元321用于针对所述测试语音特征,采用迭代方式计算所述特征相对于各聚类的偏差量,并根据所述偏差量对所述测试语音特征进行补偿,计算补偿后的测试语音特征与所述注册说话人模型的似然度。同样,检测单元312用于检测迭代次数是否达到设定次数或者所述似然度是否达到稳定;特征域偏差输出单元313用于在所述检测单元312检测到迭代次数达到设定次数或者所述似然度达到稳定后,获取最大似然度对应的偏差量作为所述特征相对于所述聚类的最优偏差量,并根据所述特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。
在该实施例中,迭代处理单元321同样可以在每次迭代过程中根据所述特征相对于所述注册说话人模型的后验概率、以及所述特征与所述注册说话人模型参数的参数距离,计算所述特征的偏差量。
如图6所示,是本发明实施例声纹密码认证系统的另一种结构示意图。
与图3所示实施例的区别在于,在该实施例中,所述系统还包括:
第二估计模块403,用于利用所述测试语音特征及通用背景模型估计测试语音相对于注册语音的特征域偏差,得到第二特征域偏差;
第二修正模块404,用于根据所述第二特征域偏差对所述测试语音特征进行修正,得到第二修正测试语音特征;
相应地,在该实施例中,认证模块405可以包括以下各单元:
说话人似然度计算单元,用于计算所述第一修正测试语音特征与所述注册说话人模型的似然度,得到说话人似然度;
第二背景似然度计算单元,用于计算所述第二修正测试语音特征与通用背景模型的似然度,得到第二背景似然度;
判决得分计算单元,用于计算所述说话人似然度与所述第二背景似然度的比值,得到第二判决得分;
判决单元,用于在所述第二判决得分大于第二阈值时,确定用户认证通过。
上述第二估计模块403在计算所述第二特征域偏差时,同样可以利用前面提到的三种不同偏差估计方法,只需将其中的注册说话人模型用通用背景模型替代即可,具体过程不再赘述。
本发明实施例提供的声纹密码认证系统,利用登录用户的测试语音及注册说话人模型估计测试语音相对于注册语音的特征域偏差,利用所述特征域偏差描述注册语音和测试语音之间的信道偏差,并利用该偏差对测试语音特征进行修正,得到修正后的测试语音特征,然后根据修正后的测语音特征对登录用户进行声纹密码认证。本发明方案可以在没有较多的跨场景训练数据情况下,估计测试语音与注册语音之间的信道偏差,利用所述偏差对登录用户登录时的测试语音进行修正,解决了注册语音和测试语音信道不匹配的问题,及用户登录时间飘移问题,从而有效提升了声纹认证的准确度。
进一步地,本发明方案还提出了利用通用背景模型进行偏差估计,从而降低了测试语音特征与通用背景模型之间的差异,进一步提升了声纹认证的准确度。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及系统;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (16)

1.一种声纹密码认证方法,其特征在于,包括:
接收登录用户的语音数据,并将所述语音数据作为测试语音数据;
提取所述测试语音数据的特征,得到测试语音特征;
利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差,得到第一特征域偏差;
根据所述第一特征域偏差对所述测试语音特征进行修正,得到第一修正测试语音特征;
利用所述第一修正测试语音特征进行声纹认证。
2.根据权利要求1所述的方法,其特征在于,所述利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差包括:
针对所述测试语音特征,采用迭代方式计算所述特征的偏差量,并根据所述偏差量对所述测试语音特征进行补偿,计算补偿后的测试语音特征与所述注册说话人模型的似然度;
在迭代次数达到设定次数或者所述似然度达到稳定后,获取最大似然度对应的偏差量作为当前测试语音特征的最优偏差量;
根据测试语音特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。
3.根据权利要求2所述的方法,其特征在于,在每次迭代过程中计算所述特征的偏差量包括:
计算所述特征相对于所述注册说话人模型的后验概率;
根据所述注册说话人模型参数,计算所述特征的参数距离;
根据所述后验概率及所述特征的参数距离计算所述特征的偏差量。
4.根据权利要求3述的方法,其特征在于,所述根据所述后验概率及所述特征的参数距离计算所述特征的偏差量包括:
以帧为单位,根据当前帧数据对应的所述特征的后验概率及所述参数距离,计算所述特征的偏差量;或者
根据所有帧数据对应的所述特征的后验概率及所述参数距离,计算所述特征的偏差量。
5.根据权利要求1所述的方法,其特征在于,所述利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差包括:
对描述所述注册说话人模型的高斯分量进行聚类,得到每个聚类包含的高斯分量;
针对所述测试语音特征,采用迭代方式计算所述特征相对于各聚类的偏差量,并根据所述偏差量对所述测试语音特征进行补偿,计算补偿后的测试语音特征与所述注册说话人模型的似然度;
在迭代次数达到设定次数或所述似然度达到稳定后,获取最大似然度对应的偏差量作为所述特征相对于所述聚类的最优偏差量;
根据所述特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。
6.根据权利要求5所述的方法,其特征在于,在每次迭代过程中计算所述特征相对于各聚类的偏差量包括:
计算所述特征相对于所述注册说话人模型的后验概率;
根据所述注册说话人模型参数,计算所述特征的参数距离;
根据所述后验概率及所述特征的参数距离计算所述特征相对于各聚类的偏差量。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述利用所述第一修正测试语音特征进行声纹认证包括:
计算所述第一修正测试语音特征与所述注册说话人模型的似然度,得到说话人似然度;
计算所述第一修正测试语音特征与通用背景模型的似然度,得到第一背景似然度;
计算所述说话人似然度与所述第一背景似然度的比值,得到第一判决得分;
如果所述第一判决得分大于第一阈值,则确定用户认证通过。
8.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:
利用所述测试语音特征及通用背景模型估计测试语音相对于注册语音的特征域偏差,得到第二特征域偏差;
根据所述第二特征域偏差对所述测试语音特征进行修正,得到第二修正测试语音特征;
所述利用所述第一修正测试语音特征进行声纹认证包括:
计算所述第一修正测试语音特征与所述注册说话人模型的似然度,得到说话人似然度;
计算所述第二修正测试语音特征与通用背景模型的似然度,得到第二背景似然度;
计算所述说话人似然度与所述第二背景似然度的比值,得到第二判决得分;
如果所述第二判决得分大于第二阈值,则确定用户认证通过。
9.一种声纹密码认证系统,其特征在于,包括:
接收模块,用于接收登录用户的语音数据,并将所述语音数据作为测试语音数据;
特征提取模块,用于提取所述测试语音数据的特征,得到测试语音特征;
第一估计模块,用于利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差,得到第一特征域偏差;
第一修正模块,用于根据所述第一特征域偏差对所述测试语音特征进行修正,得到第一修正测试语音特征;
认证模块,用于利用所述第一修正测试语音特征进行声纹认证。
10.根据权利要求9所述的系统,其特征在于,所述第一估计模块包括:
迭代处理单元,用于针对所述测试语音特征,采用迭代方式计算所述特征的偏差量,根据所述偏差量对所述测试语音特征进行补偿,并计算补偿后的测试语音特征与所述注册说话人模型的似然度;
检测单元,用于检测迭代次数是否达到设定次数或者所述似然度是否达到稳定;
特征域偏差输出单元,用于在所述检测单元检测到迭代次数达到设定次数或者所述似然度达到稳定后,获取最大似然度对应的偏差量作为当前测试语音特征的最优偏差量,并根据测试语音特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。
11.根据权利要求10所述的系统,其特征在于,
所述迭代处理单元在每次迭代过程中根据所述特征相对于所述注册说话人模型的后验概率、以及所述特征与所述注册说话人模型参数的参数距离,计算所述特征的偏差量。
12.根据权利要求11所述的系统,其特征在于,
所述迭代处理单元,以帧为单位,根据当前帧数据对应的所述特征的后验概率及所述参数距离,计算所述特征的偏差量;或者根据所有帧数据对应的所述特征的后验概率及所述参数距离,计算所述特征的偏差量。
13.根据权利要求9所述的系统,其特征在于,所述第一估计模块包括:
聚类单元,用于对描述所述注册说话人模型的高斯分量进行聚类,得到每个聚类包含的高斯分量;
迭代处理单元,用于针对所述测试语音特征,采用迭代方式计算所述特征相对于各聚类的偏差量,并根据所述偏差量对所述测试语音特征进行补偿,计算补偿后的测试语音特征与所述注册说话人模型的似然度;
检测单元,用于检测迭代次数是否达到设定次数或者所述似然度是否达到稳定;
特征域偏差输出单元,用于在所述检测单元检测到迭代次数达到设定次数或者所述似然度达到稳定后,获取最大似然度对应的偏差量作为所述特征相对于所述聚类的最优偏差量,并根据所述特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。
14.根据权利要求13所述的系统,其特征在于,
所述迭代处理单元在每次迭代过程中根据所述特征相对于所述注册说话人模型的后验概率、以及所述特征与所述注册说话人模型参数的参数距离,计算所述特征的偏差量。
15.根据权利要求9至14任一项所述的系统,其特征在于,所述认证模块包括:
说话人似然度计算单元,用于计算所述第一修正测试语音特征与所述注册说话人模型的似然度,得到说话人似然度;
第一背景似然度计算单元,用于计算所述第一修正测试语音特征与通用背景模型的似然度,得到第一背景似然度;
判决得分计算单元,用于计算所述说话人似然度与所述第一背景似然度的比值,得到第一判决得分;
判决单元,用于在所述第一判决得分大于第一阈值时,确定用户认证通过。
16.根据权利要求9至14任一项所述的系统,其特征在于,所述系统还包括:
第二估计模块,用于利用所述测试语音特征及通用背景模型估计测试语音相对于注册语音的特征域偏差,得到第二特征域偏差;
第二修正模块,用于根据所述第二特征域偏差对所述测试语音特征进行修正,得到第二修正测试语音特征;
所述认证模块包括:
说话人似然度计算单元,用于计算所述第一修正测试语音特征与所述注册说话人模型的似然度,得到说话人似然度;
第二背景似然度计算单元,用于计算所述第二修正测试语音特征与通用背景模型的似然度,得到第二背景似然度;
判决得分计算单元,用于计算所述说话人似然度与所述第二背景似然度的比值,得到第二判决得分;
判决单元,用于在所述第二判决得分大于第二阈值时,确定用户认证通过。
CN201510121720.8A 2015-03-19 2015-03-19 声纹密码认证方法及系统 Active CN106033670B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510121720.8A CN106033670B (zh) 2015-03-19 2015-03-19 声纹密码认证方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510121720.8A CN106033670B (zh) 2015-03-19 2015-03-19 声纹密码认证方法及系统

Publications (2)

Publication Number Publication Date
CN106033670A CN106033670A (zh) 2016-10-19
CN106033670B true CN106033670B (zh) 2019-11-15

Family

ID=57148830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510121720.8A Active CN106033670B (zh) 2015-03-19 2015-03-19 声纹密码认证方法及系统

Country Status (1)

Country Link
CN (1) CN106033670B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002024182A (ja) * 2000-07-11 2002-01-25 Mitsubishi Electric Corp ユーザ認証システム
JP2003323197A (ja) * 2002-05-02 2003-11-14 Advanced Media Inc 音声による個人認証システム
GB0423969D0 (en) * 2003-10-29 2004-12-01 Vecommerce Ltd Voice recognition system and method
CN102194455A (zh) * 2010-03-17 2011-09-21 博石金(北京)信息技术有限公司 一种与说话内容无关的声纹鉴别认证方法
CN102404287A (zh) * 2010-09-14 2012-04-04 盛乐信息技术(上海)有限公司 用数据复用法确定声纹认证阈值的声纹认证系统及方法
CN102413100A (zh) * 2010-09-25 2012-04-11 盛乐信息技术(上海)有限公司 声纹密码图片提示的声纹认证系统及其实现方法
CN102737634A (zh) * 2012-05-29 2012-10-17 百度在线网络技术(北京)有限公司 一种基于语音的认证方法及装置
CN103310788A (zh) * 2013-05-23 2013-09-18 北京云知声信息技术有限公司 一种语音信息识别方法及系统
CN203982400U (zh) * 2014-03-18 2014-12-03 杭州微纳科技有限公司 个人身份识别装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5692100A (en) * 1994-02-02 1997-11-25 Matsushita Electric Industrial Co., Ltd. Vector quantizer
US20040190688A1 (en) * 2003-03-31 2004-09-30 Timmins Timothy A. Communications methods and systems using voiceprints
US20030065626A1 (en) * 2001-09-28 2003-04-03 Allen Karl H. User verification for conducting health-related transactions
US7278028B1 (en) * 2003-11-05 2007-10-02 Evercom Systems, Inc. Systems and methods for cross-hatching biometrics with other identifying data
CN101226743A (zh) * 2007-12-05 2008-07-23 浙江大学 基于中性和情感声纹模型转换的说话人识别方法
US8332223B2 (en) * 2008-10-24 2012-12-11 Nuance Communications, Inc. Speaker verification methods and apparatus
CN101833843A (zh) * 2009-03-13 2010-09-15 新奥特硅谷视频技术有限责任公司 一种基于声纹认证的监控系统
US9039419B2 (en) * 2009-11-06 2015-05-26 International Business Machines Corporation Method and system for controlling skill acquisition interfaces
CN102129859B (zh) * 2010-01-18 2013-10-30 盛乐信息技术(上海)有限公司 快速信道补偿的声纹认证系统及方法
CN102254551A (zh) * 2010-05-20 2011-11-23 盛乐信息技术(上海)有限公司 声纹认证装置
CN102446505A (zh) * 2010-10-15 2012-05-09 盛乐信息技术(上海)有限公司 联合因子分析方法及联合因子分析声纹认证方法
US9373341B2 (en) * 2012-03-23 2016-06-21 Dolby Laboratories Licensing Corporation Method and system for bias corrected speech level determination
CN102760434A (zh) * 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002024182A (ja) * 2000-07-11 2002-01-25 Mitsubishi Electric Corp ユーザ認証システム
JP2003323197A (ja) * 2002-05-02 2003-11-14 Advanced Media Inc 音声による個人認証システム
GB0423969D0 (en) * 2003-10-29 2004-12-01 Vecommerce Ltd Voice recognition system and method
CN102194455A (zh) * 2010-03-17 2011-09-21 博石金(北京)信息技术有限公司 一种与说话内容无关的声纹鉴别认证方法
CN102404287A (zh) * 2010-09-14 2012-04-04 盛乐信息技术(上海)有限公司 用数据复用法确定声纹认证阈值的声纹认证系统及方法
CN102413100A (zh) * 2010-09-25 2012-04-11 盛乐信息技术(上海)有限公司 声纹密码图片提示的声纹认证系统及其实现方法
CN102737634A (zh) * 2012-05-29 2012-10-17 百度在线网络技术(北京)有限公司 一种基于语音的认证方法及装置
CN103310788A (zh) * 2013-05-23 2013-09-18 北京云知声信息技术有限公司 一种语音信息识别方法及系统
CN203982400U (zh) * 2014-03-18 2014-12-03 杭州微纳科技有限公司 个人身份识别装置

Also Published As

Publication number Publication date
CN106033670A (zh) 2016-10-19

Similar Documents

Publication Publication Date Title
JP7362851B2 (ja) 話者検証のためのニューラルネットワーク
TWI641965B (zh) 基於聲紋識別的身份驗證的方法及系統
CN101465123B (zh) 说话人认证的验证方法和装置以及说话人认证系统
JP6303971B2 (ja) 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム
CN102737633B (zh) 一种基于张量子空间分析的说话人识别方法及其装置
KR102167657B1 (ko) 동적으로 발생된 어구들을 사용하는 세그먼트 기반 화자 검증
KR101323061B1 (ko) 스피커 인증 방법 및 이 방법을 수행하기 위한 컴퓨터 실행가능 명령어를 갖는 컴퓨터 판독가능 매체
Ji et al. Ensemble Learning for Countermeasure of Audio Replay Spoofing Attack in ASVspoof2017.
CN108766445A (zh) 声纹识别方法及系统
US20160019883A1 (en) Dataset shift compensation in machine learning
CN108109613A (zh) 用于智能对话语音平台的音频训练和识别方法及电子设备
CN110178178A (zh) 具有环境自动语音识别(asr)的麦克风选择和多个讲话者分割
CN110544469B (zh) 语音识别模型的训练方法及装置、存储介质、电子装置
CN105895089A (zh) 一种语音识别方法及装置
CN101640043A (zh) 基于多坐标序列内核的说话人识别方法和系统
Morrison Vowel inherent spectral change in forensic voice comparison
CN106128466A (zh) 身份向量处理方法和装置
CN110111798A (zh) 一种识别说话人的方法及终端
US9837080B2 (en) Detection of target and non-target users using multi-session information
Badenhorst et al. Quality measurements for mobile data collection in the developing world
CN106033670B (zh) 声纹密码认证方法及系统
CN106128464B (zh) Ubm分字模型的建立方法、声纹特征生成方法及装置
Li et al. Techware: Speaker and spoken language recognition resources [best of the web]
Herrera-Camacho et al. Design and testing of a corpus for forensic speaker recognition using MFCC, GMM and MLE
Taghia et al. On von-mises fisher mixture model in text-independent speaker identification.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant