CN107481736A - 一种声纹身份认证装置及其认证优化方法和系统 - Google Patents
一种声纹身份认证装置及其认证优化方法和系统 Download PDFInfo
- Publication number
- CN107481736A CN107481736A CN201710692088.1A CN201710692088A CN107481736A CN 107481736 A CN107481736 A CN 107481736A CN 201710692088 A CN201710692088 A CN 201710692088A CN 107481736 A CN107481736 A CN 107481736A
- Authority
- CN
- China
- Prior art keywords
- voice signal
- distinguishing
- confidence network
- mel cepstrum
- cepstrum coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000005457 optimization Methods 0.000 title claims abstract description 31
- 230000001755 vocal effect Effects 0.000 title abstract 2
- 239000013598 vector Substances 0.000 claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 33
- 239000000203 mixture Substances 0.000 claims description 62
- 238000012795 verification Methods 0.000 claims description 20
- 238000012937 correction Methods 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 7
- 239000006185 dispersion Substances 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 230000004069 differentiation Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 abstract description 5
- 230000008859 change Effects 0.000 abstract description 2
- 230000003044 adaptive effect Effects 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Lock And Its Accessories (AREA)
Abstract
本发明公开一种声纹身份认证装置的认证优化方法,包括:提取注册语音信号对应的梅尔倒谱系数,并对其进行预设编号绑定;将梅尔倒谱系数作为输入层,将其绑定的编号作为输出层,进行区分深度置信网络训练,并获得其参数空间;将梅尔倒谱系数输入区分深度置信网络,以获得其隐层输出,并将其作为特征向量;将各特征向量作为输入构建高斯混合模型;将任意一个注册语音信号对应的梅尔倒谱系数输入区分深度置信网络,以获得其多个隐层输出,并选择区分度高于预设阈值的隐层输出作为训练数据,对高斯混合模型进行更新。本发明将注册人在后续自然发生变化的语音信号作为训练数据,更新高斯混合模型,使其更加适应于注册人的当前发声状态,保证识别率。
Description
技术领域
本发明涉及信号处理技术领域,特别涉及一种声纹身份认证装置的认证优化方法。本发明还涉及一种声纹身份认证装置的认证优化系统和一种包括上述认证优化系统的声纹身份认证装置。
背景技术
随着入室盗窃事件时常发生,如何升级家居门锁,确保室内的安全,是人们不得不应对的新挑战。
目前,市面上传统的家居门锁基本采用钥匙解锁、密码解锁,由于钥匙易丢失、易复制、特征性不强等特点,同样的,密码解锁存在易遗忘密码,密码易泄露的缺点,容易造成资源浪费的同时给用户带来安全隐患。另外,现有采用其他生物认证技术的智能化设备如指纹识别,虹膜识别等,成本高,具有接触性的不便性、不卫生,例如指纹识别需要将手指放在传感器上、虹膜识别需要将眼睛凑近摄像头,不能提供很好的用户体验且给用户造成经济负担。
在现有技术中,已经出现了基于声纹识别的智能门锁。声纹锁是基于声音的模式识别,跟指纹锁有异曲同工之用。只要主人说出事先设定的暗语就能把锁打开,别人即使说出暗语也打不开,这种声纹锁辨别声音的主要依据是音色。但是,由于大多数声纹锁对声音的识别和验证往往只采用GMM模型(Gaussian Mixture Model,高斯混合模型)方法训练方法,实验表明,只采用GMM说话人识别模型,在训练和测试时的语音上下文内容对识别结果有很大的影响。当目标说话人存在特殊状态,比如生病、情绪异常或者随着年龄声音发生一定变化的时候,对系统识别率影响较大。另外,非目标说话人的识别语音上下文和目标说话人识别语音上下文较接近的时候,用该语音进行目标说话人测试时,错误接受的概率会大大的提高。
因此,如何在目标说明人的声音因自然因素发生一定变化时,保证声纹身份认证装置对目标说话人的识别率,降低错误接受概率,是本领域技术人员亟待解决的技术问题。
发明内容
本发明的目的是提供一种声纹身份认证装置的认证优化方法,能够在目标说明人的声音因自然因素发生一定变化时,保证声纹身份认证装置对目标说话人的识别率,降低错误接受概率。本发明的另一目的是提供一种声纹身份认证装置的认证优化系统以及一种声纹身份认证装置。
为解决上述技术问题,本发明提供一种声纹身份认证装置的认证优化方法,包括:
提取各个注册语音信号对应的梅尔倒谱系数,并对输入的各个所述注册语音信号进行预设编号绑定;
将各个所述注册语音信号对应的梅尔倒谱系数作为输入层,同时将各个所述注册语音信号绑定的编号作为输出层,进行区分深度置信网络训练,并获得所述区分深度置信网络的参数空间;
将各个所述注册语音信号对应的梅尔倒谱系数输入所述区分深度置信网络,以获得所述区分深度置信网络的隐层输出,并将其作为各个所述注册语音信号对应的梅尔倒谱系数的特征向量;
将各所述特征向量作为输入,并以最大期望算法为准构建高斯混合模型;
将任意一个所述注册语音信号对应的梅尔倒谱系数输入所述区分深度置信网络,以获得区分深度置信网络的多个隐层输出,并选择其中若干个区分度高于预设阈值的隐层输出作为训练数据,对所述高斯混合模型进行更新。
优选地,对所述高斯混合模型进行更新之后,还包括:
采集待验证语音信号,并对所述待验证语音信号进行身份认证,若通过认证,则进行开锁操作,反之则保持锁定状态。
优选地,对所述待验证语音信号进行身份认证,具体包括:
提取待验证语音信号对应的梅尔倒谱系数;
将所述验证语音信号对应的梅尔倒谱系数作为输入层输入所述区分深度置信网络,以获得其隐层输出,并将所述隐层输出作为所述验证语音信号对应的梅尔倒谱系数的特征向量;
将所述特征向量与所述高斯混合模型进行对比,并计算所述特征向量分别与各个注册语音信号相匹配的后验概率;
判断各所述后验概率中的最大值是否大于预设阈值,如果是,则待验证语音信号通过验证,反之则未通过验证。
优选地,提取待验证语音信号或各个注册语音信号对应的梅尔倒谱系数,具体包括:对待验证语音信号或各个注册语音信号依次进行预加重、加汉明窗、通过维纳滤波法进行去噪、进行快速傅里叶变换、通过三角带通滤波器进行滤波和离散余弦转换。
优选地,在将各个所述注册语音信号对应的梅尔倒谱系数输入所述区分深度置信网络,以获得所述区分深度置信网络的隐层输出后,还包括:
通过公式:
校核所述区分深度置信网络的隐层输出质量,若D的值大于预设阈值,则隐层输出质量满足预设要求;
其中,D为区分度,Li为各注册语音信号对应的特征向量的对应权值,Si为矩阵S中的元素,S=Sb-Sw,Sb为类内离散度矩阵,Sw为类间离散度矩阵。
优选地,在采集待验证语音信号之前,对所述高斯混合模型进行更新之后,还包括:
采集若干个未训练的语音信号;
若当前未训练的语音信号的数量小于预设阈值,则将各未训练的语音信号所对应的梅尔倒谱系数输入所述区分深度置信网络,以修正其参数空间;
若当前未训练的语音信号的数量超过预设阈值,则将各未训练的语音信号所对应的梅尔倒谱系数输入已修正后的区分深度置信网络,以获取对应的修正特征向量,并利用所述修正特征向量对所述高斯混合模型进行修正。
优选地,对所述高斯混合模型进行修正,具体包括:
设各个未训练的语音信号分别对应T个修正特征向量:
且各个修正特征向量分别对应的似然比为:
{K1,K2,K3,...,KT}
则通过公式:
修正高斯混合模型的均值和方差。
本发明还提供一种声纹身份认证装置的认证优化系统,包括:
预处理模块,用于提取各个注册语音信号对应的梅尔倒谱系数,并对输入的各个所述注册语音信号进行预设编号绑定;
训练模块,用于将各个所述注册语音信号对应的梅尔倒谱系数作为输入层,同时将各个所述注册语音信号绑定的编号作为输出层,进行区分深度置信网络训练,并获得所述区分深度置信网络的参数空间;
矫正模块,将各个所述注册语音信号对应的梅尔倒谱系数输入所述区分深度置信网络,以获得所述区分深度置信网络的隐层输出,并将其作为各个所述注册语音信号对应的梅尔倒谱系数的特征向量;
构建模块,用于将各所述特征向量作为输入,并以最大期望算法为准构建高斯混合模型;
更新模块,用于将任意一个所述注册语音信号对应的梅尔倒谱系数输入所述区分深度置信网络,以获得区分深度置信网络的多个隐层输出,并选择其中若干个区分度高于预设阈值的隐层输出作为训练数据,对所述高斯混合模型进行更新。
优选地,还包括:
采集模块,用于采集待验证语音信号;
验证模块,用于对所述待验证语音信号进行身份认证,若通过认证,则对锁具进行开锁操作,反之则使锁具保持锁定状态。
本发明还提供一种声纹身份认证装置,包括声音采集器、锁具和如上述两项中任一项所述的认证优化系统。
本发明所提供的声纹身份认证装置的认证优化方法,主要包括五个步骤,其中,在第一步中,为提高注册人的注册语音信号的高清晰度和高辨识度,首先对其进行预处理,主要为提取各个注册语音信号对应的梅尔倒谱系数。同时,对输入的各个注册语音信号对应的梅尔倒谱系数进行预设编号绑定,以便后续步骤中的辨识和匹配。在第二步中,主要对各个注册语音信号进行深度处理和矫正,联合区分深度置信网络模式,将各个注册语音信号所对应的梅尔倒谱系数作为输入层,同时将各个注册语音信号所绑定的编号作为输出层,以此进行区分深度置信网络训练,训练完成后即可获得该区分深度置信网络的参数空间。在第三步中,在区分深度置信网络训练完成后,即可将各个注册语音信号所对应的梅尔倒谱系数输入到该区分深度置信网络,以获得该区分深度置信网络的隐层输出,同时可将该隐层输出作为各个注册语音信号所对应的梅尔倒谱系数的特征向量。在第四步中,即可将各个注册语音信号经过区分深度置信网络矫正后获得的特征向量作为输入,以此构建高斯混合模型,同时,为提高精确性和分析质量,在构建高斯混合模型时,一般以最大期望算法为准则进行构建。在第五步中,当高斯混合模型建立完成后,即可正式应用于待验证语音的验证阶段,但考虑注册人的声音因自然因素发生一定变化后,之前建立的高斯混合模型并不适用于当前注册人的注册语音信号的识别,因此在本步骤中,将注册人在声音发生自然变化后的任意一个注册语音信号进行预处理后,将其对应的梅尔倒谱系数输入之前训练的区分深度置信网络,获得该区分深度置信网络的多个隐层输出,同时选择其中区分度高于预设阈值的若干个隐层输出作为训练数据,重新构建高斯混合模型,即对在先的高斯混合模型进行更新。如此,本发明所提供的认证优化方法,可在在先各个注册语音信号已经完成通过区分深度置信网络的矫正、特征向量的提取和以此建立的高斯混合模型的基础上,将注册人在后续自然发生变化的、具有较高质量的语音信号作为训练数据,更新在先的高斯混合模型,使得更新后的高斯混合模型更加适应于注册人的当前发声状态,保证对目标说话人的识别率,降低错误接受概率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明所提供的一种具体实施方式的流程图;
图2为本发明所提供的一种具体实施方式的模块图;
图3为本发明所提供的一种具体实施方式的结构图;
图4为图3的内部结构示意图。
其中,图2—4中:
预处理模块—1,训练模块—2,矫正模块—3,构建模块—4,采集模块—5,验证模块—6,声音采集器—7,按键—8,显示屏—9,语音提示器—10,存储器—11,锁具—12,控制器—13,更新模块—14。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明所提供的一种具体实施方式的流程图。
在本发明所提供的一种具体实施方式中,声纹身份认证装置的认证优化方法主要包括五个步骤,分别为:提取各个注册语音信号对应的梅尔倒谱系数,并对输入的各个所述注册语音信号进行预设编号绑定;将各个所述注册语音信号对应的梅尔倒谱系数作为输入层,同时将各个所述注册语音信号绑定的编号作为输出层,进行区分深度置信网络训练,并获得所述区分深度置信网络的参数空间;将各个所述注册语音信号对应的梅尔倒谱系数输入所述区分深度置信网络,以获得所述区分深度置信网络的隐层输出,并将其作为各个所述注册语音信号对应的梅尔倒谱系数的特征向量;将各所述特征向量作为输入,并以最大期望算法为准构建高斯混合模型;将任意一个所述注册语音信号对应的梅尔倒谱系数输入所述区分深度置信网络,以获得区分深度置信网络的多个隐层输出,并选择其中若干个区分度高于预设阈值的隐层输出作为训练数据,对所述高斯混合模型进行更新。
其中,在第一步中,为提高注册人的注册语音信号的高清晰度和高辨识度,首先对其进行预处理,主要为提取各个注册语音信号对应的梅尔倒谱系数。同时,对输入的各个注册语音信号对应的梅尔倒谱系数进行预设编号绑定,以便后续步骤中的辨识和匹配。具体的,注册人(即智能锁的拥有者)可对身份认证装置按照提示文本说出若干段语音,比如两段对应同一文本的语音等,然后身份认证装置将其录入并保存,录入之后,首先提取各个注册语音信号对应的梅尔倒谱系数,然后可对各个注册语音信号所对应的梅尔倒谱系数与预设编号进行绑定,以便后续步骤中的辨识和匹配。优选地,该编号可由注册人进行手动输入,若输入的编号已经存在,则智能锁提醒用户重新输入新的编号。
在本步骤中,对注册语音信号的预处理具体包括:依次对注册语音信号进行预加重、加汉明窗、通过维纳滤波法进行去噪、进行快速傅里叶变换、通过三角带通滤波器进行滤波和离散余弦转换操作,之后即可获得梅尔倒谱系数(Mel-Frequency CepstralCoefficients,MFCC)。
在第二步中,在注册语音信号的编号绑定结束后,可对各个注册语音信号进行深度处理和矫正,以提高信号质量和高清晰辨识度。具体的,可联合区分深度置信网络模式(DDBN,Division Deep Belief Network,DBN),将各个注册语音信号所对应的梅尔倒谱系数作为输入层,同时将各个注册语音信号所绑定的编号作为输出层,以此进行区分深度置信网络训练,训练完成后即可获得该区分深度置信网络的参数空间。
在第三步中,在区分深度置信网络训练完成后,即可将各个注册语音信号所对应的梅尔倒谱系数输入到该区分深度置信网络,以获得该区分深度置信网络的隐层输出,同时可将该隐层输出作为各个注册语音信号所对应的梅尔倒谱系数的特征向量。如此,通过区分深度置信网络对各个注册语音信号进行深度处理,对其对应的梅尔倒谱系数进行矫正,提高各个注册语音信号的高清晰度和高辨识度。
在第四步中,即可将各个注册语音信号经过区分深度置信网络矫正后获得的特征向量作为输入,以此构建高斯混合模型,同时,为提高精确性和分析质量,在构建高斯混合模型时,一般以最大期望算法为准则进行构建。同时,在高斯混合模型构建完成之后,身份认证装置还可将高斯混合模型与对应编号进行绑定,并且将训练好的高斯混合模型进行存储。
在第五步中,当高斯混合模型建立完成后,即可正式应用于待验证语音的验证阶段,但考虑注册人的声音因自然因素发生一定变化后,之前建立的高斯混合模型并不适用于当前注册人的注册语音信号的识别,因此在本步骤中,将注册人在声音发生自然变化后的任意一个注册语音信号进行预处理后,将其对应的梅尔倒谱系数输入之前训练的区分深度置信网络,获得该区分深度置信网络的多个隐层输出,同时选择其中区分度高于预设阈值的若干个隐层输出作为训练数据,重新构建高斯混合模型,即对在先的高斯混合模型进行更新。
如此,本实施例所提供的认证优化方法,可在在先各个注册语音信号已经完成通过区分深度置信网络的矫正、特征向量的提取和以此建立的高斯混合模型的基础上,将注册人在后续自然发生变化的、具有较高质量的语音信号作为训练数据,更新在先的高斯混合模型,使得更新后的高斯混合模型更加适应于注册人的当前发声状态,保证对目标说话人的识别率,降低错误接受概率。
另外,在对高斯混合模型的更新结束之后,身份认证装置即可开始正式用于对待验证语音信号的识别和认证。具体的,首先需要采集待验证语音信号,并对该待验证语音信号进行身份认证,若通过认证,则说明待验证语音信号的主人为其中一个注册人,此时可对锁具进行开锁操作;反之,则说明待验证语音信号的主任为非注册人,此时身份认证装置使锁具保持锁定状态。
具体的,在对待验证语音信号进行验证识别时,首先可对其进行预处理,将待验证语音信号所对应的梅尔倒谱系数提取出来,而此处的梅尔倒谱系数具体提取方法,可与前述对注册语音信号的梅尔倒谱系数的提取方法相同,此处不再赘述。
然后,再联合区分深度置信网络对待验证语音信号的梅尔倒谱系数进行深度处理,将该梅尔倒谱系数作为输入层输入到区分深度置信网络中,由于该区分深度置信网络在注册语音信号阶段已经具有参数空间,因此在本步骤中可以直接获得区分深度置信网络的隐层输出,并且将该隐层输出作为待验证语音信号的梅尔倒谱系数的特征向量。
接着,由于一般在身份认证装置内储存有预设的若干个注册语音信号,并且各个注册语音信号均预先构建好了高斯混合模型或更新后的高斯混合模型。如此,在本步骤中,即可将经过预处理和深度处理后的待验证语音信号与各个注册语音信号进行对比,具体的,即将上一步骤中获得的特征向量与各个注册语音信号对应的高斯混合模型进行对比,在对比过程中可计算出该特征向量与各个注册语音信号相匹配的后验概率。
最后,在计算出待验证语音信号与各个注册语音信号相匹配的后验概率后,为提高识别速率和质量,可选择各个后验概率中的最大值与预设阈值相比较,若其中的最大值大于(含等于)预设阈值,则说明该后验概率的可信度较高,并且该后验概率所对应的待验证语音信号与其相比较的注册语音信号相匹配的可信度较高,此时,待验证语音信号通过识别验证,可对锁具进行正常开锁操作,反之,则待验证语音信号未通过识别验证,锁具保持锁定状态。如此,本实施例通过区分深度置信网络对待验证语音信号对应的梅尔倒谱系数进行矫正,改善了现有技术中仅使用高斯混合模型对语音文本的依赖性,提高了声纹锁对目标说话人的识别率,降低错误接受概率,保证门锁安全性能。
进一步的,在验证阶段,计算待验证语音信号与各个注册语音信号相匹配的后验概率时,具体的,可设待验证语音信号对应的梅尔倒谱系数的特征向量为注册语音信号集合数量为N,其中一个注册语音信号n,对应的高斯混合模型为λn,待验证语音信号是注册语音信号n的后验概率为:
其中,P(λn)为第n个注册语音信号输入的先验概率,为在所有语音信号同时输入的条件下特征向量的概率。
最后识别结果由最大后验概率准则给出识别结果,即:
一般的,由于各个语音信号的先验概率都是未知的,可设其相等,即:
另外,对于一个确定的观察特征矢量 是一个对所有语音信号都
相等的确定的常数。因此,求取最大后验概率的问题转化为求取最大似然度的问题,即:
为了使模型更具备一般性,可采用对数似然比作为判断标准。设选取注册语音信号n*时待验证语音信号取得最大后验概率,对应的高斯混合模型为其他注册语音信号的高斯混合模型为则对数似然比为:
其中,可以是任意选择的一个其他注册语音信号的高斯混合模型,也可以遍历所有的注册语音信号的高斯混合模型。前者只需要求出的对数似然比大于阈值K即可,后者需要所有求出的对数似然比均大于K才能确认待验证语音信号和注册语音信号属同一个人。
进一步的,若对数似然比大于K*,其中K*>K,说明该段语音信号为优质语音信号,将对应的梅尔倒谱系数标注未训练标志,绑定注册人编号和对数似然比,并且,身份认证装置将待验证语音信号的梅尔倒谱系数进行储存。
另外,考虑到高斯混合模型对训练数据量往往存在较高要求,若数据量不足的话,会大幅影响系统性能和精确度。为此,本实施例在采集待验证语音信号之前,以及对注册语音信号的高斯混合模型进行更新之后,增设了训练数据量采集步骤。
具体的,在身份认证装置处于非注册阶段和非验证阶段时,采集注册人的若干个未训练的语音信号,当前未训练的语音信号的数量小于预设阈值,比如小于50个时,可将各个未训练的语音信号所对应的梅尔倒谱系数直接作为训练数据输入区分深度置信网络,对其参数空间进行修正,以提高区分深度置信网络对待验证语音信号和注册语音信号的梅尔倒谱系数的矫正精确度。同时,若采集了足够的未训练的语音信号时,比如超过50个时,可将各个未训练的语音信号所对应的梅尔倒谱系数输入已修正后的区分深度置信网络,以获取各个未训练的语音信号的梅尔倒谱系数所对应的特征向量,同时利用该特征向量对前述已经构建好并完成更新的高斯混合模型进行修正。
具体的,在对高斯混合模型进行修正时,可设各个未训练的语音信号分别T个修正特征向量:
同时,可各个修正特征向量分别对应的似然比为:
{K1,K2,K3,...,KT}
最后,可通过公式:
对已经构建好且完成更新的高斯混合模型进行均值和方差修正,其中,Li为各个特征向量或修正特征向量所对应的权值。
不仅如此,考虑到无论是待验证语音信号还是注册语音信号,在联合区分深度置信网络进行对应的梅尔倒谱系数矫正时,区分深度置信网络的隐层输出直接影响到特征向量的精确性,为此,本实施例中增设了对区分深度置信网络的隐层输出的质量检测步骤。
具体的,可通过公式:
校核区分深度置信网络的隐层输出质量。
具体的,可以类间距离最大,类内距离最小为衡量标准,定义区分度D。设注册语音信号有K个,以注册语音信号n为例,该注册语音信号拥有特征向量c个,每个特征向量对应的权值为Li,则注册语音信号n特征向量的平均权值为:
定义矩阵S=Sb-Sw,Si为矩阵S中元素,其中,Sb为类内离散度矩阵,Sw是类间离散度矩阵。如此,D越大,说明隐含层所提取的特征分量质量越好,反之则越小。若D的值大于预设阈值,则说明隐层输出质量满足预设要求。
如图2所示,图2为本发明所提供的一种具体实施方式的模块图。
本实施例还提供一种声纹身份认证装置的认证优化系统,主要包括预处理模块1、训练模块2、矫正模块3、构建模块4和更新模块14。
其中,预处理模块1主要用于提取各个注册语音信号对应的梅尔倒谱系数,并对输入的各个所述注册语音信号进行预设编号绑定。训练模块2主要用于将各个注册语音信号对应的梅尔倒谱系数作为输入层,同时将各个注册语音信号绑定的编号作为输出层,进行区分深度置信网络训练,并获得区分深度置信网络的参数空间。矫正模块3主要用于将各个注册语音信号对应的梅尔倒谱系数输入区分深度置信网络,以获得区分深度置信网络的隐层输出,并将其作为各个注册语音信号对应的梅尔倒谱系数的特征向量。构建模块4主要用于将各特征向量作为输入,并以最大期望算法为准构建高斯混合模型。更新模块14主要用于将任意一个注册人在声音发生自然变化后的注册语音信号对应的梅尔倒谱系数输入区分深度置信网络,以获得区分深度置信网络的多个隐层输出,并选择其中若干个区分度高于预设阈值的隐层输出作为训练数据,对高斯混合模型进行更新。
本实施例所提供的认证优化系统对待验证语音信号的认证优化方法与前述相关内容相同,此处不再赘述。
为方便身份认证装置对待验证语音信号进行识别认证,本实施例中还增设了采集模块5和验证模块6,其中,采集模块5主要用于采集待验证语音信号,而验证模块6主要用于对待验证语音信号进行身份认证,若认证通过,则对锁具进行开锁操作,如果没通过验证,则使锁具保持锁定状态。
如图3和图4所示,图3为本发明所提供的一种具体实施方式的结构图,图4为图3的内部结构示意图。
本实施例还提供一种基于声纹识别的智能锁,主要包括声音采集器7、锁具12、按键8、显示屏9、语音提示器10、存储器11、控制器13和认证优化系统。其中,认证优化系统与上述相关内容相同,此处不再赘述。而声音采集器7主要用于收集语音信号,锁具12可为电磁锁,而按键8主要用于供用户输入数字编号等,显示屏9主要用于为用户提供反馈信息,比如语音文本、编号重新输入等,语音提示器10主要用于为用户提供反馈信息,比如语音文本声音信息等,存储器11主要用于存储注册语音信号或待验证语音信号的梅尔倒谱系数所对应的编号等,控制器13主要用于在认证优化系统的识别结果的控制下,控制锁具12进行解锁操作或保持锁定操作。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种声纹身份认证装置的认证优化方法,其特征在于,包括:
提取各个注册语音信号对应的梅尔倒谱系数,并对输入的各个所述注册语音信号进行预设编号绑定;
将各个所述注册语音信号对应的梅尔倒谱系数作为输入层,同时将各个所述注册语音信号绑定的编号作为输出层,进行区分深度置信网络训练,并获得所述区分深度置信网络的参数空间;
将各个所述注册语音信号对应的梅尔倒谱系数输入所述区分深度置信网络,以获得所述区分深度置信网络的隐层输出,并将其作为各个所述注册语音信号对应的梅尔倒谱系数的特征向量;
将各所述特征向量作为输入,并以最大期望算法为准构建高斯混合模型;
将任意一个所述注册语音信号对应的梅尔倒谱系数输入所述区分深度置信网络,以获得区分深度置信网络的多个隐层输出,并选择其中若干个区分度高于预设阈值的隐层输出作为训练数据,对所述高斯混合模型进行更新。
2.根据权利要求1所述的认证优化方法,其特征在于,对所述高斯混合模型进行更新之后,还包括:
采集待验证语音信号,并对所述待验证语音信号进行身份认证,若通过认证,则进行开锁操作,反之则保持锁定状态。
3.根据权利要求2所述的认证优化方法,其特征在于,对所述待验证语音信号进行身份认证,具体包括:
提取待验证语音信号对应的梅尔倒谱系数;
将所述验证语音信号对应的梅尔倒谱系数作为输入层输入所述区分深度置信网络,以获得其隐层输出,并将所述隐层输出作为所述验证语音信号对应的梅尔倒谱系数的特征向量;
将所述特征向量与所述高斯混合模型进行对比,并计算所述特征向量分别与各个注册语音信号相匹配的后验概率;
判断各所述后验概率中的最大值是否大于预设阈值,如果是,则待验证语音信号通过验证,反之则未通过验证。
4.根据权利要求3所述的认证优化方法,其特征在于,提取待验证语音信号或各个注册语音信号对应的梅尔倒谱系数,具体包括:对待验证语音信号或各个注册语音信号依次进行预加重、加汉明窗、通过维纳滤波法进行去噪、进行快速傅里叶变换、通过三角带通滤波器进行滤波和离散余弦转换。
5.根据权利要求4所述的认证优化方法,其特征在于,在将各个所述注册语音信号对应的梅尔倒谱系数输入所述区分深度置信网络,以获得所述区分深度置信网络的隐层输出后,还包括:
通过公式:
<mrow>
<mi>D</mi>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>k</mi>
</munderover>
<msub>
<mi>L</mi>
<mi>i</mi>
</msub>
<mo>*</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
</mrow>
校核所述区分深度置信网络的隐层输出质量,若D的值大于预设阈值,则隐层输出质量满足预设要求;
其中,D为区分度,Li为各注册语音信号对应的特征向量的对应权值,Si为矩阵S中的元素,S=Sb-Sw,Sb为类内离散度矩阵,Sw为类间离散度矩阵。
6.根据权利要求5所述的认证优化方法,其特征在于,在采集待验证语音信号之前,对所述高斯混合模型进行更新之后,还包括:
采集若干个未训练的注音信号;
若当前未训练的语音信号的数量小于预设阈值,则将各未训练的语音信号所对应的梅尔倒谱系数输入所述区分深度置信网络,以修正其参数空间;
若当前未训练的语音信号的数量超过预设阈值,则将各未训练的语音信号所对应的梅尔倒谱系数输入已修正后的区分深度置信网络,以获取对应的修正特征向量,并利用所述修正特征向量对所述高斯混合模型进行修正。
7.根据权利要求6所述的认证优化方法,其特征在于,对所述高斯混合模型进行修正,具体包括:
设各个未训练的语音信号分别对应T个修正特征向量:
<mrow>
<mo>{</mo>
<mrow>
<mover>
<msub>
<mi>X</mi>
<mn>1</mn>
</msub>
<mo>&RightArrow;</mo>
</mover>
<mo>,</mo>
<mover>
<msub>
<mi>X</mi>
<mn>2</mn>
</msub>
<mo>&RightArrow;</mo>
</mover>
<mo>,</mo>
<mover>
<msub>
<mi>X</mi>
<mn>3</mn>
</msub>
<mo>&RightArrow;</mo>
</mover>
<mo>,</mo>
<mn>...</mn>
<mo>,</mo>
<mover>
<msub>
<mi>X</mi>
<mi>T</mi>
</msub>
<mo>&RightArrow;</mo>
</mover>
</mrow>
<mo>}</mo>
</mrow>
且各个修正特征向量分别对应的似然比为:
{K1,K2,K3,...,KT}
则通过公式:
<mrow>
<msub>
<mi>L</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mfrac>
<msub>
<mi>K</mi>
<mi>i</mi>
</msub>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>m</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>T</mi>
</munderover>
<msub>
<mi>K</mi>
<mi>m</mi>
</msub>
</mrow>
</mfrac>
</mrow>
修正高斯混合模型的均值和方差。
8.一种声纹身份认证装置的认证优化系统,其特征在于,包括:
预处理模块,用于提取各个注册语音信号对应的梅尔倒谱系数,并对输入的各个所述注册语音信号进行预设编号绑定;
训练模块,用于将各个所述注册语音信号对应的梅尔倒谱系数作为输入层,同时将各个所述注册语音信号绑定的编号作为输出层,进行区分深度置信网络训练,并获得所述区分深度置信网络的参数空间;
矫正模块,将各个所述注册语音信号对应的梅尔倒谱系数输入所述区分深度置信网络,以获得所述区分深度置信网络的隐层输出,并将其作为各个所述注册语音信号对应的梅尔倒谱系数的特征向量;
构建模块,用于将各所述特征向量作为输入,并以最大期望算法为准构建高斯混合模型;
更新模块,用于将任意一个所述注册语音信号对应的梅尔倒谱系数输入所述区分深度置信网络,以获得区分深度置信网络的多个隐层输出,并选择其中若干个区分度高于预设阈值的隐层输出作为训练数据,对所述高斯混合模型进行更新。
9.根据权利要求8所述的认证优化系统,其特征在于,还包括:
采集模块,用于采集待验证语音信号;
验证模块,用于对所述待验证语音信号进行身份认证,若通过认证,则对锁具进行开锁操作,反之则使锁具保持锁定状态。
10.一种声纹身份认证装置,其特征在于,包括声音采集器、锁具和如权利要求8或9所述的认证优化系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710692088.1A CN107481736A (zh) | 2017-08-14 | 2017-08-14 | 一种声纹身份认证装置及其认证优化方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710692088.1A CN107481736A (zh) | 2017-08-14 | 2017-08-14 | 一种声纹身份认证装置及其认证优化方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107481736A true CN107481736A (zh) | 2017-12-15 |
Family
ID=60600294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710692088.1A Pending CN107481736A (zh) | 2017-08-14 | 2017-08-14 | 一种声纹身份认证装置及其认证优化方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107481736A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108198574A (zh) * | 2017-12-29 | 2018-06-22 | 科大讯飞股份有限公司 | 变声检测方法及装置 |
CN108449323A (zh) * | 2018-02-14 | 2018-08-24 | 深圳市声扬科技有限公司 | 登录认证方法、装置、计算机设备和存储介质 |
CN109256139A (zh) * | 2018-07-26 | 2019-01-22 | 广东工业大学 | 一种基于Triplet-Loss的说话人识别方法 |
CN110379433A (zh) * | 2019-08-02 | 2019-10-25 | 清华大学 | 身份验证的方法、装置、计算机设备及存储介质 |
CN110610720A (zh) * | 2019-09-19 | 2019-12-24 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN114003885A (zh) * | 2021-11-01 | 2022-02-01 | 浙江大学 | 一种智能语音认证方法、系统及可存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060020460A1 (en) * | 2003-07-31 | 2006-01-26 | Fujitsu Limited | Voice authentication system |
CN102324232A (zh) * | 2011-09-12 | 2012-01-18 | 辽宁工业大学 | 基于高斯混合模型的声纹识别方法及系统 |
CN205000857U (zh) * | 2015-05-25 | 2016-01-27 | 清电华科(天津)科技有限公司 | 一种智能防盗门 |
CN106448684A (zh) * | 2016-11-16 | 2017-02-22 | 北京大学深圳研究生院 | 基于深度置信网络特征矢量的信道鲁棒声纹识别系统 |
-
2017
- 2017-08-14 CN CN201710692088.1A patent/CN107481736A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060020460A1 (en) * | 2003-07-31 | 2006-01-26 | Fujitsu Limited | Voice authentication system |
CN102324232A (zh) * | 2011-09-12 | 2012-01-18 | 辽宁工业大学 | 基于高斯混合模型的声纹识别方法及系统 |
CN205000857U (zh) * | 2015-05-25 | 2016-01-27 | 清电华科(天津)科技有限公司 | 一种智能防盗门 |
CN106448684A (zh) * | 2016-11-16 | 2017-02-22 | 北京大学深圳研究生院 | 基于深度置信网络特征矢量的信道鲁棒声纹识别系统 |
Non-Patent Citations (2)
Title |
---|
王正创: "基于MFCC的声纹识别系统研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
马纯艳: "一种基于GMM的汽车声纹识别锁算法研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108198574A (zh) * | 2017-12-29 | 2018-06-22 | 科大讯飞股份有限公司 | 变声检测方法及装置 |
CN108198574B (zh) * | 2017-12-29 | 2020-12-08 | 科大讯飞股份有限公司 | 变声检测方法及装置 |
CN108449323A (zh) * | 2018-02-14 | 2018-08-24 | 深圳市声扬科技有限公司 | 登录认证方法、装置、计算机设备和存储介质 |
CN109256139A (zh) * | 2018-07-26 | 2019-01-22 | 广东工业大学 | 一种基于Triplet-Loss的说话人识别方法 |
CN110379433A (zh) * | 2019-08-02 | 2019-10-25 | 清华大学 | 身份验证的方法、装置、计算机设备及存储介质 |
CN110379433B (zh) * | 2019-08-02 | 2021-10-08 | 清华大学 | 身份验证的方法、装置、计算机设备及存储介质 |
CN110610720A (zh) * | 2019-09-19 | 2019-12-24 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN110610720B (zh) * | 2019-09-19 | 2022-02-25 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN114003885A (zh) * | 2021-11-01 | 2022-02-01 | 浙江大学 | 一种智能语音认证方法、系统及可存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3599606B1 (en) | Machine learning for authenticating voice | |
CN107481736A (zh) | 一种声纹身份认证装置及其认证优化方法和系统 | |
US10476872B2 (en) | Joint speaker authentication and key phrase identification | |
KR102239129B1 (ko) | 심층신경망을 이용하는 종단 간 화자 인식 | |
US11869513B2 (en) | Authenticating a user | |
CN107240397A (zh) | 一种基于声纹识别的智能锁及其语音识别方法和系统 | |
CN109584884B (zh) | 一种语音身份特征提取器、分类器训练方法及相关设备 | |
CN109378002B (zh) | 声纹验证的方法、装置、计算机设备和存储介质 | |
US20060222210A1 (en) | System, method and computer program product for determining whether to accept a subject for enrollment | |
CN106340298A (zh) | 融合内容识别和话者识别的声纹解锁方法 | |
WO2017162053A1 (zh) | 一种身份认证的方法和装置 | |
CN110827453A (zh) | 一种指纹声纹双重认证方法及认证系统 | |
US20210166715A1 (en) | Encoded features and rate-based augmentation based speech authentication | |
WO2020220541A1 (zh) | 一种识别说话人的方法及终端 | |
US11776550B2 (en) | Device operation based on dynamic classifier | |
CN112053694A (zh) | 一种基于cnn与gru网络融合的声纹识别方法 | |
EP3956885A1 (en) | Condition-invariant feature extraction network for speaker recognition | |
Ding et al. | A method to integrate GMM, SVM and DTW for speaker recognition | |
GB2576960A (en) | Speaker recognition | |
CN108694950B (zh) | 一种基于深度混合模型的说话人确认方法 | |
CN113838469A (zh) | 一种身份识别方法、系统及存储介质 | |
JP2001350494A (ja) | 照合装置及び照合方法 | |
Nallagatla et al. | Sequential decision fusion for controlled detection errors | |
Pinheiro et al. | Type-2 fuzzy GMM-UBM for text-independent speaker verification | |
Chakraborty et al. | An improved approach to open set text-independent speaker identification (OSTI-SI) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171215 |
|
RJ01 | Rejection of invention patent application after publication |