CN103730114A - 一种基于联合因子分析模型的移动设备声纹识别方法 - Google Patents

一种基于联合因子分析模型的移动设备声纹识别方法 Download PDF

Info

Publication number
CN103730114A
CN103730114A CN201310751242.XA CN201310751242A CN103730114A CN 103730114 A CN103730114 A CN 103730114A CN 201310751242 A CN201310751242 A CN 201310751242A CN 103730114 A CN103730114 A CN 103730114A
Authority
CN
China
Prior art keywords
user
model
speaker
mobile device
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310751242.XA
Other languages
English (en)
Inventor
李为
朱杰
姚国勤
钱传根
杭乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI JIAO TONG UNIVERSITY WUXI RESEARCH INSTITUTE
Shanghai Jiaotong University
Original Assignee
SHANGHAI JIAO TONG UNIVERSITY WUXI RESEARCH INSTITUTE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI JIAO TONG UNIVERSITY WUXI RESEARCH INSTITUTE filed Critical SHANGHAI JIAO TONG UNIVERSITY WUXI RESEARCH INSTITUTE
Priority to CN201310751242.XA priority Critical patent/CN103730114A/zh
Publication of CN103730114A publication Critical patent/CN103730114A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种基于联合因子分析模型的移动设备声纹识别方法,包括背景模型库训练、用户声纹模型训练(说话人训练)和声纹确认(说话人确认)三大部分,并采用联合因子分析模型构建说话人空间、信道空间和残差空间三个子空间,利用联合因子分析模型技术,将声纹识别系统移植到移动设备端,使其成为一款可代替密码的身份确认应用产品。本发明对声纹识别在移动端应用的短板不足进行补充和改进,对说话人识别中的易变性干扰,包括信道易变性和会话易变性进行估计和补偿,使用户可以通过较短的语音进行训练和识别,并在不同背景环境下也能取得良好的识别效果。

Description

一种基于联合因子分析模型的移动设备声纹识别方法
技术领域
本发明公开了一种基于联合因子分析模型的移动设备声纹识别方法,涉及声纹识别技术领域。
背景技术
随着模式识别技术的发展突破和电子设备运算速度和性能的提高,生物信息识别技术近年来在用户身份确认领域中得到了飞速的发展。相较于传统的密码和PIN码具有容易被窃取和复制的硬伤,生物信息(指纹、声纹等)对于每一个用户来说都具有唯一性,并且极难窃取复制。指纹识别由于其稳定、不易变化、不受外界条件影响等优点,已经被广泛的应用在了打卡器和手持设备等电子产品中。声纹识别技术也被应用在了保险箱解锁、声控门锁和高档轿车发动机启动确认等领域。但在移动设备上,尤其是智能手机端,声纹识别在实用化过程中仍然有许多问题需要解决,主要有以下因素:
1.考虑到效率和便捷等因素,用户用作训练模型的语音不能多于30s,识别时的语音不能多于10s,这就带来训练数据不足的问题。
2.手机设备的易变性。由于不同型号智能手机的音频处理芯片和算法的差异,读取的音频质量会有差别。
3.传输信道的易变性。由于蜂窝通信和VOIP等传输语音的技术对于语音的编解码方式存在差异等。传输信道对语音的质量也有一定程度的畸变和损伤。
4.背景环境的易变性。由于移动设备采集语音的地点无法固定。密闭环境、车厢、机场、户外等,语音不可避免地会携带背景环境的信息,对声纹模型(说话人模型)会有不同程度的影响。
5.声纹的差异。同一用户,说话时的语气、感情、说话的内容和语种的不同也会对说话人模型带来影响。
以上这些因素统称为说话人识别中的易变性(variability)干扰,其中,2、3、4统称为信道易变性(channel variability),5称为会话易变性(session variability)。
为了降低和消除以上这些干扰对声纹识别系统性能的影响,Patrick Kenny等研究者提出了一种在传统的GMM-UBM(高斯混合模型-通用背景噪声模型)声纹识别系统基础上的改进模型算法,称为联合因子分析(Joint Factor Analysis,JFA),如图1所示。该方法在NIST2008说话人识别评比中取得了最优的成绩,并且能够有效处理易变性对声纹模型带来的干扰。
JFA模型是一种两层模型,基于经典的GMM-UBM框架。传统的GMM-UBM模型已经验证,不同声纹模型的差异只在于每个高斯的均值向量,而每个高斯模型的权重和方差都可以直接来源于UBM的取值。传统的UBM-GMM模型抛弃了训练语音中大量的信道信息和会话信息。而JFA模型构建了三个子空间:说话人空间、信道空间和残差空间,最终的高斯均值向量表征为:
Mki=mk+Ukxi+Vkys(i)+Dkzks(i)    (I)
下标的含义如下,k代表第k个高斯模型,i代表某一个语音段(会话),s(i)表示说话人s的某一语音段i。上述公式中:mk表示独立于说话人和会话内容的均值向量,一般是取UBM中的相应高斯的均值向量;Uk表示信道因子负载方阵;Vk表示说话人因子负载方阵;Dk表示说话人残差计量方阵,为对角矩阵;
以上矩阵都需要大量的背景数据进行训练,取得相应的最大似然的模型。这些训练过程都不需要用户参与。而隐藏的用户参数和会话参数需要移动设备采集用户的声音进行训练和最大似然。这些隐藏的用户参数和会话参数为:xi代表依赖于会话的信道因子向量;ys(i)代表依赖于说话人的声纹因子向量;zks(i)表示依赖于说话人和单个高斯模型的残差因子向量;通常认为xi,ys(i)和zks(i)都是符合(0,1)分布的标准高斯分布。JFA通过引入的两个新的子空间(信道空间和残差空间)的参数估计,将信道易变性和会话易变性的影响考量进最终的声纹模型中,从而是最终的高斯均值向量(这个向量表征了每个特定的说话人的声纹特征)。
JFA模型使得声纹识别系统能够很好地抑制和消除移动设备端设备带来的种种易变性干扰,并且拥有很好的鲁棒性。但国内还未有企业和研究机构将这项技术移植到移动设备端。
发明内容
本发明所要解决的技术问题是:针对现有技术的缺陷,提供一种基于联合因子分析模型的移动设备声纹识别方法,利用JFA技术,将声纹识别系统移植到移动设备端,使其成为一款可代替密码的身份确认应用产品。
本发明为解决上述技术问题采用以下技术方案:
一种基于联合因子分析模型的移动设备声纹识别方法,包括背景模型库训练、用户声纹模型训练和声纹确认三部分,并采用联合因子分析模型构建说话人空间、信道空间和残差空间三个子空间;所述联合因子分析模型的高斯均值向量表征为:
Mki=mk+Ukxi+Vkys(i)+Dkzks(i)    (1)
其中,k代表第k个高斯模型,i代表某一个语音段,s(i)表示说话人s的某一语音段,mk表示独立于说话人和会话内容的均值向量,Uk特征信道矩阵,Vk表示特征说话人矩阵,Dk表示残差空间矩阵;xi表示信道因子向量,ys(i)表示依赖于说话人的声纹因子向量,zks(i)表示依赖于说话人和单个高斯模型的残差因子向量;
所述背景模型库训练、用户声纹模型训练和声纹确认,具体如下:
一、背景模型库训练包括以下步骤:
(1)采集移动设备端的语料作为训练数据;
(2)对采集的语料进行平衡性分析,保持语音的长度相似,保证信道易变性和会话易变性的平衡;
(3)对步骤(2)处理后的语料进行前端预处理,包括:
(301)将语音信号分段加窗后经过计算得出梅尔幅倒谱系数的特征参数流;
(302)以特征参数流数据训练通用背景模型(UBM);
(303)将每一个语料利用最大后验准则将其自适应到说话人模型上,再用构建特征音空间的方法对表征特定说话人模型的参数进行降维处理;
(304)通过稀疏数据的EM算法最大化所有训练数据中的整体似然度,针对所有说话人的语音段求统计量,构建特征说话人矩阵Vk
(4)构建特征信道矩阵Uk,针对语料中某个固定说话人的语音段求统计量,特征信道矩阵的维度固定为移动设备端型号类型的数量;
(5)构建残差空间矩阵Dk,完善移动设备端的声纹识别背景模型库建;
二、用户声纹模型训练包括:
用户由移动设备端向服务器端上传一段训练语音,移动设备端对训练语音进行预处理:服务器端对训练语音所对应的声纹模型进行训练和识别,服务器端接收到训练语音后,通过最大似然的办法训练模型,对信道因子向量xi、依赖于说话人的声纹因子向量ys(i)、依赖于说话人和单个高斯模型的残差因子向量zks(i)进行最大后验概率估计,其中,ys(i)用以表征该移动设备端所对应的用户的特征向量,xi和zks(i)用以补偿信道易变性和会话易变性的干扰;
服务器端为移动设备端所对应的用户建立用户声纹模型,并将用户声纹模型返回到用户的移动设备端,用户再上传一段测试语音至服务器端作为测试,并在服务器端进行T-Norm和Z-Norm分数规整,用以放大用户和其他人的分数区别,以此来设定门限值;
三、声纹确认包括:
用户输入自己的一段解锁语音至移动设备,移动设备端进行前端预处理之后将用户解锁语音信息发到服务器端,服务器端采用通用背景模型作为说话人的特征向量,使用用户的解锁语音对残差因子向量zks(i)和信道因子向量xi进行估计,将估计后的参数与该移动设备对应的注册用户的特征向量ys(i)进行结合,计算解锁语音对应的分数;
如果分数高于步骤二得到的门限值则确认用身份,解锁移动设备的使用权限,如果分数低于步骤二得到的门限值则拒绝解锁移动设备。
作为本发明的进一步优选方案,所述移动设备端为手机或平板电脑。
作为本发明的进一步优选方案,在进行用户声纹模型训练时,用户由移动设备端向服务器端上传的训练语音长度大于30秒。
作为本发明的进一步优选方案,在进行用户声纹模型训练时,用户由移动设备端向服务器端上传的测试语音长度为10秒。
作为本发明的进一步优选方案,在进行用户声纹确认时,用户输入的解锁语音长度为5秒至10秒。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:与传统的声纹识别产品相比,本发明可以更好地适应移动设备端带来的易变性干扰,替代和辅助传统的通过密码进行身份确认的方式,为移动用户带来更便捷安全的个人信息保护,并填补市场空白。
附图说明
图1是联合因子分析(Joint Factor Analysis,JFA)模型示意图。
图2是采用本发明所述方法的移动应用端的声纹识别系统的性能指标示意图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
本发明的目的在于利用JFA技术将声纹识别系统移植到移动端,使其成为一款可代替密码的身份确认应用产品。与传统的声纹识别产品相比,该发明可以更好地适应移动设备端带来的易变性干扰,替代和辅助传统的通过密码进行身份确认的方式,为移动用户带来更便捷安全的个人信息保护,并填补市场空白。
本发明是通过以下技术方案实现的:包括背景模型库训练、用户声纹模型训练(说话人训练)和声纹确认(说话人确认)三大部分。
背景模型库训练包括以下步骤:
1、采集移动端的语料。使用大量品牌和型号不同的设备(至少数十种型号,品牌涵盖市面上的主流手机品牌),让前期测试人员(百人以上,男女均衡,并且覆盖各年龄段的比例)在不同时间地点采集自己的声音作为训练语料,并通过不同方式上传至中心服务器端(通过VOIP或者WLAN等)。语料需要进行人工标注,包括手机型号、录音地点、传输方式和说话人的身份(ID)。
2、将采集的语料进行平衡性分析,使前期测试人员的语音长度基本保持相似,并保证信道易变性和会话易变性的基本平衡。
3、对步骤2得到的语料进行前端预处理,包括语音端点检测(VAD)和特征提取,将语音信号分段加窗后进行计算得到梅尔幅倒谱系数(MFCC)的特征参数流。
4、以特征流数据训练通用背景模型(UBM模型),再将每一个前期测试人员的语料提取出来,利用最大后验准则(MAP)自适应到说话人模型上。
根据Reynolds等人的研究表明,表征说话人模型分布信息主要包含在均值向量中,因此基于最大后验概率准则的自适应过程可以仅考虑均值向量的自适应,方差与权重沿袭UBM中的信息不变。将所有的混合高斯函数的均值向量排列起来,就形成一个表征某个特定的前期测试说话人身份均值的超矢量(Supervector)。我们用M0来表征UBM模型的超矢量,则表征某个特定说话人的超矢量Ms可以表示为:
Ms=M0+Δs    (2)
式中,说话人s的均值超矢量Ms是在UBM的均值超矢量M0上加上偏移量Δs来表征。说话人模型的高斯数量为C,每个高斯成分对应的声学特征为F维时,均值超矢量的维度是两者的乘积FC。即在每次训练说话人模型的MAP自适应过程中需要估计出F×C个参数,在短时数据的情况下(≤30s)要估计出如此多的参数相当不准确,而且不同说话人之间的分离度也很差。因此,短时情况下,为了保证每个特定说话人的超矢量的准确性和与其它说话人最大的分离度,需采用构建特征音空间的方法对表征特定说话人的参数进行降维处理。在使用本征音因子的说话人建模中,由于数据的受限,同样仅考虑均值向量的自适应,而方差向量与均值认为是承袭UBM不变。这里每个说话人的均值超矢量Ms与UBM的均值超矢量M0满足以下关系
Ms=M0+Vys    (3)
式中:V对应一个低维的说话人特征音矩阵,它是一个FC×R维的矩阵;ys为Ms在V上投影得到的一个R维的向量。即任何一句单独的语音可以分解作为说话人背景模型的M0与反映每个说话人特征的ys的叠加。在已经利用充足的数据估计出说话人空间V的情况下,对说话人建模就是需要估计出说话人因子向量ys;由于R远小于FC,这样需要估计的参数就少很多。Patrick Kenny等研究者通过一种稀疏数据的EM算法来最大程度地构建说话人空间。这种EM算法就是最大化所有训练数据中的整体似然度。
PΛ(χ(s))=∫PΛ(χ(s)|(x(s)))N(x(s)|0,I)dx(s)    (4)
式中:χ(s)为观测矢量,也就是语音特征矢量;x(s)为满足正态分布的隐藏变量;而N(x(s)|0,I)表示均值为0,方差为单位矩阵的多维标准高斯分布,x(s)表示ys的先验分布向量,与ys的维度相同,都为R。0为R×1的零矩阵。方差I为对角元素为1,其余元素都为0的单位矩阵,也就是说我们认为不同维度之间的协方差为0,这种近似不会对结果造成。对每句具体的话来讲,x(s)就是ys的初始分布,给定了x(s),说话人s的模型生成语音段χ(s)的似然概率为:
P Λ ( χ ( s ) | ( x ( s ) ) ) = Σ c = 1 C N c ( s ) log 1 ( 2 π ) F / 2 | Σ | 1 / 2 - 1 2 Σ c = 1 C Σ t ( x t - M c ( s ) ) T Σ - 1 ( x t - M c ( s ) ) - - - ( 5 )
式中:Mc(s)为说话人模型中的第c个高斯的均值向量,对应于Ms的(c-1)*F+i范围内的子向量,其中i的取值为1≤i≤F;Nc(s)为第c个高斯上分配到的帧数,xt为χ(s)在第t帧的观测序列,即第t帧语音特征向量。
利用EM算法估计出ys的大致流程如下:
(1)对于每个人语音数据的每一帧计算相对UBM模型中每个高斯的状态占有率,每一帧数据直接分配到其状态占有率最大的高斯,计算出统计量Nc(s),Sx,c(s)和
Figure BDA0000450914080000074
N c ( s ) = Σ t γ t ( c )
S x , c ( s ) = Σ t γ t ( c ) ( x t - m c )
S xx T , c ( s ) = diag { Σ t γ t ( c ) ( x t - m c ) ( x t - m c ) T } - - - ( 6 )
其中γt(c)为每一帧是否分配给第c个高斯上的统计量,如果第t帧观测向量xt分配给了第c个高斯,则γt(c)=1,否则γt(c)=0,Nc(s)为第c个高斯上分配到的帧数。
mc为UBM超矢量M0的第c个子向量,取值范围为(c-1)*F+i,其中i的取值为1≤i≤F。
把所有C个Sx,c(s)拼接起来形成超向量Sx(s),是一个FC×1维的超矢量,这是语音相对于UBM超矢量M0的一阶统计量。是一个F×F对角阵,把所有C个Sx,c(s)拼接起来形成一个FC×FC维的对角阵Sx(s),这是语音相对于UBM超矢量M0的二阶统计量.Nc(s)是代表每个高斯上分配的特征参数的个数,用Nc(s)作为主对角线元素,形成一个主对角上数值全相同的FXF对角阵Nc(s),将C个Nc(s)拼接起来,得到一个FC×FC维的对角阵N(s),可以分别看作语音相对于UBM超矢量M0的零阶统计量。
(2)E(Expectation):根据模型参数的初始值(第一次迭代)和对所有训练数据进行处理得到相应的统计量,估计出每一段语音的说话人因子y(s)的一阶统计量与二阶统计量:
ι(s)=I′+VTΣ-1N(s)V    (7)
E[y(s)]=ι-1(s)VTΣ-1Sx(s)    (8)
E[y(s)y(s) T]=E[y(s)]E[y(s) T]+ι-1(S)   (9)
式中,I′为R×R的单位矩阵;N(s)为式(6)中Nc(s)按对角方式连接而成的CF×CF维矩阵,表示为:
Figure BDA0000450914080000081
Sx(s)为式(6)中Sx,c(s)的级联向量,表示为:
S x , 1 ( s ) . . . S x , c ( s )
E[]为求期望值,ι(s)为中间变量。
(3)M(Maximization)步:对式(4)中的模型参数求微分后令其为零,可以得到说话人特征音矩阵的更新公式:
ΣsN(s)VE[y(s)y(s) T]=ΣsSx(s)E[y(s) T]    (10)
经过几次迭代得到新的模型参数V,可以推出它和原来的模型参数V0之间满足关系:
Σ s log P v χ ( s ) ≥ Σ s log P v 0 χ ( s ) - - - ( 11 )
重复步骤(2)、(3)进行迭代,直至收敛到一个很小的范围为止,一般来说,计算4-5次即可构建出一个很好的特征音空间。再多的计算既会带来时间和效率的损耗,也容易造成过拟合的问题,反而生成的特征音空间效果会变差。
考虑在采集语料的步骤我们已经有了足够的前期测试人员,因此我们可以认为构建出的说话人空间可以满足所有用户的最大似然的需要。通常R的值等于或者小于测试者的人数,因此我们构建某个新的说话人所需要的参数就从CF维(参数范围从4万到10万个参数/用户)降为R维(100-200个参数/用户),只需要每个用户提供少量的语音,就能很好地构建属于该用户的均值超向量Ms
(4)有了UBM的超向量均值M0和特征音矩阵V,接下来需要估计特征信道矩阵U。在估计特征信道矩阵,需要固定某个前期测试人员的语音,并将他(她)在各种信道条件下(包括手机型号、背景环境和语音传输方式)的数据混合起来进行训练。在移动端声纹识别系统中,我们将特征信道矩阵的维度固定为手机型号的数量(几十到一百左右)。估计特征信道矩阵和上述特征说话人矩阵)的方法非常类似,区别主要有:估计U时是对固定说话人每段语音求统计量,而估计V时是对说话人所有的语音段求统计量;在计算一阶统计量的时候,此时中心化参数M0(M0是上述的超矢量形式)变成了M0=VE[y(s)]。接下来的估计步骤与特征音的估计基本相似,在此不作赘述。
(5)估计残差空间矩阵D与估计特征说话人矩阵)V相似,都是对说话人的所有语音段求统计量,但在计算一阶统计量的时候,此时中心化参数M0(M0是上述的超矢量形式)变成了M0+VΣsE[y(s)]+UΣsΣtE[xs,h]。接下来的估计步骤也与特征音的估计基本相似,至此,JFA的三个子空间矩阵V(特征说话人矩阵)、U(特征信道矩阵)、D(残差矩阵)都已经估计完善。移动终端的声纹识别背景模型库建立完善。
第一部分的操作与实际的用户无关,移动端声纹识别背景模型存储在软件服务器端,用户只需要在自己的移动设备端安装声纹软件的客户端便可通过软件对手机的访问进行控制。
第二部分为用户声纹模型训练(说话人训练)。第一次使用时用户需保持网络连接,初始化软件,设定用户名,然后上传一段语音作为自己的专属密码,内容由用户自己随意指定,语音长度需在30s以上,训练和数据存储的过程在服务器端进行,手机端对用户的语音进行预处理,包括语音端点检测(VAD)和特征提取。端点检测之后会计算有效语音的长度,如果长度小于30s,则系统将不会进行后续特征提取的处理,要求用户重新进行输入。而将前端处理放在用户手机上进行主要是考虑到了现阶段智能手机的计算能力已经比较强大,甚至与PC接近。而预处理之后的信息相较于原始的语音段容量大为缩减,可以节省移动端的数据消耗,并且由于特征提取是不可逆的,通过特征无法恢复出原始的语音信号,所以传输中也起到了一定的加密效果。而模型训练过程需要的计算量比较庞大,考虑到手机的能耗和训练效率,我们将用户模型的训练和识别过程放在了服务器端。服务器端接收到语音后,通过最大似然的办法训练模型,对信道因子向量xi、依赖于说话人的声纹因子向量ys(i)、依赖于说话人和单个高斯模型的残差因子向量zks(i)进行最大后验概率估计。ys(i)即为表征该移动设备用户的特征向量,而xi和zks(i)可以很好地补偿信道易变性和会话易变性的干扰。
系统在服务器端为新用户建立起了模型之后,会将结果返回到用户的手机端,用户此时需要再输入一段10s左右长度的语音作为测试,通过在服务器端的海量语音进行T-Norm和Z-Norm分数规整,以便放大真正说话人和其他冒领者的分数差,以此来设定门限。
最后一部分是声纹确认部分,声纹识别代替了常规的密码解锁,用户唤醒移动设备时,需要输入自己的一段长度为5-10s左右的语音进行确认,手机端进行前端预处理之后将用户信息发到软件服务器端,服务器端先将用户特征向量置0,即采用UBM模型作为说话人的特征向量,利用用户的测试语音对残差因子向量zks(i)和信道因子向量xi进行估计,将估计后的参数与该设备注册用户的特征向量ys(i)进行结合,再利用这段测试语音进行判别,如果分数高于门限值则确认身份,解锁手机的使用权限,如果分数低于门限则拒绝解锁手机。考虑到在一些极端情况下,如信噪比极低的环境中(例如闹市区、有演出的礼堂等等),或者不适合利用声音进行解锁的环境下,也可以切换到传统的数字密码或图形密码界面来解锁移动设备。
采用本发明所述方法的移动应用端的声纹识别系统的性能指标示意图如图2所示,国际上通常采用等错误率(Equal Error Rate,EER)对声纹识别系统的性能进行评价,从结果看来,该系统在性能表现上虽然没有达到理论上的最好水平,但考虑到实际情况下遇到的可变因素要多于实验室的环境,因此这个结果是可靠稳定的。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (5)

1.一种基于联合因子分析模型的移动设备声纹识别方法,其特征在于:包括背景模型库训练、用户声纹模型训练和声纹确认三部分,并采用联合因子分析模型构建说话人空间、信道空间和残差空间三个子空间;所述联合因子分析模型的高斯均值向量表征为:
Mki=mk+Ukxi+Vkys(i)+Dkzks(i)
其中,k代表第k个高斯模型,i代表某一个语音段,s(i)表示说话人s的某一语音段,mk表示独立于说话人和会话内容的均值向量,Uk特征信道矩阵,Vk表示特征说话人矩阵,Dk表示残差空间矩阵;xi表示信道因子向量,ys(i)表示依赖于说话人的声纹因子向量,zks(i)表示依赖于说话人和单个高斯模型的残差因子向量;
所述背景模型库训练、用户声纹模型训练和声纹确认,具体如下:
一、背景模型库训练包括以下步骤:
(1)采集移动设备端的语料作为训练数据;
(2)对采集的语料进行平衡性分析,保持语音的长度相似,保证信道易变性和会话易变性的平衡;
(3)对步骤(2)处理后的语料进行前端预处理,包括:
(301)将语音信号分段加窗后经过计算得出梅尔幅倒谱系数的特征参数流;
(302)以特征参数流数据训练通用背景模型(UBM);
(303)将每一个语料利用最大后验准则将其自适应到说话人模型上,再用构建特征音空间的方法对表征特定说话人模型的参数进行降维处理;
(304)通过稀疏数据的EM算法最大化所有训练数据中的整体似然度,针对所有说话人的语音段求统计量,构建特征说话人矩阵Vk
(4)构建特征信道矩阵Uk,针对语料中某个固定说话人的语音段求统计量,特征信道矩阵的维度固定为移动设备端型号类型的数量;
(5)构建残差空间矩阵Dk,完善移动设备端的声纹识别背景模型库建;
二、用户声纹模型训练包括:
用户由移动设备端向服务器端上传一段训练语音,移动设备端对训练语音进行预处理:服务器端对训练语音所对应的声纹模型进行训练和识别,服务器端接收到训练语音后,通过最大似然的办法训练模型,对信道因子向量xi、依赖于说话人的声纹因子向量ys(i)、依赖于说话人和单个高斯模型的残差因子向量zks(i)进行最大后验概率估计,其中,ys(i)用以表征该移动设备端所对应的用户的特征向量,xi和zks(i)用以补偿信道易变性和会话易变性的干扰;
服务器端为移动设备端所对应的用户建立用户声纹模型,并将用户声纹模型返回到用户的移动设备端,用户再上传一段测试语音至服务器端作为测试,并在服务器端进行T-Norm和Z-Norm分数规整,用以放大用户和其他人的分数区别,以此来设定门限值;
三、声纹确认包括:
用户输入自己的一段解锁语音至移动设备,移动设备端进行前端预处理之后将用户解锁语音信息发到服务器端,服务器端采用通用背景模型作为说话人的特征向量,使用用户的解锁语音对残差因子向量zks(i)和信道因子向量xi进行估计,将估计后的参数与该移动设备对应的注册用户的特征向量ys(i)进行结合,计算解锁语音对应的分数;
如果分数高于步骤二得到的门限值则确认用身份,解锁移动设备的使用权限,如果分数低于步骤二得到的门限值则拒绝解锁移动设备。
2.如权利要求1所述的一种基于联合因子分析模型的移动设备声纹识别方法,其特征在于:所述移动设备端为手机或平板电脑。
3.如权利要求1所述的一种基于联合因子分析模型的移动设备声纹识别方法,其特征在于:在进行用户声纹模型训练时,用户由移动设备端向服务器端上传的训练语音长度大于30秒。
4.如权利要求1所述的一种基于联合因子分析模型的移动设备声纹识别方法,其特征在于:在进行用户声纹模型训练时,用户由移动设备端向服务器端上传的测试语音长度为10秒。
5.如权利要求1所述的一种基于联合因子分析模型的移动设备声纹识别方法,其特征在于:在进行用户声纹确认时,用户输入的解锁语音长度为5秒至10秒。
CN201310751242.XA 2013-12-31 2013-12-31 一种基于联合因子分析模型的移动设备声纹识别方法 Pending CN103730114A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310751242.XA CN103730114A (zh) 2013-12-31 2013-12-31 一种基于联合因子分析模型的移动设备声纹识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310751242.XA CN103730114A (zh) 2013-12-31 2013-12-31 一种基于联合因子分析模型的移动设备声纹识别方法

Publications (1)

Publication Number Publication Date
CN103730114A true CN103730114A (zh) 2014-04-16

Family

ID=50454162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310751242.XA Pending CN103730114A (zh) 2013-12-31 2013-12-31 一种基于联合因子分析模型的移动设备声纹识别方法

Country Status (1)

Country Link
CN (1) CN103730114A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103994820A (zh) * 2014-04-21 2014-08-20 中国科学院上海微系统与信息技术研究所 一种基于微孔径麦克风阵列的运动目标识别方法
CN105139855A (zh) * 2014-05-29 2015-12-09 哈尔滨理工大学 一种两阶段稀疏分解的说话人识别方法与装置
CN105245497A (zh) * 2015-08-31 2016-01-13 刘申宁 一种身份认证方法及装置
WO2016015687A1 (zh) * 2014-07-31 2016-02-04 腾讯科技(深圳)有限公司 声纹验证方法及装置
CN105679323A (zh) * 2015-12-24 2016-06-15 讯飞智元信息科技有限公司 一种号码发现方法及系统
CN105719370A (zh) * 2016-01-18 2016-06-29 上海交通大学 停车场声纹验证系统及其方法
CN106297807A (zh) * 2016-08-05 2017-01-04 腾讯科技(深圳)有限公司 训练声纹识别系统的方法和装置
WO2017080242A1 (zh) * 2015-11-10 2017-05-18 乐视控股(北京)有限公司 一种语音控制观看视频权限的方法和装置
CN107342077A (zh) * 2017-05-27 2017-11-10 国家计算机网络与信息安全管理中心 一种基于因子分析的说话人分段聚类方法及系统
CN107623614A (zh) * 2017-09-19 2018-01-23 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
WO2018149077A1 (zh) * 2017-02-16 2018-08-23 平安科技(深圳)有限公司 声纹识别方法、装置、存储介质和后台服务器
CN108766444A (zh) * 2018-04-09 2018-11-06 平安科技(深圳)有限公司 用户身份验证方法、服务器及存储介质
CN109273002A (zh) * 2018-10-26 2019-01-25 蔚来汽车有限公司 车辆配置方法、系统、车机以及车辆
CN110033774A (zh) * 2017-12-07 2019-07-19 交互数字Ce专利控股公司 用于隐私保护型语音交互的设备和方法
CN110289003A (zh) * 2018-10-10 2019-09-27 腾讯科技(深圳)有限公司 一种声纹识别的方法、模型训练的方法以及服务器
CN111599346A (zh) * 2020-05-19 2020-08-28 科大讯飞股份有限公司 一种说话人聚类方法、装置、设备及存储介质
CN111833852A (zh) * 2020-06-30 2020-10-27 苏州思必驰信息科技有限公司 一种声学模型的训练方法、装置以及计算机可读存储介质
CN112185395A (zh) * 2020-09-04 2021-01-05 哈尔滨工业大学(深圳) 一种基于差分隐私的联邦声纹识别方法
CN113495715A (zh) * 2020-04-08 2021-10-12 北京意锐新创科技有限公司 适用于支付设备管控平台的语音下发方法和装置
CN113948089A (zh) * 2020-06-30 2022-01-18 北京猎户星空科技有限公司 声纹模型训练和声纹识别方法、装置、设备及介质
CN114093383A (zh) * 2022-01-17 2022-02-25 北京远鉴信息技术有限公司 一种参会者语音的确定方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102270451A (zh) * 2011-08-18 2011-12-07 安徽科大讯飞信息科技股份有限公司 说话人识别方法及系统
CN102446505A (zh) * 2010-10-15 2012-05-09 盛乐信息技术(上海)有限公司 联合因子分析方法及联合因子分析声纹认证方法
WO2013072791A1 (en) * 2011-11-16 2013-05-23 International Business Machines Corporation Joint factor analysis scoring for speech processing systems

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102446505A (zh) * 2010-10-15 2012-05-09 盛乐信息技术(上海)有限公司 联合因子分析方法及联合因子分析声纹认证方法
CN102270451A (zh) * 2011-08-18 2011-12-07 安徽科大讯飞信息科技股份有限公司 说话人识别方法及系统
WO2013072791A1 (en) * 2011-11-16 2013-05-23 International Business Machines Corporation Joint factor analysis scoring for speech processing systems

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GLEMBEK,O.等: ""comparison of scoring methods used in speaker recognition with Joint Factor Analysis"", 《IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS,SPEECH AND SIGNAL PROCESSING,2009.ICASSP 2009》 *
杨海等: ""联合因子分析和稀疏表示在稳健性说话人确认中的应用"", 《声学学报》 *

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103994820A (zh) * 2014-04-21 2014-08-20 中国科学院上海微系统与信息技术研究所 一种基于微孔径麦克风阵列的运动目标识别方法
CN103994820B (zh) * 2014-04-21 2016-05-11 中国科学院上海微系统与信息技术研究所 一种基于微孔径麦克风阵列的运动目标识别方法
CN105139855A (zh) * 2014-05-29 2015-12-09 哈尔滨理工大学 一种两阶段稀疏分解的说话人识别方法与装置
WO2016015687A1 (zh) * 2014-07-31 2016-02-04 腾讯科技(深圳)有限公司 声纹验证方法及装置
US10276168B2 (en) 2014-07-31 2019-04-30 Tencent Technology (Shenzhen) Company Limited Voiceprint verification method and device
CN105245497A (zh) * 2015-08-31 2016-01-13 刘申宁 一种身份认证方法及装置
CN105245497B (zh) * 2015-08-31 2019-01-04 刘申宁 一种身份认证方法及装置
WO2017080242A1 (zh) * 2015-11-10 2017-05-18 乐视控股(北京)有限公司 一种语音控制观看视频权限的方法和装置
CN105679323B (zh) * 2015-12-24 2019-09-03 讯飞智元信息科技有限公司 一种号码发现方法及系统
CN105679323A (zh) * 2015-12-24 2016-06-15 讯飞智元信息科技有限公司 一种号码发现方法及系统
CN105719370B (zh) * 2016-01-18 2018-06-12 上海交通大学 停车场声纹验证系统及其方法
CN105719370A (zh) * 2016-01-18 2016-06-29 上海交通大学 停车场声纹验证系统及其方法
CN106297807A (zh) * 2016-08-05 2017-01-04 腾讯科技(深圳)有限公司 训练声纹识别系统的方法和装置
US10854207B2 (en) 2016-08-05 2020-12-01 Tencent Technology (Shenzhen) Company Limited Method and apparatus for training voiceprint recognition system
EP3584790A4 (en) * 2017-02-16 2021-01-13 Ping An Technology (Shenzhen) Co., Ltd. VOICEPRINT RECOGNITION METHOD, DEVICE, STORAGE MEDIUM AND BACKGROUND SERVER
WO2018149077A1 (zh) * 2017-02-16 2018-08-23 平安科技(深圳)有限公司 声纹识别方法、装置、存储介质和后台服务器
US10629209B2 (en) 2017-02-16 2020-04-21 Ping An Technology (Shenzhen) Co., Ltd. Voiceprint recognition method, device, storage medium and background server
CN107342077A (zh) * 2017-05-27 2017-11-10 国家计算机网络与信息安全管理中心 一种基于因子分析的说话人分段聚类方法及系统
US10832686B2 (en) 2017-09-19 2020-11-10 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for pushing information
CN107623614A (zh) * 2017-09-19 2018-01-23 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN110033774A (zh) * 2017-12-07 2019-07-19 交互数字Ce专利控股公司 用于隐私保护型语音交互的设备和方法
CN108766444A (zh) * 2018-04-09 2018-11-06 平安科技(深圳)有限公司 用户身份验证方法、服务器及存储介质
CN110289003B (zh) * 2018-10-10 2021-10-29 腾讯科技(深圳)有限公司 一种声纹识别的方法、模型训练的方法以及服务器
CN110289003A (zh) * 2018-10-10 2019-09-27 腾讯科技(深圳)有限公司 一种声纹识别的方法、模型训练的方法以及服务器
CN109273002A (zh) * 2018-10-26 2019-01-25 蔚来汽车有限公司 车辆配置方法、系统、车机以及车辆
CN109273002B (zh) * 2018-10-26 2022-06-10 蔚来(安徽)控股有限公司 车辆配置方法、系统、车机以及车辆
CN113495715A (zh) * 2020-04-08 2021-10-12 北京意锐新创科技有限公司 适用于支付设备管控平台的语音下发方法和装置
CN111599346A (zh) * 2020-05-19 2020-08-28 科大讯飞股份有限公司 一种说话人聚类方法、装置、设备及存储介质
CN111599346B (zh) * 2020-05-19 2024-02-20 科大讯飞股份有限公司 一种说话人聚类方法、装置、设备及存储介质
CN111833852A (zh) * 2020-06-30 2020-10-27 苏州思必驰信息科技有限公司 一种声学模型的训练方法、装置以及计算机可读存储介质
CN113948089A (zh) * 2020-06-30 2022-01-18 北京猎户星空科技有限公司 声纹模型训练和声纹识别方法、装置、设备及介质
US11170786B1 (en) 2020-09-04 2021-11-09 Harbin Institute Of Technology (Shenzhen) (Shenzhen Institute Of Science And Technology Innovation, Harbin Institute Of Technology) Federated speaker verification method based on differential privacy
CN112185395B (zh) * 2020-09-04 2021-04-27 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于差分隐私的联邦声纹识别方法
CN112185395A (zh) * 2020-09-04 2021-01-05 哈尔滨工业大学(深圳) 一种基于差分隐私的联邦声纹识别方法
CN114093383A (zh) * 2022-01-17 2022-02-25 北京远鉴信息技术有限公司 一种参会者语音的确定方法、装置、电子设备及存储介质
CN114093383B (zh) * 2022-01-17 2022-04-12 北京远鉴信息技术有限公司 一种参会者语音的确定方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN103730114A (zh) 一种基于联合因子分析模型的移动设备声纹识别方法
KR101995547B1 (ko) 화자 검증을 위한 신경망들
Dey et al. Speech biometric based attendance system
CN102024455B (zh) 说话人识别系统及其方法
CN102737633B (zh) 一种基于张量子空间分析的说话人识别方法及其装置
Bonastre et al. ALIZE/SpkDet: a state-of-the-art open source software for speaker recognition
EP1989701B1 (en) Speaker authentication
WO2019210796A1 (zh) 语音识别方法、装置、存储介质及电子设备
CN108231067A (zh) 基于卷积神经网络与随机森林分类的声音场景识别方法
CN103971690A (zh) 一种声纹识别方法和装置
CN109903774A (zh) 一种基于角度间隔损失函数的声纹识别方法
CN107680600A (zh) 声纹模型训练方法、语音识别方法、装置、设备及介质
CN107886957A (zh) 一种结合声纹识别的语音唤醒方法及装置
CN108109613A (zh) 用于智能对话语音平台的音频训练和识别方法及电子设备
CN108986824A (zh) 一种回放语音检测方法
Fang et al. Channel adversarial training for cross-channel text-independent speaker recognition
CN102238190A (zh) 身份认证方法及系统
Alam et al. A confidence-based late fusion framework for audio-visual biometric identification
CN106991312B (zh) 基于声纹识别的互联网反欺诈认证方法
CN105096955A (zh) 一种基于模型生长聚类的说话人快速识别方法及系统
CN108091326A (zh) 一种基于线性回归的声纹识别方法及系统
CN102446505A (zh) 联合因子分析方法及联合因子分析声纹认证方法
CN116049412B (zh) 文本分类方法、模型训练方法、装置及电子设备
CN107633845A (zh) 一种鉴别式局部信息距离保持映射的说话人确认方法
CN108417207A (zh) 一种深度混合生成网络自适应方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20170419

AD01 Patent right deemed abandoned