CN103226951A - 基于模型顺序自适应技术的说话人确认系统创建方法 - Google Patents

基于模型顺序自适应技术的说话人确认系统创建方法 Download PDF

Info

Publication number
CN103226951A
CN103226951A CN2013101390965A CN201310139096A CN103226951A CN 103226951 A CN103226951 A CN 103226951A CN 2013101390965 A CN2013101390965 A CN 2013101390965A CN 201310139096 A CN201310139096 A CN 201310139096A CN 103226951 A CN103226951 A CN 103226951A
Authority
CN
China
Prior art keywords
speaker
ubm
sigma
model
background model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013101390965A
Other languages
English (en)
Other versions
CN103226951B (zh
Inventor
王军
王东
邬晓钧
郑方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201310139096.5A priority Critical patent/CN103226951B/zh
Publication of CN103226951A publication Critical patent/CN103226951A/zh
Application granted granted Critical
Publication of CN103226951B publication Critical patent/CN103226951B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种基于模型顺序自适应技术的说话人确认系统创建方法,包括步骤:依次录入第1至n个说话人的语音,其中,j依次取1到n执行如下步骤:录入第j个说话人的语音时,创建第j个说话人的通用背景模型、弱说话人模型,且对已建立的各个说话人的弱说话人模型进行更新。当第n个说话人的语音录入完毕后,第n个说话人的通用背景模型,及第1个至第n个说话人的弱说话人模型分别最后更新得到的说话人模型构成说话人确认系统。本发明基于初始通用背景模型,利用依次录入的n个说话人语音中包含的信道信息和说话人充分统计信息,顺序自适应出相应说话人的通用背景模型和说话人模型,从而创建出用于说话人身份确认的说话人确认系统。

Description

基于模型顺序自适应技术的说话人确认系统创建方法
技术领域
本发明涉及一种基于模型顺序自适应技术实现的、用于说话人身份确认的说话人确认系统的创建方法,属于计算机及信息服务技术领域。
背景技术
说话人确认技术属于生物识别技术的一种,是利用声音波形中所包含的表征说话人个性特性的信息进行说话人身份确认的技术,截止目前,说话人确认技术已被广泛地应用到了诸如金融认证、公安刑侦破案、国防监听、个性化服务等各个领域。
说话人确认过程主要包括声纹建模和识别。目前,声纹建模通常采用高斯混合模型和通用背景模型(GMM-UBM)框架,即以基于数百人、男女均衡、信道匹配的说话人语音进行充分训练的通用背景模型(UBM)作为基准,其中的每个说话人基于其数十秒的语音在该通用背景模型上的适应而得到反映其自身特征的高斯混合模型(GMM),从而构建出用于进行说话人身份确认的说话人确认系统,如图1所示。
但是,在实际实施中可以发现,上述基于高斯混合模型和通用背景模型构建的说话人确认系统在进行说话人身份确认时存在如下缺陷:
由于说话人语音一般比较短,难以覆盖整个说话人声学空间,因此,关于每个说话人的高斯混合模型一般都是基于该说话人语音在通用背景模型上自适应得到,说话人语音覆盖到的声学空间由说话人语音得到,未能覆盖到的声学空间由通用背景模型得到,其中,自适应一般是改变模型的均值参数。在实际中,通用背景模型基于数百人、男女均衡、信道匹配、数小时语音的训练后才被认为可充分覆盖说话人声学空间,而这种假设的前提是,高斯混合模型在通用背景模型上自适应所产生的偏移量能够且仅反映说话人的特性。这样就要求通用背景模型的训练在背景环境、信道上均要与说话人语音的背景环境、信道保持一致,否则将极大降低说话人识别性能。然而,实际应用环境下的信道是经常发生变化的,比如由电话信道转为手机信道,移动基站调整信道参数等。一旦信道发生变化,原先的通用背景模型必然发生信道不匹配的问题,导致说话人识别性能的下降。而重新训练通用背景模型,一方面,获取大量与新信道一致的说话人语音对说话人确认系统的实时性消耗是极大的,且会浪费大量人力物力,另一方面,获取大量与新信道一致的说话人语音很难,有时甚至不可能实现。目前,针对信道补偿的说话人确认技术主要有本征信道、因子分析等,但这些技术均需要大量预知的信道数据才能进行计算,因此实现起来十分困难。
发明内容
本发明的目的在于提供一种基于模型顺序自适应技术的说话人确认系统创建方法,该方法针对实际实施中说话人顺序录入的特点,基于模型顺序自适应技术自适应出关于各个说话人的通用背景模型和说话人模型,从而创建出了用于说话人身份确认的说话人确认系统。
为了实现上述目的,本发明采用了以下技术方案:
一种基于模型顺序自适应技术的说话人确认系统创建方法,其特征在于,它包括如下步骤:
步骤一:依次录入第1个至第n个说话人的语音,其中:
j依次取1到n执行如下步骤:录入第j个说话人的语音时,基于第j个说话人的语音以及在第j个说话人之前进行录入的j-1个说话人中各个说话人的通用背景模型的说话人充分统计信息,通过初始通用背景模型自适应出第j个说话人的通用背景模型,并且,基于该第j个说话人的语音,通过该第j个说话人的通用背景模型自适应出第j个说话人的弱说话人模型,并且,已建立的各个说话人的弱说话人模型分别基于自身的说话人充分统计信息,通过第j个说话人的通用背景模型进行更新;
步骤二:当第n个说话人的语音录入完毕后,第n个说话人的通用背景模型,以及第1个至第n个说话人的弱说话人模型分别最后更新得到的说话人模型构成说话人确认系统。
每个说话人的通用背景模型的所述说话人充分统计信息为该说话人在所述初始通用背景模型上的各个混合的贡献率累加值及贡献率加权值。
所述基于所述第j个说话人的语音以及在第j个说话人之前进行录入的j-1个说话人中各个说话人的通用背景模型的说话人充分统计信息,通过初始通用背景模型自适应出第j个说话人的通用背景模型,1≤j≤n,包括如下步骤:
通过下式1-1)和1-2)计算第j个说话人的通用背景模型的说话人充分统计信息,该说话人充分统计信息包括第j个说话人在初始通用背景模型上的各个混合的贡献率累加值
Figure BDA00003075055800021
及贡献率加权值
Figure BDA00003075055800022
r ubm j ( c ) = Σ i N ( x j , i ; μ ubm 0 ( c ) , σ ubm 0 ( c ) ) Σ c N ( x j , i ; μ ubm 0 ( c ) , σ ubm 0 ( c ) ) - - - 1 - 1 )
z ubm j ( c ) = Σ i N ( x j , i ; μ ubm 0 ( c ) , σ ubm 0 ( c ) ) Σ c N ( x j , i ; μ ubm 0 ( c ) , σ ubm 0 ( c ) ) x j , i - - - 1 - 2 )
在式1-1)、1-2)中,xj,i为将第j个说话人的语音分为若干帧中的第i帧数据,c为初始通用背景模型的第c个混合,1≤c≤m,
Figure BDA000030750558000318
分别为初始通用背景模型上第c个混合的均值、方差参数,表示第j个说话人的第i帧数据在初始通用背景模型上第c个混合的后验概率;
通过下式1-3)求出第j个说话人的通用背景模型上的各个混合的均值参数
Figure BDA00003075055800035
从而构建出第j个说话人的通用背景模型:
μ ubm j ( c ) = Σ j = 1 j z ubm j ( c ) + σ ubm 0 ( c ) σ ^ ubm μ ubm 0 ( c ) Σ j = 1 j r ubm j ( c ) + σ ubm 0 ( c ) σ ^ ubm - - - 1 - 3 )
在式1-3)中,
Figure BDA00003075055800037
为弱先验方差。
所述基于所述第j个说话人的语音,通过第j个说话人的通用背景模型自适应出第j个说话人的弱说话人模型,1≤j≤n,包括如下步骤:
通过下式1-4)和1-5)计算第j个说话人的弱说话人模型的说话人充分统计信息,该说话人充分统计信息包括第j个说话人在第j个说话人的通用背景模型上的各个混合的贡献率累加值
Figure BDA00003075055800038
及贡献率加权值
Figure BDA00003075055800039
r gmm j ( c ) = Σ i N ( x j , i ; μ ubm j ( c ) , σ ubm j ( c ) ) Σ c N ( x j , i ; μ ubm j ( c ) , σ ubm j ( c ) ) - - - 1 - 4 )
z gmm j ( c ) = Σ i N ( x j , i ; μ ubm j ( c ) , σ ubm j ( c ) ) Σ c N ( x j , i ; μ ubm j ( c ) , σ ubm j ( c ) ) x j , i - - - 1 - 5 )
在式1-4)、1-5)中,xj,i为将第j个说话人的语音分为若干帧中的第i帧数据,c为第j个说话人的通用背景模型的第c个混合,1≤c≤m,
Figure BDA000030750558000312
Figure BDA000030750558000313
分别为第j个说话人的通用背景模型上第c个混合的均值、方差参数,
Figure BDA000030750558000314
表示第j个说话人的第i帧数据在第j个说话人的通用背景模型上第c个混合的后验概率;
通过下式1-6)求出第j个说话人的弱说话人模型上的各个混合的均值参数
Figure BDA000030750558000315
从而构建出第j个说话人的弱说话人模型:
μ gmm j ( c ) = z gmm j ( c ) + σ ubm j ( c ) σ ^ gmm μ ubm j ( c ) r gmm j ( c ) + σ ubm j ( c ) σ ^ gmm - - - 1 - 6 )
在式1-6)中,
Figure BDA000030750558000317
为强先验方差。
所述已建立的各个说话人的弱说话人模型分别基于自身的说话人充分统计信息,通过第j个说话人的通用背景模型进行更新,1≤j≤n,具体为:
k依次取1到j执行如下步骤:
通过下式1-7)求出第k个说话人的弱说话人模型更新后得到的说话人模型上的各个混合的均值参数从而构建出第k个说话人的弱说话人模型更新后得到的说话人模型:
μ spk k ( c ) = z gmm k ( c ) + σ ubm j ( c ) σ ^ gmm μ ubm j ( c ) r gmm k ( c ) + σ ubm j ( c ) σ ^ gmm - - - 1 - 7 )
在式1-7)中,分别为第k个说话人的弱说话人模型上的各个混合的贡献率累加值、贡献率加权值,分别为第j个说话人的通用背景模型上第c个混合的均值、方差参数,
Figure BDA00003075055800045
为强先验方差。
所述第k个说话人的弱说话人模型上的各个混合的贡献率累加值
Figure BDA00003075055800046
贡献率加权值
Figure BDA00003075055800047
分别通过下式1-8)、1-9)计算得到:
r gmm k ( c ) = Σ i N ( x k , i ; μ ubm k ( c ) , σ ubm k ( c ) ) Σ c N ( x k , i ; μ ubm k ( c ) , σ ubm k ( c ) ) - - - 1 - 8 )
z gmm k ( c ) = Σ i N ( x k , i ; μ ubm k ( c ) , σ ubm k ( c ) ) Σ c N ( x k , i ; μ ubm k ( c ) , σ ubm k ( c ) ) x k , i - - - 1 - 9 )
在式1-8)、1-9)中,xk,i为将第k个说话人的语音分为若干帧中的第i帧数据,c为第k个说话人的通用背景模型的第c个混合,1≤c≤m,
Figure BDA000030750558000410
分别为第k个说话人的通用背景模型上第c个混合的均值、方差参数,
Figure BDA000030750558000412
表示第k个说话人的第i帧数据在第k个说话人的通用背景模型上第c个混合的后验概率。
本发明的优点是:
本发明针对实际实施中说话人顺序录入的特点,基于初始通用背景模型,利用依次录入的第1个至第n个说话人的语音中包含的信道信息和说话人充分统计信息,通过顺序自适应出相应说话人的通用背景模型和说话人模型,从而创建出了用于说话人身份确认的说话人确认系统,本发明可广泛用于金融认证、公安刑侦、个性服务等领域,可有效提高说话人确认系统的识别率和可靠性。
附图说明
图1是已有的基于高斯混合模型和通用背景模型构建的说话人确认系统示意图。
图2是本发明创建方法的说明图。
图3是本发明创建方法的实现流程图。
具体实施方式
设定说话人确认系统是基于n个说话人的语音来建立的,如图3所示,本发明基于模型顺序自适应技术的说话人确认系统创建方法包括如下步骤:
步骤一:依次录入第1个至第n个说话人的语音,即对第1个至第n个说话人的语音进行顺序录入,n为大于等于2的正整数,其中:
j依次取1到n(1≤j≤n,j为正整数)执行如下步骤:录入第j个说话人的语音时,基于第j个说话人的语音以及在第j个说话人之前进行录入的j-1个说话人中各个说话人的通用背景模型的说话人充分统计信息,通过初始通用背景模型UBM0自适应出第j个说话人的通用背景模型UBMj,并且,基于该第j个说话人的语音,通过该第j个说话人的通用背景模型UBMj自适应出第j个说话人的弱说话人模型GMMj,并且,已建立的各个说话人的弱说话人模型分别基于自身相应的说话人充分统计信息,通过第j个说话人的通用背景模型UBMj进行更新;
步骤二:当第n个说话人的语音录入完毕后,第n个说话人的通用背景模型UBMn,以及第1个至第n个说话人的弱说话人模型分别最后更新得到的说话人模型构成说话人确认系统。
需要说明的是:在上述步骤一中,录入第j个说话人的语音时,第j个说话人的弱说话人模型GMMj基于自身相应的说话人充分统计信息,通过第j个说话人的通用背景模型UBMj更新后得到的说话人模型实际上与此时第j个说话人的弱说话人模型GMMj是相同的。在本发明中,在录入每个说话人的语音时,都要对已建立的各个说话人的弱说话人模型进行更新,也就是说,第1个说话人的弱说话人模型需要进行n次更新,第2个说话人的弱说话人模型需要进行n-1次更新,第3个说话人的弱说话人模型需要进行n-2次更新,……,第n个说话人的弱说话人模型需要进行1次更新,每个弱说话人模型进行各次更新后得到的说话人模型可能各不相同,因此,只有当最后一个说话人(第n个说话人)的语音录入完毕,各个弱说话人模型进行完最后一次更新后,用于构建说话人确认系统的说话人模型才最终确定下来,如图2所示,图中示出的SPK1至SPKn为当第n个说话人的语音录入完毕后,第1个至第n个说话人的弱说话人模型分别最后更新得到的说话人模型。这种动态更新的设计特别适用于说话人个数不定的情形。
在本发明中,说话人确认系统即由第n个说话人的通用背景模型UBMn,以及第1个至第n个说话人的弱说话人模型GMM1至GMMn分别进行相应次数的更新后,最后得到的说话人模型SPK1至SPKn组成。
在图2中,UBM创建用缓存池用来存储已创建的各个说话人的通用背景模型的说话人充分统计信息,以用于对此时录入的说话人语音,创建该说话人的通用背景模型,而SPK更新用缓存池用来存储已创建的各个说话人的通用背景模型的均值参数、弱说话人模型的说话人充分统计信息,以用于对此时已创建的各个说话人的弱说话人模型进行更新。
在本发明中,初始通用背景模型UBM0是一种没有进行充分训练、比较弱的通用背景模型UBM。例如,初始通用背景模型UBM0是基于设定人数(一般为50-70人即可)、设定时间(一般为3-4小时)语音训练出的通用背景模型UBM,对男女是否均衡、信道是否匹配等没有限制。
在本发明中,为每个说话人创建的通用背景模型为一种通用背景模型UBM,弱说话人模型、说话人模型均是一种高斯混合模型GMM。
在本发明中,在上述步骤一中,每个说话人的通用背景模型的说话人充分统计信息是指该说话人在初始通用背景模型上的各个混合的贡献率累加值及贡献率加权值,例如,第1个说话人的通用背景模型的说话人充分统计信息为第1个说话人在初始通用背景模型上的各个混合的贡献率累加值及贡献率加权值,第2个说话人的通用背景模型的说话人充分统计信息为第2个说话人在初始通用背景模型上的各个混合的贡献率累加值及贡献率加权值,……,第j-1个说话人的通用背景模型的说话人充分统计信息为第j-1个说话人在初始通用背景模型上的各个混合的贡献率累加值及贡献率加权值。
在上述步骤一中,所述的基于第j个说话人的语音以及在第j个说话人之前进行录入的j-1个说话人中各个说话人的通用背景模型的说话人充分统计信息,通过初始通用背景模型UBM0自适应出第j个说话人的通用背景模型UBMj,1≤j≤n(j为正整数),包括如下步骤:
通过下式1-1)和1-2)计算第j个说话人的通用背景模型UBMj的说话人充分统计信息,该说话人充分统计信息包括第j个说话人在初始通用背景模型UBM0上的各个混合的贡献率累加值
Figure BDA00003075055800061
及贡献率加权值
Figure BDA00003075055800062
r ubm j ( c ) = Σ i r j , i ( c ) = Σ i N ( x j , i ; μ ubm 0 ( c ) , σ ubm 0 ( c ) ) Σ c N ( x j , i ; μ ubm 0 ( c ) , σ ubm 0 ( c ) ) - - - 1 - 1 )
z ubm j ( c ) = Σ i r j , i ( c ) x j , i = Σ i N ( x j , i ; μ ubm 0 ( c ) , σ ubm 0 ( c ) ) Σ c N ( x j , i ; μ ubm 0 ( c ) , σ ubm 0 ( c ) ) x j , i - - - 1 - 2 )
在式1-1)、1-2)中,rj,i(c)表示第j个说话人的第i帧数据在初始通用背景模型UBM0上第c个混合的贡献率,xj,i为将第j个说话人的语音分为若干帧(大于1帧)中的第i帧数据,c为初始通用背景模型UBM0的第c个混合,1≤c≤m(c、m为正整数),
Figure BDA00003075055800072
分别为初始通用背景模型UBM0上第c个混合的均值、方差参数,
Figure BDA00003075055800073
表示第j个说话人的第i帧数据在初始通用背景模型UBM0上第c个混合的后验概率;
通过下式1-3)求出第j个说话人的通用背景模型UBMj上的各个混合的均值参数从而构建出第j个说话人的通用背景模型UBMj
μ ubm j ( c ) = Σ j = 1 j z ubm j ( c ) + σ ubm 0 ( c ) σ ^ ubm μ ubm 0 ( c ) Σ j = 1 j r ubm j ( c ) + σ ubm 0 ( c ) σ ^ ubm - - - 1 - 3 )
在式1-3)中,
Figure BDA00003075055800076
为弱先验方差,
Figure BDA00003075055800077
取先验方差中的较小值。
在上述步骤一中,所述的基于第j个说话人的语音,通过第j个说话人的通用背景模型UBMj自适应出第j个说话人的弱说话人模型GMMj,1≤j≤n(j为正整数),包括如下步骤:
通过下式1-4)和1-5)计算第j个说话人的弱说话人模型GMMj的说话人充分统计信息,该说话人充分统计信息包括第j个说话人在第j个说话人的通用背景模型UBMj上的各个混合的贡献率累加值及贡献率加权值
Figure BDA00003075055800079
r gmm j ( c ) = Σ i r j , i ( c ) = Σ i N ( x j , i ; μ ubm j ( c ) , σ ubm j ( c ) ) Σ c N ( x j , i ; μ ubm j ( c ) , σ ubm j ( c ) ) - - - 1 - 4 )
z gmm j ( c ) = Σ i r j , i ( c ) x j , i = Σ i N ( x j , i ; μ ubm j ( c ) , σ ubm j ( c ) ) Σ c N ( x j , i ; μ ubm j ( c ) , σ ubm j ( c ) ) x j , i - - - 1 - 5 )
在式1-4)、1-5)中,rj,i(c)表示第j个说话人的第i帧数据在第j个说话人的通用背景模型UBMj上第c个混合的贡献率,xj,i为将第j个说话人的语音分为若干帧(大于1帧)中的第i帧数据,c为第j个说话人的通用背景模型UBMj的第c个混合,1≤c≤m(c、m为正整数),
Figure BDA000030750558000712
分别为第j个说话人的通用背景模型UBMj上第c个混合的均值、方差参数,
Figure BDA000030750558000713
表示第j个说话人的第i帧数据在第j个说话人的通用背景模型UBMj上第c个混合的后验概率;
通过下式1-6)求出第j个说话人的弱说话人模型GMMj上的各个混合的均值参数
Figure BDA000030750558000714
从而构建出第j个说话人的弱说话人模型GMMj
μ gmm j ( c ) = z gmm j ( c ) + σ ubm j ( c ) σ ^ gmm μ ubm j ( c ) r gmm j ( c ) + σ ubm j ( c ) σ ^ gmm - - - 1 - 6 )
在式1-6)中,
Figure BDA00003075055800083
为强先验方差,
Figure BDA00003075055800084
取先验方差中的较大值。
在上述步骤一中,所述的已建立的各个说话人的弱说话人模型分别基于自身相应的说话人充分统计信息,通过第j个说话人的通用背景模型UBMj进行更新,1≤j≤n(j为正整数),具体为:
k依次取1到j执行如下步骤,1≤k≤j(k为正整数):
通过下式1-7)求出第k个说话人的弱说话人模型GMMk更新后得到的说话人模型上的各个混合的均值参数
Figure BDA00003075055800085
从而构建出第k个说话人的弱说话人模型更新后得到的说话人模型:
μ spk k ( c ) = z gmm k ( c ) + σ ubm j ( c ) σ ^ gmm μ ubm j ( c ) r gmm k ( c ) + σ ubm j ( c ) σ ^ gmm - - - 1 - 7 )
在式1-7)中,
Figure BDA00003075055800087
分别为第k个说话人的弱说话人模型GMMk上的各个混合的贡献率累加值、贡献率加权值,
Figure BDA00003075055800088
分别为第j个说话人的通用背景模型UBMj上第c个混合的均值、方差参数,
Figure BDA00003075055800089
为强先验方差,
Figure BDA000030750558000810
取先验方差中的较大值,其中:
第k个说话人的弱说话人模型GMMk上的各个混合的贡献率累加值
Figure BDA000030750558000811
贡献率加权值
Figure BDA000030750558000812
分别通过下式1-8)、1-9)计算得到:
r gmm k ( c ) = Σ i r k , i ( c ) = Σ i N ( x ki ; μ ubm k ( c ) , σ ubm k ( c ) ) Σ c N ( x k , i ; μ ubm k ( c ) , σ ubm k ( c ) ) - - - 1 - 8 )
z gmm k ( c ) = Σ i r k , i ( c ) x k , i = Σ i N ( x k , i ; μ ubm k ( c ) , σ ubm k ( c ) ) Σ c N ( x k , i ; μ ubm k ( c ) , σ ubm k ( c ) ) x k , i - - - 1 - 9 )
在式1-8)、1-9)中,rk,i(c)表示第k个说话人的第i帧数据在第k个说话人的通用背景模型UBMk上第c个混合的贡献率,xk,i为将第k个说话人的语音分为若干帧(大于1帧)中的第i帧数据,c为第k个说话人的通用背景模型UBMk的第c个混合,1≤c≤m(c、m为正整数),
Figure BDA000030750558000815
分别为第k个说话人的通用背景模型UBMk上第c个混合的均值、方差参数,表示第k个说话人的第i帧数据在第k个说话人的通用背景模型UBMk上第c个混合的后验概率。
在本发明中,设定初始通用背景模型UBM0具有m个混合,所有的通用背景模型UBM1至UBMn均具有m个混合。
需要说明的是:第1个说话人的通用背景模型UBM1实际上仅基于第1个说话人的语音,通过初始通用背景模型UBM0自适应得出,具体为:
通过下式1)和2)计算第1个说话人的通用背景模型UBM1的说话人充分统计信息,该说话人充分统计信息包括第1个说话人在初始通用背景模型UBM0上的各个混合的贡献率累加值及贡献率加权值
Figure BDA00003075055800092
r ubm 1 ( c ) = Σ i r 1 , i ( c ) = Σ i N ( x 1 , i ; μ ubm 0 ( c ) , σ ubm 0 ( c ) ) Σ c N ( x 1 , i ; μ ubm 0 ( c ) , σ ubm 0 ( c ) ) - - - 1 )
z ubm 1 ( c ) = Σ i r 1 , i ( c ) x 1 , i = Σ i N ( x 1 , i ; μ ubm 0 ( c ) , σ ubm 0 ( c ) ) Σ c N ( x 1 , i ; μ ubm 0 ( c ) , σ ubm 0 ( c ) ) x 1 , i - - - 2 )
在式1)、2)中,r1,i(c)表示第1个说话人的第i帧数据在初始通用背景模型UBM0上第c个混合的贡献率,x1,i为将第1个说话人的语音分为若干帧(大于1帧)中的第i帧数据,c为初始通用背景模型UBM0的第c个混合,1≤c≤m(c、m为正整数),
Figure BDA00003075055800095
分别为初始通用背景模型UBM0上第c个混合的均值、方差参数,
Figure BDA00003075055800096
表示第1个说话人的第i帧数据在初始通用背景模型UBM0上第c个混合的后验概率;
通过下式3)求出第1个说话人的通用背景模型UBM1上的各个混合的均值参数
Figure BDA00003075055800097
从而构建出第1个说话人的通用背景模型UBM1
μ ubm 1 ( c ) = z ubm 1 ( c ) + σ ubm 0 ( c ) σ ^ ubm μ ubm 0 ( c ) r ubm 1 ( c ) + σ ubm 0 ( c ) σ ^ ubm - - - 3 )
在式3)中,
Figure BDA00003075055800099
为弱先验方差,取先验方差中的较小值。
在本发明中,
Figure BDA000030750558000910
为预先设定好的固定值。
在本发明中,一般地,对于说话人语音分割按照每帧20毫秒进行分帧,帧移10毫秒。
对于本发明创建的说话人确认系统,其可创建在需要进行说话人确认的任意一个计算机系统中,当说话人确认系统构建好后,即可进行说话人确认。当某个说话人通过输入用户名、密码、账号之类的登录信息登录该计算机系统时,若该说话人输入的登录信息不正确,则无需进行说话人确认,阻止其进入该计算机系统,反之,若该说话人输入的登录信息正确,则经由该说话人确认系统进行说话人确认,具体为:找到与该说话人对应的说话人模型,基于该说话人的语音,在该说话人模型与第n个说话人的通用背景模型上分别进行似然计算后相减得到语音置信度,若计算出的语音置信度大于等于置信度阈值,则认为该说话人为该计算机系统的用户(即为创建说话人确认系统时进行过录入的第1个至第n个说话人中的其中一人),允许其进入该计算机系统进行操作,若计算出的语音置信度小于置信度阈值,则认为该说话人不是该计算机系统的用户,阻止其进入该计算机系统进行操作。
本发明的优点是:
本发明针对实际实施中说话人顺序录入的特点,基于初始通用背景模型,利用依次录入的第1个至第n个说话人的语音中包含的信道信息和说话人充分统计信息,通过顺序自适应出相应说话人的通用背景模型和说话人模型,从而创建出了用于说话人身份确认的说话人确认系统,本发明可广泛用于金融认证、公安刑侦、个性服务等领域,可有效提高说话人确认系统的识别率和可靠性。
对于基于n个说话人的语音创建的说话人确认系统,其中最后更新后得到的各个说话人模型、第n个说话人的通用背景模型均包含着各个说话人的说话人充分统计信息以及信道信息,与传统说话人模型相比,本发明创建的说话人确认系统中的说话人模型在传统说话人模型所具有的均值、方差参数的基础上,增加了说话人充分统计信息,且蕴涵了信道信息,因此,基于本发明创建的说话人确认系统进行说话人确认所得到的识别结果准确性高、可靠。
本发明通过模型顺序自适应方式而逐步创建出说话人确认系统,这种创建方式只需在进行过较少训练的初始通用背景模型上进行逐步训练即可实现,尤其当信道发生变化(比如由电话信道转为手机信道,移动基站调整信道参数等)时,重新从初始通用背景模型开始顺序自适应,即可再次创建出说话人确认系统,而通过模型顺序自适应方式得到的各个通用背景模型和说话人模型的信道会逐渐收敛至新的信道,因此,本发明所创建出的说话人确认系统所达到的说话人确认效果不会受信道变化的影响,说话人识别性能不会下降,不用像已有说话人确认系统那样,必须基于数百人、男女均衡、信道匹配、数小时语音来重新训练初始的通用背景模型后才能进行说话人确认,可见,本发明不受信道变化等条件限制,易实现,实用性高。
以上所述是本发明的较佳实施例及其所运用的技术原理,对于本领域的技术人员来说,在不背离本发明的精神和范围的情况下,任何基于本发明技术方案基础上的等效变换、简单替换等显而易见的改变,均属于本发明保护范围之内。

Claims (6)

1.一种基于模型顺序自适应技术的说话人确认系统创建方法,其特征在于,它包括如下步骤:
步骤一:依次录入第1个至第n个说话人的语音,其中:
j依次取1到n执行如下步骤:录入第j个说话人的语音时,基于第j个说话人的语音以及在第j个说话人之前进行录入的j-1个说话人中各个说话人的通用背景模型的说话人充分统计信息,通过初始通用背景模型自适应出第j个说话人的通用背景模型,并且,基于该第j个说话人的语音,通过该第j个说话人的通用背景模型自适应出第j个说话人的弱说话人模型,并且,已建立的各个说话人的弱说话人模型分别基于自身的说话人充分统计信息,通过第j个说话人的通用背景模型进行更新;
步骤二:当第n个说话人的语音录入完毕后,第n个说话人的通用背景模型,以及第1个至第n个说话人的弱说话人模型分别最后更新得到的说话人模型构成说话人确认系统。
2.如权利要求1所述的基于模型顺序自适应技术的说话人确认系统创建方法,其特征在于:
每个说话人的所述通用背景模型的所述说话人充分统计信息为该说话人在所述初始通用背景模型上的各个混合的贡献率累加值及贡献率加权值。
3.如权利要求1所述的基于模型顺序自适应技术的说话人确认系统创建方法,其特征在于:
所述基于所述第j个说话人的语音以及在第j个说话人之前进行录入的j-1个说话人中各个说话人的通用背景模型的说话人充分统计信息,通过初始通用背景模型自适应出第j个说话人的通用背景模型,1≤j≤n,包括如下步骤:
通过下式1-1)和1-2)计算第j个说话人的通用背景模型的说话人充分统计信息,该说话人充分统计信息包括第j个说话人在初始通用背景模型上的各个混合的贡献率累加值及贡献率加权值
Figure FDA00003075055700012
r ubm j ( c ) = Σ i N ( x j , i ; μ ubm 0 ( c ) , σ ubm 0 ( c ) ) Σ c N ( x j , i ; μ ubm 0 ( c ) , σ ubm 0 ( c ) ) - - - 1 - 1 )
z ubm j ( c ) = Σ i N ( x j , i ; μ ubm 0 ( c ) , σ ubm 0 ( c ) ) Σ c N ( x j , i ; μ ubm 0 ( c ) , σ ubm 0 ( c ) ) x j , i - - - 1 - 2 )
在式1-1)、1-2)中,xj,i为将第j个说话人的语音分为若干帧中的第i帧数据,c为初始通用背景模型的第c个混合,1≤c≤m,分别为初始通用背景模型上第c个混合的均值、方差参数,
Figure FDA00003075055700021
表示第j个说话人的第i帧数据在初始通用背景模型上第c个混合的后验概率;
通过下式1-3)求出第j个说话人的通用背景模型上的各个混合的均值参数
Figure FDA00003075055700022
从而构建出第j个说话人的通用背景模型:
μ ubm j ( c ) = Σ j = 1 j z ubm j ( c ) + σ ubm 0 ( c ) σ ^ ubm μ ubm 0 ( c ) Σ j = 1 j r ubm j ( c ) + σ ubm 0 ( c ) σ ^ ubm - - - 1 - 3 )
在式1-3)中,为弱先验方差。
4.如权利要求1所述的基于模型顺序自适应技术的说话人确认系统创建方法,其特征在于:
所述基于所述第j个说话人的语音,通过第j个说话人的通用背景模型自适应出第j个说话人的弱说话人模型,1≤j≤n,包括如下步骤:
通过下式1-4)和1-5)计算第j个说话人的弱说话人模型的说话人充分统计信息,该说话人充分统计信息包括第j个说话人在第j个说话人的通用背景模型上的各个混合的贡献率累加值
Figure FDA00003075055700025
及贡献率加权值
Figure FDA00003075055700026
r gmm j ( c ) = Σ i N ( x j , i ; μ ubm j ( c ) , σ ubm j ( c ) ) Σ c N ( x j , i ; μ ubm j ( c ) , σ ubm j ( c ) ) - - - 1 - 4 )
z gmm j ( c ) = Σ i N ( x j , i ; μ ubm j ( c ) , σ ubm j ( c ) ) Σ c N ( x j , i ; μ ubm j ( c ) , σ ubm j ( c ) ) x j , i - - - 1 - 5 )
在式1-4)、1-5)中,xj,i为将第j个说话人的语音分为若干帧中的第i帧数据,c为第j个说话人的通用背景模型的第c个混合,1≤c≤m,
Figure FDA000030750557000210
分别为第j个说话人的通用背景模型上第c个混合的均值、方差参数,
Figure FDA000030750557000211
表示第j个说话人的第i帧数据在第j个说话人的通用背景模型上第c个混合的后验概率;
通过下式1-6)求出第j个说话人的弱说话人模型上的各个混合的均值参数
Figure FDA000030750557000212
从而构建出第j个说话人的弱说话人模型:
μ gmm j ( c ) = z gmm j ( c ) + σ ubm j ( c ) σ ^ gmm μ ubm j ( c ) r gmm j ( c ) + σ ubm j ( c ) σ ^ gmm - - - 1 - 6 )
在式1-6)中,
Figure FDA000030750557000214
为强先验方差。
5.如权利要求1所述的基于模型顺序自适应技术的说话人确认系统创建方法,其特征在于:
所述已建立的各个说话人的弱说话人模型分别基于自身的说话人充分统计信息,通过第j个说话人的通用背景模型进行更新,1≤j≤n,具体为:
k依次取1到j执行如下步骤:
通过下式1-7)求出第k个说话人的弱说话人模型更新后得到的说话人模型上的各个混合的均值参数
Figure FDA00003075055700031
从而构建出第k个说话人的弱说话人模型更新后得到的说话人模型:
μ spk k ( c ) = z gmm k ( c ) + σ ubm j ( c ) σ ^ gmm μ ubm j ( c ) r gmm k ( c ) + σ ubm j ( c ) σ ^ gmm - - - 1 - 7 )
在式1-7)中,
Figure FDA00003075055700033
分别为第k个说话人的弱说话人模型上的各个混合的贡献率累加值、贡献率加权值,
Figure FDA00003075055700034
分别为第j个说话人的通用背景模型上第c个混合的均值、方差参数,
Figure FDA00003075055700035
为强先验方差。
6.如权利要求5所述的基于模型顺序自适应技术的说话人确认系统创建方法,其特征在于:
所述第k个说话人的弱说话人模型上的各个混合的贡献率累加值
Figure FDA00003075055700036
贡献率加权值
Figure FDA00003075055700037
分别通过下式1-8)、1-9)计算得到:
r gmm k ( c ) = Σ i N ( x k , i ; μ ubm k ( c ) , σ ubm k ( c ) ) Σ c N ( x k , i ; μ ubm k ( c ) , σ ubm k ( c ) ) - - - 1 - 8 )
z gmm k ( c ) = Σ i N ( x k , i ; μ ubm k ( c ) , σ ubm k ( c ) ) Σ c N ( x k , i ; μ ubm k ( c ) , σ ubm k ( c ) ) x k , i - - - 1 - 9 )
在式1-8)、1-9)中,xk,i为将第k个说话人的语音分为若干帧中的第i帧数据,c为第k个说话人的通用背景模型的第c个混合,1≤c≤m,
Figure FDA000030750557000311
分别为第k个说话人的通用背景模型上第c个混合的均值、方差参数,表示第k个说话人的第i帧数据在第k个说话人的通用背景模型上第c个混合的后验概率。
CN201310139096.5A 2013-04-19 2013-04-19 基于模型顺序自适应技术的说话人确认系统创建方法 Active CN103226951B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310139096.5A CN103226951B (zh) 2013-04-19 2013-04-19 基于模型顺序自适应技术的说话人确认系统创建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310139096.5A CN103226951B (zh) 2013-04-19 2013-04-19 基于模型顺序自适应技术的说话人确认系统创建方法

Publications (2)

Publication Number Publication Date
CN103226951A true CN103226951A (zh) 2013-07-31
CN103226951B CN103226951B (zh) 2015-05-06

Family

ID=48837373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310139096.5A Active CN103226951B (zh) 2013-04-19 2013-04-19 基于模型顺序自适应技术的说话人确认系统创建方法

Country Status (1)

Country Link
CN (1) CN103226951B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103730111A (zh) * 2013-08-15 2014-04-16 中华电信股份有限公司 利用语者识别的切割音视讯片段的方法
CN104992708A (zh) * 2015-05-11 2015-10-21 国家计算机网络与信息安全管理中心 短时特定音频检测模型生成与检测方法
CN105261367A (zh) * 2014-07-14 2016-01-20 中国科学院声学研究所 一种说话人识别方法
CN103730111B (zh) * 2013-08-15 2016-11-30 中华电信股份有限公司 利用语者识别的切割音视讯片段的方法
CN106971725A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种具有优先级的声纹识方法和系统
CN112992174A (zh) * 2021-02-03 2021-06-18 深圳壹秘科技有限公司 一种语音分析方法及其语音记录装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060111905A1 (en) * 2004-11-22 2006-05-25 Jiri Navratil Method and apparatus for training a text independent speaker recognition system using speech data with text labels
CN102024455A (zh) * 2009-09-10 2011-04-20 索尼株式会社 说话人识别系统及其方法
CN102238190A (zh) * 2011-08-01 2011-11-09 安徽科大讯飞信息科技股份有限公司 身份认证方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060111905A1 (en) * 2004-11-22 2006-05-25 Jiri Navratil Method and apparatus for training a text independent speaker recognition system using speech data with text labels
CN102024455A (zh) * 2009-09-10 2011-04-20 索尼株式会社 说话人识别系统及其方法
CN102238190A (zh) * 2011-08-01 2011-11-09 安徽科大讯飞信息科技股份有限公司 身份认证方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
熊振宇等: "基于树形通用背景模型的高效说话人辨认", 《清华大学学报(自然科学版)》 *
王刚等: "基于参考说话人模型和双层结构的说话人辨认", 《清华大学学报(自然科学版)》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103730111A (zh) * 2013-08-15 2014-04-16 中华电信股份有限公司 利用语者识别的切割音视讯片段的方法
CN103730111B (zh) * 2013-08-15 2016-11-30 中华电信股份有限公司 利用语者识别的切割音视讯片段的方法
CN105261367A (zh) * 2014-07-14 2016-01-20 中国科学院声学研究所 一种说话人识别方法
CN105261367B (zh) * 2014-07-14 2019-03-15 中国科学院声学研究所 一种说话人识别方法
CN104992708A (zh) * 2015-05-11 2015-10-21 国家计算机网络与信息安全管理中心 短时特定音频检测模型生成与检测方法
CN104992708B (zh) * 2015-05-11 2018-07-24 国家计算机网络与信息安全管理中心 短时特定音频检测模型生成与检测方法
CN106971725A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种具有优先级的声纹识方法和系统
CN112992174A (zh) * 2021-02-03 2021-06-18 深圳壹秘科技有限公司 一种语音分析方法及其语音记录装置

Also Published As

Publication number Publication date
CN103226951B (zh) 2015-05-06

Similar Documents

Publication Publication Date Title
CN107222865B (zh) 基于可疑行为识别的通讯诈骗实时检测方法和系统
CN104732978B (zh) 基于联合深度学习的文本相关的说话人识别方法
CN105139864B (zh) 语音识别方法和装置
CN107886967B (zh) 一种深度双向门递归神经网络的骨导语音增强方法
CN108962237A (zh) 混合语音识别方法、装置及计算机可读存储介质
CN104992704B (zh) 语音合成方法和装置
CN102238190B (zh) 身份认证方法及系统
CN103065620B (zh) 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法
CN107103903A (zh) 基于人工智能的声学模型训练方法、装置及存储介质
CN105448292A (zh) 一种基于场景的实时语音识别系统和方法
CN103247197A (zh) 一种基于声纹识别的用户在线学习监测方法
CN104538028A (zh) 一种基于深度长短期记忆循环神经网络的连续语音识别方法
CN103226951B (zh) 基于模型顺序自适应技术的说话人确认系统创建方法
CN109036412A (zh) 语音唤醒方法和系统
CN103117060A (zh) 用于语音识别的声学模型的建模方法、建模系统
CN107705802A (zh) 语音转换方法、装置、电子设备及可读存储介质
CN103714812A (zh) 一种语音识别方法及装置
CN104376842A (zh) 神经网络语言模型的训练方法、装置以及语音识别方法
CN103077708A (zh) 一种语音识别系统中拒识能力提升方法
CN105895080A (zh) 语音识别模型训练方法、说话人类型识别方法及装置
CN109545218A (zh) 一种语音识别方法及系统
CN109410911A (zh) 基于语音识别的人工智能学习方法
CN105956529A (zh) 一种基于lstm型rnn的中国手语识别方法
CN104978587A (zh) 一种基于文档类型的实体识别合作学习算法
CN108039168B (zh) 声学模型优化方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant