CN103226951A

CN103226951A - 基于模型顺序自适应技术的说话人确认系统创建方法

Info

Publication number: CN103226951A
Application number: CN2013101390965A
Authority: CN
Inventors: 王军; 王东; 邬晓钧; 郑方
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2013-04-19
Filing date: 2013-04-19
Publication date: 2013-07-31
Anticipated expiration: 2033-04-19
Also published as: CN103226951B

Abstract

本发明公开了一种基于模型顺序自适应技术的说话人确认系统创建方法，包括步骤：依次录入第1至n个说话人的语音，其中，j依次取1到n执行如下步骤：录入第j个说话人的语音时，创建第j个说话人的通用背景模型、弱说话人模型，且对已建立的各个说话人的弱说话人模型进行更新。当第n个说话人的语音录入完毕后，第n个说话人的通用背景模型，及第1个至第n个说话人的弱说话人模型分别最后更新得到的说话人模型构成说话人确认系统。本发明基于初始通用背景模型，利用依次录入的n个说话人语音中包含的信道信息和说话人充分统计信息，顺序自适应出相应说话人的通用背景模型和说话人模型，从而创建出用于说话人身份确认的说话人确认系统。

Description

基于模型顺序自适应技术的说话人确认系统创建方法

技术领域

本发明涉及一种基于模型顺序自适应技术实现的、用于说话人身份确认的说话人确认系统的创建方法，属于计算机及信息服务技术领域。

背景技术

说话人确认技术属于生物识别技术的一种，是利用声音波形中所包含的表征说话人个性特性的信息进行说话人身份确认的技术，截止目前，说话人确认技术已被广泛地应用到了诸如金融认证、公安刑侦破案、国防监听、个性化服务等各个领域。

说话人确认过程主要包括声纹建模和识别。目前，声纹建模通常采用高斯混合模型和通用背景模型（GMM-UBM）框架，即以基于数百人、男女均衡、信道匹配的说话人语音进行充分训练的通用背景模型（UBM）作为基准，其中的每个说话人基于其数十秒的语音在该通用背景模型上的适应而得到反映其自身特征的高斯混合模型（GMM），从而构建出用于进行说话人身份确认的说话人确认系统，如图1所示。

但是，在实际实施中可以发现，上述基于高斯混合模型和通用背景模型构建的说话人确认系统在进行说话人身份确认时存在如下缺陷：

由于说话人语音一般比较短，难以覆盖整个说话人声学空间，因此，关于每个说话人的高斯混合模型一般都是基于该说话人语音在通用背景模型上自适应得到，说话人语音覆盖到的声学空间由说话人语音得到，未能覆盖到的声学空间由通用背景模型得到，其中，自适应一般是改变模型的均值参数。在实际中，通用背景模型基于数百人、男女均衡、信道匹配、数小时语音的训练后才被认为可充分覆盖说话人声学空间，而这种假设的前提是，高斯混合模型在通用背景模型上自适应所产生的偏移量能够且仅反映说话人的特性。这样就要求通用背景模型的训练在背景环境、信道上均要与说话人语音的背景环境、信道保持一致，否则将极大降低说话人识别性能。然而，实际应用环境下的信道是经常发生变化的，比如由电话信道转为手机信道，移动基站调整信道参数等。一旦信道发生变化，原先的通用背景模型必然发生信道不匹配的问题，导致说话人识别性能的下降。而重新训练通用背景模型，一方面，获取大量与新信道一致的说话人语音对说话人确认系统的实时性消耗是极大的，且会浪费大量人力物力，另一方面，获取大量与新信道一致的说话人语音很难，有时甚至不可能实现。目前，针对信道补偿的说话人确认技术主要有本征信道、因子分析等，但这些技术均需要大量预知的信道数据才能进行计算，因此实现起来十分困难。

发明内容

本发明的目的在于提供一种基于模型顺序自适应技术的说话人确认系统创建方法，该方法针对实际实施中说话人顺序录入的特点，基于模型顺序自适应技术自适应出关于各个说话人的通用背景模型和说话人模型，从而创建出了用于说话人身份确认的说话人确认系统。

为了实现上述目的，本发明采用了以下技术方案：

一种基于模型顺序自适应技术的说话人确认系统创建方法，其特征在于，它包括如下步骤：

步骤一：依次录入第1个至第n个说话人的语音，其中：

j依次取1到n执行如下步骤：录入第j个说话人的语音时，基于第j个说话人的语音以及在第j个说话人之前进行录入的j-1个说话人中各个说话人的通用背景模型的说话人充分统计信息，通过初始通用背景模型自适应出第j个说话人的通用背景模型，并且，基于该第j个说话人的语音，通过该第j个说话人的通用背景模型自适应出第j个说话人的弱说话人模型，并且，已建立的各个说话人的弱说话人模型分别基于自身的说话人充分统计信息，通过第j个说话人的通用背景模型进行更新；

步骤二：当第n个说话人的语音录入完毕后，第n个说话人的通用背景模型，以及第1个至第n个说话人的弱说话人模型分别最后更新得到的说话人模型构成说话人确认系统。

每个说话人的通用背景模型的所述说话人充分统计信息为该说话人在所述初始通用背景模型上的各个混合的贡献率累加值及贡献率加权值。

所述基于所述第j个说话人的语音以及在第j个说话人之前进行录入的j-1个说话人中各个说话人的通用背景模型的说话人充分统计信息，通过初始通用背景模型自适应出第j个说话人的通用背景模型，1≤j≤n，包括如下步骤：

通过下式1-1）和1-2）计算第j个说话人的通用背景模型的说话人充分统计信息，该说话人充分统计信息包括第j个说话人在初始通用背景模型上的各个混合的贡献率累加值

及贡献率加权值

r_{{ubm}_{j}} (c) = Σ_{i} \frac{N (x_{j, i}; μ_{{ubm}_{0}} (c), σ_{{ubm}_{0}} (c))}{Σ_{c} N (x_{j, i}; μ_{{ubm}_{0}} (c), σ_{{ubm}_{0}} (c))} - - - 1 - 1)

z_{{ubm}_{j}} (c) = Σ_{i} \frac{N (x_{j, i}; μ_{{ubm}_{0}} (c), σ_{{ubm}_{0}} (c))}{Σ_{c} N (x_{j, i}; μ_{{ubm}_{0}} (c), σ_{{ubm}_{0}} (c))} x_{j, i} - - - 1 - 2)

在式1-1）、1-2）中，x_j,i为将第j个说话人的语音分为若干帧中的第i帧数据，c为初始通用背景模型的第c个混合，1≤c≤m，

分别为初始通用背景模型上第c个混合的均值、方差参数，表示第j个说话人的第i帧数据在初始通用背景模型上第c个混合的后验概率；

通过下式1-3）求出第j个说话人的通用背景模型上的各个混合的均值参数

从而构建出第j个说话人的通用背景模型：

μ_{{ubm}_{j}} (c) = \frac{Σ_{j = 1}^{j} z_{{ubm}_{j}} (c) + \frac{σ_{{ubm}_{0}} (c)}{{\hat{σ}}_{ubm}} μ_{{ubm}_{0}} (c)}{Σ_{j = 1}^{j} r_{{ubm}_{j}} (c) + \frac{σ_{{ubm}_{0}} (c)}{{\hat{σ}}_{ubm}}} - - - 1 - 3)

在式1-3）中，

为弱先验方差。

所述基于所述第j个说话人的语音，通过第j个说话人的通用背景模型自适应出第j个说话人的弱说话人模型，1≤j≤n，包括如下步骤：

通过下式1-4）和1-5）计算第j个说话人的弱说话人模型的说话人充分统计信息，该说话人充分统计信息包括第j个说话人在第j个说话人的通用背景模型上的各个混合的贡献率累加值

及贡献率加权值

r_{{gmm}_{j}} (c) = Σ_{i} \frac{N (x_{j, i}; μ_{{ubm}_{j}} (c), σ_{{ubm}_{j}} (c))}{Σ_{c} N (x_{j, i}; μ_{{ubm}_{j}} (c), σ_{{ubm}_{j}} (c))} - - - 1 - 4)

z_{{gmm}_{j}} (c) = Σ_{i} \frac{N (x_{j, i}; μ_{{ubm}_{j}} (c), σ_{{ubm}_{j}} (c))}{Σ_{c} N (x_{j, i}; μ_{{ubm}_{j}} (c), σ_{{ubm}_{j}} (c))} x_{j, i} - - - 1 - 5)

在式1-4）、1-5）中，x_j,i为将第j个说话人的语音分为若干帧中的第i帧数据，c为第j个说话人的通用背景模型的第c个混合，1≤c≤m，

分别为第j个说话人的通用背景模型上第c个混合的均值、方差参数，

表示第j个说话人的第i帧数据在第j个说话人的通用背景模型上第c个混合的后验概率；

通过下式1-6）求出第j个说话人的弱说话人模型上的各个混合的均值参数

从而构建出第j个说话人的弱说话人模型：

μ_{{gmm}_{j}} (c) = \frac{z_{{gmm}_{j}} (c) + \frac{σ_{{ubm}_{j}} (c)}{{\hat{σ}}_{gmm}} μ_{{ubm}_{j}} (c)}{r_{{gmm}_{j}} (c) + \frac{σ_{{ubm}_{j}} (c)}{{\hat{σ}}_{gmm}}} - - - 1 - 6)

在式1-6）中，

为强先验方差。

所述已建立的各个说话人的弱说话人模型分别基于自身的说话人充分统计信息，通过第j个说话人的通用背景模型进行更新，1≤j≤n，具体为：

k依次取1到j执行如下步骤：

通过下式1-7）求出第k个说话人的弱说话人模型更新后得到的说话人模型上的各个混合的均值参数从而构建出第k个说话人的弱说话人模型更新后得到的说话人模型：

μ_{{spk}_{k}} (c) = \frac{z_{{gmm}_{k}} (c) + \frac{σ_{{ubm}_{j}} (c)}{{\hat{σ}}_{gmm}} μ_{{ubm}_{j}} (c)}{r_{{gmm}_{k}} (c) + \frac{σ_{{ubm}_{j}} (c)}{{\hat{σ}}_{gmm}}} - - - 1 - 7)

在式1-7）中，分别为第k个说话人的弱说话人模型上的各个混合的贡献率累加值、贡献率加权值，分别为第j个说话人的通用背景模型上第c个混合的均值、方差参数，

为强先验方差。

所述第k个说话人的弱说话人模型上的各个混合的贡献率累加值

贡献率加权值

分别通过下式1-8）、1-9）计算得到：

r_{{gmm}_{k}} (c) = Σ_{i} \frac{N (x_{k, i}; μ_{{ubm}_{k}} (c), σ_{{ubm}_{k}} (c))}{Σ_{c} N (x_{k, i}; μ_{{ubm}_{k}} (c), σ_{{ubm}_{k}} (c))} - - - 1 - 8)

z_{{gmm}_{k}} (c) = Σ_{i} \frac{N (x_{k, i}; μ_{{ubm}_{k}} (c), σ_{{ubm}_{k}} (c))}{Σ_{c} N (x_{k, i}; μ_{{ubm}_{k}} (c), σ_{{ubm}_{k}} (c))} x_{k, i} - - - 1 - 9)

在式1-8）、1-9）中，x_k,i为将第k个说话人的语音分为若干帧中的第i帧数据，c为第k个说话人的通用背景模型的第c个混合，1≤c≤m，

分别为第k个说话人的通用背景模型上第c个混合的均值、方差参数，

表示第k个说话人的第i帧数据在第k个说话人的通用背景模型上第c个混合的后验概率。

本发明的优点是：

本发明针对实际实施中说话人顺序录入的特点，基于初始通用背景模型，利用依次录入的第1个至第n个说话人的语音中包含的信道信息和说话人充分统计信息，通过顺序自适应出相应说话人的通用背景模型和说话人模型，从而创建出了用于说话人身份确认的说话人确认系统，本发明可广泛用于金融认证、公安刑侦、个性服务等领域，可有效提高说话人确认系统的识别率和可靠性。

附图说明

图1是已有的基于高斯混合模型和通用背景模型构建的说话人确认系统示意图。

图2是本发明创建方法的说明图。

图3是本发明创建方法的实现流程图。

具体实施方式

设定说话人确认系统是基于n个说话人的语音来建立的，如图3所示，本发明基于模型顺序自适应技术的说话人确认系统创建方法包括如下步骤：

步骤一：依次录入第1个至第n个说话人的语音，即对第1个至第n个说话人的语音进行顺序录入，n为大于等于2的正整数，其中：

j依次取1到n（1≤j≤n，j为正整数）执行如下步骤：录入第j个说话人的语音时，基于第j个说话人的语音以及在第j个说话人之前进行录入的j-1个说话人中各个说话人的通用背景模型的说话人充分统计信息，通过初始通用背景模型UBM₀自适应出第j个说话人的通用背景模型UBM_j，并且，基于该第j个说话人的语音，通过该第j个说话人的通用背景模型UBM_j自适应出第j个说话人的弱说话人模型GMM_j，并且，已建立的各个说话人的弱说话人模型分别基于自身相应的说话人充分统计信息，通过第j个说话人的通用背景模型UBM_j进行更新；

步骤二：当第n个说话人的语音录入完毕后，第n个说话人的通用背景模型UBM_n，以及第1个至第n个说话人的弱说话人模型分别最后更新得到的说话人模型构成说话人确认系统。

需要说明的是：在上述步骤一中，录入第j个说话人的语音时，第j个说话人的弱说话人模型GMM_j基于自身相应的说话人充分统计信息，通过第j个说话人的通用背景模型UBM_j更新后得到的说话人模型实际上与此时第j个说话人的弱说话人模型GMM_j是相同的。在本发明中，在录入每个说话人的语音时，都要对已建立的各个说话人的弱说话人模型进行更新，也就是说，第1个说话人的弱说话人模型需要进行n次更新，第2个说话人的弱说话人模型需要进行n-1次更新，第3个说话人的弱说话人模型需要进行n-2次更新，……，第n个说话人的弱说话人模型需要进行1次更新，每个弱说话人模型进行各次更新后得到的说话人模型可能各不相同，因此，只有当最后一个说话人（第n个说话人）的语音录入完毕，各个弱说话人模型进行完最后一次更新后，用于构建说话人确认系统的说话人模型才最终确定下来，如图2所示，图中示出的SPK₁至SPK_n为当第n个说话人的语音录入完毕后，第1个至第n个说话人的弱说话人模型分别最后更新得到的说话人模型。这种动态更新的设计特别适用于说话人个数不定的情形。

在本发明中，说话人确认系统即由第n个说话人的通用背景模型UBM_n，以及第1个至第n个说话人的弱说话人模型GMM₁至GMM_n分别进行相应次数的更新后，最后得到的说话人模型SPK₁至SPK_n组成。

在图2中，UBM创建用缓存池用来存储已创建的各个说话人的通用背景模型的说话人充分统计信息，以用于对此时录入的说话人语音，创建该说话人的通用背景模型，而SPK更新用缓存池用来存储已创建的各个说话人的通用背景模型的均值参数、弱说话人模型的说话人充分统计信息，以用于对此时已创建的各个说话人的弱说话人模型进行更新。

在本发明中，初始通用背景模型UBM₀是一种没有进行充分训练、比较弱的通用背景模型UBM。例如，初始通用背景模型UBM₀是基于设定人数（一般为50-70人即可）、设定时间（一般为3-4小时）语音训练出的通用背景模型UBM，对男女是否均衡、信道是否匹配等没有限制。

在本发明中，为每个说话人创建的通用背景模型为一种通用背景模型UBM，弱说话人模型、说话人模型均是一种高斯混合模型GMM。

在本发明中，在上述步骤一中，每个说话人的通用背景模型的说话人充分统计信息是指该说话人在初始通用背景模型上的各个混合的贡献率累加值及贡献率加权值，例如，第1个说话人的通用背景模型的说话人充分统计信息为第1个说话人在初始通用背景模型上的各个混合的贡献率累加值及贡献率加权值，第2个说话人的通用背景模型的说话人充分统计信息为第2个说话人在初始通用背景模型上的各个混合的贡献率累加值及贡献率加权值，……，第j-1个说话人的通用背景模型的说话人充分统计信息为第j-1个说话人在初始通用背景模型上的各个混合的贡献率累加值及贡献率加权值。

在上述步骤一中，所述的基于第j个说话人的语音以及在第j个说话人之前进行录入的j-1个说话人中各个说话人的通用背景模型的说话人充分统计信息，通过初始通用背景模型UBM₀自适应出第j个说话人的通用背景模型UBM_j，1≤j≤n（j为正整数），包括如下步骤：

通过下式1-1）和1-2）计算第j个说话人的通用背景模型UBM_j的说话人充分统计信息，该说话人充分统计信息包括第j个说话人在初始通用背景模型UBM₀上的各个混合的贡献率累加值

及贡献率加权值

r_{{ubm}_{j}} (c) = Σ_{i} r_{j, i} (c) = Σ_{i} \frac{N (x_{j, i}; μ_{{ubm}_{0}} (c), σ_{{ubm}_{0}} (c))}{Σ_{c} N (x_{j, i}; μ_{{ubm}_{0}} (c), σ_{{ubm}_{0}} (c))} - - - 1 - 1)

z_{{ubm}_{j}} (c) = Σ_{i} r_{j, i} (c) x_{j, i} = Σ_{i} \frac{N (x_{j, i}; μ_{{ubm}_{0}} (c), σ_{{ubm}_{0}} (c))}{Σ_{c} N (x_{j, i}; μ_{{ubm}_{0}} (c), σ_{{ubm}_{0}} (c))} x_{j, i} - - - 1 - 2)

在式1-1）、1-2）中，r_j,i(c)表示第j个说话人的第i帧数据在初始通用背景模型UBM₀上第c个混合的贡献率，x_j,i为将第j个说话人的语音分为若干帧（大于1帧）中的第i帧数据，c为初始通用背景模型UBM₀的第c个混合，1≤c≤m（c、m为正整数），

分别为初始通用背景模型UBM₀上第c个混合的均值、方差参数，

表示第j个说话人的第i帧数据在初始通用背景模型UBM₀上第c个混合的后验概率；

通过下式1-3）求出第j个说话人的通用背景模型UBM_j上的各个混合的均值参数从而构建出第j个说话人的通用背景模型UBM_j：

μ_{{ubm}_{j}} (c) = \frac{Σ_{j = 1}^{j} z_{{ubm}_{j}} (c) + \frac{σ_{{ubm}_{0}} (c)}{{\hat{σ}}_{ubm}} μ_{{ubm}_{0}} (c)}{Σ_{j = 1}^{j} r_{{ubm}_{j}} (c) + \frac{σ_{{ubm}_{0}} (c)}{{\hat{σ}}_{ubm}}} - - - 1 - 3)

在式1-3）中，

为弱先验方差，

取先验方差中的较小值。

在上述步骤一中，所述的基于第j个说话人的语音，通过第j个说话人的通用背景模型UBM_j自适应出第j个说话人的弱说话人模型GMM_j，1≤j≤n（j为正整数），包括如下步骤：

通过下式1-4）和1-5）计算第j个说话人的弱说话人模型GMM_j的说话人充分统计信息，该说话人充分统计信息包括第j个说话人在第j个说话人的通用背景模型UBM_j上的各个混合的贡献率累加值及贡献率加权值

r_{{gmm}_{j}} (c) = Σ_{i} r_{j, i} (c) = Σ_{i} \frac{N (x_{j, i}; μ_{{ubm}_{j}} (c), σ_{{ubm}_{j}} (c))}{Σ_{c} N (x_{j, i}; μ_{{ubm}_{j}} (c), σ_{{ubm}_{j}} (c))} - - - 1 - 4)

z_{{gmm}_{j}} (c) = Σ_{i} r_{j, i} (c) x_{j, i} = Σ_{i} \frac{N (x_{j, i}; μ_{{ubm}_{j}} (c), σ_{{ubm}_{j}} (c))}{Σ_{c} N (x_{j, i}; μ_{{ubm}_{j}} (c), σ_{{ubm}_{j}} (c))} x_{j, i} - - - 1 - 5)

在式1-4）、1-5）中，r_j,i(c)表示第j个说话人的第i帧数据在第j个说话人的通用背景模型UBM_j上第c个混合的贡献率，x_j,i为将第j个说话人的语音分为若干帧（大于1帧）中的第i帧数据，c为第j个说话人的通用背景模型UBM_j的第c个混合，1≤c≤m（c、m为正整数），

分别为第j个说话人的通用背景模型UBM_j上第c个混合的均值、方差参数，

表示第j个说话人的第i帧数据在第j个说话人的通用背景模型UBM_j上第c个混合的后验概率；

通过下式1-6）求出第j个说话人的弱说话人模型GMM_j上的各个混合的均值参数

从而构建出第j个说话人的弱说话人模型GMM_j：

μ_{{gmm}_{j}} (c) = \frac{z_{{gmm}_{j}} (c) + \frac{σ_{{ubm}_{j}} (c)}{{\hat{σ}}_{gmm}} μ_{{ubm}_{j}} (c)}{r_{{gmm}_{j}} (c) + \frac{σ_{{ubm}_{j}} (c)}{{\hat{σ}}_{gmm}}} - - - 1 - 6)

在式1-6)中，

为强先验方差，

取先验方差中的较大值。

在上述步骤一中，所述的已建立的各个说话人的弱说话人模型分别基于自身相应的说话人充分统计信息，通过第j个说话人的通用背景模型UBM_j进行更新，1≤j≤n（j为正整数），具体为：

k依次取1到j执行如下步骤，1≤k≤j（k为正整数）：

通过下式1-7）求出第k个说话人的弱说话人模型GMM_k更新后得到的说话人模型上的各个混合的均值参数

从而构建出第k个说话人的弱说话人模型更新后得到的说话人模型：

μ_{{spk}_{k}} (c) = \frac{z_{{gmm}_{k}} (c) + \frac{σ_{{ubm}_{j}} (c)}{{\hat{σ}}_{gmm}} μ_{{ubm}_{j}} (c)}{r_{{gmm}_{k}} (c) + \frac{σ_{{ubm}_{j}} (c)}{{\hat{σ}}_{gmm}}} - - - 1 - 7)

在式1-7）中，

分别为第k个说话人的弱说话人模型GMM_k上的各个混合的贡献率累加值、贡献率加权值，

为强先验方差，

取先验方差中的较大值，其中：

第k个说话人的弱说话人模型GMM_k上的各个混合的贡献率累加值

贡献率加权值

分别通过下式1-8）、1-9）计算得到：

r_{{gmm}_{k}} (c) = Σ_{i} r_{k, i} (c) = Σ_{i} \frac{N (x_{ki}; μ_{{ubm}_{k}} (c), σ_{{ubm}_{k}} (c))}{Σ_{c} N (x_{k, i}; μ_{{ubm}_{k}} (c), σ_{{ubm}_{k}} (c))} - - - 1 - 8)

z_{{gmm}_{k}} (c) = Σ_{i} r_{k, i} (c) x_{k, i} = Σ_{i} \frac{N (x_{k, i}; μ_{{ubm}_{k}} (c), σ_{{ubm}_{k}} (c))}{Σ_{c} N (x_{k, i}; μ_{{ubm}_{k}} (c), σ_{{ubm}_{k}} (c))} x_{k, i} - - - 1 - 9)

在式1-8）、1-9）中，r_k,i(c)表示第k个说话人的第i帧数据在第k个说话人的通用背景模型UBM_k上第c个混合的贡献率，x_k,i为将第k个说话人的语音分为若干帧（大于1帧）中的第i帧数据，c为第k个说话人的通用背景模型UBM_k的第c个混合，1≤c≤m（c、m为正整数），

分别为第k个说话人的通用背景模型UBM_k上第c个混合的均值、方差参数，表示第k个说话人的第i帧数据在第k个说话人的通用背景模型UBM_k上第c个混合的后验概率。

在本发明中，设定初始通用背景模型UBM₀具有m个混合，所有的通用背景模型UBM₁至UBM_n均具有m个混合。

需要说明的是：第1个说话人的通用背景模型UBM₁实际上仅基于第1个说话人的语音，通过初始通用背景模型UBM₀自适应得出，具体为：

通过下式1）和2）计算第1个说话人的通用背景模型UBM₁的说话人充分统计信息，该说话人充分统计信息包括第1个说话人在初始通用背景模型UBM₀上的各个混合的贡献率累加值及贡献率加权值

r_{{ubm}_{1}} (c) = Σ_{i} r_{1, i} (c) = Σ_{i} \frac{N (x_{1, i}; μ_{{ubm}_{0}} (c), σ_{{ubm}_{0}} (c))}{Σ_{c} N (x_{1, i}; μ_{{ubm}_{0}} (c), σ_{{ubm}_{0}} (c))} - - - 1)

z_{{ubm}_{1}} (c) = Σ_{i} r_{1, i} (c) x_{1, i} = Σ_{i} \frac{N (x_{1, i}; μ_{{ubm}_{0}} (c), σ_{{ubm}_{0}} (c))}{Σ_{c} N (x_{1, i}; μ_{{ubm}_{0}} (c), σ_{{ubm}_{0}} (c))} x_{1, i} - - - 2)

在式1）、2）中，r_1,i(c)表示第1个说话人的第i帧数据在初始通用背景模型UBM₀上第c个混合的贡献率，x_1,i为将第1个说话人的语音分为若干帧（大于1帧）中的第i帧数据，c为初始通用背景模型UBM₀的第c个混合，1≤c≤m（c、m为正整数），

表示第1个说话人的第i帧数据在初始通用背景模型UBM₀上第c个混合的后验概率；

通过下式3）求出第1个说话人的通用背景模型UBM₁上的各个混合的均值参数

从而构建出第1个说话人的通用背景模型UBM₁：

μ_{{ubm}_{1}} (c) = \frac{z_{{ubm}_{1}} (c) + \frac{σ_{{ubm}_{0}} (c)}{{\hat{σ}}_{ubm}} μ_{{ubm}_{0}} (c)}{r_{{ubm}_{1}} (c) + \frac{σ_{{ubm}_{0}} (c)}{{\hat{σ}}_{ubm}}} - - - 3)

在式3）中，

为弱先验方差，取先验方差中的较小值。

在本发明中，

为预先设定好的固定值。

在本发明中，一般地，对于说话人语音分割按照每帧20毫秒进行分帧，帧移10毫秒。

对于本发明创建的说话人确认系统，其可创建在需要进行说话人确认的任意一个计算机系统中，当说话人确认系统构建好后，即可进行说话人确认。当某个说话人通过输入用户名、密码、账号之类的登录信息登录该计算机系统时，若该说话人输入的登录信息不正确，则无需进行说话人确认，阻止其进入该计算机系统，反之，若该说话人输入的登录信息正确，则经由该说话人确认系统进行说话人确认，具体为：找到与该说话人对应的说话人模型，基于该说话人的语音，在该说话人模型与第n个说话人的通用背景模型上分别进行似然计算后相减得到语音置信度，若计算出的语音置信度大于等于置信度阈值，则认为该说话人为该计算机系统的用户（即为创建说话人确认系统时进行过录入的第1个至第n个说话人中的其中一人），允许其进入该计算机系统进行操作，若计算出的语音置信度小于置信度阈值，则认为该说话人不是该计算机系统的用户，阻止其进入该计算机系统进行操作。

本发明的优点是：

对于基于n个说话人的语音创建的说话人确认系统，其中最后更新后得到的各个说话人模型、第n个说话人的通用背景模型均包含着各个说话人的说话人充分统计信息以及信道信息，与传统说话人模型相比，本发明创建的说话人确认系统中的说话人模型在传统说话人模型所具有的均值、方差参数的基础上，增加了说话人充分统计信息，且蕴涵了信道信息，因此，基于本发明创建的说话人确认系统进行说话人确认所得到的识别结果准确性高、可靠。

本发明通过模型顺序自适应方式而逐步创建出说话人确认系统，这种创建方式只需在进行过较少训练的初始通用背景模型上进行逐步训练即可实现，尤其当信道发生变化（比如由电话信道转为手机信道，移动基站调整信道参数等）时，重新从初始通用背景模型开始顺序自适应，即可再次创建出说话人确认系统，而通过模型顺序自适应方式得到的各个通用背景模型和说话人模型的信道会逐渐收敛至新的信道，因此，本发明所创建出的说话人确认系统所达到的说话人确认效果不会受信道变化的影响，说话人识别性能不会下降，不用像已有说话人确认系统那样，必须基于数百人、男女均衡、信道匹配、数小时语音来重新训练初始的通用背景模型后才能进行说话人确认，可见，本发明不受信道变化等条件限制，易实现，实用性高。

以上所述是本发明的较佳实施例及其所运用的技术原理，对于本领域的技术人员来说，在不背离本发明的精神和范围的情况下，任何基于本发明技术方案基础上的等效变换、简单替换等显而易见的改变，均属于本发明保护范围之内。