CN103730114A

CN103730114A - 一种基于联合因子分析模型的移动设备声纹识别方法

Info

Publication number: CN103730114A
Application number: CN201310751242.XA
Authority: CN
Inventors: 李为; 朱杰; 姚国勤; 钱传根; 杭乐
Original assignee: SHANGHAI JIAO TONG UNIVERSITY WUXI RESEARCH INSTITUTE
Current assignee: SHANGHAI JIAO TONG UNIVERSITY WUXI RESEARCH INSTITUTE; Shanghai Jiaotong University
Priority date: 2013-12-31
Filing date: 2013-12-31
Publication date: 2014-04-16

Abstract

本发明公开了一种基于联合因子分析模型的移动设备声纹识别方法，包括背景模型库训练、用户声纹模型训练（说话人训练）和声纹确认（说话人确认）三大部分，并采用联合因子分析模型构建说话人空间、信道空间和残差空间三个子空间，利用联合因子分析模型技术，将声纹识别系统移植到移动设备端，使其成为一款可代替密码的身份确认应用产品。本发明对声纹识别在移动端应用的短板不足进行补充和改进，对说话人识别中的易变性干扰，包括信道易变性和会话易变性进行估计和补偿，使用户可以通过较短的语音进行训练和识别，并在不同背景环境下也能取得良好的识别效果。

Description

一种基于联合因子分析模型的移动设备声纹识别方法

技术领域

本发明公开了一种基于联合因子分析模型的移动设备声纹识别方法，涉及声纹识别技术领域。

背景技术

随着模式识别技术的发展突破和电子设备运算速度和性能的提高，生物信息识别技术近年来在用户身份确认领域中得到了飞速的发展。相较于传统的密码和PIN码具有容易被窃取和复制的硬伤，生物信息（指纹、声纹等）对于每一个用户来说都具有唯一性，并且极难窃取复制。指纹识别由于其稳定、不易变化、不受外界条件影响等优点，已经被广泛的应用在了打卡器和手持设备等电子产品中。声纹识别技术也被应用在了保险箱解锁、声控门锁和高档轿车发动机启动确认等领域。但在移动设备上，尤其是智能手机端，声纹识别在实用化过程中仍然有许多问题需要解决，主要有以下因素：

1.考虑到效率和便捷等因素，用户用作训练模型的语音不能多于30s，识别时的语音不能多于10s，这就带来训练数据不足的问题。

2.手机设备的易变性。由于不同型号智能手机的音频处理芯片和算法的差异，读取的音频质量会有差别。

3.传输信道的易变性。由于蜂窝通信和VOIP等传输语音的技术对于语音的编解码方式存在差异等。传输信道对语音的质量也有一定程度的畸变和损伤。

4.背景环境的易变性。由于移动设备采集语音的地点无法固定。密闭环境、车厢、机场、户外等，语音不可避免地会携带背景环境的信息，对声纹模型（说话人模型）会有不同程度的影响。

5.声纹的差异。同一用户，说话时的语气、感情、说话的内容和语种的不同也会对说话人模型带来影响。

以上这些因素统称为说话人识别中的易变性（variability）干扰，其中，2、3、4统称为信道易变性（channel variability），5称为会话易变性（session variability）。

为了降低和消除以上这些干扰对声纹识别系统性能的影响，Patrick Kenny等研究者提出了一种在传统的GMM-UBM（高斯混合模型-通用背景噪声模型）声纹识别系统基础上的改进模型算法，称为联合因子分析（Joint Factor Analysis，JFA），如图1所示。该方法在NIST2008说话人识别评比中取得了最优的成绩，并且能够有效处理易变性对声纹模型带来的干扰。

JFA模型是一种两层模型，基于经典的GMM-UBM框架。传统的GMM-UBM模型已经验证，不同声纹模型的差异只在于每个高斯的均值向量，而每个高斯模型的权重和方差都可以直接来源于UBM的取值。传统的UBM-GMM模型抛弃了训练语音中大量的信道信息和会话信息。而JFA模型构建了三个子空间：说话人空间、信道空间和残差空间，最终的高斯均值向量表征为：

M_ki＝m_k+U_kx_i+V_ky_s(i)+D_kz_ks(i) (I)

下标的含义如下，k代表第k个高斯模型，i代表某一个语音段（会话），s_(i)表示说话人s的某一语音段i。上述公式中：m_k表示独立于说话人和会话内容的均值向量，一般是取UBM中的相应高斯的均值向量；U_k表示信道因子负载方阵；V_k表示说话人因子负载方阵；D_k表示说话人残差计量方阵，为对角矩阵；

以上矩阵都需要大量的背景数据进行训练，取得相应的最大似然的模型。这些训练过程都不需要用户参与。而隐藏的用户参数和会话参数需要移动设备采集用户的声音进行训练和最大似然。这些隐藏的用户参数和会话参数为：x_i代表依赖于会话的信道因子向量；y_s(i)代表依赖于说话人的声纹因子向量；z_ks(i)表示依赖于说话人和单个高斯模型的残差因子向量；通常认为x_i，y_s(i)和z_ks(i)都是符合(0，1)分布的标准高斯分布。JFA通过引入的两个新的子空间(信道空间和残差空间)的参数估计，将信道易变性和会话易变性的影响考量进最终的声纹模型中，从而是最终的高斯均值向量(这个向量表征了每个特定的说话人的声纹特征)。

JFA模型使得声纹识别系统能够很好地抑制和消除移动设备端设备带来的种种易变性干扰，并且拥有很好的鲁棒性。但国内还未有企业和研究机构将这项技术移植到移动设备端。

发明内容

本发明所要解决的技术问题是：针对现有技术的缺陷，提供一种基于联合因子分析模型的移动设备声纹识别方法，利用JFA技术，将声纹识别系统移植到移动设备端，使其成为一款可代替密码的身份确认应用产品。

本发明为解决上述技术问题采用以下技术方案：

一种基于联合因子分析模型的移动设备声纹识别方法，包括背景模型库训练、用户声纹模型训练和声纹确认三部分，并采用联合因子分析模型构建说话人空间、信道空间和残差空间三个子空间；所述联合因子分析模型的高斯均值向量表征为：

M_ki＝m_k+U_kx_i+V_ky_s(i)+D_kz_ks(i) （1）

其中，k代表第k个高斯模型，i代表某一个语音段，s_(i)表示说话人s的某一语音段，m_k表示独立于说话人和会话内容的均值向量，U_k特征信道矩阵，V_k表示特征说话人矩阵，D_k表示残差空间矩阵；x_i表示信道因子向量，y_s(i)表示依赖于说话人的声纹因子向量，z_ks(i)表示依赖于说话人和单个高斯模型的残差因子向量；

所述背景模型库训练、用户声纹模型训练和声纹确认，具体如下：

一、背景模型库训练包括以下步骤：

（1）采集移动设备端的语料作为训练数据；

（2）对采集的语料进行平衡性分析，保持语音的长度相似，保证信道易变性和会话易变性的平衡；

（3）对步骤（2）处理后的语料进行前端预处理，包括：

（301）将语音信号分段加窗后经过计算得出梅尔幅倒谱系数的特征参数流；

（302）以特征参数流数据训练通用背景模型（UBM）；

（303）将每一个语料利用最大后验准则将其自适应到说话人模型上，再用构建特征音空间的方法对表征特定说话人模型的参数进行降维处理；

（304）通过稀疏数据的EM算法最大化所有训练数据中的整体似然度，针对所有说话人的语音段求统计量，构建特征说话人矩阵V_k；

（4）构建特征信道矩阵U_k，针对语料中某个固定说话人的语音段求统计量，特征信道矩阵的维度固定为移动设备端型号类型的数量；

（5）构建残差空间矩阵D_k，完善移动设备端的声纹识别背景模型库建；

二、用户声纹模型训练包括：

用户由移动设备端向服务器端上传一段训练语音，移动设备端对训练语音进行预处理：服务器端对训练语音所对应的声纹模型进行训练和识别，服务器端接收到训练语音后，通过最大似然的办法训练模型，对信道因子向量x_i、依赖于说话人的声纹因子向量y_s(i)、依赖于说话人和单个高斯模型的残差因子向量z_ks(i)进行最大后验概率估计，其中，y_s(i)用以表征该移动设备端所对应的用户的特征向量，x_i和z_ks(i)用以补偿信道易变性和会话易变性的干扰；

服务器端为移动设备端所对应的用户建立用户声纹模型，并将用户声纹模型返回到用户的移动设备端，用户再上传一段测试语音至服务器端作为测试，并在服务器端进行T-Norm和Z-Norm分数规整，用以放大用户和其他人的分数区别，以此来设定门限值；

三、声纹确认包括：

用户输入自己的一段解锁语音至移动设备，移动设备端进行前端预处理之后将用户解锁语音信息发到服务器端，服务器端采用通用背景模型作为说话人的特征向量，使用用户的解锁语音对残差因子向量z_ks(i)和信道因子向量x_i进行估计，将估计后的参数与该移动设备对应的注册用户的特征向量y_s(i)进行结合，计算解锁语音对应的分数；

如果分数高于步骤二得到的门限值则确认用身份，解锁移动设备的使用权限，如果分数低于步骤二得到的门限值则拒绝解锁移动设备。

作为本发明的进一步优选方案，所述移动设备端为手机或平板电脑。

作为本发明的进一步优选方案，在进行用户声纹模型训练时，用户由移动设备端向服务器端上传的训练语音长度大于30秒。

作为本发明的进一步优选方案，在进行用户声纹模型训练时，用户由移动设备端向服务器端上传的测试语音长度为10秒。

作为本发明的进一步优选方案，在进行用户声纹确认时，用户输入的解锁语音长度为5秒至10秒。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：与传统的声纹识别产品相比，本发明可以更好地适应移动设备端带来的易变性干扰，替代和辅助传统的通过密码进行身份确认的方式，为移动用户带来更便捷安全的个人信息保护，并填补市场空白。

附图说明

图1是联合因子分析（Joint Factor Analysis，JFA）模型示意图。

图2是采用本发明所述方法的移动应用端的声纹识别系统的性能指标示意图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本发明的目的在于利用JFA技术将声纹识别系统移植到移动端，使其成为一款可代替密码的身份确认应用产品。与传统的声纹识别产品相比，该发明可以更好地适应移动设备端带来的易变性干扰，替代和辅助传统的通过密码进行身份确认的方式，为移动用户带来更便捷安全的个人信息保护，并填补市场空白。

本发明是通过以下技术方案实现的：包括背景模型库训练、用户声纹模型训练（说话人训练）和声纹确认（说话人确认）三大部分。

背景模型库训练包括以下步骤：

1、采集移动端的语料。使用大量品牌和型号不同的设备（至少数十种型号，品牌涵盖市面上的主流手机品牌），让前期测试人员（百人以上，男女均衡，并且覆盖各年龄段的比例）在不同时间地点采集自己的声音作为训练语料，并通过不同方式上传至中心服务器端（通过VOIP或者WLAN等）。语料需要进行人工标注，包括手机型号、录音地点、传输方式和说话人的身份（ID）。

2、将采集的语料进行平衡性分析，使前期测试人员的语音长度基本保持相似，并保证信道易变性和会话易变性的基本平衡。

3、对步骤2得到的语料进行前端预处理，包括语音端点检测（VAD）和特征提取，将语音信号分段加窗后进行计算得到梅尔幅倒谱系数（MFCC）的特征参数流。

4、以特征流数据训练通用背景模型（UBM模型），再将每一个前期测试人员的语料提取出来，利用最大后验准则（MAP）自适应到说话人模型上。

根据Reynolds等人的研究表明，表征说话人模型分布信息主要包含在均值向量中，因此基于最大后验概率准则的自适应过程可以仅考虑均值向量的自适应，方差与权重沿袭UBM中的信息不变。将所有的混合高斯函数的均值向量排列起来，就形成一个表征某个特定的前期测试说话人身份均值的超矢量(Supervector)。我们用M₀来表征UBM模型的超矢量，则表征某个特定说话人的超矢量M_s可以表示为：

M_s＝M₀+Δs (2)

式中，说话人s的均值超矢量M_s是在UBM的均值超矢量M₀上加上偏移量Δs来表征。说话人模型的高斯数量为C，每个高斯成分对应的声学特征为F维时，均值超矢量的维度是两者的乘积FC。即在每次训练说话人模型的MAP自适应过程中需要估计出F×C个参数，在短时数据的情况下（≤30s）要估计出如此多的参数相当不准确，而且不同说话人之间的分离度也很差。因此，短时情况下，为了保证每个特定说话人的超矢量的准确性和与其它说话人最大的分离度，需采用构建特征音空间的方法对表征特定说话人的参数进行降维处理。在使用本征音因子的说话人建模中，由于数据的受限，同样仅考虑均值向量的自适应，而方差向量与均值认为是承袭UBM不变。这里每个说话人的均值超矢量M_s与UBM的均值超矢量M₀满足以下关系

M_s＝M₀+Vy_s (3)

式中：V对应一个低维的说话人特征音矩阵，它是一个FC×R维的矩阵；y_s为M_s在V上投影得到的一个R维的向量。即任何一句单独的语音可以分解作为说话人背景模型的M₀与反映每个说话人特征的y_s的叠加。在已经利用充足的数据估计出说话人空间V的情况下，对说话人建模就是需要估计出说话人因子向量y_s；由于R远小于FC，这样需要估计的参数就少很多。Patrick Kenny等研究者通过一种稀疏数据的EM算法来最大程度地构建说话人空间。这种EM算法就是最大化所有训练数据中的整体似然度。

P_Λ(χ(s))＝∫P_Λ(χ(s)|(x(s)))N(x(s)|0，I)dx(s) (4)

式中：χ(s)为观测矢量，也就是语音特征矢量；x(s)为满足正态分布的隐藏变量；而N(x(s)|0，I)表示均值为0，方差为单位矩阵的多维标准高斯分布，x(s)表示y_s的先验分布向量，与y_s的维度相同，都为R。0为R×1的零矩阵。方差I为对角元素为1，其余元素都为0的单位矩阵，也就是说我们认为不同维度之间的协方差为0，这种近似不会对结果造成。对每句具体的话来讲，x(s)就是y_s的初始分布，给定了x(s)，说话人s的模型生成语音段χ(s)的似然概率为:

\begin{matrix} P_{Λ} (χ (s) | (x (s))) = Σ_{c = 1}^{C} N_{c} (s) \log \frac{1}{{(2 π)}^{F / 2} {| Σ |}^{1 / 2}} - \\ \frac{1}{2} Σ_{c = 1}^{C} Σ_{t} {(x_{t} - M_{c} (s))}^{T} Σ^{- 1} (x_{t} - M_{c} (s)) \end{matrix} - - - (5)

式中：M_c(s)为说话人模型中的第c个高斯的均值向量，对应于M_s的(c-1)*F+i范围内的子向量，其中i的取值为1≤i≤F；N_c(s)为第c个高斯上分配到的帧数，x_t为χ(s)在第t帧的观测序列，即第t帧语音特征向量。

利用EM算法估计出y_s的大致流程如下：

（1）对于每个人语音数据的每一帧计算相对UBM模型中每个高斯的状态占有率，每一帧数据直接分配到其状态占有率最大的高斯，计算出统计量N_c(s)，S_x，c(s)和

N_{c} (s) = \underset{t}{Σ} γ_{t} (c)

S_{x, c} (s) = \underset{t}{Σ} γ_{t} (c) (x_{t} - m_{c})

S_{{xx}^{T}, c} (s) = diag {Σ_{t} γ_{t} (c) (x_{t} - m_{c}) {(x_{t} - m_{c})}^{T}} - - - (6)

其中γ_t(c)为每一帧是否分配给第c个高斯上的统计量，如果第t帧观测向量x_t分配给了第c个高斯，则γ_t(c)＝1，否则γ_t(c)＝0，N_c(s)为第c个高斯上分配到的帧数。

m_c为UBM超矢量M₀的第c个子向量，取值范围为(c-1)*F+i，其中i的取值为1≤i≤F。

把所有C个S_x，c(s)拼接起来形成超向量S_x(s)，是一个FC×1维的超矢量，这是语音相对于UBM超矢量M₀的一阶统计量。是一个F×F对角阵，把所有C个S_x，c(s)拼接起来形成一个FC×FC维的对角阵S_x(s)，这是语音相对于UBM超矢量M₀的二阶统计量.N_c(s)是代表每个高斯上分配的特征参数的个数，用N_c(s)作为主对角线元素，形成一个主对角上数值全相同的FXF对角阵N_c(s)，将C个N_c(s)拼接起来，得到一个FC×FC维的对角阵N(s)，可以分别看作语音相对于UBM超矢量M₀的零阶统计量。

（2）E(Expectation)：根据模型参数的初始值(第一次迭代)和对所有训练数据进行处理得到相应的统计量，估计出每一段语音的说话人因子y_(s)的一阶统计量与二阶统计量：

ι(s)＝I′+V^TΣ^-1N(s)V (7)

E[y_(s)]＝ι^-1(s)V^TΣ^-1S_x(s) (8)

E[y_(s)y_(s) ^T]＝E[y_(s)]E[y_(s) ^T]+ι^-1(S) (9)

式中，I′为R×R的单位矩阵；N(s)为式(6)中N_c(s)按对角方式连接而成的CF×CF维矩阵，表示为：

S_x(s)为式(6)中S_x，c(s)的级联向量，表示为：

(\begin{matrix} S_{x, 1} (s) \\ . \\ . \\ . \\ S_{x, c} (s) \end{matrix})

E[]为求期望值，ι(s)为中间变量。

（3）M(Maximization)步：对式(4)中的模型参数求微分后令其为零，可以得到说话人特征音矩阵的更新公式：

Σ_sN(s)VE[y_(s)y_(s) ^T]＝Σ_sS_x(s)E[y_(s) ^T] (10)

经过几次迭代得到新的模型参数V，可以推出它和原来的模型参数V₀之间满足关系：

Σ_{s} \log P_{v} χ (s) &GreaterEqual; Σ_{s} \log P_{v_{0}} χ (s) - - - (11)

重复步骤（2）、（3）进行迭代，直至收敛到一个很小的范围为止，一般来说，计算4-5次即可构建出一个很好的特征音空间。再多的计算既会带来时间和效率的损耗，也容易造成过拟合的问题，反而生成的特征音空间效果会变差。

考虑在采集语料的步骤我们已经有了足够的前期测试人员，因此我们可以认为构建出的说话人空间可以满足所有用户的最大似然的需要。通常R的值等于或者小于测试者的人数，因此我们构建某个新的说话人所需要的参数就从CF维（参数范围从4万到10万个参数/用户）降为R维（100-200个参数/用户），只需要每个用户提供少量的语音，就能很好地构建属于该用户的均值超向量M_s。

（4）有了UBM的超向量均值M₀和特征音矩阵V，接下来需要估计特征信道矩阵U。在估计特征信道矩阵，需要固定某个前期测试人员的语音，并将他(她)在各种信道条件下(包括手机型号、背景环境和语音传输方式)的数据混合起来进行训练。在移动端声纹识别系统中，我们将特征信道矩阵的维度固定为手机型号的数量（几十到一百左右）。估计特征信道矩阵和上述特征说话人矩阵)的方法非常类似，区别主要有：估计U时是对固定说话人每段语音求统计量,而估计V时是对说话人所有的语音段求统计量；在计算一阶统计量的时候,此时中心化参数M₀(M₀是上述的超矢量形式)变成了M₀＝VE[y_(s)]。接下来的估计步骤与特征音的估计基本相似，在此不作赘述。

（5）估计残差空间矩阵D与估计特征说话人矩阵)V相似,都是对说话人的所有语音段求统计量，但在计算一阶统计量的时候,此时中心化参数M₀(M₀是上述的超矢量形式)变成了M₀+VΣ_sE[y_(s)]+UΣ_sΣ_tE[x_s，h]。接下来的估计步骤也与特征音的估计基本相似，至此，JFA的三个子空间矩阵V（特征说话人矩阵)、U（特征信道矩阵）、D（残差矩阵）都已经估计完善。移动终端的声纹识别背景模型库建立完善。

第一部分的操作与实际的用户无关，移动端声纹识别背景模型存储在软件服务器端，用户只需要在自己的移动设备端安装声纹软件的客户端便可通过软件对手机的访问进行控制。

第二部分为用户声纹模型训练（说话人训练）。第一次使用时用户需保持网络连接，初始化软件，设定用户名，然后上传一段语音作为自己的专属密码，内容由用户自己随意指定，语音长度需在30s以上，训练和数据存储的过程在服务器端进行，手机端对用户的语音进行预处理，包括语音端点检测(VAD)和特征提取。端点检测之后会计算有效语音的长度，如果长度小于30s，则系统将不会进行后续特征提取的处理，要求用户重新进行输入。而将前端处理放在用户手机上进行主要是考虑到了现阶段智能手机的计算能力已经比较强大，甚至与PC接近。而预处理之后的信息相较于原始的语音段容量大为缩减，可以节省移动端的数据消耗，并且由于特征提取是不可逆的，通过特征无法恢复出原始的语音信号，所以传输中也起到了一定的加密效果。而模型训练过程需要的计算量比较庞大，考虑到手机的能耗和训练效率，我们将用户模型的训练和识别过程放在了服务器端。服务器端接收到语音后，通过最大似然的办法训练模型，对信道因子向量x_i、依赖于说话人的声纹因子向量y_s(i)、依赖于说话人和单个高斯模型的残差因子向量z_ks(i)进行最大后验概率估计。y_s(i)即为表征该移动设备用户的特征向量，而x_i和z_ks(i)可以很好地补偿信道易变性和会话易变性的干扰。

系统在服务器端为新用户建立起了模型之后，会将结果返回到用户的手机端，用户此时需要再输入一段10s左右长度的语音作为测试，通过在服务器端的海量语音进行T-Norm和Z-Norm分数规整，以便放大真正说话人和其他冒领者的分数差，以此来设定门限。

最后一部分是声纹确认部分，声纹识别代替了常规的密码解锁，用户唤醒移动设备时，需要输入自己的一段长度为5-10s左右的语音进行确认，手机端进行前端预处理之后将用户信息发到软件服务器端，服务器端先将用户特征向量置0，即采用UBM模型作为说话人的特征向量，利用用户的测试语音对残差因子向量z_ks(i)和信道因子向量x_i进行估计，将估计后的参数与该设备注册用户的特征向量y_s(i)进行结合，再利用这段测试语音进行判别，如果分数高于门限值则确认身份，解锁手机的使用权限，如果分数低于门限则拒绝解锁手机。考虑到在一些极端情况下，如信噪比极低的环境中(例如闹市区、有演出的礼堂等等)，或者不适合利用声音进行解锁的环境下，也可以切换到传统的数字密码或图形密码界面来解锁移动设备。

采用本发明所述方法的移动应用端的声纹识别系统的性能指标示意图如图2所示，国际上通常采用等错误率(Equal Error Rate，EER)对声纹识别系统的性能进行评价，从结果看来，该系统在性能表现上虽然没有达到理论上的最好水平，但考虑到实际情况下遇到的可变因素要多于实验室的环境，因此这个结果是可靠稳定的。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于联合因子分析模型的移动设备声纹识别方法，其特征在于：包括背景模型库训练、用户声纹模型训练和声纹确认三部分，并采用联合因子分析模型构建说话人空间、信道空间和残差空间三个子空间；所述联合因子分析模型的高斯均值向量表征为：

M_ki＝m_k+U_kx_i+V_ky_s(i)+D_kz_ks(i)

一、背景模型库训练包括以下步骤：

（1）采集移动设备端的语料作为训练数据；

（3）对步骤（2）处理后的语料进行前端预处理，包括：

（302）以特征参数流数据训练通用背景模型（UBM）；

二、用户声纹模型训练包括：

三、声纹确认包括：

2.如权利要求1所述的一种基于联合因子分析模型的移动设备声纹识别方法，其特征在于：所述移动设备端为手机或平板电脑。

3.如权利要求1所述的一种基于联合因子分析模型的移动设备声纹识别方法，其特征在于：在进行用户声纹模型训练时，用户由移动设备端向服务器端上传的训练语音长度大于30秒。

4.如权利要求1所述的一种基于联合因子分析模型的移动设备声纹识别方法，其特征在于：在进行用户声纹模型训练时，用户由移动设备端向服务器端上传的测试语音长度为10秒。

5.如权利要求1所述的一种基于联合因子分析模型的移动设备声纹识别方法，其特征在于：在进行用户声纹确认时，用户输入的解锁语音长度为5秒至10秒。