CN104167208A

CN104167208A - 一种说话人识别方法和装置

Info

Publication number: CN104167208A
Application number: CN201410389619.6A
Authority: CN
Inventors: 李志锋; 李娜; 乔宇
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2014-08-08
Filing date: 2014-08-08
Publication date: 2014-11-26
Anticipated expiration: 2034-08-08
Also published as: CN104167208B

Abstract

本发明适用于说话人识别领域，提供了一种说话人识别方法和装置，该方法包括：提取JFA说话人超向量，所述JFA说话人超向量为通过联合因子分析方法去除信道信息影响的高斯混合模型GMM超向量；对所提取的JFA说话人超向量进行分段，将JFA说话人超向量划分为多个子向量集；根据分段所得到的多个子向量集，对每个子向量集进行非参数区分分析，建立子空间说话人模型；根据所述子空间说话人模型获取待识别说话人的参考向量以及训练样本说话人的参考向量进行说话人识别。和现有技术相比，本发明运算量小；而且测试数据收集简单，提高识别性能。

Description

一种说话人识别方法和装置

技术领域

本发明属于语音识别领域，尤其涉及一种说话人识别方法和装置。

背景技术

随着计算机技术及互联网技术的不断进步，智能设备在人们的生活中已经变得越来越不可或缺。而作为人与智能设备之间交互方式之一的语音交互，由于其具有采集简便、易于存储、难于模仿、语音获取的成本低廉等特性，也成为了研究领域的热点。

目前的智能语音处理方式，根据所利用的语音信息的不同，主要分为：语音识别(Speech Recognition)、语种识别(Language Recognition)以及说话人识别(Speaker Recognition)等。其中，语音识别的目标在于判断出语音信号中所传递的是何种语义信息；语种识别的目标是识别出语音信号所属的语言种类或者方言类型；说话人识别则是通过提取表征说话人的个性特征，识别出说话人的身份。

由于语音是身份信息的重要载体，与人脸、指纹等其他生物特征相比，语音的获取成本低廉，使用简单，便于远程数据采集，且基于语音的人机交流界面更为友好，因此说话人识别技术成为重要的自动身份认证技术。

目前经常使用的说话人识别的方法包括基于高斯混合模型-通用背景模型GMM-UBM进行说话人语音识别，虽然GMM-UBM模型具有一定的噪声鲁棒性，但是由于该模型在训练时没有考虑到信道的影响，当训练语音和测试语音来自不同的信道时，导致其识别性能急剧下降。

为克服信道失配时所带来的识别性能的降低，现有技术提出了一种基于GMM-UBM模型的联合因子分析(Joint Factor Analysis，JFA))方式，来进行说话人识别。但是，由于JFA理论建立在GMM-UBM模型的框架基础上，假设说话人的GMM均值超向量所包含的主要信息可以映射到两个相互独立的低维子空间中，采用EM迭代算法对基于GMM模型框架的空间载荷矩阵进行估计，在计算过程中无法脱离GMM模型框架。基于JFA理论的说话人确认方法是在测试过程中根据已估计好的参数对说话人模型进行了信道补偿，测试性能差。

发明内容

本发明实施例的目的在于提供一种基于JFA说话人超向量的非参数区分的说话人识别方法，以解决现有技术基于GMM-UBM模型的联合因子分析方式，来进行说话人识别时测试性能差的问题。

本发明所述说话人识别方法，包括下述实施步骤：

提取JFA说话人超向量，所述JFA说话人超向量为通过联合因子分析方法去除信道信息影响的高斯混合模型GMM超向量；

对所提取的JFA说话人超向量进行分段，将JFA说话人超向量划分为多个子向量集；

根据分段所得到的多个子向量集，对每个子向量集进行非参数区分分析，建立子空间说话人模型；

根据所述子空间说话人模型获取待识别说话人的参考向量以及训练样本说话人的参考向量，根据预设的计算规则，以及所述待识别说话人的参考向量以及所述训练样本说话人的参考向量进行说话人识别。

本发明实施例的另一目的在于提供一种说话人识别装置，其特征在于，所述装置包括：

提取单元，用于提取JFA说话人超向量，所述JFA说话人超向量为通过联合因子分析方法去除信道信息影响的高斯混合模型GMM超向量；

分段单元，用于对所提取的JFA说话人超向量进行分段，将JFA说话人超向量划分为多个子向量集；

建模单元，用于根据分段所得到的多个子向量集，对每个子向量集进行非参数区分分析，建立子空间说话人模型；

识别单元，用于根据所述子空间说话人模型获取待识别说话人的参考向量以及训练样本说话人的参考向量，根据预设的计算规则，以及所述待识别说话人的参考向量以及所述训练样本说话人的参考向量进行说话人识别。

在本发明中，提取了说话人的去除信道信息影响的GMM超向量作为JFA说话人超向量，既能够详细描述说话人的个性特征，又去除了通信信息的影响，通过对JFA说话人超向量进行分段后，再进行非参数区分分析，建立子空间说话人模型，由训练好的子空间说话人模型获取待识别说话人的参考向量以及训练样本说话人的参考向量，根据预设的计算规则进行识别。和现有技术相比，由于对JFA超向量进行了非参数区分分析，进而提取了类别边界的区分信息，从而提高说话人识别系统性能。

附图说明

图1是本发明实施例提供的说话人识别方法的实现流程图；

图2是本发明实施例提供的采用平均划分方法，将所述JFA说话人超向量划分为多个子向量集的流程示意图；

图3示出了采用非平均划分方法，将所述JFA说话人超向量划分为多个子向量集的流程示意图；

图4示出了对每个子向量集进行非参数区分分析，建立子空间说话人模型的流程示意图；

图5为本发明实施例提供的说话人识别的流程示意图；

图6为本发明实施例提供的R-NDA系统的5组实验结果；

图7为本发明基于GMM算法聚类分段的非参数区分说话人确认系统的5组实验结果；

图8为本发明基于GMM均值向量维度分段的F-NDA和FD-NDA系统的实验结果；

图9本发明实施例提供的说话人识别装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实例仅仅用以解释本发明，并不用于限定本发明。

鉴于联合因子分析JFA理论作用于高斯混合模型-通用背景模型GMM-UBM系统中能够取得很好的失配补偿效果，所以，本申请将将基于联合因子分析的失配补偿方法应用到基于非参数区分分析技术的说话人确认系统中。我们提取了说话人的去除部分信道信息影响的GMM超向量即JFA说话人超向量，以此作为代表说话人信息的新的特征表达，通过这种方式将每个说话人不同长度的语音转换成具有相同维度的高维特征向量。JFA说话人超向量具有GMM超向量的特点，即能够详细描述说话人个性特征，又去除了信道信息的影响，所以可直接用于说话人确认系统的特征输入。但是JFA说话人超向量具有很高的维度，也包含了较多的冗余信息。针对这个问题，本申请通过采用基于非参数区分分析的子空间说话人建模方法，首先对JFA说话人超向量进行压缩规整，再采用非参数分析的方法构造分类面，最后建立子空间说话人模型。在NIST 2008核心评测任务上的实验表明，该方法获得了比JFA系统更好的性能。下面结合附图进行详细说明：

图1示出了本发明实施例提供的说话人识别方法的实现流程，详述如下：

在步骤S101中，提取JFA说话人超向量，所述JFA说话人超向量为通过联合因子分析方法去除信道信息影响的高斯混合模型GMM超向量。

具体的，所述提取JFA说话人超向量步骤为：

获取说话人声音所对应的高斯混合模型GMM，所述高斯混合模型包括C个高斯成分，语音特征向量的维度为F；

根据联合因子分析，去除信道信息后，得到由GMM模型中的各个高斯成分的均值向量按顺序拼接起来的对每句话s的超向量J_h,s的表达式：

J_h,s＝m+Vy_h,s+Dz_h,s

其中，m代表的是GMM模型中的均值超向量；V是说话人本征音载荷矩阵，是一个(C×F)×R_v的矩阵，R_v为说话人因子数；U是本征信道载荷矩阵，是一个(C×F)×R_u的矩阵，R_u是信道因子数；D是残差载荷矩阵，是一个(C×F)×(C×F)的对角矩阵，代表的是用V空间无法拟合的每次说话形成的与说话人信息相关的一个空间；y，z分别是对应的说话人因子、残差因子，它们均服从标准正态分布。

联合因子分析理论认为，在基于GMM-UBM模型说话人确认框架中，通过最大后验概率(英文全称为Maximum A Posteriori，英文简称为MAP)方法得到的说话人s的GMM模型的均值超向量主要包含了说话人和信道两部分信息，且这两部分信息均服从高斯分布。采用联合因子分析方法将子空间说话人模型中的信道信息去除后，可以大幅提高说话人确认系统的性能。为了利用联合因子分析技术在解决信道失配情况下的优势，本实施例采用联合因子分析去噪后的子空间说话人模型的均值超向量作为说话人的特征。假设对来自说话人的一条语音建立一个子空间说话人模型，由GMM模型中的各个高斯成分的均值向量按顺序拼接起来的超向量,可以将每条不同长度的语音转换成具有同一维度且去除了信道信息影响的均值超向量。

在步骤S102中，对所提取的JFA说话人超向量进行分段，将JFA说话人超向量划分为多个子向量集。

具体可选的，采用GMM算法对UBM模型的所有高斯均值向量进行聚类，根据聚类结果，可以使用平均划分，或者非平均划分，将所述JFA说话人超向量划分为多个子向量集。

如图2所示为采用平均划分方法，将所述JFA说话人超向量划分为多个子向量集的流程示意图。

在步骤S201中，给定一个具有M个混合高斯成分的UBM模型，将M个高斯成分的均值向量m_j，(j＝1,2,...,M)作为训练样本来训练一个具有K个混合高斯成分的GMM模型；

在步骤S202中，对于UBM模型中的每个高斯成分的均值向量，计算其在所述GMM模型中每个混合高斯成分的占有率，即所述高斯成分的均值向量属于所述每个混合高斯成分的后验概率，这样对于每个高斯成分的均值向量，可以得到K个后验概率；

在步骤S203中，如果某一高斯成分的均值向量m_j对应于GMM模型中的第k个高斯成分的后验概率取得最大值那么就将m_j划分到第k类；

在步骤S204中，根据步骤S203所述的高斯成分的均值向量的划分方式，将所有M个高斯成分的均值向量m_j划分到K个类别中去；

在步骤S205中，对于第k个类别中的高斯成分的均值向量取其在UBM模型中的高斯成分的顺序值进行升序排列，得到

in d_{m_{1}}^{'}, {ind}_{m_{2}}^{'}, . . ., {ind}_{m_{n_{k}}}^{'};

在步骤S206中，对于每个类别k，按照的顺序从训练样品中各个JFA说话人超向量中依次取出相应的均值成分进行拼接，形成JFA说话人超向量的第k个子向量集合。

图3示出了采用非平均划分方法，将所述JFA说话人超向量划分为多个子向量集的流程示意图，具体包括以下步骤：

在步骤S301中，给定一个具有M个混合高斯成分的UBM模型，将M个高斯成分的均值向量m_j，(j＝1,2,...,M)作为训练样本来训练一个具有K个混合高斯成分的GMM模型；

在步骤S302中，对于UBM模型中的每个高斯成分的均值向量，计算其在所述GMM模型中每个混合高斯成分的占有率，即所述高斯成分的均值向量属于所述每个混合高斯成分的后验概率，这样对于每个高斯成分的均值向量，可以得到K个后验概率；

在步骤S303中，如果某一高斯成分的均值向量m_j对应于GMM模型中的第k个高斯成分的后验概率取得最大值那么就将m_j划分到第k类；

在步骤S304中，若第k类中的高斯成分的均值向量的数目已经超过平均值M/K，则将与已经分到该类中的均值所对应的后验概率的最小值进行比较，如果较大，则将高斯成分的均值向量m_j划分到第k类，同时将最小后验概率对应的均值向量按照同样的方式划分到其它类别中，否则，若较小，则将m_j按照其对应的第二大的后验概率值划分到相应类别中去；

在步骤S305中，按照步骤S304所述方式，将所有M个高斯成分的均值向量m_j划分到K个类别中去；

在步骤S306中，对于第k个类别中的高斯成分的均值向量取其在UBM模型中的高斯成分的顺序值进行升序排列，得到

in d_{m_{1}}^{'}, {ind}_{m_{2}}^{'}, . . ., {ind}_{m_{n_{k}}}^{'};

在步骤S307中，对于每个类别k，按照的顺序从训练样品中各个JFA说话人超向量中依次取出相应的均值成分进行拼接，形成JFA说话人超向量的第k个子向量集合。

JFA说话人超向量是通过对GMM-UBM框架中的说话人的GMM模型的均值超向量进行联合因子分析后得到的。因此，JFA说话人超向量不仅去除了信道信息的干扰而且还具有GMM模型的均值超向量的结构。对于文本无关的说话人识别来说，可以认为GMM的每个高斯成分模拟了来自说话人的某个语音素的声学特征，描述了不同的音素分布。子空间说话人模型从根本上来说是通过UBM模型得来的，而UBM模型使用大量的说话人的语音训练得到的，描述了大量的语音特征向量在空间中的分布，每个高斯成分可以认为是对特征向量的一个软分类。在通过最大后验概率MAP算法训练说话人模型的时候，说话人模型的参数是由UBM参数和训练数据的最大期望EM统计量经过运算得到，所以，UBM模型可以看作是说话人模型的一个先验基准模型。以GMM-UBM框架中的说话人模型的自适应建模为例，说话人模型的均值可以看作是在UBM模型均值基础上的平移，说话人模型之间的差异主要体现在均值上，通过这样的方式，不同说话人模型的均值超向量中的高斯成分均值就按照UBM模型中的高斯成分一一对应起来。同样道理，由说话人模型经过联合因子分析技术得到的JFA说话人超向量的均值成分也是与UBM模型中的高斯成分是对应的。这是由于这样的对应关系，JFA说话人超向量才能作为说话人的新的特征表达。

UBM模型描述了大量说话人的声学特征分布，即大量音素类的分布，UBM模型中的每个高斯成分描述了一个广义的音素类的分布。UBM模型往往具有很多的高斯成分混合数目，然而，当高斯混合成分数目过高时，某些高斯函数之间的相似度就比较高，这正是由于高混合数目的UBM模型对音素类的分布描述的非常详细，而某些音素类又比较相似的原因引起的。在对JFA说话人超向量的子空间区分建模中，若将相似的音素类对应的均值成分按顺序排在一起，将差异较大的音素类间隔开的话，可以提高JFA说话人超向量中所包含的区分信息，从而提高系统性能。

在步骤S103中，根据分段所得到的多个子向量集，对每个子向量集进行非参数区分分析，建立子空间说话人模型。

具体可选的，所述根据分段所得到的多个子向量集，对每个子向量集进行非参数区分分析，建立子空间说话人模型步骤可以包括如图4所述以下步骤：

在步骤S401中，采用主成分分析PCA方法去除包含在子向量集中的冗余信息，得到每个子向量集的降维后的投影矩阵。

具体的，采用主成分分析(Principal Component Analysis，PCA)方法去除包含在子向量中的冗余信息，如图5中所示的非参数分析部分中对应于各个子向量集的投影矩阵表达式中的子投影矩阵W₁₁,W_k1,...,W_K1就是PCA方法的最优降维后的投影矩阵。

在步骤S402中，采用类内协方差规整WCCN方法作用于所述降维后的投影矩阵，得到每个子向量集相应的子空间投影矩阵。

采用类内协方差规整(Within-Class Covariance Normalization，WCCN)来减少同一说话人由于健康状况或者情绪变化等因素引起的类内差异，该规整方法是应用于经过PCA方法投影后的特征向量集上的。图5中所示的非参数分析部分中对应于各个子向量集的投影矩阵表达式中的子投影矩阵W₁₂,W_k2,...,W_K2就是WCCN特征规整方法作用后得到的子空间投影矩阵。

在步骤S403中，采用非参数线性区分分析方法提取所述子空间投影矩阵的类边界的区分信息，得到每个子向量集中的非参数线性性区分分析投影矩阵。

具体的，提出非参数线性区分分析方法来提取类边界的区分信息，从而增大类间差异。在进行了前面两步的降维和特征规整去噪后，新的特征维度又进一步的减小了，这也避免了在最后一步的非参数线性区分分析中所得到的类内散度矩阵出现奇异矩阵的问题。上图中非参数分析部分中对应于各个子向量集的投影矩阵表达式中的子投影矩阵W₁₃,W_k3,...,W_K3就是非参数线性区分分析方法的投影矩阵。非参数线性区分分析(Nonparametric Linear DiscriminantAnalysis，NLDA)是对线性区分分析(Linear Discriminant Analysis，LDA)方法的一种改进。相对于传统的LDA方法其改进之处主要体现在以下两个方面：

A.考虑到传统LDA分析中，当样本维度较高且每类的样本数目较少时，容易造成所得到的类内散度矩阵S_w是奇异矩阵，使得求解LDA投影矩阵出现困难。针对这个问题，NLDA方法首先采用PCA方法对高维特征向量进行降维，使得类内散度矩阵非奇异，然后为了进一步增强类内散度矩阵，采用WCCN方法对降维后的特征向量进行类内变化规整，使得类内变化在一个单位圆内。

B.为了增强传统LDA方法中类间散度矩阵所代表的区分信息，采用非参数子空间分析法来创建一个新的非参数类间散度矩阵S′_b，该类间散度矩阵的构建过程充分关注分类边界附近的样本点，所以可以更好地描述不同说话人之间的差异信息。采用非参数子空间分析的方法来构建一个新的非参数类间散度矩阵S′_b，以此矩阵来更好的描述整个训练集中不同说话人之间的差异性。给定来自说话人s的第h条语音，设特征向量x′_h,s表示该条语音相应的JFA说话人超向量J_h,s的某一已经过PCA和LDA方法的两次投影后的子向量。考虑到特征向量x′_h,s对于构建新的类间散度矩阵的贡献度问题，本申请采用该样本与类别界面的远近程度作为度量。所谓类别界面指的是某个说话人s与其他k个说话人的分界面。新的类间散度矩阵采用下式进行计算：

S_{b}^{'} = Σ_{s = 1}^{S} Σ_{k = 1, k &NotEqual; s}^{S} Σ_{h = 1}^{H_{s}} g (s, k, h) (x_{h, s}^{'} - m_{k} (x_{h, s}^{'})) {(x_{h, s}^{'} - m_{k} (x_{h, s}^{'}))}^{T}

其中，表示来自说话人k的特征向量中与特征向量x′_h,s最近邻的第q个向量，Q为近邻特征向量的总数，m_k(x'_h,s)代表Q个近邻特征向量的均值，g(s,k,h)代表一个权重函数，定义如下：

其中，指数参数α是对距离度量函数d(x₁,x₂)的加权调节，d(x₁,x₂)是指特征向量x₁和x₂之间的欧式距离度量，参数Q的取值一般设为训练集中每个说话人所有的总的语音条数的均值，权重函数g(s,k,h)评定了投影后的特征向量x′_h,s与局部说话人之间的类别边界的接近程度，从而决定着该特征向量x′_h,s对非参数类间散度矩阵S′_b的贡献度。如果特征向量x′_h,s接近类别边界的话，权重函数g(s,k,h)取最大值0.5，如果特征向量x′_h,s远离类别边界的话权重函数g(s,k,h)的值就随着变小。

在步骤S404中，将所述主要成分分析PCA降维后的投影矩阵、类内协方差规整WCCN后的子空间投影矩阵以及非参数线性区分分析投影矩阵按照顺序依次拼接，得到总的子空间投影矩阵，作为子空间说话人模型。

在对JFA说话人超向量的每个子向量集分别进行了以上三种方法的子空间分析处理后，可以得到每个子向量集的投影矩阵，即以上三个投影矩阵的乘积，W_k＝W_k1W_k2W_k3。得到了所有子向量集的投影矩阵后，将它们按照顺序依次拼接起来就形成了总的JFA说话人超向量的投影矩阵，W_Total＝[W₁...W_k...W_K]。至此，基于JFA说话人超向量的非参数区分说话人确认方法的训练阶段结束。

在步骤S104中，根据所述子空间说话人模型获取待识别说话人的参考向量以及训练样本说话人的参考向量，根据预设的计算规则，以及所述待识别说话人的参考向量以及所述训练样本说话人的参考向量进行说话人识别。

在训练样本说话人模型建模及测试阶段，首先对训练样本说话人和待识别说话人的语音按照训练总投影矩阵中的处理方法提取相应的JFA说话人超向量，再用训练好的总投影矩阵W_Total将超向量映射到低维的子空间，分别得到训练样本说话人和待识别说话人的参考向量R_train和R_test，最后计算出两个参考向量间的余弦距离作为测试得分。

可选的，所述根据所述子空间说话人模型获取待识别说话人的参考向量R_train以及训练样本说话人的参考向量R_test，可以根据公式计算两个参考向量间的余弦距离作为测试得分；

判断所述得分是否小于预定值，若得分小于预定值，则所述待识别说话人与训练样本说话人识别为相同的说话人，否则，所述待识别说话人与训练样本说话人识别为不同的说话人。

本发明提出的对JFA说话人超向量进行非参数区分分析的方法是一种基于统计的算法，在进行对说话人建模之前，需要大量的训练样本数据来训练出区分子空间的投影矩阵。该方法首先对来自训练样本的语音数据提取其相应的JFA说话人超向量J，但是由于超向量具有很高的维度。为了减小由于维度过高带来的计算复杂度太大的问题，本申请提出了将超向量进行分段处理的方法，将高维度的JFA说话人超向量分成K个子向量。在分段的方式上采用聚类算法将相似的声学参数类归为一起，作为分段的依据，这在特征处理的初始阶段就强调了各个子空间交界处的区分信息。在将超向量按照一定的规则分成若干子向量后，对于每段子向量集采用一样的非参数区分分析方法对其进行建模，训练出相应的三个投影矩阵，再用空间拼接的方式将对应于每段的投影矩阵拼接成一个总的投影矩阵。至此，在训练样本上的训练过程结束。

为了验证本文提出的基于GMM模型聚类的平均及非平均两种JFA说话人超向量分段方法的有效性，该部分实验对比分析了基于GMM聚类分段的非参数区分分析系统与JFA基准系统的性能。另外，为了充分验证将相似的音素类聚集到一起能否提高系统性能，本申请提出采用另外4种分段方法作为参照，其中两种不考虑相似音素类之间的信息但以GMM均值向量作为基本单位来分段，另外两种则尝试将JFA说话人超向量中所包含的音素类信息完全打乱且不以GMM均值向量作为基本单位来分段，这四种分段方法可依次描述如下：

1)顺序分段

以组成JFA说话人超向量的GMM均值向量为基本单位，将JFA说话人超向量按照顺序分成16段，该值是通过交叉验证技术在开发集数据上获得的最优值。

2)随机分段

以组成JFA说话人超向量的GMM均值向量为基本单位，将JFA说话人超向量中的所有GMM均值向量随机分成规模相等的若干子集，将每个子集中的均值向量按照在JFA说话人超向量中的原有次序拼接起来形成一个子向量。该部分实验中，随机分段的数目也设定为16。

3)按GMM均值向量维度分段

假设UBM模型具有M个高斯成分，JFA说话人超向量中的某一GMM均值向量表示为m_j＝[x_j,Δx_j,ΔΔx_j]^T，(j＝1,2,...,M)，m_j与特征向量结构相同，其中x_j∈R^N，表示基本美尔频率倒谱系数及对数能量项，Δx_j和ΔΔx_j分别表示对x_j的一阶和二阶差分项。将所有均值向量中第k个维度的值连接起来形成第k个子向量，这样共得到3N个子向量。根据本文中的实验设置，用该分段方法对JFA说话人超向量分段后一共可得到51个子向量。

4)按GMM均值向量对应差分维度分段

若JFA说话人超向量中的GMM均值向量表示为m_j＝[x_j,Δx_j,ΔΔx_j]^T，(j＝1,2,...,M)，x_j∈R^N，则将所有均值向量中x_j，Δx_j和ΔΔx_j中的相应维度拼接起来形成一个子向量。根据本文中的实验设置，采用该方式分段的话一共可获得17个子向量。

为了表示简便，文中以JFA代表联合因子分析基准系统，NDA表示基于顺序分段的非参数区分分析系统，R-NDA表示基于随机分段的非参数区分分析系统，E-NDA表示基于GMM聚类平均分段的非参数区分分析系统，NE-NDA表示基于GMM聚类非平均分段的非参数区分分析系统，F-NDA表示按GMM均值向量维度分段的非参数区分分析系统，FD-NDA表示按GMM均值向量对应差分维度分段的非参数区分分析系统。

在本实施例中，对于基于GMM模型聚类的平均及非平均两种JFA说话人超向量分段方法的系统E-NDA和NE-NDA，JFA说话人超向量均被分成16段，以便保持和其它非参数区分分析系统的参数设置一致。另外，除了JFA系统外，如无特别说明，以上所述的所有非参数区分分析系统中的主成分分析投影矩阵W_k1，类内协方差规整投影矩阵W_k2以及非参数线性区分分析投影矩阵W_k3的秩分别设定为800，799，550，在每个子空间中所保留的信息量大约为80％，99％，99％。

第一组实验主要考察了非基于GMM聚类分段的非参数区分系统性能。由于R-NDA系统中分段方式具有随机性，图6中列出了R-NDA系统的5组实验结果。NDA系统结果本质上是R-NDA系统结果的一个特例。从图6中结果可以看出：

1)不论对于哪一种系统来说，对系统输出作了基于测试的零规整(TZnorm)后，EER和minDCF的值相对于未作得分规整(No-norm)的结果均有显著降低。这充分表明对系统输出进行TZnorm规整后，可以在很大程度上减小信道失配在得分域造成的不利影响，减小对同一说话人测试得分的不一致性，同时，扩大不同说话人测试得分之间的不一致性。

2)R-NDA和NDA系统性能均优于JFA系统性能，这充分表明本文提出的基于JFA说话人超向量的非参数区分说话人确认方法较之主流的JFA说话人确认方法来说有了很大改进，EER最多相对下降了11.5％，minDCF最多相对下降了16.3％。

3)R-NDA系统性能不够稳定，这是由于在随机分段过程中，可能破坏了JFA说话人超向量中所包含的相似音素类之间的结构信息。

第二组实验是针对本文着重提出的基于GMM算法聚类分段的非参数区分说话人确认系统进行的，目的在于考察对JFA说话人超向量进行分段处理时，将相似音素类对应的GMM均值向量聚集在一起能否提高系统性能。由于GMM模型的训练过程中，各个高斯成分参数的初始化具有随机性，所以分别对NE-NDA及E-NDA系统做了5组实验。实验结果如图7所示，从中可以看出：

1)NE-NDA及E-NDA系统的性能总体上来说均优于NDA系统，这表明采用GMM算法将相似的音素类聚集到一起可以增强类别边界附近的区分信息，便于区分算法的训练，进而提高说话人确认系统性能；

2)E-NDA系统性能相比于NE-NDA系统来说更加稳定；

3)NE-NDA系统的平均EER低于E-NDA系统，但是某些情况下，NE-NDA系统性能比E-NDA系统要差。出现这种情况的原因可能是利用2048个GMM均值向量不足以训练出一个较为稳定的GMM模型。

第三组实验考察了不考虑JFA说话人超向量中GMM均值向量所包含的不同音素类信息及其之间的类别边界信息进行分段时的系统性能。图8是基于GMM均值向量维度分段的F-NDA和FD-NDA系统的实验结果。对比以下4个系统的实验结果，可以看出以下两点：

1)不考虑JFA说话人超向量中音素类之间的类别边界信息时，F-NDA和FD-NDA系统相对于简单的NDA系统来说性能大幅下降。

2)相比于JFA系统，F-NDA和FD-NDA系统的性能不论是从EER还是从minDCF来看均优于JFA系统，这充分表明本文提出的基于JFA说话人超向量的非参数区分子空间说话人确认系统的性能优于基于联合因子分析的说话人确认系统。

图9为本发明实施例提供的说话人识别装置的结构示意图，如图9所示，本发明实施例所述说话人识别装置，包括：

提取单元901，用于提取JFA说话人超向量，所述JFA说话人超向量为通过联合因子分析方法去除信道信息影响的高斯混合模型GMM超向量；

分段单元902，用于对所提取的JFA说话人超向量进行分段，将JFA说话人超向量划分为多个子向量集；

建模单元903，用于根据分段所得到的多个子向量集，对每个子向量集进行非参数区分分析，建立子空间说话人模型；

识别单元904，用于根据所述子空间说话人模型获取待识别说话人的参考向量以及训练样本说话人的参考向量，根据预设的计算规则，以及所述待识别说话人的参考向量以及所述训练样本说话人的参考向量进行说话人识别。

可选的，所述分段单元具体用于采用GMM算法对UBM模型的所有高斯均值向量进行聚类，根据聚类结果，使用平均划分或者非平均划分，将所述JFA说话人超向量划分为多个子向量集。

由于图9所示的说话人识别装置与图1至图5所示的说话人识别方法对应，在此不作重复赘述。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种说话人识别方法，其特征在于,所述方法包括：

2.根据权利要求1所述方法，其特征在于，所述提取JFA说话人超向量步骤具体为：

J_h,s＝m+Vy_h,s+Dz_h,s

3.根据权利要求1所述方法，其特征在于，所述对所提取的JFA说话人超向量进行分段，将JFA说话人超向量划分为多个子向量集步骤具体为：

采用GMM算法对UBM模型的所有高斯均值向量进行聚类，根据聚类结果，使用平均划分或者非平均划分，将所述JFA说话人超向量划分为多个子向量集。

4.根据权利要求3所述方法，其特征在于，所述采用GMM算法对UBM模型的所有高斯均值向量进行聚类，根据聚类结果，使用平均划分，将所述JFA说话人超向量划分为多个子向量集步骤包括：

给定一个具有M个混合高斯成分的UBM模型，将M个高斯成分的均值向量m_j，(j＝1,2,...,M)作为训练样本来训练一个具有K个混合高斯成分的GMM模型；

对于UBM模型中的每个高斯成分的均值向量，计算其在所述GMM模型中每个混合高斯成分的占有率，即所述高斯成分的均值向量属于所述每个混合高斯成分的后验概率，这样对于每个高斯成分的均值向量，可以得到K个后验概率；

如果某一高斯成分的均值向量m_j对应于GMM模型中的第k个高斯成分的后验概率取得最大值那么就将m_j划分到第k类；

按照上述方式，将所有M个高斯成分的均值向量m_j划分到K个类别中去；

对于第k个类别中的高斯成分的均值向量取其在UBM模型中的高斯成分的顺序值进行升序排列，得到

对于每个类别k，按照的顺序从训练样品中各个JFA说话人超向量中依次取出相应的均值成分进行拼接，形成JFA说话人超向量的第k个子向量集合。

5.根据权利要求3所述方法，其特征在于，所述采用GMM算法对UBM模型的所有高斯均值向量进行聚类，根据聚类结果，使用非平均划分，将所述JFA说话人超向量划分为多个子向量集步骤包括：

若第k类中的高斯成分的均值向量的数目已经超过平均值M/K，则将与已经分到该类中的均值所对应的后验概率的最小值进行比较，如果较大，则将高斯成分的均值向量m_j划分到第k类，同时将最小后验概率对应的均值向量按照同样的方式划分到其它类别中，否则，若较小，则将m_j按照其对应的第二大的后验概率值划分到相应类别中去；

6.根据权利要求1所述方法，其特征在于，所述根据分段所得到的多个子向量集，对每个子向量集进行非参数区分分析，建立子空间说话人模型步骤包括：

采用主成分分析PCA方法去除包含在子向量集中的冗余信息，得到每个子向量集的降维后的投影矩阵；

采用类内协方差规整WCCN方法作用于所述降维后的投影矩阵，得到每个子向量集相应的子空间投影矩阵；

采用非参数线性区分分析方法提取所述子空间投影矩阵的类边界的区分信息，得到每个子向量集中的非参数线性性区分分析投影矩阵；

将所述主要成分分析PCA降维后的投影矩阵、类内协方差规整WCCN后的子空间投影矩阵以及非参数线性区分分析投影矩阵按照顺序依次拼接，得到总的子空间投影矩阵。

7.根据权利要求6所述方法，其特征在于，所述采用非参数线性区分分析方法提取所述子空间投影矩阵的类边界的区分信息，得到每个子向量集中的非参数线性性区分分析投影矩阵步骤包括：

所述类别界面为说话人s与其它k个说话人的分界面，采用非参数子空间分析法创建一个新的非参数类间散度矩阵S′_b，其计算公式如下：

S_{b}^{'} = Σ_{s = 1}^{S} Σ_{k = 1, k &NotEqual; s}^{S} Σ_{h = 1}^{H_{s}} g (s, k, h) (x_{h, s}^{'} - m_{k} (x_{h, s}^{'})) {(x_{h, s}^{'} - m_{k} (x_{h, s}^{'}))}^{T}

其中，表示来自说话人k的特征向量中与特征向量x′_h，s最近邻的第q个向量，Q为近邻特征向量的总数，m_k(x'_h,s)代表Q个近邻特征向量的均值，g(s,k,h)代表一个权重函数，定义如下：

其中，指数参数α是对距离度量函数d(x₁,x₂)的加权调节，d(x₁,x₂)是指特征向量x₁和x₂之间的欧式距离度量，参数Q的取值设为训练集中每个说话人所有的总的语音条数的均值。

8.根据权利要求1所述方法，其特征在于，所述根据所述子空间说话人模型获取待识别说话人的参考向量以及训练样本说话人的参考向量，根据预设的计算规则，以及所述待识别说话人的参考向量以及所述训练样本说话人的参考向量进行说话人识别步骤包括：

所述根据所述子空间说话人模型获取待识别说话人的参考向量R_train以及训练样本说话人的参考向量R_test，根据公式计算两个参考向量间的余弦距离作为测试得分；

判断所述得分是否小于预定值，若得分小于预定值，则所述待识别说话人与训练样本说话人识别为相同的说话人。

9.一种说话人识别装置，其特征在于，所述装置包括：

10.根据权利要求9所述装置，其特征在于，所述分段单元具体用于采用GMM算法对UBM模型的所有高斯均值向量进行聚类，根据聚类结果，使用平均划分或者非平均划分，将所述JFA说话人超向量划分为多个子向量集。