CN104240706B

CN104240706B - 一种基于GMM Token配比相似度校正得分的说话人识别方法

Info

Publication number: CN104240706B
Application number: CN201410464562.1A
Authority: CN
Inventors: 杨莹春; 吴朝晖; 邓立才
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2014-09-12
Filing date: 2014-09-12
Publication date: 2017-08-15
Anticipated expiration: 2034-09-12
Also published as: CN104240706A

Abstract

本发明公开了一种基于GMM Token配比相似度校正得分的说话人识别方法，该方法通过计算测试语音和目标说话人训练语音在UBM上的GMM Token配比相似度，利用相似度对测试语音在所有目标说话人模型上的似然得分进行加权校正，使得校正后的似然得分更具可比性；即在输出得分之前，对得分的可靠性进行评估，对那些不可靠的得分进行惩罚，从而降低部分冒认者的得分，提高系统识别性能。

Description

一种基于GMM Token配比相似度校正得分的说话人识别方法

技术领域

本发明属于语音识别技术领域，具体涉及一种基于GMM Token配比相似度校正得分的说话人识别方法。

背景技术

说话人识别技术是利用信号处理和模式识别的方法，根据说话人的语音识别其身份的技术，主要包括两个步骤：说话人模型训练和语音测试。

目前，说话人语音识别采用的主要特征包括梅尔倒谱系数(MFCC)、线性预测编码倒谱系数(LPCC)、感觉加权的线性预测系数(PLP)。说话人语音识别的算法主要包括矢量量化法(VQ)、通用背景模型法(GMM-UBM)、支持向量机法(SVM)等等。其中，GMM-UBM在整个说话人语音识别领域应用非常广泛。

在基于GMM-UBM说话人识别方法的测试语音识别阶段，首先计算测试语音在所有说话人模型上的似然得分，然后将取得最高得分的目标说话人模型作为测试语音的说话人。然而由于测试语音的得分来源不同，导致测试得分并不具备绝对的可比性，因此传统的方法得出的识别结果可靠性不高。

发明内容

针对现有技术所存在的上述技术问题，本发明提供了一种基于GMM Token配比相似度校正得分的说话人识别方法，通过利用测试语音和目标说话人的训练语料的GMMToken配比相似度对测试语音在该目标模型上的得分作加权校正，降低部分冒认者的得分，提高系统的识别性能。

一种基于GMM Token配比相似度校正得分的说话人识别方法，包括如下步骤：

(1)利用一定数量的非目标说话人的语音特征训练生成一个与目标说话人无关的通用背景模型UBM(UniversalBackgroundModel)；

(2)针对任一个目标说话人，利用其训练语音特征在通用背景模型UBM上自适应生成对应的说话人模型GMM(GaussianMixtureModel)，并计算其训练语音特征在通用背景模型UBM上的GMM Token配比向量GTR；依此遍历所有目标说话人；

(3)接收测试语音，计算测试语音特征在每一目标说话人对应的说话人模型GMM上的似然得分以及在通用背景模型UBM上的GMM Token配比向量GTR；

(4)计算测试语音特征与每一目标说话人训练语音特征关于GMM Token配比向量GTR之间的相似度，根据相似度对所有似然得分进行加权校正；对校正后的最高似然得分进行阈值过滤后，识别确定该最高似然得分所对应的目标说话人即为测试语音的真正说话人。

所述的步骤(1)中采用EM算法(Expectation-maximization algorithm，简称期望最大算法)训练生成通用背景模型UBM，其为混合阶数为M的高斯混合模型，并以λ_UBM表示，M为大于1的自然数。

所述的步骤(2)中，针对任一个目标说话人，提取其训练语音中的短时语音特征，根据该语音特征利用MAP算法(最大后验概率算法)在通用背景模型UBM上自适应均值生成对应的说话人模型GMM，其为混合阶数为M的高斯混合模型；对于N个目标说话人对应的说话人模型GMM以λ_t1,λ_t2,…,λ_tN表示，N为大于1的自然数。

所述的步骤(2)和步骤(3)中，计算特定语音特征在通用背景模型UBM上的GMMToken配比向量GTR的具体过程如下；特定语音为训练语音或测试语音，特定语音特征以X＝{x₁,x₂,...,x_n}表示，x_i为特定语音的第i帧特征向量；

首先，将特定语音特征转换成一个GMM Token序列T如下：

T＝{t₁,t₂,...,t_n} t_i∈{1,2,...,M}

其中：t_i为GMM Token序列T中第i个Token元素，其取值为通用背景模型UBM中的一高斯分量标号，M为通用背景模型UBM的混合阶数，i为自然数且1≤i≤n，n为特定语音的总特征帧数；

然后，根据以下公式统计通用背景模型UBM中每一个高斯分量标号在GMM Token序列T中出现的频率，即GMM Token配比分量f_m；

其中：N_m为高斯分量标号m在GMM Token序列T中出现的次数，f_m为高斯分量标号m在GMM Token序列T中出现的频率，m为自然数且1≤m≤M；

最后，根据GMM Token配比分量f_m，构建特定语音特征在通用背景模型UBM上的GMMToken配比向量GTR如下：

GTR＝[f₁,f₂,...,f_M]^T

对于N个目标说话人的训练语音特征，则依据上述流程计算出对应的GMM Token配比向量GTR_t1,GTR_t2,…,GTR_tN；对于任一测试语音特征X_e，则依据上述流程计算出对应的GMMToken配比向量GTR_e。

所述的Token元素t_i表示为最有可能生成对应帧特征向量x_i的高斯分量标号，其表达式如下：

其中：ω_m为通用背景模型UBM中第m个高斯分量对应的权重，p_m(x_i)为特征向量x_i在通用背景模型UBM中第m个高斯分量上的似然得分，即特征向量x_i由通用背景模型UBM中第m个高斯分量生成的概率。

所述的步骤(4)中根据相似度通过以下关系式对所有似然得分进行加权校正：

其中：对于任一目标说话人tgi，GTRS_etgi为测试语音特征与该目标说话人训练语音特征关于GMM Token配比向量GTR之间的相似度，Score_tgi为测试语音特征在该目标说话人对应的说话人模型GMM上的似然得分，Threshold_GTRS为设定的相似度阈值，Score_rtgi为校正后的似然得分，c为设定的惩罚因子。

所述的相似度采用测试语音特征的GMM Token配比向量GTR与目标说话人训练语音特征的GMM Token配比向量GTR之间的夹角余弦值，或采用测试语音特征的GMM Token配比向量GTR与目标说话人训练语音特征的GMM Token配比向量GTR之间的欧式距离。

当所述的相似度采用测试语音特征的GMM Token配比向量GTR与目标说话人训练语音特征的GMM Token配比向量GTR之间的夹角余弦值时，则惩罚因子c即采用该夹角余弦值。

所述的步骤(4)中使校正后的最高似然得分与预设的得分阈值进行比较，若校正后的最高似然得分小于等于该得分阈值，则表明测试语音的真正说话人不属于任一目标说话人；若校正后的最高似然得分大于该得分阈值，则确定该最高似然得分所对应的目标说话人为测试语音的真正说话人。

本发明方法通过计算测试语音和特定说话人训练语音在UBM上的GMM Token配比相似度，利用相似度对所有特定说话人模型上的似然得分进行加权校正，使得校正后的似然得分更具可比性；即在输出得分之前，对得分的可靠性进行评估，对那些不可靠的得分进行惩罚，从而降低部分冒认者的得分，提高系统识别性能。

附图说明

图1为本发明方法的执行流程示意图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

本实施方式中的实验数据采用的是中文情感语音数据库(MASC@CCNT)，该数据库是在安静的环境下采用奥林巴斯DM-20录音笔录制的，该数据库由68个母语为汉语的68个说话人组成，其中男性说话人45人，女性说话人23人。本实施方式所提供的识别方法中，可以有多种选择，本实施例中为了便于描述以及提供具体的测试结果，选取了5种情感状态，分别是中性、生气、高兴、愤怒和悲伤，即每个说话人共有5种情感状态下的语音。每个说话人在中性情感下朗读2段段落(约30s录音长度)并朗读5个单词和20句语句各3遍，在其余每种情感状态下各朗读5个单词和20句语句各3遍，针对每个说话人，在中性以及其他情感状态下朗读的单词和语句都相同；针对所有说话人，朗读的单词和语句都相同。

如图1所示，本实施方式的步骤如下：

(1)利用一定量的不同说话人的语音训练得到一个与目标说话人无关的通用背景模型UBM。

在训练过程中，任意选取若干个说话人的语音作为开发库，通常情况下，选取的说话人个数不少于10个，例如选取前18个说话人的语音作为开发库，该开发库中记录前18个说话人在中性情感状态下的所有语音，训练得到UBM模型(即现有技术中的高斯混合背景模型)。

在测试过程中，除去开发库中的18个说话人，将其余50个目标说话人组成评测集，在评测集中，每个目标说话人的中性GMM模型利用开发库中训练得到的UBM模型，利用各自的训练语音通过自适应均值得到。

该步骤中的UBM训练过程如下：

1-1、对开发库中不同的说话人在中性情感状态下的语音信号进行预处理，预处理的步骤包括采样量化，去零漂，预加重(加重信号的高频部分)和加窗(将一段语音信号分为若干段)，并对每段语音信号提取短时语音特征，可以是梅尔倒谱系数(MFCC)或线性预测编码倒谱系数(LPCC)或感觉加权的线性预测系数(PLP)，本实验选用13维梅尔倒谱系数(MFCC)。

1-2、将所有开发库说话人的短时语音特征MFCC通过EM算法训练出通用背景模型UBM，是混合阶数M的高斯混合模型GMM，以表示。

一般性的，对任一M阶高斯混合模型GMM，以λ＝(ω_m,μ_m,Σ_m)，表示。由模型λ生成语音特征序列X＝{x₁,…,x_n}的似然得分计算如下：

其中：ω_m表示第m个高斯分量的权重；p_m(x_i)表示第m个高斯分布函数；μ_m表示第m个高斯分量的均值；Σ_m表示第m个高斯分量的方差；x_i表示第i帧短时语音特征；n为语音特征序列长度；M为混合阶数，表示高斯分量的个数，可以依据需要调整，本实施方式中的实验中取64。D为语音特征向量维数，本实施方式中的实验中取13。

(2)针对每个目标说话人，利用其训练语音(在中性情感下朗读2个段落(约30s录音长度))在步骤(1)中训练得到的UBM上自适应生成目标说话人模型，同时计算训练语音在UBM上的GMMtoken配比向量。

2-1、该步骤中，首先按照步骤(1)中的方法提取训练语音的短时语音特征，然后利用MAP算法在步骤(1)中训练得到的UBM上自适应均值得到目标说话人模型。本实施例中，对于50个目标说话人模型，以λ_t19,…,λ_t68表示。

2-2、该步骤中，GMMtoken配比向量计算方法如下：

将每个目标说话人的训练语音转换为相应的GMMToken序列，每一帧特征帧都对应一个Token，而每一个Token代表GMM中使得该特征帧获得最高后验概率的高斯分量的标号值。即对于一帧特征向量x_i，它的GMMtokent_i如下式所示：

其中：λ表示高斯混合模型，其阶数为M；λ_m表示该高斯混合模型的第m个高斯分量；ω_m为第m个高斯分量在模型中的权重；p_m(x_i)为特征向量在模型的第m个高斯分量上的似然得分，通过公式(2)计算得到。

通过以上方式，一段语音的特征帧序列X＝{x₁,x₂,...,x_n}经过计算便可得到其GMM Token序列T＝{t₁,t₂,...,t_n}，其中t_i∈{1,2,...,M}，M为GMM模型阶数，本实施例中取值为64。我们通过统计GMM Token序列中每个token出现的频率，得到GMMtoken配比因子(GTR)。对于一段语音的GMMtoken序列T＝{t₁,t₂,...,t_n}而言，tokeni的频率f_i通过下式计算得到：

其中：N_i为GMM Token序列中，Tokeni出现的次数，n为语音的总帧数，即GMM Token序列的长度。通过上式我们便能够得到一段语音的GMM Token配比向量GTR如下：

GTR＝[f₁,f₂,...,f_M]^T

其中：Token配比向量GTR中第i维即表示这段语音特征帧序列中，最高后验概率得分为第i个高斯分量的特征帧占总帧数的比例。

本实施例中，对于50个目标说话人训练语音特征，则可依据上述流程计算出对应的GMM Token配比向量GTR_t19,…,GTR_t68。

(3)采集测试语音，并提取测试语音特征，将语音特征序列在步骤(2)和(1)中得到的目标说话人模型上，按照公式(1)计算其在每一个目标说话人模型上的似然得分Score_t19,…,Score_t68，同时计算该测试语音特征在步骤(1)中得到的UBM上的GMMtoken配比向量GTR_e。

从图1中可以看到，步骤(1)和步骤(2)为训练阶段，而该步骤为测试阶段，在测试阶段中，计算似然得分的同时需要计算测试语句在UBM上的GMM token配比向量。

(4)计算测试语音和目标说话人自适应语音在UBM上的GMM token配比的相似度值，利用该相似度值对步骤(3)中计算的对应的得分进行加权，将加权后的得分作为测试语音在目标说话人模型上的校正得分。

在该步骤中，本实施方式首先计算测试语句和步骤(3)中的目标说话人训练语句的GMM token配比向量之间的相似度，然后根据二者相似度值的大小来对步骤(3)中计算得到的似然得分进行校正加权。

该步骤中，GMM token配比向量的相似度可以利用多种方法计算，如向量的欧式距离和向量的夹角余弦，以向量的夹角余弦为例，GMM token配比向量的相似度值GTRS计算如下式所示：

其中：GTR_i和GTR_j为两个GMM token配比向量。

该步骤中，对似然得分校正加权方法，公式表示如下式所示：

其中，score_rtgi为步骤(3)中计算得到的似然得分，GTR_eti为测试语音与目标说话人训练语音在UBM上的GMM token配比向量的相似度值。c为当相似度值小于阈值时，对似然得分的惩罚因子，其中c∈(0,1)。上式表明，当测试语音和目标模型自适应语句的GMMtoken配比向量相似度很大时，说明该得分可靠性低，因此将得分乘以一个惩罚因子，当相似度较小时，则得分可靠性较高，因此对得分不做惩罚处理。

该步骤中，惩罚因子是一个大于0小于1的值，以向量夹角余弦值作为相似度值为例，由于向量之间的夹角余弦值本身是大于等于0，小于等于1的，因此本实施方式中在利用夹角余弦值作为GMM token相似度值时，惩罚因子c即采用测试语音和自适应语音的GMMtoken向量之间的夹角余弦值，即当测试语音和自适应语音的GMM token配比向量之间的夹角余弦值小于阈值时，将得分乘以该夹角余弦值。

该步骤中，阈值采用经验值，本实施方式中采用向量夹角余弦为相似度衡量方法时，采用0.2作为阈值。

(5)将所有得分进行比较，得分最高的GMM模型所对应的说话人即为待识别说话人。

对于一个包含N个目标说话人模型的系统而言，测试语音将分别在这N个目标说话人模型上计算校正得分，选择最大校正得分对应的目标说话人模型序号，作为最终的识别结果，如下式所示：

式中，id为校正得分最大的值所对应的说话人模型的序号。

例如，某一段待识别语音在第20个说话人模型中得到的Sk最大，则识别结果为待识别语音是由第20个说话人发出的。

以下我们对评测集中五种情感语音下的所有语句进行测试，测试语音共计15000句(50个评测人×5种情感单词×60个语句(20个语句，每个语句重复3遍))。实验结果和基准的GMM-UBM实验等错误率EER结果比较如表1所示：

表1

测试语音情感	GMM-UBM	配比相似度得分校正
			愤怒	25.83％	25.20％
高兴	22.67％	22.07％
			中性	4.87％	4.83％
惊慌	24.47％	23.6％
			悲伤	13.30％	13.13％

从表1中可以看出，本发明能够在一定程度上提高系统识别性能，其中在惊慌情绪下的EER提升了0.87个百分点。

Claims

1.一种基于GMM Token配比相似度校正得分的说话人识别方法，包括如下步骤：

(1)利用一定数量的非目标说话人的语音特征训练生成一个与目标说话人无关的通用背景模型UBM；

(2)针对任一个目标说话人，利用其训练语音特征在通用背景模型UBM上自适应生成对应的说话人模型GMM，并计算其训练语音特征在通用背景模型UBM上的GMM Token配比向量GTR；依此遍历所有目标说话人；

2.根据权利要求1所述的说话人识别方法，其特征在于：所述的步骤(1)中采用EM算法训练生成通用背景模型UBM，其为混合阶数为M的高斯混合模型，并以λ_UBM表示，M为大于1的自然数。

3.根据权利要求1所述的说话人识别方法，其特征在于：所述的步骤(2)中，针对任一个目标说话人，提取其训练语音中的短时语音特征，根据该语音特征利用MAP算法在通用背景模型UBM上自适应均值生成对应的说话人模型GMM，其为混合阶数为M的高斯混合模型；对于N个目标说话人对应的说话人模型GMM以λ_t1,λ_t2,…,λ_tN表示，M和N均为大于1的自然数。

4.根据权利要求1所述的说话人识别方法，其特征在于：所述的步骤(2)和步骤(3)中，计算特定语音特征在通用背景模型UBM上的GMM Token配比向量GTR的具体过程如下；特定语音为训练语音或测试语音，特定语音特征以X＝{x₁,x₂,...,x_n}表示，x_i为特定语音的第i帧特征向量；

首先，将特定语音特征转换成一个GMM Token序列T如下：

T＝{t₁,t₂,...,t_n} t_i∈{1,2,...,M}

其中：N_m为高斯分量标号m在GMM Token序列T中出现的次数，f_m为高斯分量标号m在GMMToken序列T中出现的频率，m为自然数且1≤m≤M；

GTR＝[f₁,f₂,...,f_M]^T

对于N个目标说话人的训练语音特征，则依据上述流程计算出对应的GMM Token配比向量GTR_t1,GTR_t2,…,GTR_tN，N为大于1的自然数；对于任一测试语音特征X_e，则依据上述流程计算出对应的GMM Token配比向量GTR_e。

5.根据权利要求4所述的说话人识别方法，其特征在于：所述的Token元素t_i表示为最有可能生成对应帧特征向量x_i的高斯分量标号，其表达式如下：

6.根据权利要求1所述的说话人识别方法，其特征在于：所述的步骤(4)中根据相似度通过以下关系式对所有似然得分进行加权校正：

其中：对于任一目标说话人tgi，GTRS_etgi为测试语音特征与该目标说话人训练语音特征关于GMM Token配比向量GTR之间的相似度，Score_tgi为测试语音特征在该目标说话人对应的说话人模型GMM上的似然得分，Threshold_GTRS为设定的相似度阈值，Score_rtgi为校正后的似然得分，c为设定的惩罚因子，N为大于1的自然数。

7.根据权利要求1或6所述的说话人识别方法，其特征在于：所述的相似度采用测试语音特征的GMM Token配比向量GTR与目标说话人训练语音特征的GMM Token配比向量GTR之间的夹角余弦值，或采用测试语音特征的GMM Token配比向量GTR与目标说话人训练语音特征的GMM Token配比向量GTR之间的欧式距离。

8.根据权利要求7所述的说话人识别方法，其特征在于：当所述的相似度采用测试语音特征的GMM Token配比向量GTR与目标说话人训练语音特征的GMM Token配比向量GTR之间的夹角余弦值时，则惩罚因子c即采用该夹角余弦值。

9.根据权利要求1所述的说话人识别方法，其特征在于：所述的步骤(4)中使校正后的最高似然得分与预设的得分阈值进行比较，若校正后的最高似然得分小于等于该得分阈值，则表明测试语音的真正说话人不属于任一目标说话人；若校正后的最高似然得分大于该得分阈值，则确定该最高似然得分所对应的目标说话人为测试语音的真正说话人。