CN110875044B

CN110875044B - 一种基于字相关得分计算的说话人识别方法

Info

Publication number: CN110875044B
Application number: CN201811002308.4A
Authority: CN
Inventors: 周若华; 姚升余; 颜永红
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2018-08-30
Filing date: 2018-08-30
Publication date: 2022-05-03
Anticipated expiration: 2038-08-30
Also published as: CN110875044A

Abstract

本发明公开了一种基于字相关得分计算的说话人识别方法，所述方法包括：步骤1)建立训练样本集，提取训练样本集中每个语音的特征向量，组成特征集合，利用该特征集合训练得到通用背景模型UBM；步骤2)基于DTW切分算法，将注册语音和测试语音分别切分为单独中文字的片段，利用通用背景模型UBM得到注册语音的每个字的GMM模型，由此计算注册语音和测试语音中相同中文字的语音谱特征片段的相似度，加权求和后得到判决分数S；步骤3)将步骤2)得到的判决分数S与设定的阈值进行比较：当S超过设定的阈值时，验证通过；否则，验证失败。本发明的方法能使说话人识别系统在密码口令长度较短的情况下，仍有很高的识别性能。

Description

一种基于字相关得分计算的说话人识别方法

技术领域

本发明涉及的是说话人识别技术，更具体地说，本发明涉及一种字相关得分计算的说话人识别技术。

背景技术

说话人识别，简单来说就是根据语音对说话人进行自动区分，从而进行说话人身份鉴别的技术。说话人识别也可以分为说话人确认和和说话人辨识，说话人确认是判断测试语音是否是来自给定目标说话人的语音，说话人辨识是给定一组说话人判断测试语音是来自哪个说话人的语音。说话人识别任务按照说话人注册和测试的语音内容是否相同，又可以分为文本相关的说话人识别和文本无关的说话人识别。在文本相关的说话人识别任务中，注册语音和测试语音的内容都是相同的特定文本，而文本无关的说话人识别任务中，注册语音和测试语音则不受内容限制。

文本相关的说话人识别主要特点是文本相关性，即测试语音与注册语音文本内容相同，这在避免了同一个说话人的语音因为内容不同造成的差异，因而文本相关的说话人识别性能要远优于文本无关说话人识别。这种文本相关性只是要求测试语音和注册语音之间不存在语言学意义上的文本差异。然而说话人识别系统主要是基于对语音特征的统计特性进行建模和比对，当语音中每个字的发音长度比例不同时，会给语音特征的统计特性带来与说话人本身特性无关的差异，我们称之为统计“文本差异”。

在文献[1](A.Larcher，K.A.Lee，B.Ma，and H.Li，``Text-dependent speakerverication：Classifiers，databases and RSR2015″，Speech Communication，Vol.60，No.3，pp.56-77，2014)中，采用隐马尔可夫模型(hiddenMarkovmodel，HMM)来对注册和测试语音中的时序结构加以利用。HMM的每个状态是高斯混合模型(GMM Gaussian mixturemodel，GMM)，每个GMM从说话者的话语部分或十个数字中的一个来提取说话人的特性信息，目的是从词汇粒度上对说话人的信息进行建模。

文献[2](H.Zeinali，E.Kalantari，H.Sameti，H.Hadian，“Telephony text-prompted speaker verification using i-vector representation，”Proc.of IEEEInternational Conference on Acoustics，Speech and Signal Processing，pp.4839-4843，2015.)首先将语音切分为单词，然后为它们构建分离的建模系统，最后在注册和验证阶段比较的是相同单词的情况下说话人的特性信息。

然而，上述方法均存在一些应用上的局限性。首先，它们需要使用一个语音识别的前端来切分语音，额外的语音识别系统的准确性成为了决定它们性能的重要因素。其次，它们都仅针对于数字或者特定词汇，例如星期、月份来进行处理，而在大量词汇的中文口语语音上很难保证其性能。所以，仍需要对这些方法进行很大的改进，才能将它们应用到中文密码口令说话人识别任务中。

发明内容

本发明的目的在于在于克服上述现有技术的缺陷，提供了一种基于字相关得分计算的说话人识别方法，该方法应用在中文密码口令中，将语音切分为独立字的片段，为口令中的所有字分别提取说话人特性信息，最后对比注册和测试语音中相同字片段包含的说话人特征信息，从而达到减小注册语音和测试语音之间的统计“文本差异”来提高说话人识别系统在中文密码口令应用中的性能。

为了实现上述目的，本发明提出的一种基于字相关得分计算的说话人识别方法，所述方法包括：

步骤1)建立训练样本集，提取训练样本集中每个语音的特征向量，组成特征集合，利用该特征集合训练得到通用背景模型UBM；

步骤2)基于DTW切分算法，将注册语音和测试语音分别切分为单独中文字的片段，利用通用背景模型UBM得到注册语音的每个字的GMM模型，由此计算注册语音和测试语音中相同中文字的语音谱特征片段的相似度，加权求和后得到判决分数S；

步骤3)将步骤2)得到的判决分数S与设定的阈值进行比较：当S超过设定的阈值时，验证通过；否则，验证失败。

作为上述方法的一种改进，所述步骤1)具体包括：

步骤1-1)采集语音建立训练样本集，对每个样本进行语音活动点检测并去除静音；

步骤1-2)提取训练样本集的每个语音的语音声学谱特征，并对该特征进行差分倒谱特征，得到特征向量；所有训练样本集的语音的特征向量组成特征集合；所述语音声学谱特征为通用的美尔倒谱特征或者感知线性预测特征；

步骤1-3)利用步骤1-2)中得到的特征集合，采用最大期望算法训练得到一个通用背景模型UBM。

作为上述方法的一种改进，所述步骤2)具体包括：

步骤2-1)设置注册语音为采集的说话人语音，测试语音为设定好的中文密码口令；对注册语音和测试语音分别进行语音活动点检测并去除静音，得到注册语音的有效语音和测试语音的有效语音；

步骤2-2)分别提取注册语音的有效语音和测试语音的有效语音的语音声学谱特征；

步骤2-3)使用基于动态时间规整的字分割方法，分别得到注册语音的有效语音和测试语音的有效语音中对应每个字的起止点，由此得到注册语音的字分割点集合和测试语音的字分割点集合；

步骤2-4)根据注册语音的字分割点集合，切分注册语音的有效语音的语音声学谱特征为N个独立字的特征片段：“E_0”、“E_1”、...、“E_N”；根据测试语音的字分割点集合。切分测试语音的有效语音的语音声学谱特征为N个独立字的特征片段：“T_0”、“T_1”、...、“T_N”；

步骤2-5)利用第i，1≤i≤N个独立字的特征片段“E_i”去自适应步骤1-3)中的通用背景模型UBM，由此得到对应说话人的第i个字的模型GMMⁱ；

步骤2-6)计算“E_i”与“T_i”的说话人相似度S_i：

S_i＝log p(E_i|GMMⁱ)-log p(T_i|UBM)

其中，p(·)为高斯分布；

步骤2-7)计算注册语音与测试语音的判决分数S：

其中，T_i为“T_i”的长度，E_i为“E_i”的长度，α_i为权重因子。

作为上述方法的一种改进，所述步骤2-3)具体包括：

步骤2-3-1)采用欧氏距离分别计算注册语音的语音声学谱特征和对应的测试语音的语音声学谱特征之间的距离，得到DTW最优路径和DTW最优路径上的距离值；

步骤2-3-2)定义DTW最优路径上任一点(i，j)对应的距离D_ij的初始值为测试语音的第i帧特征与注册语音的第j帧特征之间的距离；定义DTW最优路径上两点(i，j)和(p，q)之间的时间距离表示测试语音的第i帧特征与第p帧特征之间的时间宽度和注册语音的第j帧特征与第q帧特征之间的时间宽度之中的较小值；

步骤2-3-3)设置时间窗口宽度Window＝150ms，最小峰值阈值Threshold＝0.01，建立一个空的字分割点集合；

步骤2-3-4)对DTW最优路径上各点对应的距离按照时间顺序进行中值滤波，然后对这些距离进行减均值除标准差运算；

步骤2-3-5)找到最优路径上对应距离最大的点(i，j)，对应距离值为D_ij；如果D_ij＜Threshold，则迭代结束，输出字分割点集合；否则，转入步骤2-3-6)；

步骤2-3-6)找到DTW最优路径上与点(i，j)的时间距离小于Window的所有点中对应距离最大的点(p，q)对应距离值为D_pq；

步骤2-3-7)确定字分割点(m，n)，如果D_pq＞＝Threshold，则m＝(i+p)/2；否则，m＝i；将字分割点(m，n)存入字分割点集合；

步骤2-3-8)将DTW最优路径上与分割点(m，n)时间距离小于时间窗口宽度Window的所有点对应的距离值置为小于Threshold的值，转到步骤2-3-5)。

作为上述方法的一种改进，所述步骤2-5)具体包括：

步骤2-5-1)计算“E_i”的第n，1≤n≤E_i帧短时谱特征在UBM的第c个高斯上的后验概率γ_c(n)：

其中c为步骤1-3)中的通用背景模型UBM的高斯数，w_c，μ_c和∑c分别为通用背景模型UBM的第c个高斯分量的权重，均值和方差，N(*)为高斯分布，x(n)为“E_i”中的第n个特征片段；

步骤2-5-2)计算“E_i”在第c个高斯分量上的零阶Baum-Welch统计量n_c和一阶Baum-Welch统计量f_c：

步骤2-5-3)根据如下公式更新通用背景模型UBM的均值，得到注册说话人的GMMⁱ：

其中，β为相关性因子。

作为上述方法的一种改进，所述步骤2-7)的权重因子α_i的取值有三种策略：

策略1：

α_i＝1，i＝1，2，...，N

策略2：

α_i＝T_i+E_i，i＝1，2，...，N

策略3：

α_i＝T_i*E_i，i＝1，2，...，N。

作为上述方法的一种改进，所述步骤3)的设定的阈值为使得验证集上验证错误最少的值，取值范围为：(0，1)。

本发明的优点在于：

1、本发明提出一种基于字相关的说话人识别方法，通过提出的基于DTW的字起止点确认算法，可以将注册和测试语音切分成独立字的片段，并进行匹配字片段进行得分计算；能使说话人识别系统密码口令长度较短(两个中文字)的情况下，仍有很高的识别性能；

2、本发明的方法根据注册和测试语音的声学谱特征进行自动的中文字切分，不需要额外的人工标注。

附图说明

图1是本发明的模型训练阶段流程框图；

图2是本发明的说话人识别方法的测试阶段流程框图；图中，“E_i”和“T_i”分别为注册语音和测试语音中中文字i对应的特征片段，“S_i”为“E_i”与“T_i”使用GMM-UBM方法的得分，其中，i＝0，1，...，N；

图3是本发明的基于动态时间规整算法的字分割方法流程框图。

具体实施方式

下面结合附图对本发明的方法做进一步详细描述：

本发明设计的基于字相关得分计算的说话人识别方法的核心技术在于设计了一个基于DTW切分的算法，将中文密码口令切分为单独中文字的片段，最后匹配注册和测试语音中对应中文字的特征片段集合进行GMM-UBM打分，并用三种根据注册和测试语音时长来设定的融合方法来进行加权求和，从而得到最终的判别得分。

本发明提出的基于字相关得分计算的说话人识别方法，所述中文密码口令为日常激活词口令，例如“你好，电视开机”。注册和测试阶段采用相同内容中文密码口令的语音进行说话人注册和匹配测试。

本发明提出的一种基于字相关得分计算的说话人识别方法，分为模型训练和测试阶段，包括如下步骤：

步骤1)模型训练阶段；如图1所示，具体包含以下步骤：

步骤1-1)对模型训练所使用的随机长时不限定内容的电话录音语音，进行语音活动点检测(voice activity detection，VAD)并去除静音；

步骤1-2)提取语音声学谱特征；所提取的语音声学谱特征可为通用的美尔倒谱特征(MFCC)或者感知线性预测特征(PLP)，并对该特征进行差分倒谱特征(Delta)，每帧可以得到60维特征向量，具体特征维数可根据具体任务场景进行选择；

步骤1-3)利用步骤1-2)中得到的特征集合，采用最大期望算法(ExpectationMaximization，EM)算法训练得到一个通用背景模型UBM(Universal Background Model，UBM)；

步骤2)测试阶段；如图2所示，具体包含以下步骤：

步骤2-1)注册和测试数据中，要求对应说话人的语音为设定好的中文密码口令；同样对注册和测试语音进行VAD并去除静音保留有效语音；

步骤2-2)使用步骤1-2)对注册和测试的有效语音分别提取语音声学谱特征；

步骤2-3)使用基于动态时间规整(Dynamic Time Warping，DTW)算法的字分割方法，确定注册和测试语音中对应每个字的起止点，如图3所示，具体包含以下步骤：

步骤2-4)根据步骤2-3)中确定的字分割点集合，切分注册和测试语音的语音声学特征为独立字的特征片段集合“E_0”、“E_1”、...、“E_N”和“T_0”、“T_1”、...、“T_N”；

步骤2-5)对于每一组注册和测试语音“E_i”和“T_i”，使用“E_i”自适应UBM得到对应说话人的第i个字的模型GMMⁱ，可由仅更新UBM的均值来实现；更新过程如下：

其中c为步骤1-3)中的通用背景模型UBM的高斯数，w_c，μ_c和∑_c分别为通用背景模型UBM的第c个高斯分量的权重，均值和方差，N(*)为高斯分布，x(n)为“E_i”中的第n个特征片段；

其中，β为相关性因子，设为经验值8～20之间，常取16。

步骤2-6)对于每一组注册和测试语音“E_i”和“T_i”，“T_i”与“E_i”的说话人相似度计算可使用GMM-UBM方法：

S_i＝log p(E_i|GMMⁱ)-log p(T_i|UBM)

p(·)计算了高斯分布，GMMⁱ为注册说话人“E_i”的模型；

步骤2-7)对不同字的得分进行融合，假设注册语音和测试语音经过上述算法分割成N个语音片段，“T_i”的长度为T_i，“E_i”的长度为E_i，它们之间的得分为“S_i”，测试语音与注册语音最终得分S表示为：

其中α_i为权重因子。对于α_i的选择给出了三种策略，策略1：直接求均值，即

α_i＝1，i＝1，2，...，N

这种策略最为简单，但是没有考虑到语音片段的长度的影响。实际上语音片段越长，得到的分数越可靠，因而策略2和策略3对于语音片段较长的测试语音与注册语音片段，得分权重越大：

策略2：

α_i＝T_i+E_i，i＝1，2，...，N

策略3：

α_i＝T_i*E_i，i＝1，2，...，N

在针对不同应用场景时，可以选用不同的策略，具体的选择可根据实际应用来确定。

步骤3)将步骤2-7)得到的分数S与设定的阈值比较进行判定：当S超过设定阈值时，则认为验证音频为用户验证用户所说，验证通过；否则验证失败。所述设定阈值为使得验证集上验证错误最少的值，一般去0到1之间，本实例中取0.5。

在本发明的基于字相关得分计算的说话人识别方法中，提出了一种自动切分算法，将注册和测试的中文密码口令语音切分成独立的字片段。并利用它们对应的文本信息，匹配从注册和测试语音中得到的相同中文字的语音谱特征片段，采用GMM-UBM方法进行得分计算。最终使用了三种根据注册和测试语音时长来设定的得分融合方法，将测试语音中包含的所有中文字的分数进行融合，得到判决分数。我们进行了大量中文密码口令语音数据的测试，结果显示在注册和测试语音的中文密码口令相同的情况下，与常用的高斯混合模型通用背景模型打分方法对比，本发明提出的基于字相关得分计算的说话人识别方法的性能有相对21％-28％的提升。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于字相关得分计算的说话人识别方法，所述方法包括：

步骤3)将步骤2)得到的判决分数S与设定的阈值进行比较：当S超过设定的阈值时，验证通过；否则，验证失败；

步骤2)具体包括：

步骤2-4)根据注册语音的字分割点集合，切分注册语音的有效语音的语音声学谱特征为N个独立字的特征片段：“E_0”、“E_1”、…、“E_N”；根据测试语音的字分割点集合；切分测试语音的有效语音的语音声学谱特征为N个独立字的特征片段：“T_0”、“T_1”、…、“T_N”；

步骤2-5)利用第i,1≤i≤N个独立字的特征片段“E_i”去自适应通用背景模型UBM，由此得到对应说话人的第i个字的模型GMMⁱ；

步骤2-6)计算“E_i”与“T_i”的说话人相似度S_i：

S_i＝logp(E_i|GMMⁱ)-logp(T_i|UBM)

其中，p(·)为高斯分布；

步骤2-7)计算注册语音与测试语音的判决分数S：

2.根据权利要求1所述的基于字相关得分计算的说话人识别方法，其特征在于，所述步骤1)具体包括：

3.根据权利要求1所述的基于字相关得分计算的说话人识别方法，其特征在于，所述步骤2-3)具体包括：

步骤2-3-2)定义DTW最优路径上任一点(i,j)对应的距离D_ij的初始值为测试语音的第i帧特征与注册语音的第j帧特征之间的距离；定义DTW最优路径上两点(i,j)和(p,q)之间的时间距离表示测试语音的第i帧特征与第p帧特征之间的时间宽度和注册语音的第j帧特征与第q帧特征之间的时间宽度之中的较小值；

步骤2-3-5)找到最优路径上对应距离最大的点(i,j)，对应距离值为D_ij；如果D_ij<Threshold，则迭代结束，输出字分割点集合；否则，转入步骤2-3-6)；

步骤2-3-6)找到DTW最优路径上与点(i,j)的时间距离小于Window的所有点中对应距离最大的点(p,q)对应距离值为D_pq；

步骤2-3-7)确定字分割点(m,n)，如果D_pq>＝Threshold，则m＝(i+p)/2；否则，m＝i；将字分割点(m,n)存入字分割点集合；

步骤2-3-8)将DTW最优路径上与分割点(m,n)时间距离小于时间窗口宽度Window的所有点对应的距离值置为小于Threshold的值，转到步骤2-3-5)。

4.根据权利要求3所述的基于字相关得分计算的说话人识别方法，其特征在于，所述步骤2-5)具体包括：

步骤2-5-1)计算“E_i”的第n,1≤n≤E_i帧短时谱特征在UBM的第c个高斯上的后验概率γ_c(n)：