CN110110790A

CN110110790A - 采用无监督聚类得分规整的说话人确认方法

Info

Publication number: CN110110790A
Application number: CN201910382409.7A
Authority: CN
Inventors: 郭武; 古斌
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-05-08
Filing date: 2019-05-08
Publication date: 2019-08-09
Anticipated expiration: 2039-05-08
Also published as: CN110110790B

Abstract

本发明公开了一种采用无监督聚类得分规整的说话人确认方法，包括：对于注册集当前说话人模型，与包含L条语料的规整数据集进行测试，得到L个测试得分；利用K均值算法对L个测试得分进行聚类，筛选出均值靠前的若干类得分；采用期望最大化算法对筛选出的若干类得分进行聚类，对于概率分布引入混合高斯模型拟合得分分布，当混合高斯模型收敛后，取均值最大的高斯单元均值与标准差作为当前说话人模型的得分规整参数；利用得分规整参数对L个测试得分进行规整，利用规整后的得分进行说话人确认。

Description

采用无监督聚类得分规整的说话人确认方法

技术领域

本发明涉及语音信号处理领域，尤其涉及一种采用无监督聚类得分规整的说话人确认方法。

背景技术

近年来，随着信息科技的飞速发展，人们产生的信息越来越多，获取信息的渠道也越来越多，如何保护个人信息的隐私成为一个关键的问题，利用个人自身的生物特征来进行身份的验证成为了一个值得关注的话题。说话人确认(speaker verification)或者说话人识别(speaker recognition)，也称声纹识别(voiceprint recognition)，是生物特征的一种，它的目的是利用机器根据给定的语音片段来自动地判断一段测试语音与其所声明身份是否一致的过程。由于人类的生理器官天生不同，后天发音方式和习惯也存在差异，这使得每个人的声音具有独特的属性，可以用来鉴别个人的身份。相比于其它生物特征，声纹特征具有便于收集，获取音频成本低廉等优点，有着非常广泛的应用前景。

说话人确认是一个典型的二分类模式识别任务。在说话人确认中，需要计算每段测试语料与其声明说话人之间的模型得分，将得分与设定的判决门限比较作出判决，而这个门限通常是在开发集上确定，对所有测试语音都是同一个数值(Auckenthaler,Roland,M.Carey,and H.LloydThomas.“Score Normalization for Text-Independent SpeakerVerification Systems”[J],//Digital Signal Processing,2000,10(1-3):42-54)。受语料之间信道、语种、时长、性别等因素的影响，不同的说话人模型、测试语音的得分分布往往不同，这种固定一个数值的门限会导致整个系统的性能受到严重的影响。

为了使得不同人、不同测试语音的得分分布趋于一致，从而使得固定的门限能够比较好地区分目标说话人和冒认者，一般采用得分规整的方法来使得说话人得分分布趋于一致。通常有两种规整的途径，一种是规整目标说话人的得分分布，例如零规整(Z-norm)，另一种是规整冒认者得分分布，例如测试规整(T-norm)。在这二者的基础上，又衍生出了一系列得分规整方法，包括ZT-norm(P.Kenny,“Bayesian speaker verification withheavy–tailed priors”[C],//keynote presentation,Proc.of Odyssey 2010,Brno,Czech Republic,June 2010)、S-norm(H.Aronowitz,D.Irony,and D.Burshtein,“Modeling intraspeaker variability for speaker recognition”[C],//Proc.ofInterspeech,2005:2177-2180)、Top-norm(Y.Zigel and M.Wasserblat,“How to dealwith multiple-targets in speaker identification systems？”[C],//Proceedings ofthe Speaker and Language Recognition Workshop(IEEE-Odyssey 2006),San Juan,Puerto Rico,June 2006)等。目前得分规整已在说话人确认系统中的得到广泛运用，并在高斯混合模型-通用背景模型(Gaussian Mixture Models,，Universal BackgroundModel，GMM-UBM)(D.E.Sturim,D.A.Reynolds,R.B.Dunn,and T.F.Quatieri.“SpeakerVerification using Text-Constrained Gaussian Mixture Models”[C],//Proc.ofICASSP 2002,May 2002:I-677-680)、i-vector(Kenny,P,et al.“A Study ofInterspeaker Variability in Speaker Verification”[J],//IEEE Transactions onAudio Speech&Language Processing16.5(2008):980-988)、x-vector(Snyder,David,etal.“Deep neural network-based speaker embeddings for end-to-end speakerverification”[C],//Spoken Language Technology Workshop IEEE,San Diego,CA,USA,2017:165-1702)等系统中取得显著效果。

得分规整需要挑选一定的冒认语音测试来获得规整所需要的参数。近几年的研究中，如何挑选合适的得分规整所需要的测试语料，从而接近测试集真实的得分分布参数是一关键问题(Khemiri,Houssemeddine,and D.Petrovska-Delacretaz.“Cohort selectionfor text-dependent speaker verification score normalization”[C],//International Conference on Advanced Technologies for Signal&Image ProcessingIEEE,Mar 2016,Monastir,Tunisia,2016:689-692)。由于测试集的得分分布实际上是无法事先获知的，为了尽量缩小由规整集合估计的分布与真实分布之间的偏移，主流的方法是根据给定的数据标签，选择与测试集在语种、性别、信道等各方面因素相匹配的数据并采用随机挑选的方法构造得分规整的集合，如(Skorkovska,Lucie,Z.Zajic,and L.Muller.“Comparison of score normalization methods applied to multi-labelclassification”[C],//IEEE International Symposium on Signal Processing&Information Technology IEEE,2014)、(Swart,Albert,and N.Brummer.“A GenerativeModel for Score Normalization in Speaker Recognition”[C],//Proc.ofInterspeech,August,2017,Stockholm,Sweden,2017:1477-1481)。在此基础上，论文(D.E.Sturim and D.A.Reynolds,“Speaker adaptive cohort selection for tnorm intext-independent speaker verification”[C],//Proc.ofICASSP,2005:741–744)对规整集合得分只取最高(Top-N)的前若干个得分用于统计分布参数，从理论上而言，也就是只用对目标得分竞争最高的冒认者得分来估计参数，从结果上来看，这种方法优于随机选择的方法。

得分规整总体逻辑思路就是把所有冒认得分(模型和测试语音不是同一个人)规整到一个接近正态的分布上，消除说话内容、语速、时长、信道等因素的影响(R.Aisikaer,D.Wang,L.Li,et al.“Score domain speaking rate normalization for speakerrecognition”[J],//Journal of Tsinghua University,2018,58(4):337-341。艾斯卡尔·肉孜,王东,李蓝天,等人,“说话人识别中的分数域语速归一化”[J],//清华大学学报(自然科学版),2018,Vol.58 Issue(4):337-341)，从而通过一个合理的门限来获得最好的识别性能。最合理地估计出正态分布的均值和标准差使得得分分布接近测试集得分的分布，是一个关键的研究点。上述论文(D.E.Sturim and D.A.Reynolds,“Speaker adaptivecohort selection for tnorm in text-independent speaker verification”[C],//Proc.ofICASSP,2005:741–744)选择得分最高的一些冒认得分来估计规整参数，这些数值最大的得分分布不服从高斯分布，因此必然与测试集的分布存在偏差；另外，到底选择多少个最大的得分实际上完全是一个经验值，对实际的性能影响很大。

发明内容

本发明的目的是提供一种采用无监督聚类得分规整的说话人确认方法，可以提高说话人确认的准确率。

本发明的目的是通过以下技术方案实现的：

一种采用无监督聚类得分规整的说话人确认方法，包括：

对于注册集当前说话人模型，与包含L条语料的规整数据集进行测试，得到L个测试得分；

利用K均值算法对L个测试得分进行聚类，筛选出均值靠前的若干类得分；

采用期望最大化算法对筛选出的若干类得分进行聚类，对于概率分布引入混合高斯模型拟合得分分布，当混合高斯模型收敛后，取均值最大的高斯单元均值与标准差作为当前说话人模型的得分规整参数；

利用得分规整参数对L个测试得分进行规整，利用规整后的得分进行说话人确认。

由上述本发明提供的技术方案可以看出，针对说话人确认中测试得分分布差异性问题，在传统的采用所有冒认得分的规整参数不够准确的情况下，提出了首先用K均值方法去掉一部分数值比较小的得分，然后对于剩下的得分采用混合高斯模型进行拟合，用均值最大的那个高斯函数的参数来作为规整的参数，从而提升说话人确认准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种采用无监督聚类得分规整的说话人确认方法的流程图；

图2为本发明实施例提供的使用K均值方法进行测试得分清洗的示意图；

图3为本发明实施例提供的GMM得分规整示意图；

图4为本发明实施例提供的估计分布参数与实际分布参数偏差示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种采用无监督聚类得分规整的说话人确认方法，可提升说话人确认准确率。

由于注册语料语义信息、环境噪声等方面的差异，不同的说话人模型对于相同的冒认者语料集合会产生不同分布的得分输出，这将造成统一的判决门限与不同说话人模型实际最佳的判决门限存在较大差异，导致系统性能下降。得分规整的目的就是尽量地将不同说话人的冒认者得分规整到一个相同的正态分布上，从而使得统一门限对所有说话人都能够取得好的判决结果，而规整参数将影响最终判决结果的准确率。以典型的Z规整算法(Z-norm)为例来介绍这一过程。

Z-norm利用注册集中的实际说话人模型{e₁,e₂…e_M}对规整数据集中大量冒认者语料进行测试，得到测试得分其中e_m表示注册集中第m个说话人模型，表示规整数据集中第l条冒认者语料，统计每个说话人模型得分均值μ(e_m)和标准差σ(e_m)：

上述得分均值μ(e_m)和标准差σ(e_m)即为规整参数，利用规整参数对测试得分进行规整：

最终，利用规整得分来进行说话人确认。

上面的流程可以看出，从大量冒认者语料得到的测试得分决定了得到的规整参数的好坏。但是实际工程上，由于测试语音的分布是根本无法事先获得的，在所有的中有些得分对应的语料是与测试环境相匹配的，有些是不匹配的，因此最终得到的规整参数是不准确的。本发明的目的实质上就是对所有的这些测试得分进行筛选，利用筛选出的测试得分来获得更准确的规整参数。

如图1所示，为本发明实施例提供的一种采用无监督聚类得分规整的说话人确认方法，其主要包括：

步骤1、对于注册集当前说话人模型，与包含L条语料的规整数据集进行测试，得到L个测试得分。

与之前介绍的方式类似，对于注册集中第m个说话人模型e_m，与包含L条语料的规整数据集进行测试，得到L个测试得分

步骤2、利用K均值算法对L个测试得分进行聚类，筛选出均值靠前的若干类得分。

由于步骤1中的测试可能存在语言、性别等多种信息不匹配的情况，如果这些不匹配测试的得分参与规整参数的计算，会导致规整参数无法反映实际测试中冒认者得分分布，因此本发明利用K均值(Kmeans)算法对L个测试得分进行聚类，聚类完成后，可以认为Kmeans聚类获得的K个类别的得分代表着不同匹配程度的测试得分类，类中心数值越大的类得分所对应的冒认者测试语料与声明说话人在性别、信道、语种等方面信息匹配程度越高，中心值越低的类匹配程度越低。因此，我们去掉聚类后均值比较小的那些类，仅保留均值靠前的若干类(例如，前K’类，具体数值可以根据实际情况来设定)得分作为筛选后得分，如图2，实际上述操作，就是将数值比较小的得分被清洗掉了。

本发明实施例中，Kmeans算法是一种无监督训练的方法，采用Kmeans算法对所有得分进行聚类，均值比较小的类别就代表了不匹配的数据，将这些数据进行清洗，从而保证剩下的得分数据与测试集更一致。

步骤3、采用期望最大化算法对筛选出的若干类得分进行聚类，对于概率分布引入混合高斯模型拟合得分分布，当混合高斯模型收敛后，取均值最大的高斯单元均值与标准差作为当前说话人模型的得分规整参数。

如图3所示，利用期望最大化算法(EM)聚类后，并引入混合高斯模型(GMM)来拟合数据的分布，可以得到K’个高斯的均值和方差，选择均值最大的那个高斯分量，将其均值与标准差作为当前说话人模型的得分规整参数。

步骤4、利用得分规整参数对L个测试得分进行规整，利用规整后的得分进行说话人确认。

基于本发明实施例上述方案得到的规整参数可结合现有其他规整算法对测试得分进行规整，以前文介绍的Z-norm为例，将其测试得分规整公式中的均值μ(e_m)和标准差σ(e_m)替换为本发明上述步骤3得到的规则参数(均值与标准差）：

其中，表示规整后的第l个测试得分。

最后，根据规整后的得分来判决测试语音是否为目标说话人所说。

本发明实施例上述方案，针对说话人确认中测试得分分布差异性问题，在传统的采用所有冒认得分的规整参数不够准确的情况下，提出了首先用K均值方法去掉一部分数值比较小的得分，然后对于剩下的得分采用混合高斯模型进行拟合，用均值最大的那个高斯函数的参数来作为规整的参数，从而提升说话人确认准确率。

本发明提出的方法解决了得分规整集合与测试集不匹配的情况下规整参数的获得问题。由于Kmeans和EM算法都是无监督聚类的方法，因此可以说是不用开发集就可以获得很好的规整参数。为了验证本发明所提出方法的有效性，设计了如下实验。

(1)实验设置

本发明使用美国国家标准与技术署(NATIONAL INSTITUTE OF STANDARD ANDTECHNOLOGY，NIST)提供的2016年说话人识别评测比赛(SPEAKER RECOGNITIONEVALUATION，SRE)的测试集作为系统性能评估数据集，测试集中包含广东话与菲律宾塔加路语两种语言。说话人注册语音为时长60S的语料，说话人模型由一段或三段语料注册得到；测试语料时长均匀分布在10～60S，目标说话人测试有37058条，冒认者测试有19494662条。

得分规整所使用的数据集为NIST SRE 2016未标签数据集中的major数据，共计2272条语音，包含广东话与菲律宾塔加路语两种语言，无标签信息。

采用NIST SRE 2016官方计划中的等错误率(equal error rate，EER)，最小错误代价函数(minimal detection cost function，Min_DCF)和实际的错误代价函数(actualdetection cost function，Act_DCF)作为评价指标(“The 2016 NIST speakerrecognition evaluation plan(sre16)”[W])，所有这些指标，数值越小说明系统性能越优越。

(2)实验结果

采用因子分析(FACTOR ANALYSIS)的方法首先将每句不定长的语音转换成固定的低维矢量(I-VECTOR)，然后采用概率线性判别分析(Probabilistic Linear DiscriminantAnalysis，PLDA)的方法来获得每句测试语音的得分。在得到PLDA测试得分之后，采用各种得分规整方法进行得分规整，整个系统采用开源代码Kaldi实现(Povey,Daniel,et al.“The Kaldi speech recognition toolkit”,//IEEE 2011 workshop on automaticspeech recognition and understanding.No.EPFL-CONF-192584.IEEE SignalProcessing Society,2011)。

本发明将无得分规整的结果作为基线系统，并构建了不同的得分规整系统进行对比：

系统0：得分不做规整，这是基线(BASELINE)系统。

系统1-3：使用所有得分进行Z-NORM、T-NORM、S-NORM；这些算法是目前广泛采用的得分规整算法。

系统4-6：使用最高的N个得分进行Z-norm、T-norm、S-norm。这是论文(Matejka,Pavel,et al.“Analysis of score normalization in multilingual speakerrecognition”[C],//Proceedings of Interspeech,Stockholm,Sweden,2017:1567-1571)所采用的算法。本实验中Z-norm中N取150，T-norm中N取100，在这两个参数上本发明系统性能最佳，后面的描述中按此种做法所做的规整将在规整方法前加Top，例如Top Z-norm。

系统7-9：利用本发明提出的方法来计算规则参数并结合Z-norm、T-norm、S-norm方法，后面的描述中按此种做法所做的规整将在规整方法前加GMM，例如GMMZ-norm。

不同规整系统实验结果如表1所示：

表1不同得分规整系统实验结果

从表1中各项指标可看出，系统9GMM S-norm整体性能最佳，EER达到了13.69，而Min_DCF和Act_DCF达到了0.7167和0.7214，这两项指标较基线分别有7.1％和22.0％的明显提升。

从基本的规整方法来看，S-norm效果要好于Z-norm、T-norm，说明S-norm充分结合了二者的优点，实现了性能互补。对比系统1-3、4-6以及系统7-9可知，从选取得分数量策略来看，选取靠前的得分统计规整参数性能更优，这一定程度上是因为靠前的得分集合有更加稳定的均值和标准差。使用基于无监督聚类实际上选取的若干个数值比较大的得分来获得规整参数，相对而言Top方法选定固定数量比较大的得分，从实验结果来看，无监督聚类方法明显优越一些。这得益于GMM模型在刻画数据分布时的优势，这也表明利用GMM模型能有效地解决在取固定数量个得分计算规整参数时分布信息丢失的问题。

为了体现由规整参数估计的得分分布参数与真实测试集分布参数的差异，另外给出均值和标准差两个偏差参数：

其中，N为测试集中待规整目标的数量，对于Z-norm，N为注册说话人数量，对于T-norm，N为测试语料数量，为根据规整集得分估计的均值和标准差，μ_n、σ_n为根据真实测试得分统计的结果。通过这两个参数来比较不同算法的优劣，我们将上面的系统1，2，4，5，7，8计算得到的这两个参数绘制到图4中。

从图4可以看出，无论是Z-norm还是T-norm，基于聚类的得分规整方法的两种偏差都要明显小于选取固定数量个得分的规整方法。选取所有得分统计规整参数时，由于存在部分数据标签不匹配的测试，这会使得估计的均值远低于真实分布均值，标准差也会因此偏高，而选取最靠前的N个得分统计规整参数时，整体估计的均值往往大于真实分布均值，并且这前N个相邻得分标准差远小于真实分布。本发明提供的规整方案首先剔除了靠后的得分类，可以缩小与真实分布均值上的差距，然后利用GMM软聚类的方法使得保留的每个得分点都参与规整参数的计算，这样可以缩小标准差与真实分布的偏差，因此基于聚类的得分规整可有效的防止得分分布信息的丢失。

总的来说，在由全部得分得到规整参数的传统算法的基础上，本发明提出无监督聚类的方法来获得规整参数，首先剔除了一部分与测试集不匹配的得分，进一步采用期望最大化(EM)聚类的方法来获得GMM的估计，最终只选择均值最大的一个高斯来进行规整，从逻辑上来看就是动态地选择与测试数据最匹配的一些得分来获得规整参数，从实验结果来看，这种方法由于全部得分获得规整的方法，也优于只选择最大的Top N个得分获得规整参数的方法(系统4-6)。

为了便于理解，下面结合一个示例来进行说明。

对于一段测试语音，对于给定的说话人模型算到原始的测试得分，这种测试得分可以是如上面实验配置部分的i-vector和后端的PLDA模型计算得分，也可以是其它的模型如支持向量机(support vector machine，SVM)或者GMM-UBM等算法得到。

有一个开发集，这个开发集一般是没有标签的，也就是不知道每段语音说话人的性别、信道、所用语言信息，当然还有其它的一些信息，比如情绪等。同样，采用上面的模型也可以测试得到一个得分。由于语句很多，后面的无监督聚类算法就是从这大量的得分中估计出一个比价准确的规整参数。

首先，如图2所示，对开发集得分进行数据清洗，也即，筛选出要数值比较大的得分。

然后，如图3所示，采用EM算法对清洗剩余的数据进行无监督聚类，采用混合高斯模型来拟合这些数据的分布。

最后，只挑选最大的那个高斯分量的均值和方差作为规整参数，将原始的测试得分和规整参数按照前文介绍的规整公式进行最终得分计算，最终的得分用于判决测试语音是否为目标说话人所说。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种采用无监督聚类得分规整的说话人确认方法，其特征在于，包括：

2.根据权利要求1所述的一种采用无监督聚类得分规整的说话人确认方法，其特征在于，对于注册集中第m个说话人模型e_m，与包含L条语料的规整数据集进行测试，得到L个测试得分

3.根据权利要求2所述的一种采用无监督聚类得分规整的说话人确认方法，其特征在于，将均值最大的高斯单元均值与标准差第m个说话人模型e_m的得分规整参数，并通过下式进行规整：

其中，表示规整后的第l个测试得分。