CN113192493A

CN113192493A - 一种结合GMM Token配比与聚类的核心训练语音选择方法

Info

Publication number: CN113192493A
Application number: CN202110473820.2A
Authority: CN
Inventors: 杨莹春; 魏含玉; 吴朝晖
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-04-29
Filing date: 2021-04-29
Publication date: 2021-07-30
Anticipated expiration: 2041-04-29
Also published as: CN113192493B

Abstract

本发明公开了结合GMM Token配比与聚类的核心训练语音选择方法，该方法通过对原始训练语音的GMM Token配比特征进行聚类，选取距离每个聚类中心较近的训练语音作为核心训练语音。通过本发明提供的核心训练语音选择方法可以选取更具代表性的核心训练语音数据，使得仅用部分训练数据所获取的模型性能优于原始训练数据对应的模型，不仅节约了训练时间和能耗，而且提升了识别性能。该方法适用于语音识别、说话人识别、伪造语音识别等语音分类场景。

Description

一种结合GMM Token配比与聚类的核心训练语音选择方法

技术领域

本发明属于语音识别技术领域，具体涉及一种结合GMM Token配比与聚类的核心训练语音选择方法。

背景技术

声纹认证系统作为一种生物认证的方式，具有采集成本低、易于获取、方便远程认证等等优势，已经广泛应用于门禁系统、金融交易和司法鉴定等等领域。随着语音合成技术飞速发展，一方面给人们带来了更方便的服务和更良好的用户体验，如真声智能客服、真声智能导航、有声读物、智能语音呼叫等等；另一方面也给声纹认证系统的安全性带来了巨大的挑战，如利用合成语音攻击声纹认证系统使其性能显著下降，因此关于合成语音检测的研究具有重要的意义。

合成语音检测的目的就是从真实语音中将合成语音检测出来。现有的关于合成语音检测的实验研究都是按照比赛设定的训练集进行训练的，通常会使用大量的训练数据；然而在实际情况中，当使用更多的训练数据时，性能反而有所下降，因为训练数据中是存在冗余的，进行数据选择成为一个值得关注的课题。

发明内容

为了解决选择高质量训练数据获取的问题，本发明提出了一种结合GMM Token配比与聚类的核心训练语音选择方法，使用该方法可以选取高质量的核心训练语音集，使得模型在使用更少训练语音的情况下取得更好的性能，不仅节约了训练时间和能耗，而且提升了检测性能。

一种结合GMM Token配比与聚类的核心训练语音选择方法，包括如下步骤：

S1.随机选取部分训练语音进行训练获得初始模型；

S2.利用所述初始模型计算所有训练语音的GMM Token配比特征；

S3.利用所述GMM Token配比特征对所有训练语音进行聚类；

S4.逐一计算每条训练语音到聚类中心的距离；

S5.根据一定比例逐类选取距离聚类中心较近的训练语音作为核心训练语音。

进一步地，所述步骤S1的具体实现方式为：随机选择一定比例的训练语音，提取其特征数据，使用这些特征数据训练得到具有K阶高斯分量的GMM(高斯混合模型)即初始模型。GMM的训练是一个有监督的优化过程，其采用最大似然准则，整个过程分为参数初始化和参数优化两部分，前者使用LBG算法实现，后者使用EM算法实现，将训练得到的GMM作为之后用于获取训练语音Token配比特征的GMM tokenizer。

进一步地，所述步骤S2的具体实现方式为：首先提取各训练语音的特征数据(语音特征提取方式应与步骤S1中训练GMM时采用的特征提取方式保持一致)，然后针对特征数据的每一帧，在GMM tokenizer上计算似然得分，将得分最高的高斯分量索引序号标记作为这一帧的GMM Token，相应地，特征数据中的每一帧经过GMM tokenizer之后都将对应得到一个GMM Token，整个特征数据经过GMM tokenizer之后便可获得一组GMM Token序列；最后计算每一高斯分量索引的GMM Token数量与GMM Token总数之比即训练语音的GMM Token配比特征，计算方法为

其中f_i为第i个高斯分量索引的GMM Token配比，T为GMM Token总数，其大小取决于语音的特征数据长度，N_i为第i个高斯分量索引的GMM Token数量，i为自然数且1≤i≤K，K为GMM中的高斯分量总数。

进一步地，所述步骤S3的具体实现方式为：根据步骤S2获得所有训练语音的GMMToken配比特征，对训练语音进行聚类，将所有训练语音聚成M类，M为自定义大于1的自然数。

进一步地，所述步骤S4的具体实现方式为：对于任一条训练语音，根据GMM Token配比特征计算该语音到其所属类别聚类中心的距离。

进一步地，所述步骤S5的具体实现方式为：对于任一类别，将该类别中的训练语音按其与聚类中心的距离从小到大进行排序，按照一定的比例选择排名靠前的训练语音作为核心训练语音。

通过本发明提供的核心语音选择方法，可以保证挑选的训练语音之间差异较大，且分别能够较好地覆盖待识别类别语音的声学特征空间，因此能使部分的训练数据获取的语音模型性能优于原始训练数据上建立的语音模型。

附图说明

图1为本发明核心训练语音选择方法的步骤流程示意图。

具体实施方式

本发明适用于语音识别、说话人识别、伪造语音识别等语音分类场景，下面提供了在合成语音检测中选择核心训练语音的应用实施例。

为了进一步理解本发明，下面结合具体实施例对本发明的技术方案进行详细描述，但是应当理解，这些描述只是为进一步说明本发明的特征和优点，而不是对本发明权利要求的限制。

本实施方式中的实验数据采用的是2019年自动说话人识别欺骗攻击与防御对策挑战赛逻辑访问数据库(ASVspoof 2019-LA)以及2015年自动说话人识别欺骗攻击与防御对策挑战赛(ASVspoof 2015)。

ASVspoof挑战赛由英国爱丁堡大学、法国EURECOM、日本NEC、东芬兰大学等多个世界领先的研究机构共同组织发起。ASVspoof 2019的真实语音来自107个说话人，其中61人为女性、46人为男性，数据集被划分为三部分：训练集(Train)、开发集(Dev)、评估集(Eval)，录音环境较安静，没有明显的信道或环境噪声。训练集和开发集的虚假语音是用各种算法从真实语音中生成的，其中训练集包含20个说话人，12人为女性、8人为男性，包含真实语音2580句、虚假语音22800句；开发集包含20个说话人，12人为女性、8人为男性，包含真实语音2548句、虚假语音22296句；评估集包含67个说话人，37人为女性、30人为男性，包含真是语音7355句、虚假语音63882句，评估集大小约为4GB。

ASVspoof 2015的真实语音来自106个说话人，其中61人为女性、45人为男性，数据集被划分为三部分：训练集(Train)、开发集(Dev)、评估集(Eval)，录音环境较安静，没有明显的信道或环境噪声。训练集和开发集的虚假语音是用各种算法从真实语音中生成的，其中训练集包含25个说话人，15人为女性、10人为男性，包含真实语音3750句、虚假语音12625句；开发集包含35个说话人，20人为女性、15人为男性，包含真实语音2497句、虚假语音49875句；评估集包含46个说话人，26人为女性、20人为男性，约20万条测试语音，评估集大小约为20GB。

如图1所示，本发明结合GMM Token配比与聚类的核心训练语音选择方法包括如下步骤：

S1.随机选取语句进行训练获取模型参数；

S2.计算所有训练语句的GMM托肯配比特征；

S3.对所有语句进行Kmenas聚类；

S4.计算各个语句到各个聚类中心的距离；

S5.选取距离各个聚类中心最近的语句。

前述步骤S1的具体实施方法是：首先定义合成语音检测训练语料为

代表第i个语音的声学特征；GMM模型阶数为K；目标挑选语音个数为M；初始随机挑选语音个数占总训练数据比例为α；挑选后的语音集合为C。

随机选择比例为α的语音，获取其特征数据，可以使用语音的32阶LFCC，并加上一阶Δ特征和二阶Δ特征。使用这些特征数据，训练得到拥有K阶高斯分量的GMM，将这个GMM作为之后用于获取训练语音Token配比特征的GMM tokenizer。

GMM的训练是一个有监督的优化过程，一般采用最大似然准则，整个过程分为参数初始化和参数优化两部分，前者通常使用LBG算法，后者使用EM算法，由于GMM的训练以及语音特征的获取方法在现有的合成语音检测系统中已得到普遍的应用，在此不多作说明。对于GMM模型阶数K的选择，一般是2的幂次方如64、128、512、1024等等，在实验中发现对于使用的96维LFCC特征，512阶的GMM合成语音检测系统性能更优。

前述步骤S2的具体实施方法是：首先获取各个语音的特征数据，语音特征的获取方式应该与步骤S1中训练GMM tokenizer的数据的获取方式保持一致(如32阶LFCC加上一阶Δ特征和二阶Δ特征)；然后针对特征数据的每一帧，在GMM tokenizer上计算似然得分

将得分最高的高斯分量索引序号标为这一帧的GMM Token；因此相应地，在特征数据中的每一帧特征帧经过GMMtokenizer之后都将对应一个GMM Token，所有特征数据经过GMM tokenizer之后便可获得GMM Token序列。最后计算Token配比特征GTR＝[f₁,f₂,…,f_K]^T，GMM Token配比指的是每个GMM Token索引对应的GMM Token数目与GMM Token总数之比，其中GMM Token总数即为语音GMM Token序列的长度，取决于原始语音特征数据的长度，计算方法为：

其中i的大小为[1,K]，K为GMM tokenizer的混合高斯分量的数目大小，f_i为分量i的GMM Token配比，N_i为分量i的GMM Token数量，T为GMM Token总数。

前述步骤S3的具体实施方法是：对于步骤S2所获得的所有语音的GMM Token配比特征，进行Kmeans聚类，将数据聚成M类。Kmeans算法是基于距离的非层次聚类算法，步骤首先是随机初始化聚类中心Center＝{c₁,c₂,…,c_M}，然后计算每个样本到聚类中心的距离dist_i＝{d₁,d₂,…,d_M}，按照最小距离原则划分到最邻近聚类，接着计算每个聚类中的样本均值作为聚类中心

然后重复划分和计算聚类中心两个步骤直到聚类中心不再发生变化。

前述步骤S4的具体实施方法是：对于步骤S3得到的聚类中心，计算距离各个语音特征到各聚类中心的欧式距离

GTR_j表示语音j的GMM Token配比特征，u_i表示聚类中心i的特征。

前述步骤S5的具体实施方法是：对于步骤S4得到的各个语音特征到各聚类中心的欧式距离进行排序，选择距离各个中心最近的语音j^*＝arg min_jd_ij加入选取的核心语音集合C。

以下我们对开发集和评估集的所有语音进行测试，实验均基于GMM系统，除了本发明提出的GTR聚类选择算法以外，对比了使用全部数据、随机选择和最大平均距离(TopK)选择的方法，实验等错误率EER结果比较如表1所示：

表1

从表1中可以看出，本发明能够在一定程度上提高系统识别性能且性能优于随机选择和TopK选择方法，对比原始使用全部数据训练的方法EER平均提升了0.65个百分点。

上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明，熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种结合GMM Token配比与聚类的核心训练语音选择方法，包括如下步骤：

S1.随机选取部分训练语音进行训练获得初始模型；

S2.利用所述初始模型计算所有训练语音的GMM Token配比特征；

S3.利用所述GMM Token配比特征对所有训练语音进行聚类；

S4.逐一计算每条训练语音到聚类中心的距离；

2.根据权利要求1所述的核心训练语音选择方法，其特征在于：所述步骤S1的具体实现方式为：随机选择一定比例的训练语音，提取其特征数据，使用这些特征数据训练得到具有K阶高斯分量的GMM即初始模型。

3.根据权利要求2所述的核心训练语音选择方法，其特征在于：所述GMM的训练是一个有监督的优化过程，其采用最大似然准则，整个过程分为参数初始化和参数优化两部分，前者使用LBG算法实现，后者使用EM算法实现，将训练得到的GMM作为之后用于获取训练语音Token配比特征的GMM tokenizer。

4.根据权利要求1所述的核心训练语音选择方法，其特征在于：所述步骤S2的具体实现方式为：首先提取各训练语音的特征数据，然后针对特征数据的每一帧，在GMM tokenizer上计算似然得分，将得分最高的高斯分量索引序号标记作为这一帧的GMM Token，相应地，特征数据中的每一帧经过GMM tokenizer之后都将对应得到一个GMM Token，整个特征数据经过GMM tokenizer之后便可获得一组GMM Token序列；最后计算每一高斯分量索引的GMMToken数量与GMM Token总数之比即训练语音的GMM Token配比特征，计算方法为

5.根据权利要求1所述的核心训练语音选择方法，其特征在于：所述步骤S3的具体实现方式为：根据步骤S2获得所有训练语音的GMM Token配比特征，对训练语音进行聚类，将所有训练语音聚成M类，M为自定义大于1的自然数。

6.根据权利要求1所述的核心训练语音选择方法，其特征在于：所述步骤S4的具体实现方式为：对于任一条训练语音，根据GMM Token配比特征计算该语音到其所属类别聚类中心的距离。

7.根据权利要求1所述的核心训练语音选择方法，其特征在于：所述步骤S5的具体实现方式为：对于任一类别，将该类别中的训练语音按其与聚类中心的距离从小到大进行排序，按照一定的比例选择排名靠前的训练语音作为核心训练语音。