CN109378003A

CN109378003A - 一种声纹模型训练的方法和系统

Info

Publication number: CN109378003A
Application number: CN201811302005.4A
Authority: CN
Inventors: 方昕; 刘俊华; 魏思
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-11-02
Filing date: 2018-11-02
Publication date: 2019-02-22
Anticipated expiration: 2038-11-02
Also published as: CN109378003B

Abstract

本发明实施例提供了一种声纹模型训练方法和系统，该方法包括：选取多个用户标识下的语音作为训练语音；根据训练语音确定初始声纹模型；利用初始声纹模型对每个用户标识下的训练语音进行聚类，得到排序后的训练语音；将排序后每个用户标识下的训练语音划分成第一子集、第二子集和第三子集；将所有用户标识下的第一子集合并为第一训练子集，第二子集合并为第二训练子集，以及第三子集合并为第三训练子集；按照从易到难的学习顺序依次对第一训练子集、第二训练子集和第三训练子集进行学习，得到最终的声纹模型。本发明实施例有效提高了声纹模型的鲁棒性，使声纹系统的性能更加优越。

Description

一种声纹模型训练的方法和系统

技术领域

本发明涉及声纹识别技术领域，特别是涉及一种声纹模型训练方法和系统。

背景技术

声纹特征是人体重要生物特征之一，具有较强的个体特殊性，常用于声纹识别、声纹认证等领域作为身份认证的一种特征。声纹识别或声纹认证需要先利用事先训练好的声纹模型来对确认对象语音与待确认语音分别提取表征用户信息的特征矢量，然后利用两个特征矢量来进行相似度计算，最终判决是否为同一用户。在声纹模型的训练阶段，需要大量标注好的用户语音作为有监督的训练样本指导模型完成训练，然而，在很多基于用户标识(ID，Identity)的声纹场景下，一个ID下面并非只有该号码用户的语音，还存在着借用等非号码用户的语音存在。目前都是基于训练样本指导模型，对用户语音训练数据进行训练，具体的，可以通过高斯混合模型-通用背景模型(GMM-UBM，Gaussian Mixture Model-Universal Background Model)、全差异建模(TV，Total Variability)系统或深度神经网络系统等方法进行训练，其训练过程中都是利用大量用户的语音来训练表征用户信息的特征矢量。比如在基于用户标识ID的声纹系统下，无论采用何种系统，如果直接将某个ID下的所有语音都当作同一个用户，则训练数据本身就存在着很多错误；如果再对用户的标签进行人工标注，则会存在更大的误差，因为，标注员对自己不熟悉的用户语音非常难以标注用户信息，所以，不但误差大，且标注代价也十分高昂。

因此，基于上述问题，如何在用户标签不纯净的训练数据上训练出较好的声纹模型是目前有待解决的问题。

发明内容

本发明实施例所要解决的技术问题是提供一种声纹模型训练方法，以解决现有技术中由于用户标签不纯净的训练数据上训练出较好的声纹模型，导致声纹模型的鲁棒性降低的技术问题。

相应的，本发明实施例还提供了一种声纹模型训练系统、终端及计算机可读存储介质，用以保证上述方法的实现及应用。

为了解决上述问题，本发明是通过如下技术方案实现的：

第一方面提供一种声纹模型训练方法，包括：

选取多个用户标识下的语音作为训练语音；

根据所述训练语音确定初始声纹模型；

利用所述初始声纹模型对每个用户标识下的训练语音进行聚类，得到排序后的训练语音；

将排序后每个用户标识下的训练语音划分成第一子集、第二子集和第三子集；

将所有用户标识下的第一子集合并为第一训练子集，第二子集合并为第二训练子集，以及第三子集合并为第三训练子集；

按照从易到难的学习顺序依次对所述第一训练子集、第二训练子集和第三训练子集进行学习，得到最终的声纹模型。

可选的，所述利用所述初始声纹模型对每个用户标识下的训练语音进行聚类，得到排序后的训练语音，包括：

利用所述初始声纹模型提取所有训练语音的声纹表征；

按照所述声纹表征对每个用户标识下的训练语音进行聚类，得到排序后的训练语音，其中，所述排序后的训练语音是按照距离质心从近到远排序得到的。

可选的，通过下述方式计算所述质心：

计算每个用户标识下的所有声纹表征的矢量的平均值，将所述平均值作为对应用户标识下的质心。

可选的，所述将排序后每个用户标识下的训练语音划分成第一子集、第二子集和第三子集，包括：

计算所有声纹表征与质心的距离；

将所有距离小于第一阈值的声纹表征对应的训练语音划分为第一子集，将所有距离大于等于第一阈值且小于第二阈值的声纹表征对应的训练语音划分为第二子集，将所有距离大于等于第二阈值的声纹表征对应的训练语音划分为第三子集。

可选的，所述按照从易到难的学习顺序依次对所述第一训练子集、第二训练子集和第三训练子集进行学习，得到最终的声纹模型，包括：

根据所述第一训练子集中的训练语音对所述初始声纹模型进行训练，得到第一声纹模型；

以所述第一声纹模型为初始模型，利用第一训练子集和第二训练子集，且所述第二训练子集训练语音的学习率为第一训练子集的M倍来训练所述第一声纹模型，得到第二声纹模型，其中，0＜M＜1；

以所述第二声纹模型为初始模型，将所述第一训练子集、第二训练子集和第三训练子集，且所述第二训练子集训练语音的学习率为第一训练子集的M倍，所述第三训练子集训练语音的学习率为第一训练子集的N倍来训练所述第二声纹模型，得到第三声纹模型，所述第三声纹模型作为最终的声纹模型，用来进行后续的声纹识别任务，其中，0＜N＜1，且M＞N。

第二方面提供一种声纹模型训练系统，包括：

选取模块，用于选取多个用户标识下的语音作为训练语音；

确定模块，用于根据所述训练语音确定初始声纹模型；

聚类模块，用于利用所述初始声纹模型对每个用户标识下的训练语音进行聚类，得到排序后的训练语音；

划分模块，用于将排序后每个用户标识下的训练语音划分成第一子集、第二子集和第三子集；

合并模块，用于将所有用户标识下的第一子集合并为第一训练子集，第二子集合并为第二训练子集，以及第三子集合并为第三训练子集；

学习模块，用于按照从易到难的学习顺序依次对所述第一训练子集、第二训练子集和第三训练子集进行学习，得到最终的声纹模型。

可选的，所述聚类模块包括：

提取模块，用于利用所述初始声纹模型提取所有训练语音的声纹表征；

聚类子模块，用于按照所述声纹表征对每个用户标识下的训练语音进行聚类，得到排序后的训练语音，其中，所述排序后的训练语音是按照距离质心从近到远排序得到的。

可选的，所述聚类模块还包括：

质心计算模块，用于计算每个用户标识下的所有声纹表征的矢量的平均值，将所述平均值作为对应用户标识下的质心。

可选的，所述划分模块包括：

距离计算模块，用于计算所有声纹表征与质心的距离；

划分子模块，用于将所有距离小于第一阈值的声纹表征对应的训练语音划分为第一子集，将所有距离大于等于第一阈值且小于第二阈值的声纹表征对应的训练语音划分为第二子集，将所有距离大于等于第二阈值的声纹表征对应的训练语音划分为第三子集。

可选的，所述学习模块包括：

第一训练模块，用于根据所述第一训练子集中的训练语音对初始声纹模型进行训练，得到第一声纹模型；

第二训练模块，用于以所述第一声纹模型为初始模型，利用第一训练子集和第二训练子集，且所述第二训练子集训练语音的学习率为第一训练子集的M倍来训练所述第一声纹模型，得到第二声纹模型；其中，0＜M＜1；

第三训练模块，用于以所述第二声纹模型为初始模型，将所述第一训练子集、第二训练子集和第三训练子集，且所述第二训练子集训练语音的学习率为第一训练子集的M倍，所述第三训练子集训练语音的学习率为第一训练子集的N倍来训练所述第二声纹模型，得到第三声纹模型，所述第三声纹模型作为最终的声纹模型，用来进行后续的声纹识别任务；其中，0＜N＜1，且M＞N。

第三方面提供一种终端，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述的声纹模型训练方法的步骤。

第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述的声纹模型训练方法中的步骤。

与现有技术相比，本发明实施例包括以下优点：

本发明实施例中，首先选取多个用户标识下的语音作为训练语音，通过对所有训练语音进行声纹表征提取并在同一个用户标识下进行聚类，先得到离质心最近的较为纯净的语音(较为纯净即为容易的)，接着得到离质心较远的认为是较难的语音，最后得到离质心最远的认为是最难的语音，然后将训练语音按照从易到难的程度(本实施例中难易程度，指的是样本类内离散程度，越偏离正常大部分分布的样本就是难样本)进行了课程设计，使得声纹模型能够从易到难进行学习，从而使得学习过程更为容易，并且通过训练语音的样本的区别对待，不仅减弱了非目标用户语音对模型的影响，还有效利用了目标人较难的训练样本，有效提高声纹模型的鲁棒性，并且合理规避了噪声训练语音样本，使声纹系统的性能更优。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

图1是本发明实施例提供的一种声纹模型训练方法的流程图；

图2是本发明实施例提供的一种基于训练语音进行课程设计的示意图；

图3是本发明实施例提供的一种课程学习声纹识别训练过程的示意图；

图4是本发明实施例提供的一种声纹模型训练系统的结构示意图；

图5是本发明实施例提供的一种声纹模型训练系统的另一结构示意图；

图6是本发明实施例提供的一种声纹模型训练系统的另一结构示意图；

图7是本发明实施例提供的一种声纹模型训练系统的另一结构示意图；

图8是本发明实施例提供的一种声纹模型训练系统的另一结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

请参阅图1，为本发明实施例提供的一种声纹模型训练方法的流程图，具体可以包括如下步骤：

步骤101：选取多个用户标识下的语音作为训练语音；

该步骤中，每个用户标识(ID，Identity)下包括多条语音，选取多个用户标识下的语音作为声纹表征系统的训练语音。假如针对电话信道的声纹识别系统进行训练，则可以选取10000个电话号码下的语音作为声纹识别系统的训练语音等。

步骤102：根据所述训练语音确定初始声纹模型；

该步骤中，先将所述训练语音的用户标识作为用户标签，再根据所述训练语音训练初始声纹模型。

也就是说，先将所有的训练语音按照用户标识ID作为用户标签，然后，利用交叉熵(CE，Cross Entropy)准则和训练语音训练一套声纹表征系统。具体的，可以将训练语音通过卷积神经网络(CNN，Convolutional Neural Networks)或循环神经网络(RNN，RecurrentNeural Netwokrs)等来训练一套神经网络声纹表征系统。其中，本实施例不限于CE准则，还可以是其他准则，比如，KL散度(KLD，Kullback–Leibler divergence)准则等。

步骤103：利用所述初始声纹模型对每个用户标识下的训练语音进行聚类，得到排序后的训练语音；

该步骤中，1)先利用所述初始声纹模型提取所有训练语音的声纹表征；2)按照所述声纹表征对每个用户标识下的训练语音进行聚类，得到排序后的训练语音，其中，所述排序后的训练语音是按照距离质心从近到远排序得到的。

该实施例中，先利用所述初始声纹模型对所有训练样本进行声纹表征提取，其具体的提取过程，对于本领域技术人员来说已是熟知技术，在此不再赘述。之后，按照所述声纹表征对每个用户标识下的训练语音进行聚类，得到排序后的训练语音，其中，所述排序后的训练语音是按照距离质心从近到远排序得到的。也就是说，按照声纹表征将每个用户标识下的训练语音统计在一起，且按照距离质心从近到远进行排序。

步骤104：将排序后每个用户标识下的训练语音划分成第一子集、第二子集和第三子集；

该步骤中，第一子集是距离质心最近且认为是较为纯净的语音(即简单，接近与目标ID的语音)，第二子集是距离质心较远且较难的语音，第三子集是距离质心最远且认为是最难的语音。如图2所示，为本发明实施例提供的一种基于训练语音进行课程设计的示意图，需要说明的是，图2中用一个用户标识下的语音为例来说明。该步骤中，可以通过下述方式计算质心：计算每个用户标识下的所有声纹表征的矢量的平均值，并将所述平均值作为对应用户标识下的质心，其计算每个用户标识下所有声纹表征的矢量的过程，对于本领域技术人员来说，已是熟知技术，在此不再赘述。

其中，该步骤中划分训练语音的方式可以按照余弦距离来划分，也可以按照欧式距离来划分，下面分别来说明。其中，

第一种划分方式：按照欧式距离来划分，具体包括：

先根据经验设定两个阈值，即第一阈值与第二阈值；然后，计算每个用户标识下所有声纹表征与质心的欧式距离，并将所有欧式距离小于第一阈值的声纹表征对应的训练语音划定为第一子集，第一子集用比较密集的点来表示，具体如图2所示；将所有欧式距离大于等于第一阈值且小于第二阈值的所有声纹表征对应的训练语音划定为第二子集，第二子集用稍微稀疏的点来表示；将所有欧式距离大于等于第二阈值的声纹表征对应的训练语音划定为第三子集，第三子集用比较稀疏的点来表示。其中，第一子集认为是较为纯净的目标ID的语音，而第二子集与第三子集认为是既包含目标ID中偏离目标较远的语音，而这部分语音恰恰是模型最需要学习的样本，而另一部分包含了非目标ID的语音，这部分语音是模型不希望学习的样本。

第二种划分方式：按照余弦距离来划分，具体包括：

先根据经验设定两个阈值，即第一阈值θ1与第二阈值θ2；然后，计算每个用户标识下所有声纹表征与质心的余弦距离，并将所有余弦距离大于θ1的声纹表征对应的训练语音划定为第一子集，具体如图2所示，图2中第一子集用比较密集的点来表示；将所有余弦距离小于等于θ1且大于θ2的所有声纹表征对应的训练语音划定为第二子集，图2中第二子集用稍微稀疏的点来表示；将所有余弦距离小于等于θ2的声纹表征对应的训练语音划定为第三子集，图2中第三子集用比较稀疏的点来表示。其中，第一子集认为是较为纯净的目标ID的语音，而第二子集与第三子集认为是既包含目标ID中偏离目标较远的语音，而这部分语音恰恰是模型最需要学习的样本，而另一部分包含了非目标ID的语音，这部分语音是模型不希望学习的样本。具体还请一并参阅图2。

步骤105：将所有用户标识下的第一子集合并为第一训练子集，第二子集合并为第二训练子集，以及第三子集合并为第三训练子集；

该步骤中，合并所有用户标识下的第一子集，合并后的子集称为第一训练子集，同理，合并所有用户标识下的第二子集和第三子集，分别称为第二训练子集和第三训练子集。

步骤106：按照从易到难的学习顺序依次对所述第一训练子集、第二训练子集和第三训练子集进行学习，得到最终的声纹模型。

该步骤中，先设计学习课程，即按照容易到难(即认为离质心的距离越近，认为越容易，距离越远认为越难)的程度来设定学习顺序，即设定第一训练子集为简单的语音，第二训练子集为较难的语音，以及第三训练子集为最难的语音。其学习的顺序为先学习简单的语音，在学习较难的语音，最后学习最难的语音。也就是说，最先学习最简单的第一训练子集，接着学习较难的第二子集，最后学习最难的第三子集，如图3所示，为本发明实施例提供的一种课程学习声纹识别训练过程的示意图。

如图3所示：首先，根据所述第一训练子集中的训练语音对所述初始声纹模型进行训练，得到第一声纹模型；其中，该实施例中，第一训练子集训练语音的学习率为1r，而学习率又可以称为权重。

也就是说，该步骤中，利用交叉熵准则CE准则，将第一训练子集中的所有训练语音输入到初始声纹模型训进行训练学习，其训练过程中的学习率设置为lr，得到一套声纹模型，即第一声纹模型；

其次，以所述第一声纹模型为初始模型，利用第一训练子集和第二训练子集，且所述第二训练子集训练语音的学习率为第一训练子集的M倍来训练所述第一声纹模型，得到第二声纹模型，其中，0＜M＜1；比如，M的值可以取0.6，0.8等，其具体的取的值可以根据经验来设置。

也就是说，该步骤中，以所述第一声纹模型为初始模型，利用交叉熵准则CE准则(不限于CE准则)，将第二训练子集中的所有训练语音、第一训练子集中的所有训练语音输入到第一声纹模型进行训练，得到第二声纹模型。其中，第一训练子集中训练语音的学习率仍设置为lr，第二训练子集中训练语音的学习率设置为0.6倍lr。需要说明的是，该实施例中的第二训练子集的学习率以设置为0.6倍的1r为例。

最后，以所述第二声纹模型为初始模型，将所述第一训练子集、第二训练子集和第三训练子集，且所述第二训练子集训练语音的学习率为第一训练子集的M倍，所述第三训练子集训练语音的学习率为第一训练子集的N倍来训练所述第二声纹模型，得到第三声纹模型，所述第三声纹模型作为最终的声纹模型，用来进行后续的声纹识别任务；其中，0＜M＜1，0＜N＜1，且M＞N；M的值可以取0.6，0.8等，而N的值可以取0.4，0.5等，其M和N的取值情况可以根据经验来设置，本实施例不做限制。

也就是说，该步骤中，以所述第二声纹模型为初始模型，利用交叉熵准则CE准则(不限于CE准则)，将第三训练子集中的所有训练语音、第一训练子集中的所有训练语音以及第二训练子集中的所有训练语音输入第二声纹模型进行训练，得到第三声纹模型，其中，第三训练子集中训练语音的学习率设置为0.4倍lr，第一训练子集中训练语音的学习率仍设置为lr，第二训练子集中训练语音的学习率仍设置为0.6倍lr。

本发明实施例提出一种声纹模型训练方法，首先选取多个用户标识下的语音作为训练语音，通过对所有训练语音进行声纹表征提取并在同一个用户标识下进行聚类，先得到离质心最近的较为纯净的语音，接着得到离质心较远的认为是较难的语音，最后得到离质心最远的认为是最难的语音，接着设计课程，先利用这简单的语音训练一个声纹模型(即第一声纹模型)，接着将较难的训练语音以较小的权重联合简单训练语音一起以第一声纹模型为初始模型进行训练，得到第二声纹模型，最后，将最难的训练语音以更低的权重，联合以较低的权重使用较难的语音，再联合简单训练语音一起以第二声纹模型为初始模型进行训练，得到第三声纹模型。在此训练过程中，模拟了人类学习知识由简单到难的过程，较好的利用了较难的训练语音样本有效提高了声纹模型的鲁棒性，并且合理规避了噪声训练语音样本，使声纹系统的性能更优。

为了便于理解，下面以具体的应用实例来说明，该过程还请一并参阅图3，具体的，假设针对电话信道的声纹识别系统，先获取10000个电话号码下的语音，并将该语音作为声纹识别系统的训练语音，然后，根据10000人的训练语音来训练初始声纹模型，接着，利用训练好的初始声纹模型对所有训练语音提取对应的声纹表征，并在10000个电话号码下，对每个号码下的语音进行聚类，并根据第一阈值和第二阈值将每个电话号码下的语音划分成三个子集，即第一子集、第二子集和第三子集，其具体的划分方式详见上述，在此不再赘述，将所有电话号码下的三个子集分别合并，形成对应的三个训练子集，即第一训练子集，第二训练子集和第三训练子集；接着，按照从容易到难来设计课程，将第一训练子集作为简单集合，第二训练子集作为较难集合，第三训练子集作为最难集合；在后，利用第一训练子集对初始声纹模型进行训练生成第一声纹模型，其中，第一训练子集中训练语音的学习率为1；接着利用第一声纹模型作为初始模型，将第一训练子集和第二训练子集输入到第一声纹模型进行训练，得到第二声纹模型，其中，第二训练子集中训练语音的学习率为第一训练子集中训练语音的学习率的0.6倍；最后，利用第二声纹模型作为初始模型，将第一训练子集、第二训练子集和第三训练子集输入到第二声纹模型进行训练得到第三声纹模型，其中，第二训练子集中的训练语音的学习率为第一训练子集中训练语音的学习率的0.6倍，第三训练子集中的训练子集的学习率为第一训练子集在训练语音的学习率的0.4倍。本实施例中，将第三声纹模型作为最终的声纹模型来进行后续的声纹识别任务。

由此可知，本发明实施例中，首先选取多个用户标识下的语音作为训练语音，通过对所有训练语音进行声纹表征提取并在同一个用户标识下进行聚类，先得到离质心最近的较为纯净的语音，接着得到离质心较远的认为是较难的语音，最后得到离质心最远的认为是最难的语音，接着设计课程，先利用最简单的语音训练一个声纹模型，即第一声纹模型，接着将较难的训练语音以较小的权重联合简单训练语音一起以第一声纹模型为初始模型进行训练，得到第二声纹模型，最后，将最难的训练语音以更低的权重联合以较低的权重使用较难的语音，再联合简单训练语音一起以第二声纹模型为初始模型进行训练，得到第三声纹模型。在此训练过程中，模拟了人类学习知识由简单到难的过程，较好的利用了较难的训练语音样本有效提高了声纹模型的鲁棒性，并且合理规避了噪声训练语音样本，使声纹系统的性能更优。应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

需要说明的是，在上述实施例中，所述声纹模型除了神经网络模型(如CNN、RNN等)以外，还可以是传统的全差异(TV，Total Variability)模型或者其他模型。如果是TV模型，则在计算每条特征的零阶统计量与一阶统计量时，不同的训练子集给予不同的权重系数(与上述实施例中学习率类似)，从而完成整个声纹训练过程，其实现过程与上述过程类似，具体详见上述，在此不再赘述。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

请参阅图4，为本发明实施例提供的一种声纹模型训练系统的结构示意图，具体可以包括如下模块：选取模块41，确定模块42，聚类模块43，划分模块44，合并模块45和学习模块46，其中，

所述选取模块41，用于选取多个用户标识下的语音作为训练语音；

所述确定模块42，用于根据所述训练语音确定初始声纹模型；

所述聚类模块43，用于利用所述初始声纹模型对每个用户标识下的训练语音进行聚类，得到排序后的训练语音；

所述划分模块44，用于将排序后每个用户标识下的训练语音划分成第一子集、第二子集和第三子集；

所述合并模块45，用于将所有用户标识下的第一子集合并为第一训练子集，第二子集合并为第二训练子集，以及第三子集合并为第三训练子集；

所述学习模块46，用于按照从易到难的学习顺序依次对所述第一训练子集、第二训练子集和第三训练子集进行学习，得到最终的声纹模型。

本发明实施例提出一种声纹模型训练系统，该系统构造训练语音的难易程度并设计课程，使得声纹模型能够按照课程从易到难进行学习，从而使得学习过程更为容易，并且对训练语音样本的区别对待，不仅减弱了非目标用户语音对声纹模型的影响，还有效利用了目标人较难的训练语音样本，有效提高了声纹模型的鲁棒性，使声纹系统的性能更加优越。

可选的，在另一种实施例中，该实施例在上述实施例的基础上，所述确定模块42包括：标签确定模块51和训练模块52，其结构示意图如图5所示，其中，

所述标签确定模块51，用于将所述训练语音的用户标识作为用户标签；

所述训练模块52，用于根据所述训练语音训练初始声纹模型。

可选的，在另一种实施例中，该实施例在上述实施例的基础上，所述聚类模块43包括：提取模块61和聚类子模块62，其结构示意图如图6所示，

所述提取模块61，用于利用所述初始声纹模型提取所有训练语音的声纹表征；

所述聚类子模块62，用于按照所述声纹表征对每个用户标识下的训练语音进行聚类，得到排序后的训练语音，其中，所述排序后的训练语音是按照距离质心从近到远排序得到的。

可选的，在另一种实施例中，该实施例在上述实施例的基础上，所述聚类模块43还包括：质心计算模块71，其结构示意图如图7所示，其中，

所述质心计算模块71，用于计算每个用户标识下的所有声纹表征的矢量的平均值，将所述平均值作为对应用户标识下的质心；

所述聚类子模块62，具体用于按照所述声纹表征对每个用户标识下的训练语音进行聚类，得到排序后的训练语音，其中，排序的顺序是按照距离质心从近到远来排序的，其中，所述质心为所述质心计算模块71计算得到的。

可选的，在另一种实施例中，该实施例在上述实施例的基础上，所述划分模块44包括：距离计算模块81和划分子模块82，其结构示意图如图8所示，

距离计算模块81，用于计算所有声纹表征与质心的距离；

划分子模块82，用于将所有距离小于第一阈值的声纹表征对应的训练语音划分为第一子集，将所有距离大于等于第一阈值且小于第二阈值的声纹表征对应的训练语音划分为第二子集，将所有距离大于等于第二阈值的声纹表征对应的训练语音划分为第三子集。

可选的，在另一种实施例中，该实施例在上述实施例的基础上，所述学习模块46包括：第一训练模块71，第二训练模块72，第三训练模块73和第三训练模块74，其结构示意图如图7所示，其中，

所述第一训练模块71，用于根据所述第一训练子集中的训练语音对初始声纹模型进行训练，得到第一声纹模型；

所述第二训练模块72，用于以所述第一声纹模型为初始模型，利用第一训练子集和第二训练子集，且所述第二训练子集训练语音的学习率为第一训练子集的M倍来训练所述第一声纹模型，得到第二声纹模型；其中，0＜M＜1；

所述第三训练模块73，用于以所述第二声纹模型为初始模型，将所述第一训练子集、第二训练子集和第三训练子集，且所述第二训练子集训练语音的学习率为第一训练子集的M倍，所述第三训练子集训练语音的学习率为第一训练子集的N倍来训练所述第二声纹模型，得到第三声纹模型，所述第三声纹模型作为最终的声纹模型，用来进行后续的声纹识别任务；其中，0＜N＜1，且M＞N。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例中，首先选取多个用户标识下的语音作为训练语音，通过对所有训练语音进行声纹表征提取并在同一个用户标识下进行聚类，先得到离质心最近的较为纯净的语音，接着得到离质心较远的认为是较难的语音，最后得到离质心最远的认为是最难的语音，接着设计课程，先利用较为纯净即简单的语音训练一个声纹模型(即第一声纹模型)，接着将较难的训练语音以较小的权重联合简单训练语音一起以第一声纹模型为初始模型进行训练，得到第二声纹模型，最后，将最难的训练语音以更低的权重联合以较低的权重使用较难的语音，在联合简单训练语音一起以第二声纹模型为初始模型进行训练，得到第三声纹模型。在此训练过程中，模拟了人类学习知识由简单到难的过程，较好的利用了较难的训练语音样本有效提高了声纹模型的鲁棒性，并且合理规避了噪声训练语音样本，使声纹系统的性能更优。

可选的，本发明实施例还提供一种终端，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述的声纹模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

可选的，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的声纹模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(RandomAccess Memory，简称RAM)、磁碟或者光盘等。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、系统、终端或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所述权利要求解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种声纹模型训练方法、系统、终端及计算机存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种声纹模型训练方法，其特征在于，包括：

选取多个用户标识下的语音作为训练语音；

根据所述训练语音确定初始声纹模型；

2.根据权利要求1所述的方法，其特征在于，所述利用所述初始声纹模型对每个用户标识下的训练语音进行聚类，得到排序后的训练语音，包括：

利用所述初始声纹模型提取所有训练语音的声纹表征；

3.根据权利要求2所述的方法，其特征在于，通过下述方式计算所述质心：

4.根据权利要求3所述的方法，其特征在于，所述将排序后每个用户标识下的训练语音划分成第一子集、第二子集和第三子集，包括：

计算所有声纹表征与质心的距离；

5.根据权利要求1至4任一项所述的方法，其特征在于，所述按照从易到难的学习顺序依次对所述第一训练子集、第二训练子集和第三训练子集进行学习，得到最终的声纹模型，包括：

6.一种声纹模型训练系统，其特征在于，包括：

选取模块，用于选取多个用户标识下的语音作为训练语音；

确定模块，用于根据所述训练语音确定初始声纹模型；

7.根据权利要求6所述的系统，其特征在于，所述聚类模块包括：

8.根据权利要求7所述的系统，其特征在于，所述聚类模块还包括：

9.根据权利要求8所述的系统，其特征在于，所述划分模块包括：

距离计算模块，用于计算所有声纹表征与质心的距离；

10.根据权利要求6至9任一项所述的系统，其特征在于，所述学习模块包括：