CN110491393B

CN110491393B - 声纹表征模型的训练方法及相关装置

Info

Publication number: CN110491393B
Application number: CN201910817491.1A
Authority: CN
Inventors: 方昕; 刘俊华; 柳林
Original assignee: iFlytek Co Ltd; MIGU Digital Media Co Ltd
Current assignee: iFlytek Co Ltd; MIGU Digital Media Co Ltd
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2022-04-22
Anticipated expiration: 2039-08-30
Also published as: CN110491393A

Abstract

本申请实施例公开了一种声纹表征模型的训练方法及装置，所述方法包括如下步骤：将语音数据集的多条语音数据执行特征提取操作，得到多个原始语音特征；将所述多个原始语音特征执行声纹表征操作、内容识别操作以及语音合成操作得到多个合成语音特征；依据所述多个合成语音特征和所述多个原始语音特征构建损失函数，依据所述损失函数对初始声纹表征模型的参数进行更新得到训练后的声纹表征模型。本申请提供的技术方案具有成本低的优点。

Description

声纹表征模型的训练方法及相关装置

技术领域

本申请涉及音频技术领域，具体涉及一种声纹表征模型的训练方法及相关装置。

背景技术

声纹特征是人体重要生物特征之一，具有较强的个体特殊性，由于其个体特殊性，因此其常用于声纹识别、声纹认证等领域作为身份认证的一种特征。因此，可以通过建立声纹表征模型来表征不同的个体，进而利用该声纹模型识别不同的个体。

声纹识别模型基于有监督的语音来训练，但是有监督的语音的标注工作量大，成本高。

发明内容

本申请实施例提供了一种声纹表征模型的训练方法及相关装置，以期利用无监督语音来训练声纹表征模型的训练，降低标注工作量，具有成本低的优点。

第一方面，提供一种声纹表征模型的训练方法，所述方法包括如下步骤：

将语音数据集的多条语音数据执行特征提取操作，得到多个原始语音特征；

将所述多个原始语音特征执行声纹表征操作、内容识别操作以及语音合成操作得到多个合成语音特征；

依据所述多个合成语音特征和所述多个原始语音特征构建损失函数，依据所述损失函数对初始声纹表征模型的参数进行更新得到训练后的声纹表征模型

第二方面，提供一种声纹表征模型的训练装置，所述装置包括：

提取单元，用于将语音数据集的多条语音数据执行特征提取操作，得到多个原始语音特征；

处理单元，用于将所述多个原始语音特征执行声纹表征操作、内容识别操作以及语音合成操作得到多个合成语音特征；

更新单元，用于依据所述多个合成语音特征和所述多个原始语音特征构建损失函数，依据所述损失函数对初始声纹表征模型的参数进行更新得到训练后的声纹表征模型。

第三方面，本申请实施例提供了一种计算机可读存储介质，其中，上述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。

第四方面，本申请实施例提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

可以看出，本申请提供的技术方案通过对语音数据集的多条语音数据提取特征得到多个原始语音特征以后，将该原始语音特征执行声纹表征操作、内容识别操作以及语音合成操作得到多个合成语音特征，这样即能够通过合成语音特征与原始语音特征的差异来构建损失函数，进而依据该损失函数对该初始声纹表征模型进行再次训练得到最终的声纹表征模型，因为本申请提供的技术方案能够得到合成语音特征，因此并不要求该语音数据集的语音数据被标记，因此能够降低成本。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是一种声纹表征模型的训练流程的示意图；

图2是本申请实施例提供一种声纹表征模型的训练系统的结构示意图；

图3a是本实施例提供的一种训练系统的结构示意图；

图3b本申请实施例提供的一种特定人语音识别模型的训练的流程示意图；

图4a本申请实施例提供的一种训练系统的结构示意图；

图4b本申请实施例提供的一种特定人合成模型的训练方法的流程示意图；

图5是本申请提供的一种声纹表征模型的训练装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

声纹表征模型训练方法分为两种，一种是普通的生成式模型，如GMM-UBM(gaussian mixture model-universal background model,高斯混合模型-通用背景模型)、TV(total variability,总变异性)模型；对于生成式模型在训练完成后，仍然需要利用大量有监督的说话人的语音来训练表征说话人信息的特征矢量的后端系统，如LDA(英文：latent dirichlet allocation，中文：隐含狄利克雷分布)或者PLDA(英文：probabilistic latent dirichlet allocation，中文：概率隐含狄利克雷分布)。另一种就是区分性的深度神经网络模型，也是需要利用大量有监督的说话人的语音来训练表征说话人信息的特征矢量，并在网络模型中抽取某一层网络的线性输出作为表征说话人信息的特征矢量。因此，无论训练何种声纹表征模型，都需要利用大量有监督的说话人的语音来训练声纹表征模型。

有监督的语音，表示通过特定的手段对语音的某一特定环节﹑过程进行监视﹑督促和管理﹐使监督后的语音能达到预定的目标。常见的有监督的语音可以包括：被标注说话人的语音、被标注语音文本内容的语音等等。

无监督的语音，表示未经过标记的语音。常见的无监督的语音可以包括：公共场合采集的语音数据等等。

大量有监督语音的获取非常困难，因为对于标注人(或监督人)来说，其熟悉的说话人有限，监督人很难知道大量的说话人信息，这样使得对说话人的标注非常困难，相比内容识别标注，监督人对自己不熟悉的说话人语音非常难以标注说话人信息的，所以标注代价十分高昂，成本很高。

特定人语音识别模型是将特定人语音转化为语音内容(文本信息)，因此，对于特定人语音识别模型，人体特征信息(例如声纹表征信息)在特定人语音识别模型中为干扰信息(也可以称为噪声信息)，特定人语音识别模型如果去除人体特征信息越干净，那么特定人语音识别模型的识别率就会越高(即精度越高)。

个性化语音合成模型将文本内容转化为特定人的语音，因此，人体特征信息(例如声纹表征信息)在个性化语音合成模型中为附加信息，个性化语音合成模型如果添加的人体特征信息越充分，那么个性化语音合成系统的合成效果就会越好，即越贴近原始语音。

实施例一

本申请实施例一提供一种声纹表征模型的训练方法，该方法可以对偶学习系统内实现，该对偶学习系统如图2所示，上述声纹表征模型可以采用神经网络模型，包括但不限于DNN(英文：Deep Neural Network，中文：深度神经网络)、RNN(英文：Recurrent NeuralNetwork，中文：循环神经网络)、CNN(英文：Convolution Neural Network，中文：卷积神经网络)中的任意一种，本申请实施例一仅仅对声纹表征模型训练，并不对如图2所示的特定人语音识别模型以及特定人语音合成模型训练，即本申请实施例一在训练时，声纹表征模型训练的参数会改变，但是特定人语音识别模型以及特定人语音合成模型训练的参数均是不改变的。该方法如图1所示，包括如下步骤：

步骤S101、将语音数据集的多条语音数据执行特征提取操作，得到多个原始语音特征。

上述步骤S101中的语音数据集可以为无监督的语音数据集，该语音数据集可以包括多条语音数据(海量语音数据)。上述特征提取操作的方式包括但不限于：Filter Bank特征提取算法或MFCC算法，其对应的原始语音特征包括但不限于：Filter Bank特征或MFCC特征。当然在实际应用中，上述原始语音特征还可以为其他的特征。

上述步骤S101的具体实现方式可以为，将语音数据集的多条语音数据逐条执行特征提取操作得到多个原始语音特征。

步骤S102、将所述多个原始语音特征执行声纹表征操作、内容识别操作以及语音合成操作得到多个合成语音特征。

上述步骤S102的实现方法具体可以包括：

将所述多个原始语音特征通过所述初始声纹表征模型执行声纹表征操作得到多个声纹特征向量；将所述多个声纹特征向量与所述多个原始语音特征拼接后通过特定人语音识别模型执行内容识别操作得到多个文本内容；将所述多个文本内容对应的建模向量与所述多个声纹特征向量拼接后通过特定人语音合成模型执行语音合成操作得到多个合成语音特征。

上述初始声纹表征模型具体可以为，采用少量的有监督语音作为训练样本进行训练后的声纹表征模型，该声纹表征模型的训练准则包括但不限于：CE(英文：CrossEntropy，中文：交叉熵)准则、triplet准则、CE与triplet结合的准则。上述少量的有监督语音具体可以包括，数量较少的标记发音人的语音数据。

上述将所述多个声纹特征向量与所述多个原始语音特征拼接后通过特定人语音识别模型执行内容识别操作得到多个文本内容具体可以包括：

将多个声纹特征向量与多个原始语音特征向量拼接得到多个拼接向量A，将多个拼接向量A输入到语音识别模型执行内容识别操作得到多个文本内容。

需要说明的是，这里的多个原始语音特征向量执行拼接时的最低维度可以为一帧原始语音对应的原始语音特征向量。下面以一个实际的例子来说明，假设原始语音特征具有3帧原始特征向量，为了方便描述，这里称为原始特征向量1、原始特征向量2、原始特征向量3，其均具有40个元素值，这里的声纹特征向量V具有100个元素值，则可以将声纹特征向量V分别添加到3帧原始特征向量得到拼接向量A，将拼接向量A输入到特定人语音识别模型执行内容识别操作得到多个后验概率，选择多个后验概率中最大的后验概率，该最大的后验概率即为该拼接向量A的文本内容。

上述将所述多个文本内容对应的建模向量与所述多个声纹特征向量拼接后通过特定人语音合成模型执行语音合成操作得到多个合成语音特征具体可以包括：

从预设建模矩阵提取与多个文本内容对应的多个建模向量，将多个建模向量与多个声纹特征向量拼接后得到多个拼接向量B，将多个拼接向量B输入特定人语音合成模型执行语音合成操作得到多个合成语音特征。

上述建模向量可以为模型构建时使用的语法单元向量，如音素向量、音节向量、字向量或词向量中的一种，上述预设建模矩阵可以为预存储的音素矩阵、预存储的音节矩阵等等，以中文以及预存储的音素矩阵为例，具有40个音素，则该音素矩阵为M*40矩阵，每个音素对应一列向量。确定该文本内容对应的音素以后，直接提取该音素矩阵对应的音素向量即可，例如文本内容为“a”，则提取M*40矩阵中“a”对应的音素向量，即第一列元素值。

上述拼接向量B的拼接方法可以参见拼接向量A的拼接方式，这里不再赘述。

上述特定人语音识别模型以及特定人语音合成模型均可以为神经网络模型。

步骤S103、依据所述多个合成语音特征和所述多个原始语音特征构建损失函数，依据所述损失函数对初始声纹表征模型的参数进行更新得到训练后的声纹表征模型。

本申请提供的技术方案通过对语音数据集的多条语音数据提取特征得到多个原始语音特征以后，将该原始语音特征执行声纹表征操作、内容识别操作以及语音合成操作得到多个合成语音特征，这样即能够通过合成语音特征与原始语音特征的差异来构建损失函数，进而依据该损失函数对该初始声纹表征模型进行再次训练得到最终的声纹表征模型，因为本申请提供的技术方案能够得到合成语音特征，因此并不要求该语音数据集的语音数据被标记，因此能够降低成本。

上述步骤S103的一种可选的实现方案中，上述依据所述多个合成语音特征和所述多个原始语音特征构建损失函数具体可以包括：

计算所述合成语音特征和所述原始语音特征的差得到多个差值，依据所述多个差值的和构建损失函数L1。

具体的，在一种可选的方案中，上述构建损失函数L1具体可以如下：

其中L1表示损失函数，K表示无监督语音数据集中的总条数，k表示无监督语音数据集中语音数据的条编号；T表示一条语音数据的总帧数，

表示第k条语音数据第t帧的合成特征向量，

表示第k条语音数据第t帧的原始语音特征向量。

如上述损失函数为上述L1，则依据所述损失函数对初始声纹表征模型的参数进行更新得到训练后的声纹表征模型具体可以包括：

其中，

表示训练后的声纹表征模型的参数，θ_M1表示待训练的声纹表征模型的参数，l表示学习率。

对于上述步骤S103的一种可选方案，能够通过L1即能够完成对初始声纹表征模型的训练，能够减少训练的计算量，但是相对于通过多个损失函数训练来说，单个L1执行初始声纹表征模型的训练后的声纹表征模型的识别精度低。

为了提高声纹表征模型的识别精度，本申请还提供上述步骤S103的另一种可选方案中，上述依据所述合成语音特征和所述原始语音特征构建损失函数具体包括：

计算所述合成语音特征和所述原始语音特征的差得到多个差值，依据所述多个差值的和构建损失函数L1；

获取所述多个原始语音特征的多个最大后验概率，计算所述多个差值与所述多个最大后验概率的差得到多个后验差值，依据所述多个后验差值的和构建损失函数L2。

可选的，上述获取所述多个原始语音特征点的多个最大后验概率具体包括：

将所述多个声纹特征向量与所述多个原始语音特征拼接后通过所述特定人语音识别模型识别得到多个候选序列，从所述多个候选序列中提取每个候选序列的最大后验概率得到所述多个最大后验概率。

具体构建的L1以及L2可以如下：

L1表示第一损失函数，K表示无监督语音数据集中的总条数，k表示无监督语音数据集中语音数据的条编号；T表示一条语音数据的总帧数，

表示第k条语音数据第t帧的合成特征向量，

表示第k条语音数据第t帧的原始语音特征向量；

表示第k条第t帧语音通过所述特定人语音识别模型识别得到多个候选序列中第n个候选序列的建模向量经过所述特定人语音合成模型所产生的L1，N表示第k条第t帧语音通过所述特定人语音识别模型识别得到候选序列总数，

表示第k条第t帧语音通过所述特定人语音识别模型识别得到多个候选序列中第n个候选序列的最大后验概率。

如上述损失函数为L1以及L2，则依据所述损失函数对初始声纹表征模型的参数进行更新得到训练后的声纹表征模型具体可以包括：

其中，

通过L1以及L2两个损失函数对初始声纹表征模型进行训练能够提高声纹表征模型的识别精度，因为相对损失函数L1，其只考虑了合成语音向量的准确度，并为考虑文本内容的准确度，而L1以及L2不仅仅考虑了合成语音向量的准确度，也考虑了文本内容的准确度，因此两个损失函数结合起来对初始声纹表征模型进行训练能够提高声纹表征模型的识别精度。

由于本申请的方案可以使用无监督语音数据来进行初始声纹表征模型的训练，对于无监督语音数据没有对应文本信息，因此，无法直接通过交叉熵损失函数来更新初始声纹表征模型M1，所以需要将特定人语音识别模型M2识别出的topN候选序列，分别经过后面的特定人语音合成原型M3合成为合成语音特征，最后将topN候选序列的合成语音特征以及topN候选序列的原始语音特征的差值得到的多个损失值，依据损失值的大小作为奖励，原则上，损失值越小，代表合成语音特征越接近原始语音特征，那么后验概率就应该越大，越应该被激励，由于后验概率topN存在选择的过程，因此梯度无法直接传递，所以需要通过强化学习的策略梯度方案来调整M1模型的参数。下面以一个实际的例子来说明，例如，某一帧语音特征经过M2模型得到的Top5候选序列的后验概率p1、p2、p3、p4、p5，而它们对应的音素分别为a、e、i、o、u，那么分别将该5个音素向量拼接M1识别出的声纹特征向量得到5个拼接向量A，将5个拼接向量A送入M3模型，得到每个音素的损失值L1a、L1e、L1i、L1o、L1u，从其中选出最小的，例如最小损失值为L1i，那么说明采用i作为文本内容(也可以称为音素)，合成出的合成语音特征与原始语音特征更接近，那么就应该将i的后验概率p3训练的更高，从而使(L1i-p3)最小，因此，通过最小化损失函数L1和L2，可以使得L1i最小，同时p3大。这样可以保证语音数据经过M1模型后得到的候选序列的后验概率最大，同时，经过特定人语音合成模型后合成的语音与原始语音的差异最小；

实施例二

本申请实施例二提供一种特定人语音识别模型的训练方法，该特定人语音识别模型可以为实施例一中的特定人语音识别模型；该方法可以在如图3a所示的训练系统上实现，上述训练系统可以包括：初始声纹表征模型M1以及特定人语音识别模型M2；上述M2可以采用神经网络模型，包括但不限于DNN(英文：Deep Neural Network，中文：深度神经网络)、RNN(英文：Recurrent Neural Network，中文：循环神经网络)、CNN(英文：ConvolutionNeural Network，中文：卷积神经网络)中的任意一种，本申请实施例二仅仅对M2训练，并不对M1训练，即本申请实施例二在训练时，M2的参数会改变，但是M1不改变的。该方法如图3b所示，包括如下步骤:

步骤S301、将语音数据集的多条语音数据执行特征提取操作，得到多个原始语音特征。

上述步骤S301中的语音数据集可以为有监督的语音数据集，该有监督的语音数据集可以包括少量的标记语音数据(即标记有文本内容)。上述特征提取操作以及原始语音特征可以参见上述步骤S101的描述，这里不再赘述。

步骤S302、将多个原始语音特征输入到M1得到多个声纹表征向量，将该多个声纹表征向量与多个原始语音特征拼接得到多个识别向量；

上述将该多个声纹表征向量与多个原始语音特征拼接得到多个识别向量的拼接得到多个识别向量的方式可以参见上述多个拼接向量A的拼接方式，这里不再赘述。

步骤S303、将多个识别向量作为训练样本对该M2执行训练得到训练后的M2。

上述步骤S303的训练准确包括但不限于：CE准则。上述步骤S303在执行训练时，维持M1的参数不变，更新M2的参数。

本申请实施例二提供了一种特定人语音识别模型的训练方法，该训练方法能够为实施例一提供训练好的特定人语音识别模型，支持了实施例一的实现。

实施例三

本申请实施例三提供一种特定人合成模型的训练方法，该特定人语音合成模型M3可以为实施例一中的特定人语音合成模型M3；该方法可以在如图4a所示的训练系统上实现，上述训练系统可以包括：初始声纹表征模型M1、特定人语音识别模型M2以及特定人语音合成模型M3；上述M3可以采用神经网络模型，包括但不限于DNN(英文：Deep NeuralNetwork，中文：深度神经网络)、RNN(英文：Recurrent Neural Network，中文：循环神经网络)、CNN(英文：Convolution Neural Network，中文：卷积神经网络)中的任意一种，本申请实施例三仅仅对M3训练，并不对M1、M2训练，即本申请实施例三在训练时，M3的参数会改变，但是M1、M2不改变的。该方法如图4b所示，包括如下步骤:

步骤S401、将语音数据集的多条语音数据执行特征提取操作，得到多个原始语音特征。

上述步骤S401中的语音数据集可以为有监督的语音数据集，该有监督的语音数据集可以包括少量的标记语音数据(即标记有文本内容)。上述特征提取操作以及原始语音特征可以参见上述步骤S101的描述，这里不再赘述。

步骤S402、将多个原始语音特征输入到M1得到多个声纹表征向量，将该多个声纹表征向量与多个原始语音特征拼接得到多个识别向量；

步骤S403、将多个识别向量输入到M2得到多个文本内容，依据预设的建模矩阵获取该多个文本内容对应的多个建模向量，将多个声纹表征向量与所述多个建模向量拼接得到多个合成向量。

上述步骤S403中的建模向量以及多个合成向量的获取方式可以参见步骤S102的细化方案关于拼接向量B的描述，这里不再赘述。

步骤S404、将多个合成向量作为训练样本训练特定人语音合成原型得到所述特定人语音合成模型。

上述步骤S404的训练准确包括但不限于：最小均方误差准则。上述步骤S404在执行训练时，维持M1、M2的参数不变，更新M3的参数。

本申请实施例三提供了一种特定人语音合成模型的训练方法，该训练方法能够为实施例一提供训练好的特定人语音合成模型，支持了实施例一的实现。

实施例四

本申请实施例四提供实施例一所示方法的装置结构，如图5所示，本申请实施例四提供一种声纹表征模型的训练装置，所述装置包括：

提取单元501，用于将语音数据集的多条语音数据执行特征提取操作，得到多个原始语音特征；

上述特征提取操作以及原始语音特征点的描述可以参见步骤S101的描述，这里不在赘述。

处理单元502，用于将所述多个原始语音特征执行声纹表征操作、内容识别操作以及语音合成操作得到多个合成语音特征；

上述声纹表征操作、内容识别操作以及语音合成操作可以上述步骤S102的描述，这里不再赘述。

更新单元503，用于依据所述多个合成语音特征和所述多个原始语音特征构建损失函数，依据所述损失函数对初始声纹表征模型的参数进行更新得到训练后的声纹表征模型。

上述损失函数以及更新的具体实现方法可以参见上述步骤S103的描述，这里不再赘述。

本申请提供的装置通过对语音数据集的多条语音数据提取特征得到多个原始语音特征以后，将该原始语音特征执行声纹表征操作、内容识别操作以及语音合成操作得到多个合成语音特征，这样即能够通过合成语音特征与原始语音特征的差异来构建损失函数，进而依据该损失函数对该初始声纹表征模型进行再次训练得到最终的声纹表征模型，因为本申请提供的技术方案能够得到合成语音特征，因此并不要求该语音数据集的语音数据被标记，因此能够降低成本。

在一种可选方案中，

处理单元502，将所述多个原始语音特征通过所述初始声纹表征模型执行声纹表征操作得到多个声纹特征向量；将所述多个声纹特征向量与所述多个原始语音特征拼接后通过特定人语音识别模型执行内容识别操作得到多个文本内容；将所述多个文本内容对应的建模向量与所述多个声纹特征向量拼接后通过特定人语音合成模型执行语音合成操作得到多个合成语音特征。

上述声纹特征向量、文本内容、合成语音特征的具体实现方式可以参见上述实施例一步骤S103的细化方案，这里不再赘述。

在一种可选方案中，

上述初始声纹表征模型为：采用标记语音人的少量语音数据作为训练样本进行训练的声纹表征模型。

上述初始声纹表征模型的具体训练方法可以参见上述实施例一的描述，这里不再赘述。

在一种可选方案中，

更新单元503，具体用于计算所述合成语音特征和所述原始语音特征的差得到多个差值，依据所述多个差值的和构建损失函数L1。

更新单元503，具体用于依据所述损失函数L1对于所述参数的偏导数对所述参数进行更新得到所述训练后的声纹表征模型。

上述损失函数L1以及更新方式可以参见上述实施例一的描述。

在一种可选方案中，

更新单元503，具体用于计算所述合成语音特征和所述原始语音特征的差得到多个差值，依据所述多个差值的和构建损失函数L1；获取所述多个原始语音特征的多个最大后验概率，计算所述多个差值与所述多个最大后验概率的差得到多个后验差值，依据所述多个后验差值的和构建损失函数L2。

更新单元503，具体用于将所述多个声纹特征向量与所述多个原始语音特征拼接后通过所述特定人语音识别模型识别得到多个候选序列，从所述多个候选序列中提取每个候选序列的最大后验概率得到所述多个最大后验概率。

更新单元503，具体用于依据所述损失函数L1对于所述参数的偏导数以及所述损失函数L2对于所述参数的偏导数对所述参数进行更新得到训练后的声纹表征模型。

上述损失函数L1、损失函数L2以及更新方式可以参见上述实施例一的描述。

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所提供的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括电子设备。

本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，上述计算机包括电子设备。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种声纹表征模型的训练方法，其特征在于，所述方法包括如下步骤：

依据所述多个合成语音特征和所述多个原始语音特征构建损失函数，依据所述损失函数对初始声纹表征模型的参数进行更新得到训练后的声纹表征模型；所述将所述多个原始语音特征执行声纹表征操作、内容识别操作以及语音合成操作得到多个合成语音特征具体包括：

将所述多个原始语音特征通过所述初始声纹表征模型执行声纹表征操作得到多个声纹特征向量；

将所述多个声纹特征向量与所述多个原始语音特征拼接后通过特定人语音识别模型执行内容识别操作得到多个文本内容；

将所述多个文本内容对应的建模向量与所述多个声纹特征向量拼接后通过特定人语音合成模型执行语音合成操作得到多个合成语音特征。

2.根据权利要求1所述的方法，其特征在于，

所述初始声纹表征模型为：采用标记语音人的少量语音数据作为训练样本进行训练的声纹表征模型。

3.根据权利要求1所述的方法，其特征在于，所述特定人语音识别模型的训练方法包括：

对标记文本内容的语音数据执行特征提取，得到原始语音特征A；

将原始语音特征A输入所述初始声纹表征模型，得到声纹特征向量A，将声纹特征向量A与原始语音特征A拼接得到识别向量；

保持所述初始声纹表征模型的参数不变，将所述识别向量作为训练样本训练特定人语音识别原型得到所述特定人语音识别模型。

4.根据权利要求3所述的方法，其特征在于，所述特定人语音合成模型的训练方法包括：

将所述识别向量输入所述特定人语音识别模型得到文本内容，将所述文本内容对应的建模向量与所述声纹特征向量A拼接后得到合成向量；

保持所述初始声纹表征模型的参数不变，将所述合成向量作为训练样本训练特定人语音合成原型得到所述特定人语音合成模型。

5.根据权利要求1所述的方法，其特征在于，所述依据所述合成语音特征和所述原始语音特征构建损失函数具体包括：

6.根据权利要求5所述的方法，其特征在于，所述依据所述损失函数对初始声纹表征模型的参数进行更新得到训练后的声纹表征模型具体包括：

依据所述损失函数L1对于所述参数的偏导数对所述参数进行更新得到所述训练后的声纹表征模型。

7.根据权利要求1所述的方法，所述依据所述合成语音特征和所述原始语音特征构建损失函数具体包括：

8.根据权利要求7所述的方法，其特征在于，所述获取所述多个原始语音特征点的多个最大后验概率具体包括：

9.根据权利要求7所述的方法，其特征在于，所述依据所述损失函数对初始声纹表征模型的参数进行更新得到训练后的声纹表征模型具体包括：

依据所述损失函数L1对于所述参数的偏导数以及所述损失函数L2对于所述参数的偏导数对所述参数进行更新得到训练后的声纹表征模型。

10.一种声纹表征模型的训练装置，其特征在于，所述装置包括：

更新单元，用于依据所述多个合成语音特征和所述多个原始语音特征构建损失函数，依据所述损失函数对初始声纹表征模型的参数进行更新得到训练后的声纹表征模型；

处理单元，具体用于将所述多个原始语音特征通过所述初始声纹表征模型执行声纹表征操作得到多个声纹特征向量；将所述多个声纹特征向量与所述多个原始语音特征拼接后通过特定人语音识别模型执行内容识别操作得到多个文本内容；将所述多个文本内容对应的建模向量与所述多个声纹特征向量拼接后通过特定人语音合成模型执行语音合成操作得到多个合成语音特征。

11.一种计算机可读存储介质，其特征在于，存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1-9任一项所述的方法。