CN110491393B - 声纹表征模型的训练方法及相关装置 - Google Patents
声纹表征模型的训练方法及相关装置 Download PDFInfo
- Publication number
- CN110491393B CN110491393B CN201910817491.1A CN201910817491A CN110491393B CN 110491393 B CN110491393 B CN 110491393B CN 201910817491 A CN201910817491 A CN 201910817491A CN 110491393 B CN110491393 B CN 110491393B
- Authority
- CN
- China
- Prior art keywords
- voiceprint
- voice
- model
- features
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 48
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 48
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 239000013598 vector Substances 0.000 claims description 103
- 238000012512 characterization method Methods 0.000 claims description 35
- 238000004590 computer program Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 7
- 230000008901 benefit Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 49
- 239000011159 matrix material Substances 0.000 description 10
- 230000015654 memory Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例公开了一种声纹表征模型的训练方法及装置,所述方法包括如下步骤:将语音数据集的多条语音数据执行特征提取操作,得到多个原始语音特征;将所述多个原始语音特征执行声纹表征操作、内容识别操作以及语音合成操作得到多个合成语音特征;依据所述多个合成语音特征和所述多个原始语音特征构建损失函数,依据所述损失函数对初始声纹表征模型的参数进行更新得到训练后的声纹表征模型。本申请提供的技术方案具有成本低的优点。
Description
技术领域
本申请涉及音频技术领域,具体涉及一种声纹表征模型的训练方法及相关装置。
背景技术
声纹特征是人体重要生物特征之一,具有较强的个体特殊性,由于其个体特殊性,因此其常用于声纹识别、声纹认证等领域作为身份认证的一种特征。因此,可以通过建立声纹表征模型来表征不同的个体,进而利用该声纹模型识别不同的个体。
声纹识别模型基于有监督的语音来训练,但是有监督的语音的标注工作量大,成本高。
发明内容
本申请实施例提供了一种声纹表征模型的训练方法及相关装置,以期利用无监督语音来训练声纹表征模型的训练,降低标注工作量,具有成本低的优点。
第一方面,提供一种声纹表征模型的训练方法,所述方法包括如下步骤:
将语音数据集的多条语音数据执行特征提取操作,得到多个原始语音特征;
将所述多个原始语音特征执行声纹表征操作、内容识别操作以及语音合成操作得到多个合成语音特征;
依据所述多个合成语音特征和所述多个原始语音特征构建损失函数,依据所述损失函数对初始声纹表征模型的参数进行更新得到训练后的声纹表征模型
第二方面,提供一种声纹表征模型的训练装置,所述装置包括:
提取单元,用于将语音数据集的多条语音数据执行特征提取操作,得到多个原始语音特征;
处理单元,用于将所述多个原始语音特征执行声纹表征操作、内容识别操作以及语音合成操作得到多个合成语音特征;
更新单元,用于依据所述多个合成语音特征和所述多个原始语音特征构建损失函数,依据所述损失函数对初始声纹表征模型的参数进行更新得到训练后的声纹表征模型。
第三方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。
第四方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
可以看出,本申请提供的技术方案通过对语音数据集的多条语音数据提取特征得到多个原始语音特征以后,将该原始语音特征执行声纹表征操作、内容识别操作以及语音合成操作得到多个合成语音特征,这样即能够通过合成语音特征与原始语音特征的差异来构建损失函数,进而依据该损失函数对该初始声纹表征模型进行再次训练得到最终的声纹表征模型,因为本申请提供的技术方案能够得到合成语音特征,因此并不要求该语音数据集的语音数据被标记,因此能够降低成本。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是一种声纹表征模型的训练流程的示意图;
图2是本申请实施例提供一种声纹表征模型的训练系统的结构示意图;
图3a是本实施例提供的一种训练系统的结构示意图;
图3b本申请实施例提供的一种特定人语音识别模型的训练的流程示意图;
图4a本申请实施例提供的一种训练系统的结构示意图;
图4b本申请实施例提供的一种特定人合成模型的训练方法的流程示意图;
图5是本申请提供的一种声纹表征模型的训练装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
声纹表征模型训练方法分为两种,一种是普通的生成式模型,如GMM-UBM(gaussian mixture model-universal background model,高斯混合模型-通用背景模型)、TV(total variability,总变异性)模型;对于生成式模型在训练完成后,仍然需要利用大量有监督的说话人的语音来训练表征说话人信息的特征矢量的后端系统,如LDA(英文:latent dirichlet allocation,中文:隐含狄利克雷分布)或者PLDA(英文:probabilistic latent dirichlet allocation,中文:概率隐含狄利克雷分布)。另一种就是区分性的深度神经网络模型,也是需要利用大量有监督的说话人的语音来训练表征说话人信息的特征矢量,并在网络模型中抽取某一层网络的线性输出作为表征说话人信息的特征矢量。因此,无论训练何种声纹表征模型,都需要利用大量有监督的说话人的语音来训练声纹表征模型。
有监督的语音,表示通过特定的手段对语音的某一特定环节﹑过程进行监视﹑督促和管理﹐使监督后的语音能达到预定的目标。常见的有监督的语音可以包括:被标注说话人的语音、被标注语音文本内容的语音等等。
无监督的语音,表示未经过标记的语音。常见的无监督的语音可以包括:公共场合采集的语音数据等等。
大量有监督语音的获取非常困难,因为对于标注人(或监督人)来说,其熟悉的说话人有限,监督人很难知道大量的说话人信息,这样使得对说话人的标注非常困难,相比内容识别标注,监督人对自己不熟悉的说话人语音非常难以标注说话人信息的,所以标注代价十分高昂,成本很高。
特定人语音识别模型是将特定人语音转化为语音内容(文本信息),因此,对于特定人语音识别模型,人体特征信息(例如声纹表征信息)在特定人语音识别模型中为干扰信息(也可以称为噪声信息),特定人语音识别模型如果去除人体特征信息越干净,那么特定人语音识别模型的识别率就会越高(即精度越高)。
个性化语音合成模型将文本内容转化为特定人的语音,因此,人体特征信息(例如声纹表征信息)在个性化语音合成模型中为附加信息,个性化语音合成模型如果添加的人体特征信息越充分,那么个性化语音合成系统的合成效果就会越好,即越贴近原始语音。
实施例一
本申请实施例一提供一种声纹表征模型的训练方法,该方法可以对偶学习系统内实现,该对偶学习系统如图2所示,上述声纹表征模型可以采用神经网络模型,包括但不限于DNN(英文:Deep Neural Network,中文:深度神经网络)、RNN(英文:Recurrent NeuralNetwork,中文:循环神经网络)、CNN(英文:Convolution Neural Network,中文:卷积神经网络)中的任意一种,本申请实施例一仅仅对声纹表征模型训练,并不对如图2所示的特定人语音识别模型以及特定人语音合成模型训练,即本申请实施例一在训练时,声纹表征模型训练的参数会改变,但是特定人语音识别模型以及特定人语音合成模型训练的参数均是不改变的。该方法如图1所示,包括如下步骤:
步骤S101、将语音数据集的多条语音数据执行特征提取操作,得到多个原始语音特征。
上述步骤S101中的语音数据集可以为无监督的语音数据集,该语音数据集可以包括多条语音数据(海量语音数据)。上述特征提取操作的方式包括但不限于:Filter Bank特征提取算法或MFCC算法,其对应的原始语音特征包括但不限于:Filter Bank特征或MFCC特征。当然在实际应用中,上述原始语音特征还可以为其他的特征。
上述步骤S101的具体实现方式可以为,将语音数据集的多条语音数据逐条执行特征提取操作得到多个原始语音特征。
步骤S102、将所述多个原始语音特征执行声纹表征操作、内容识别操作以及语音合成操作得到多个合成语音特征。
上述步骤S102的实现方法具体可以包括:
将所述多个原始语音特征通过所述初始声纹表征模型执行声纹表征操作得到多个声纹特征向量;将所述多个声纹特征向量与所述多个原始语音特征拼接后通过特定人语音识别模型执行内容识别操作得到多个文本内容;将所述多个文本内容对应的建模向量与所述多个声纹特征向量拼接后通过特定人语音合成模型执行语音合成操作得到多个合成语音特征。
上述初始声纹表征模型具体可以为,采用少量的有监督语音作为训练样本进行训练后的声纹表征模型,该声纹表征模型的训练准则包括但不限于:CE(英文:CrossEntropy,中文:交叉熵)准则、triplet准则、CE与triplet结合的准则。上述少量的有监督语音具体可以包括,数量较少的标记发音人的语音数据。
上述将所述多个声纹特征向量与所述多个原始语音特征拼接后通过特定人语音识别模型执行内容识别操作得到多个文本内容具体可以包括:
将多个声纹特征向量与多个原始语音特征向量拼接得到多个拼接向量A,将多个拼接向量A输入到语音识别模型执行内容识别操作得到多个文本内容。
需要说明的是,这里的多个原始语音特征向量执行拼接时的最低维度可以为一帧原始语音对应的原始语音特征向量。下面以一个实际的例子来说明,假设原始语音特征具有3帧原始特征向量,为了方便描述,这里称为原始特征向量1、原始特征向量2、原始特征向量3,其均具有40个元素值,这里的声纹特征向量V具有100个元素值,则可以将声纹特征向量V分别添加到3帧原始特征向量得到拼接向量A,将拼接向量A输入到特定人语音识别模型执行内容识别操作得到多个后验概率,选择多个后验概率中最大的后验概率,该最大的后验概率即为该拼接向量A的文本内容。
上述将所述多个文本内容对应的建模向量与所述多个声纹特征向量拼接后通过特定人语音合成模型执行语音合成操作得到多个合成语音特征具体可以包括:
从预设建模矩阵提取与多个文本内容对应的多个建模向量,将多个建模向量与多个声纹特征向量拼接后得到多个拼接向量B,将多个拼接向量B输入特定人语音合成模型执行语音合成操作得到多个合成语音特征。
上述建模向量可以为模型构建时使用的语法单元向量,如音素向量、音节向量、字向量或词向量中的一种,上述预设建模矩阵可以为预存储的音素矩阵、预存储的音节矩阵等等,以中文以及预存储的音素矩阵为例,具有40个音素,则该音素矩阵为M*40矩阵,每个音素对应一列向量。确定该文本内容对应的音素以后,直接提取该音素矩阵对应的音素向量即可,例如文本内容为“a”,则提取M*40矩阵中“a”对应的音素向量,即第一列元素值。
上述拼接向量B的拼接方法可以参见拼接向量A的拼接方式,这里不再赘述。
上述特定人语音识别模型以及特定人语音合成模型均可以为神经网络模型。
步骤S103、依据所述多个合成语音特征和所述多个原始语音特征构建损失函数,依据所述损失函数对初始声纹表征模型的参数进行更新得到训练后的声纹表征模型。
本申请提供的技术方案通过对语音数据集的多条语音数据提取特征得到多个原始语音特征以后,将该原始语音特征执行声纹表征操作、内容识别操作以及语音合成操作得到多个合成语音特征,这样即能够通过合成语音特征与原始语音特征的差异来构建损失函数,进而依据该损失函数对该初始声纹表征模型进行再次训练得到最终的声纹表征模型,因为本申请提供的技术方案能够得到合成语音特征,因此并不要求该语音数据集的语音数据被标记,因此能够降低成本。
上述步骤S103的一种可选的实现方案中,上述依据所述多个合成语音特征和所述多个原始语音特征构建损失函数具体可以包括:
计算所述合成语音特征和所述原始语音特征的差得到多个差值,依据所述多个差值的和构建损失函数L1。
具体的,在一种可选的方案中,上述构建损失函数L1具体可以如下:
其中L1表示损失函数,K表示无监督语音数据集中的总条数,k表示无监督语音数据集中语音数据的条编号;T表示一条语音数据的总帧数,表示第k条语音数据第t帧的合成特征向量,表示第k条语音数据第t帧的原始语音特征向量。
如上述损失函数为上述L1,则依据所述损失函数对初始声纹表征模型的参数进行更新得到训练后的声纹表征模型具体可以包括:
对于上述步骤S103的一种可选方案,能够通过L1即能够完成对初始声纹表征模型的训练,能够减少训练的计算量,但是相对于通过多个损失函数训练来说,单个L1执行初始声纹表征模型的训练后的声纹表征模型的识别精度低。
为了提高声纹表征模型的识别精度,本申请还提供上述步骤S103的另一种可选方案中,上述依据所述合成语音特征和所述原始语音特征构建损失函数具体包括:
计算所述合成语音特征和所述原始语音特征的差得到多个差值,依据所述多个差值的和构建损失函数L1;
获取所述多个原始语音特征的多个最大后验概率,计算所述多个差值与所述多个最大后验概率的差得到多个后验差值,依据所述多个后验差值的和构建损失函数L2。
可选的,上述获取所述多个原始语音特征点的多个最大后验概率具体包括:
将所述多个声纹特征向量与所述多个原始语音特征拼接后通过所述特定人语音识别模型识别得到多个候选序列,从所述多个候选序列中提取每个候选序列的最大后验概率得到所述多个最大后验概率。
具体构建的L1以及L2可以如下:
L1表示第一损失函数,K表示无监督语音数据集中的总条数,k表示无监督语音数据集中语音数据的条编号;T表示一条语音数据的总帧数,表示第k条语音数据第t帧的合成特征向量,表示第k条语音数据第t帧的原始语音特征向量;
表示第k条第t帧语音通过所述特定人语音识别模型识别得到多个候选序列中第n个候选序列的建模向量经过所述特定人语音合成模型所产生的L1,N表示第k条第t帧语音通过所述特定人语音识别模型识别得到候选序列总数,表示第k条第t帧语音通过所述特定人语音识别模型识别得到多个候选序列中第n个候选序列的最大后验概率。
如上述损失函数为L1以及L2,则依据所述损失函数对初始声纹表征模型的参数进行更新得到训练后的声纹表征模型具体可以包括:
通过L1以及L2两个损失函数对初始声纹表征模型进行训练能够提高声纹表征模型的识别精度,因为相对损失函数L1,其只考虑了合成语音向量的准确度,并为考虑文本内容的准确度,而L1以及L2不仅仅考虑了合成语音向量的准确度,也考虑了文本内容的准确度,因此两个损失函数结合起来对初始声纹表征模型进行训练能够提高声纹表征模型的识别精度。
由于本申请的方案可以使用无监督语音数据来进行初始声纹表征模型的训练,对于无监督语音数据没有对应文本信息,因此,无法直接通过交叉熵损失函数来更新初始声纹表征模型M1,所以需要将特定人语音识别模型M2识别出的topN候选序列,分别经过后面的特定人语音合成原型M3合成为合成语音特征,最后将topN候选序列的合成语音特征以及topN候选序列的原始语音特征的差值得到的多个损失值,依据损失值的大小作为奖励,原则上,损失值越小,代表合成语音特征越接近原始语音特征,那么后验概率就应该越大,越应该被激励,由于后验概率topN存在选择的过程,因此梯度无法直接传递,所以需要通过强化学习的策略梯度方案来调整M1模型的参数。下面以一个实际的例子来说明,例如,某一帧语音特征经过M2模型得到的Top5候选序列的后验概率p1、p2、p3、p4、p5,而它们对应的音素分别为a、e、i、o、u,那么分别将该5个音素向量拼接M1识别出的声纹特征向量得到5个拼接向量A,将5个拼接向量A送入M3模型,得到每个音素的损失值L1a、L1e、L1i、L1o、L1u,从其中选出最小的,例如最小损失值为L1i,那么说明采用i作为文本内容(也可以称为音素),合成出的合成语音特征与原始语音特征更接近,那么就应该将i的后验概率p3训练的更高,从而使(L1i-p3)最小,因此,通过最小化损失函数L1和L2,可以使得L1i最小,同时p3大。这样可以保证语音数据经过M1模型后得到的候选序列的后验概率最大,同时,经过特定人语音合成模型后合成的语音与原始语音的差异最小;
实施例二
本申请实施例二提供一种特定人语音识别模型的训练方法,该特定人语音识别模型可以为实施例一中的特定人语音识别模型;该方法可以在如图3a所示的训练系统上实现,上述训练系统可以包括:初始声纹表征模型M1以及特定人语音识别模型M2;上述M2可以采用神经网络模型,包括但不限于DNN(英文:Deep Neural Network,中文:深度神经网络)、RNN(英文:Recurrent Neural Network,中文:循环神经网络)、CNN(英文:ConvolutionNeural Network,中文:卷积神经网络)中的任意一种,本申请实施例二仅仅对M2训练,并不对M1训练,即本申请实施例二在训练时,M2的参数会改变,但是M1不改变的。该方法如图3b所示,包括如下步骤:
步骤S301、将语音数据集的多条语音数据执行特征提取操作,得到多个原始语音特征。
上述步骤S301中的语音数据集可以为有监督的语音数据集,该有监督的语音数据集可以包括少量的标记语音数据(即标记有文本内容)。上述特征提取操作以及原始语音特征可以参见上述步骤S101的描述,这里不再赘述。
步骤S302、将多个原始语音特征输入到M1得到多个声纹表征向量,将该多个声纹表征向量与多个原始语音特征拼接得到多个识别向量;
上述将该多个声纹表征向量与多个原始语音特征拼接得到多个识别向量的拼接得到多个识别向量的方式可以参见上述多个拼接向量A的拼接方式,这里不再赘述。
步骤S303、将多个识别向量作为训练样本对该M2执行训练得到训练后的M2。
上述步骤S303的训练准确包括但不限于:CE准则。上述步骤S303在执行训练时,维持M1的参数不变,更新M2的参数。
本申请实施例二提供了一种特定人语音识别模型的训练方法,该训练方法能够为实施例一提供训练好的特定人语音识别模型,支持了实施例一的实现。
实施例三
本申请实施例三提供一种特定人合成模型的训练方法,该特定人语音合成模型M3可以为实施例一中的特定人语音合成模型M3;该方法可以在如图4a所示的训练系统上实现,上述训练系统可以包括:初始声纹表征模型M1、特定人语音识别模型M2以及特定人语音合成模型M3;上述M3可以采用神经网络模型,包括但不限于DNN(英文:Deep NeuralNetwork,中文:深度神经网络)、RNN(英文:Recurrent Neural Network,中文:循环神经网络)、CNN(英文:Convolution Neural Network,中文:卷积神经网络)中的任意一种,本申请实施例三仅仅对M3训练,并不对M1、M2训练,即本申请实施例三在训练时,M3的参数会改变,但是M1、M2不改变的。该方法如图4b所示,包括如下步骤:
步骤S401、将语音数据集的多条语音数据执行特征提取操作,得到多个原始语音特征。
上述步骤S401中的语音数据集可以为有监督的语音数据集,该有监督的语音数据集可以包括少量的标记语音数据(即标记有文本内容)。上述特征提取操作以及原始语音特征可以参见上述步骤S101的描述,这里不再赘述。
步骤S402、将多个原始语音特征输入到M1得到多个声纹表征向量,将该多个声纹表征向量与多个原始语音特征拼接得到多个识别向量;
上述将该多个声纹表征向量与多个原始语音特征拼接得到多个识别向量的拼接得到多个识别向量的方式可以参见上述多个拼接向量A的拼接方式,这里不再赘述。
步骤S403、将多个识别向量输入到M2得到多个文本内容,依据预设的建模矩阵获取该多个文本内容对应的多个建模向量,将多个声纹表征向量与所述多个建模向量拼接得到多个合成向量。
上述步骤S403中的建模向量以及多个合成向量的获取方式可以参见步骤S102的细化方案关于拼接向量B的描述,这里不再赘述。
步骤S404、将多个合成向量作为训练样本训练特定人语音合成原型得到所述特定人语音合成模型。
上述步骤S404的训练准确包括但不限于:最小均方误差准则。上述步骤S404在执行训练时,维持M1、M2的参数不变,更新M3的参数。
本申请实施例三提供了一种特定人语音合成模型的训练方法,该训练方法能够为实施例一提供训练好的特定人语音合成模型,支持了实施例一的实现。
实施例四
本申请实施例四提供实施例一所示方法的装置结构,如图5所示,本申请实施例四提供一种声纹表征模型的训练装置,所述装置包括:
提取单元501,用于将语音数据集的多条语音数据执行特征提取操作,得到多个原始语音特征;
上述特征提取操作以及原始语音特征点的描述可以参见步骤S101的描述,这里不在赘述。
处理单元502,用于将所述多个原始语音特征执行声纹表征操作、内容识别操作以及语音合成操作得到多个合成语音特征;
上述声纹表征操作、内容识别操作以及语音合成操作可以上述步骤S102的描述,这里不再赘述。
更新单元503,用于依据所述多个合成语音特征和所述多个原始语音特征构建损失函数,依据所述损失函数对初始声纹表征模型的参数进行更新得到训练后的声纹表征模型。
上述损失函数以及更新的具体实现方法可以参见上述步骤S103的描述,这里不再赘述。
本申请提供的装置通过对语音数据集的多条语音数据提取特征得到多个原始语音特征以后,将该原始语音特征执行声纹表征操作、内容识别操作以及语音合成操作得到多个合成语音特征,这样即能够通过合成语音特征与原始语音特征的差异来构建损失函数,进而依据该损失函数对该初始声纹表征模型进行再次训练得到最终的声纹表征模型,因为本申请提供的技术方案能够得到合成语音特征,因此并不要求该语音数据集的语音数据被标记,因此能够降低成本。
在一种可选方案中,
处理单元502,将所述多个原始语音特征通过所述初始声纹表征模型执行声纹表征操作得到多个声纹特征向量;将所述多个声纹特征向量与所述多个原始语音特征拼接后通过特定人语音识别模型执行内容识别操作得到多个文本内容;将所述多个文本内容对应的建模向量与所述多个声纹特征向量拼接后通过特定人语音合成模型执行语音合成操作得到多个合成语音特征。
上述声纹特征向量、文本内容、合成语音特征的具体实现方式可以参见上述实施例一步骤S103的细化方案,这里不再赘述。
在一种可选方案中,
上述初始声纹表征模型为:采用标记语音人的少量语音数据作为训练样本进行训练的声纹表征模型。
上述初始声纹表征模型的具体训练方法可以参见上述实施例一的描述,这里不再赘述。
在一种可选方案中,
更新单元503,具体用于计算所述合成语音特征和所述原始语音特征的差得到多个差值,依据所述多个差值的和构建损失函数L1。
更新单元503,具体用于依据所述损失函数L1对于所述参数的偏导数对所述参数进行更新得到所述训练后的声纹表征模型。
上述损失函数L1以及更新方式可以参见上述实施例一的描述。
在一种可选方案中,
更新单元503,具体用于计算所述合成语音特征和所述原始语音特征的差得到多个差值,依据所述多个差值的和构建损失函数L1;获取所述多个原始语音特征的多个最大后验概率,计算所述多个差值与所述多个最大后验概率的差得到多个后验差值,依据所述多个后验差值的和构建损失函数L2。
更新单元503,具体用于将所述多个声纹特征向量与所述多个原始语音特征拼接后通过所述特定人语音识别模型识别得到多个候选序列,从所述多个候选序列中提取每个候选序列的最大后验概率得到所述多个最大后验概率。
更新单元503,具体用于依据所述损失函数L1对于所述参数的偏导数以及所述损失函数L2对于所述参数的偏导数对所述参数进行更新得到训练后的声纹表征模型。
上述损失函数L1、损失函数L2以及更新方式可以参见上述实施例一的描述。
上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括电子设备。
本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括电子设备。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (11)
1.一种声纹表征模型的训练方法,其特征在于,所述方法包括如下步骤:
将语音数据集的多条语音数据执行特征提取操作,得到多个原始语音特征;
将所述多个原始语音特征执行声纹表征操作、内容识别操作以及语音合成操作得到多个合成语音特征;
依据所述多个合成语音特征和所述多个原始语音特征构建损失函数,依据所述损失函数对初始声纹表征模型的参数进行更新得到训练后的声纹表征模型;所述将所述多个原始语音特征执行声纹表征操作、内容识别操作以及语音合成操作得到多个合成语音特征具体包括:
将所述多个原始语音特征通过所述初始声纹表征模型执行声纹表征操作得到多个声纹特征向量;
将所述多个声纹特征向量与所述多个原始语音特征拼接后通过特定人语音识别模型执行内容识别操作得到多个文本内容;
将所述多个文本内容对应的建模向量与所述多个声纹特征向量拼接后通过特定人语音合成模型执行语音合成操作得到多个合成语音特征。
2.根据权利要求1所述的方法,其特征在于,
所述初始声纹表征模型为:采用标记语音人的少量语音数据作为训练样本进行训练的声纹表征模型。
3.根据权利要求1所述的方法,其特征在于,所述特定人语音识别模型的训练方法包括:
对标记文本内容的语音数据执行特征提取,得到原始语音特征A;
将原始语音特征A输入所述初始声纹表征模型,得到声纹特征向量A,将声纹特征向量A与原始语音特征A拼接得到识别向量;
保持所述初始声纹表征模型的参数不变,将所述识别向量作为训练样本训练特定人语音识别原型得到所述特定人语音识别模型。
4.根据权利要求3所述的方法,其特征在于,所述特定人语音合成模型的训练方法包括:
将所述识别向量输入所述特定人语音识别模型得到文本内容,将所述文本内容对应的建模向量与所述声纹特征向量A拼接后得到合成向量;
保持所述初始声纹表征模型的参数不变,将所述合成向量作为训练样本训练特定人语音合成原型得到所述特定人语音合成模型。
5.根据权利要求1所述的方法,其特征在于,所述依据所述合成语音特征和所述原始语音特征构建损失函数具体包括:
计算所述合成语音特征和所述原始语音特征的差得到多个差值,依据所述多个差值的和构建损失函数L1。
6.根据权利要求5所述的方法,其特征在于,所述依据所述损失函数对初始声纹表征模型的参数进行更新得到训练后的声纹表征模型具体包括:
依据所述损失函数L1对于所述参数的偏导数对所述参数进行更新得到所述训练后的声纹表征模型。
7.根据权利要求1所述的方法,所述依据所述合成语音特征和所述原始语音特征构建损失函数具体包括:
计算所述合成语音特征和所述原始语音特征的差得到多个差值,依据所述多个差值的和构建损失函数L1;
获取所述多个原始语音特征的多个最大后验概率,计算所述多个差值与所述多个最大后验概率的差得到多个后验差值,依据所述多个后验差值的和构建损失函数L2。
8.根据权利要求7所述的方法,其特征在于,所述获取所述多个原始语音特征点的多个最大后验概率具体包括:
将所述多个声纹特征向量与所述多个原始语音特征拼接后通过所述特定人语音识别模型识别得到多个候选序列,从所述多个候选序列中提取每个候选序列的最大后验概率得到所述多个最大后验概率。
9.根据权利要求7所述的方法,其特征在于,所述依据所述损失函数对初始声纹表征模型的参数进行更新得到训练后的声纹表征模型具体包括:
依据所述损失函数L1对于所述参数的偏导数以及所述损失函数L2对于所述参数的偏导数对所述参数进行更新得到训练后的声纹表征模型。
10.一种声纹表征模型的训练装置,其特征在于,所述装置包括:
提取单元,用于将语音数据集的多条语音数据执行特征提取操作,得到多个原始语音特征;
处理单元,用于将所述多个原始语音特征执行声纹表征操作、内容识别操作以及语音合成操作得到多个合成语音特征;
更新单元,用于依据所述多个合成语音特征和所述多个原始语音特征构建损失函数,依据所述损失函数对初始声纹表征模型的参数进行更新得到训练后的声纹表征模型;
处理单元,具体用于将所述多个原始语音特征通过所述初始声纹表征模型执行声纹表征操作得到多个声纹特征向量;将所述多个声纹特征向量与所述多个原始语音特征拼接后通过特定人语音识别模型执行内容识别操作得到多个文本内容;将所述多个文本内容对应的建模向量与所述多个声纹特征向量拼接后通过特定人语音合成模型执行语音合成操作得到多个合成语音特征。
11.一种计算机可读存储介质,其特征在于,存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910817491.1A CN110491393B (zh) | 2019-08-30 | 2019-08-30 | 声纹表征模型的训练方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910817491.1A CN110491393B (zh) | 2019-08-30 | 2019-08-30 | 声纹表征模型的训练方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110491393A CN110491393A (zh) | 2019-11-22 |
CN110491393B true CN110491393B (zh) | 2022-04-22 |
Family
ID=68555830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910817491.1A Active CN110491393B (zh) | 2019-08-30 | 2019-08-30 | 声纹表征模型的训练方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110491393B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111161705B (zh) * | 2019-12-19 | 2022-11-18 | 寒武纪(西安)集成电路有限公司 | 语音转换方法及装置 |
CN111243576B (zh) * | 2020-01-16 | 2022-06-03 | 腾讯科技(深圳)有限公司 | 语音识别以及模型训练方法、装置、设备和存储介质 |
CN111489737B (zh) * | 2020-04-13 | 2020-11-10 | 深圳市友杰智新科技有限公司 | 语音命令识别方法、装置、存储介质及计算机设备 |
CN111524521B (zh) * | 2020-04-22 | 2023-08-08 | 北京小米松果电子有限公司 | 声纹提取模型训练方法和声纹识别方法、及其装置和介质 |
CN111429923B (zh) * | 2020-06-15 | 2020-09-29 | 深圳市友杰智新科技有限公司 | 说话人信息提取模型的训练方法、装置和计算机设备 |
CN112650399B (zh) * | 2020-12-22 | 2023-12-01 | 科大讯飞股份有限公司 | 表情推荐方法及装置 |
CN112951256B (zh) * | 2021-01-25 | 2023-10-31 | 北京达佳互联信息技术有限公司 | 语音处理方法及装置 |
CN113813609B (zh) * | 2021-06-02 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 游戏音乐风格分类方法、装置、可读介质及电子设备 |
CN113421573B (zh) * | 2021-06-18 | 2024-03-19 | 马上消费金融股份有限公司 | 身份识别模型训练方法、身份识别方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106057206A (zh) * | 2016-06-01 | 2016-10-26 | 腾讯科技(深圳)有限公司 | 声纹模型训练方法、声纹识别方法及装置 |
CN107274883A (zh) * | 2017-07-04 | 2017-10-20 | 清华大学 | 语音信号重构方法及装置 |
CN108694952A (zh) * | 2018-04-09 | 2018-10-23 | 平安科技(深圳)有限公司 | 电子装置、身份验证的方法及存储介质 |
CN108806696A (zh) * | 2018-05-08 | 2018-11-13 | 平安科技(深圳)有限公司 | 建立声纹模型的方法、装置、计算机设备和存储介质 |
WO2018223727A1 (zh) * | 2017-06-09 | 2018-12-13 | 平安科技(深圳)有限公司 | 识别声纹的方法、装置、设备及介质 |
CN109378003A (zh) * | 2018-11-02 | 2019-02-22 | 科大讯飞股份有限公司 | 一种声纹模型训练的方法和系统 |
CN109473108A (zh) * | 2018-12-15 | 2019-03-15 | 深圳壹账通智能科技有限公司 | 基于声纹识别的身份验证方法、装置、设备及存储介质 |
CN110060693A (zh) * | 2019-04-16 | 2019-07-26 | Oppo广东移动通信有限公司 | 模型训练方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106373575B (zh) * | 2015-07-23 | 2020-07-21 | 阿里巴巴集团控股有限公司 | 一种用户声纹模型构建方法、装置及系统 |
-
2019
- 2019-08-30 CN CN201910817491.1A patent/CN110491393B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106057206A (zh) * | 2016-06-01 | 2016-10-26 | 腾讯科技(深圳)有限公司 | 声纹模型训练方法、声纹识别方法及装置 |
WO2018223727A1 (zh) * | 2017-06-09 | 2018-12-13 | 平安科技(深圳)有限公司 | 识别声纹的方法、装置、设备及介质 |
CN107274883A (zh) * | 2017-07-04 | 2017-10-20 | 清华大学 | 语音信号重构方法及装置 |
CN108694952A (zh) * | 2018-04-09 | 2018-10-23 | 平安科技(深圳)有限公司 | 电子装置、身份验证的方法及存储介质 |
CN108806696A (zh) * | 2018-05-08 | 2018-11-13 | 平安科技(深圳)有限公司 | 建立声纹模型的方法、装置、计算机设备和存储介质 |
CN109378003A (zh) * | 2018-11-02 | 2019-02-22 | 科大讯飞股份有限公司 | 一种声纹模型训练的方法和系统 |
CN109473108A (zh) * | 2018-12-15 | 2019-03-15 | 深圳壹账通智能科技有限公司 | 基于声纹识别的身份验证方法、装置、设备及存储介质 |
CN110060693A (zh) * | 2019-04-16 | 2019-07-26 | Oppo广东移动通信有限公司 | 模型训练方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
A research of improved algorithm for GMM voiceprint recognition model;Zhang Jing;《2016 Chinese Control and Decision Conference (CCDC)》;20160808;全文 * |
声纹特征模板保护方法研究;朱华虹;《中国博士论文全文数据库》;20140430;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110491393A (zh) | 2019-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110491393B (zh) | 声纹表征模型的训练方法及相关装置 | |
EP3346463B1 (en) | Identity verification method and apparatus based on voiceprint | |
KR101963993B1 (ko) | 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템 및 방법 | |
KR102313028B1 (ko) | 음성 인식 시스템 및 방법 | |
US8935167B2 (en) | Exemplar-based latent perceptual modeling for automatic speech recognition | |
CN109065032B (zh) | 一种基于深度卷积神经网络的外部语料库语音识别方法 | |
CN107610717A (zh) | 基于语音后验概率的多对一语音转换方法 | |
CN108090038B (zh) | 文本断句方法及系统 | |
CN111247584B (zh) | 语音转换方法、系统、装置及存储介质 | |
Kelly et al. | Deep neural network based forensic automatic speaker recognition in VOCALISE using x-vectors | |
CN108305641A (zh) | 情感信息的确定方法和装置 | |
CN106409284A (zh) | 用于更新语言模型并执行语音识别的方法和装置 | |
CN105096941A (zh) | 语音识别方法以及装置 | |
DE102017124264A1 (de) | Bestimmen phonetischer Beziehungen | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
US20220199094A1 (en) | Joint automatic speech recognition and speaker diarization | |
Nahid et al. | Bengali speech recognition: A double layered LSTM-RNN approach | |
US10224023B2 (en) | Speech recognition system and method thereof, vocabulary establishing method and computer program product | |
CN111833845A (zh) | 多语种语音识别模型训练方法、装置、设备及存储介质 | |
EP3910625A2 (en) | Method and apparatus for utterance time estimation | |
Zhao et al. | End-to-end-based Tibetan multitask speech recognition | |
CN109377986A (zh) | 一种非平行语料语音个性化转换方法 | |
CN111091809B (zh) | 一种深度特征融合的地域性口音识别方法及装置 | |
CN108364655A (zh) | 语音处理方法、介质、装置和计算设备 | |
KR101424496B1 (ko) | 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |