CN113345454A

CN113345454A - 语音转换模型的训练、应用方法、装置、设备及存储介质

Info

Publication number: CN113345454A
Application number: CN202110609399.3A
Authority: CN
Inventors: 张旭龙; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2021-09-03
Anticipated expiration: 2041-06-01
Also published as: CN113345454B

Abstract

本申请涉及语音处理技术，尤其涉及语音转换模型的训练、应用方法、装置、设备及存储介质。基于矢量量化对语音进行编码，通过新的训练目标得到了效果较好的语音转换模型。方法包括：获取包含语音和说话人标识的训练集，语音包括来自同一说话人的第一语音和第二语音。将第一语音输入矢量量化编码器得到第一内容向量和第一说话人向量，将第二语音输入矢量量化编码器得到第二内容向量和第二说话人向量。根据第一说话人向量和第二说话人向量确定第一损失值。将第一内容向量和第二说话人向量输入解码器得到预测的语音，根据预测的语音和第一语音确定第二损失值。基于第一损失值和第二损失值迭代优化语音转换模型的参数，得到训练好的语音转换模型。

Description

语音转换模型的训练、应用方法、装置、设备及存储介质

技术领域

本申请涉及语音处理技术领域，尤其涉及一种语音转换模型的训练方法、语音转换模型的应用方法、装置、计算机设备及存储介质。

背景技术

语音转换，即在不改变话语内容信息的情况下，让某一个说话人说的一句话听起来像是另一个人说的，这是一门充满挑战性而又具有很强应用价值的任务。语音转换在很多领域发挥出很强的应用价值，例如驾驶导航，若能转换出驾驶员喜爱的明星的声音，必然能给驾驶员带来更大的心情愉悦。

基于矢量量化的语音转换方法(VQVC)可以胜任语音转换任务，由于其训练目标是矢量量化后的向量尽可能还原量化前的连续向量，未将语音的音素和说话人信息在训练中解耦，因此不能很好地学习到语音所包含的说话人信息。

发明内容

本申请提供了一种语音转换模型的训练、应用方法、装置、设备及存储介质，通过将同一说话人的语音经矢量量化编码得到的说话人向量的损失值，以及根据来自同一说话人的不同语音的说话人向量和内容向量重构的语音的损失值，作为语音转换模型的总的损失值，使语音转换模型的训练目标更合理，能更好地学习到语音中的说话人信息，进而得到了语音转换效果更好的语音转换模型。

第一方面，本申请提供了一种语音转换模型的训练方法，所述训练方法包括：

获取训练集，所述训练集包含语音和与所述语音对应的说话人标识，所述语音包括第一语音和第二语音，所述第一语音和所述第二语音为同一个说话人的包含不同说话内容的的语音；

将所述第一语音输入矢量量化编码器，得到第一内容向量和第一说话人向量，将所述第二语音输入所述矢量量化编码器，得到第二内容向量和第二说话人向量；

根据所述第一说话人向量和所述第二说话人向量确定第一损失值；

将所述第一内容向量和所述第二说话人向量输入所述解码器得到预测的语音，并根据所述预测的语音和所述第一语音确定第二损失值；

基于所述第一损失值和所述第二损失值迭代优化所述语音转换模型的参数，得到训练好的语音转换模型。

第二方面，本申请提供了一种语音转换模型的应用方法，所述应用方法包括：

将源说话人的语音输入所述训练好的语音转换模型的矢量量化编码器，得到源内容向量；

将目标说话人的语音输入所述训练好的语音转换模型的矢量量化编码器，得到目标说话人向量；

将所述源内容向量和所述目标说话人向量输入所述训练好的语音转换模型的解码器，得到转换后的语音。

第三方面，本申请还提供了一种语音转换模型的训练装置，所述训练装置包括：

训练集获取模块，用于获取训练集，所述训练集包含语音和与所述语音对应的说话人标识，所述语音包括第一语音和第二语音，所述第一语音和所述第二语音为同一个说话人的包含不同说话内容的不同语音；

语音编码模块；用于将所述第一语音输入所述矢量量化编码器，得到第一内容向量和第一说话人向量，将所述第二语音输入所述矢量量化编码器，得到第二内容向量和第二说话人向量；

第一损失计算模块，用于根据所述第一说话人向量和所述第二说话人向量确定第一损失值；

第二损失计算模块，用于将所述第一内容向量和所述第二说话人向量输入所述解码器得到预测的语音，并根据所述预测的语音和所述第一语音确定第二损失值；

模型输出模块，用于基于所述第一损失值和所述第二损失值迭代优化所述语音转换模型的参数，得到训练好的语音转换模型。

第四方面，本申请还提供了一种语音转换模型的应用装置，所述应用装置包括：

源内容向量确定模块，用于将源说话人的语音输入所述训练好的语音转换模型的矢量量化编码器，得到源内容向量；

目标说话人向量确定模块，用于将目标说话人的语音输入所述训练好的语音转换模型的矢量量化编码器，得到目标说话人向量；

语音转换模块，用于将所述源内容向量和所述目标说话人向量输入所述训练好的语音转换模型的解码器，得到转换后的语音。

第五方面，本申请还提供了一种计算机设备，所述计算机设备包括存储器和处理器；所述存储器用于存储计算机程序；所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如上述的语音转换模型的训练方法或应用方法。

第六方面，本申请还提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如上述的语音转换模型的训练方法或应用方法。

本申请公开了一种语音转换模型的训练及应用方法、装置、计算机设备及存储介质，将来自同一说话者的不同语音基于矢量量化编码器输出的第一内容向量和第二说话人向量用于重构梅尔谱图，并将重构的梅尔谱图输入解码器得到预测的语音，通过矢量量化简单地实现了语音所包含的语音信息和说话人特征的解耦。通过来自同一说话者的不同语音输出的说话人向量确定模型的第一损失值，通过预测的语音和第一内容向量所对应的语音确定模型的第二损失值，根据第一损失值和第二损失值所确定的总的损失值来迭代优化语音转换模型的参数，得到了学习到了更好的说话人特征的语音转换模型。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请的实施例提供的一种语音转换模型的训练方法的示意流程图；

图2是本申请的实施例提供的一种语音转换模型的应用方法的示意流程图；

图3为本申请的实施例提供的一种语音转换模型的训练装置的示意性框图；

图4为本申请的实施例提供的一种语音转换模型的应用装置的示意性框图；

图5为本申请的实施例提供的一种计算机设备的结构示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

我们提出一种应用场景，助力动画爱好者制作同人动画、自媒体人自制短视频的发展，目前，很多自媒体人具有较强的视频创作灵感，可以创作出很多趣味性较强的动画短视频，可惜，由于资金短缺，人手不足，自媒体人很难雇请专业的配音演员为自制的动画短视频配音，只能退而求其次，采用无声动画或者机器合成音来为动画视频加上声音，这无疑使得视频的最终效果打了很大的折扣。

已有的工作已经证明，矢量量化(VQ)压缩保存的数据与文本的音素信息有密切关联，证明该项技术可以胜任语音转换任务，并能实现较好的语音转换效果即VQVC方法。若将VQVC方法应用于短视频配音，能为当前短视频的制作和传播提供助力，只需要视频制作者录制一遍台词产生源语音，就可以通过VQVC方法产生多样的个性化定制语音。

矢量量化(vector quantization,VQ)是一种通过类似于聚类的方式将原有的连续型数据聚类成离散数据，从而使得需要存储的数据量降低，进而达到数据压缩的目的。

本申请的实施例提供了一种语音转换模型的训练及应用方法、装置、计算机设备及存储介质。其中，该语音转换模型的训练方法及应用方法可以应用于服务器中。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图1，图1是本申请的实施例提供的一种语音转换模型的训练方法的示意流程图。该语音转换模型的训练方法可应用于服务器中，通过将同一说话人的语音经矢量量化编码得到的说话人向量的损失值，以及根据来自同一说话人的不同语音的说话人向量和内容向量重构的语音的损失值，作为语音转换模型的总的损失值，使语音转换模型的训练目标更合理，得到了语音转换效果更好的语音转换模型。

如图1所示，该语音转换模型的训练方法具体包括步骤S101至步骤S105。

S101、获取训练集，所述训练集包含语音和与所述语音对应的说话人标识，所述语音包括第一语音和第二语音，所述第一语音和所述第二语音为同一个说话人的包含不同说话内容的语音。

首先，构建包含语音和和说话人身份信息的训练集，将训练集中语音的不同说话者加上身份标识进行区分，将属于同一说话人的语音与该说话者标识关联。

训练集中包含来自同一说话人的不同语音。具体的，所述第一语音和第二语音是来自声音特征相同的同一个人但说话内容不同的两句语音。

示例性的，例如对于说话人标识为A的某一个说话人，该说话人在训练集中有2段说话内容不同的语音B和C，将B设为第一语音，将C设为第二语音。

S102、将所述第一语音输入矢量量化编码器，得到第一内容向量和第一说话人向量，将所述第二语音输入所述矢量量化编码器，得到第二内容向量和第二说话人向量。

本申请的编码器基于矢量量化(vector quantization,VQ)网络，矢量量化是一种通过类似于聚类的方式将原有的连续型数据聚类成离散数据，从而使得需要存储的数据量降低，进而达到数据压缩的目的。由于矢量量化会保存最重要的信息，有实验证明矢量量化保存的数据和音素信息密切相关，而且能很好的分离语音中所包含的音素信息和说话人信息。

示例性的，矢量量化前的向量为(-1.6，1.1，2.1)，量化后的向量为(-1，1，2)，量化后的结果(-1，1，2)表征该语音的内容向量，量化前后的差异(-0.6，0.1，0.1)表征该语音的说话人向量。

具体的，将语音数据通过傅里叶变换得到梅尔谱，将梅尔谱输入矢量量化网络，经过矢量量化后的结果代表语音的内容向量，量化前和量化后二者间的平均期望代表语音的说话人向量。

完整的语音所包含的特征信息包括：内容、音色、音调/音高、韵律/节奏，其中内容特征由内容向量所表征，音色、音调/音高、韵律节奏是和说话人相关的说话人特征，由说话人向量所表征。

内容(content)为语音中的主要信息，是可以转录为文本的部分。在英语和许多其他语言中，内容的基本单元是音素，每个音素都有一个特定的共振峰模式。

音色(timbre)：是关于说话人的语音特性，与说话人的身份有关，音色被视为一种声音的特征，由共振峰频率反映，是声道中的共振频率分量。在频谱图中，共振峰显示为突出频率频谱包络的分量。

音高/音调(pitch)：表达了说话人语气的各个方面。音调语调是声音的重要组成部分，例如每个音节的上升或下降，高低等。音调信息在音高轮廓上，但是音高轮廓也会混合其他信息。首先，音高轮廓包含节奏信息，因为每个非零段的音高轮廓表示浊音段，通常对应于一个单词或一个音节。所以每个发声段的长度表征了说话人说话的速度。其次，音调范围还反映了某些说话人身份的信息，如女性往往具有较高的音调范围，男性说话人具有较低的音调范围。综上所述，音高轮廓混合了说话人的身份，节奏和音调。

韵律/节奏(prosody/rhythm)：表征了说话人说出单词或每个音节的速度的快慢。音高和节奏是韵律的两个主要组成部分，可以表征说话人的情绪。

语音通过矢量量化编码器后，矢量量化之后所保留的是语音的内容向量，所丢失的信息是表征说话人特征的说话人信息，因此通过矢量量化编码前后的差异部分可以得到对应的说话人向量。具体的，对矢量量化前的连续变量和量化后的离散变量之间的差值，多次重复操作求得差值的期望均值，得到最终的说话人向量。

示例性的，将训练集中同一说话人的不同的语音x₁和x₂分别输入矢量量化编码器，所得到的矢量量化结果分别为相应的内容向量c₁、c₂，所得到的矢量量化的差异结果分别为相应的说话人向量s₁、s₂。

通过矢量量化编码器，在得到语音的内容信息的同时，也能得到语音所包含的说话人信息，而现有的AutoVC技术需要通过一个预先训练的说话人编码网络得到说话人信息。和AutoVC相比，本发明的方法不需要引入预训练模型，降低了提取说话人信息的计算量和计算复杂度。

S103、根据所述第一说话人向量和所述第二说话人向量确定第一损失值。

具体的，根据来自同一说话人的不同语音编码所得到的第一说话人向量和第二说话人向量，基于损失函数计算第一损失值。

说话人向量是用来表征说话人特征的向量。当两段声音来自同一个说话人或来自声音很接近的两个说话人时，两段语音所对应的的说话人向量在向量空间里的距离会比较近，反之比较远。

在本申请提供的实施例中，由于输入的两句语音属于同一个说话人，因此两句语音输入同一个矢量量化编码器后，所得到的说话人向量理论上是相同的。因此根据该两句语音编码后得到的说话人向量确定的损失值，可以评价矢量量化编码器提取说话人向量的水平。

示例性的，说话人向量的损失值定义为：

L_{spk_style}＝||s₁-s₂||₁

其中，s₁为从第一语音提取的说话人向量；s₂为从第二语音提取的说话人向量。

通过基于同一说话人的两句语音所得到的说话人信息来确定的损失值来优化语音转换模型的参数，能让语音转换模型学习到更好的说话人信息。

S104、将所述第一内容向量和所述第二说话人向量输入所述解码器得到预测的语音，并根据所述预测的语音和所述第一语音确定第二损失值。

具体的，将从第一语音中得的第一内容向量，和从第二语音中获得的第二说话人向量输入到语音转换模型的解码器中。首先将第一内容向量和第二说话人向量进行相加得到重构的梅尔谱，而后将得到的重构的梅尔谱输入解码器进行语音合成，得到预测的语音。

在一些实施例中，编码器部分使用了WaveNet模型实现梅尔谱到语音的转换。WaveNet模型是一种序列生成模型，可以用于语音生成建模。在语音合成的声学模型建模中，WaveNet可以直接学习到采样值序列的映射，因此具有很好的合成效果。

第一内容向量所对应的第一语音为源语音，根据源语音和预测的语音确定第二损失值。

示例性的，合成的语音信息损失定义为：

L_recon＝||x₁-x₁'||₁

其中，x₁为第一语音；x₁'为预测的语音。

根据预测的语音和源语音所确定的损失值一方面用于评价源语音与预测的语音的接近程度，另一方面也间接反应了模型的矢量量化编码器部分通过编码学习到说话人信息的能力。

S105、基于所述第一损失值和所述第二损失值优化所述语音转换模型的参数，得到训练好的语音转换模型。

具体的，第一损失值表征的是编码器提取说话人向量的损失，第一损失值越小，说明编码器学习到更好的说话人信息，第二损失越小，说明解码器合成的语音与源语音越接近，通过第一损失值和第二损失值确定模型的总的损失为：

L＝L_{spk_style}+L_recon

其中，L_{spk_style}为根据说话人向量所确定的第一损失值；L_recon为根据预测的语音所确定的第二损失值。

根据模型总的损失值迭代优化模型的参数，当损失值达到预设阈值时，得到训练好的语音转换模型。

进一步的，在一些实施例中，可以将整个训练样本分成若干个预设大小的批数据(batch)，每一批的大小为Batch_Size。在训练集中取预设数量个说话人的两段不同语音进行迭代训练，并计算整个批数据的损失值，然后根据批数据的损失值迭代优化语音转换模型的参数。该批数据的预设大小根据训练集的大小及实际场景的需要预先确定，本申请对此不做限制。

示例性的，当batchsize＝1，训练时一次取1个说话人的两条语音输入模型进行迭代训练；再取另一个说话人的两条语音输入模型进行迭代训练。因为模型是通用的，当对当前说话人损失值很小时，对其他说话人的损失值应该也是很小的。

示例性的，当batchsize＝16，训练时一次取16个不同说话人的两条语音为一个batch，将训练集按照所分成的batch，输入模型进行迭代训练，并计算整个batch所对应的总的损失，然后根据总的损失迭代优化语音转换模型的参数。

进一步的，在一些实施例中，为了得到更好地训练效果，所述训练集在所述语音转换模型的训练中传递预设数量个时期(Epoch)，对所述语音转换模型的参数进行迭代优化，Epoch是将所有训练样本迭代一次的过程。在神经网络中只传递一次完整的数据集是不够的，需要将完整的数据集在同样的神经网络中传递多次以得到更好的训练效果。该预设数量根据实际场景的需要进行设置以得到好的训练效果，本申请对此不做限定。

示例性的，当预设数量为200时，将所有训练集中的样本完整的进行一次迭代训练的过程即完成一次Epoch，再将Epoch的过程进行200次。

本申请实施例提供的语音转换模型的训练方法，将来自同一说话者的不同语音基于矢量量化编码器输出的内容向量和说话人向量用于重构梅尔谱图，并将重构的梅尔谱图输入解码器得到预测的语音，通过矢量量化简单地实现了语音所包含的内容信息和说话人信息的解耦。通过来自同一说话者的不同语音输出的说话人向量确定模型的第一损失值，通过预测的语音和用于重构梅尔谱图的内容向量所对应的的源语音确定模型的第二损失值，根据第一损失值和第二损失值所确定的总的损失值来优化语音转换模型的参数，得到了学习到了更好的说话人特征的语音转换模型。

请参阅图2，图2是本申请的实施例提供的一种语音转换模型的应用方法的示意流程图，其中，语音转换模型是根据本申请的实施例所提供的任意一种语音转换模型的训练方法得到的。该语音转换模型的应用方法具体包括：步骤S201至步骤S203。

S201、将源说话人的语音输入所述训练好的语音转换模型的矢量量化编码器，得到源内容向量；

S202、将目标说话人的语音输入所述训练好的语音转换模型的矢量量化编码器，得到目标说话人向量；

S203、将所述源内容向量和所述目标说话人向量输入所述训练好的语音转换模型的解码器，得到转换后的语音。

请参阅图3，图3是本申请的实施例提供一种语音转换模型的训练装置的示意性框图，该训练装置用于执行前述的语音转换模型的训练方法。其中，该训练装置可以配置于服务器。

如图3所示，语音转换模型包括：矢量量化编码器和解码器，该语音转换模型的训练装置300包括：

训练集获取模块301，用于获取训练集，所述训练集包含语音和与所述语音对应的说话人标识，所述语音包括第一语音和第二语音，所述第一语音和所述第二语音为同一个说话人的包含不同说话内容的语音；

语音编码模块302，用于将所述第一语音输入矢量量化编码器，得到第一内容向量和第一说话人向量，将所述第二语音输入所述矢量量化编码器，得到第二内容向量和第二说话人向量；

第一损失计算模块303，用于根据所述第一说话人向量和所述第二说话人向量确定第一损失值；

第二损失计算模块304，用于将所述第一内容向量和所述第二说话人向量输入所述解码器得到预测的语音，并根据所述预测的语音和所述第一语音确定第二损失值；

模型输出模块305，用于基于所述第一损失值和所述第二损失值迭代优化所述语音转换模型的参数，得到训练好的语音转换模型。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的语音转换模型的训练装置和各模块的具体工作过程，可以参考前述语音转换模型的训练方法实施例中的对应过程，在此不再赘述。

请参阅图4，图4是本申请的实施例提供一种语音转换模型的应用装置的示意性框图，其中，语音转换模型是根据本申请的实施例所提供的任意一种语音转换模型的训练方法得到的。该应用装置用于执行前述的语音转换模型的应用方法。其中，该应用装置可以配置于服务器。

如图4所示，该语音转换模型的应用装置400，包括：

源内容向量确定模块401，用于将源说话人的语音输入所述训练好的语音转换模型的矢量量化编码器，得到源内容向量；

目标说话人向量确定模块402，用于将目标说话人的语音输入所述训练好的语音转换模型的矢量量化编码器，得到目标说话人向量；

语音转换模块403，用于将所述源内容向量和所述目标说话人向量输入所述训练好的语音转换模型的解码器，得到转换后的语音。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的语音转换模型的应用装置和各模块的具体工作过程，可以参考前述语音转换模型的应用方法实施例中的对应过程，在此不再赘述。

上述的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图5所示的计算机设备上运行。

请参阅图5，图5是本申请的实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器。

参阅图5，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括存储介质和内存储器。

存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种语音转换模型的训练方法或应用方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种语音转换模型的训练方法或应用方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

获取训练集，所述训练集包含语音和与所述语音对应的说话人标识，所述语音包括第一语音和第二语音，所述第一语音和所述第二语音为同一个说话人的包含不同说话内容的语音；

在一个实施例中，所述处理器在实现语音转换模型的训练时，用于实现：

将所述语音经过傅里叶变换得到所述语音的梅尔谱图，其中，所述语音包括：第一语音和第二语音；

将所述语音的梅尔谱图输入所述矢量量化编码器，根据得到的矢量量化编码结果确定内容向量，根据所述矢量量化编码结果与所述语音的梅尔谱图的差异确定说话人向量。

在一个实施例中，所述处理器在实现将所述第一内容向量和所述第二说话人向量输入所述解码器得到预测的语音时，用于实现：

将所述第一内容向量和所述第二说话人向量相加得到重构的梅尔谱；

将所述重构的梅尔谱输入所述解码器，得到所述预测的语音。

将所述训练集划分为预设大小的批数据，其中，所述批数据由来自预设数量个说话人的第一语音和第二语音组成；

将所述批数据输入语音转换模型，得到所述批数据的第一损失值和第二损失值；

基于所述批数据的第一损失值和第二损失值迭代优化所述语音转换模型的参数，得到训练好的语音转换模型。

将所述训练集在所述语音转换模型的训练中传递预设数量个时期，对所述语音转换模型的参数进行迭代优化；其中，所述时期为将所述训练集在所述语音转换模型的训练中完整传递并完成一次迭代的过程。

本申请的实施例中还提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现本申请实施例提供的任一项语音转换模型的训练方法或应用方法。

其中，所述存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音转换模型的训练方法，其特征在于，所述语音转换模型包括：矢量量化编码器和解码器，所述方法包括：

将所述第一语音输入所述矢量量化编码器，得到第一内容向量和第一说话人向量，将所述第二语音输入所述矢量量化编码器，得到第二内容向量和第二说话人向量；

2.根据权利要求1所述的训练方法，其特征在于，所述方法包括：

将所述语音经过傅里叶变换得到语音的梅尔谱图，其中，所述语音包括：第一语音和第二语音；

将所述语音的梅尔谱图输入所述矢量量化编码器，根据得到的矢量量化编码结果确定内容向量；

根据所述矢量量化编码结果与所述语音的梅尔谱图的差异确定说话人向量。

3.根据权利要求2所述的训练方法，其特征在于，所述将所述第一内容向量和所述第二说话人向量输入所述解码器得到预测的语音包括：

4.根据权利要求1所述的训练方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的训练方法，其特征在于，所述方法还包括：

6.一种语音转换模型的应用方法，其特征在于，所述语音转换模型是根据权利要求1-5中任一项所述的方法训练得到的，所述应用方法包括：

7.一种语音转换模型的训练装置，其特征在于，所述语音转换模型包括：矢量量化编码器和解码器，所述训练装置包括：

训练集获取模块，用于获取训练集，所述训练集包含语音和与所述语音对应的说话人标识，所述语音包括第一语音和第二语音，所述第一语音和所述第二语音为同一个说话人的包含不同说话内容的语音；

8.一种语音转换模型的应用装置，其特征在于，所述语音转换模型是根据权利要求1-5中任一项所述的方法训练得到的，所述应用装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至5中任一项所述的语音转换模型的训练方法或权利要求6所述的语音转换模型的应用方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1至5中任一项所述的语音转换模型的训练方法或权利要求6所述的语音转换模型的应用方法。