CN111179905A

CN111179905A - 一种快速配音生成方法及装置

Info

Publication number: CN111179905A
Application number: CN202010024022.7A
Authority: CN
Inventors: 不公告发明人
Original assignee: Beijing Zhongke Shenzhi Technology Co Ltd
Current assignee: Beijing Zhongke Shenzhi Technology Co Ltd
Priority date: 2020-01-10
Filing date: 2020-01-10
Publication date: 2020-05-19

Abstract

本发明公开了一种快速配音生成方法及装置，该方法包括:构建配音生成框架，其中，所述配音生成框架包括扬声器编码器、合成器和声码器，所述扬声器编码器用于从单个说话人的短促讲话中提取嵌入信息，所述合成器用于根据所据嵌入信息，将文本生成频谱图，所述声码器用于根据所述频谱图推断并输出音频波形；采用端到端的方式对所述配音生成框架进行训练，得到训练之后的配音生成框架模型；将参考语音和文本输入训练之后的所述配音生成框架模型，实现快速配音生成。本发明解决了现有的文本到语音的模型不具有用任何声音生成语音的能力且数据效率低的问题。

Description

一种快速配音生成方法及装置

技术领域

本发明涉及人工智能技术领域，特别涉及一种快速配音生成方法及装置。

背景技术

在许多应用机器学习领域，深度学习模型已成为主流。文字转语音(TTS)，即从文字提示中合成人工语音的过程，也不例外。比起传统的级联方法，深度模型将产生听起来更自然的语音。

专业录制的语音数据集是一种稀缺资源，要想用正确的发音、生动的语调和最低限度的背景噪音来合成一个自然的声音，需要具有相同质量的训练数据。其次，数据效率仍然是深度学习的核心问题，通常训练一个常见的文本到语音的模型，如Tacotron，通常需要数百小时的语音。此外，为这样的模型提供一个新的声音是非常昂贵的，因为它需要记录一个新的数据集并对模型进行重新训练。此外，现有的文本到语音的模型不具有用任何声音生成语音的能力，即配音生成能力。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明的目的在于提供一种快速配音生成方法及装置，以解决背景技术中出现有一个或多个的问题。

第一方面，本发明实施例提供一种快速配音生成方法，包括：

构建配音生成框架，其中，所述配音生成框架包括扬声器编码器、合成器和声码器，所述扬声器编码器用于从单个说话人的短促讲话中提取嵌入信息，所述合成器用于根据所据嵌入信息，将文本生成频谱图，所述声码器用于根据所述频谱图推断并输出音频波形；

采用端到端的方式对所述配音生成框架进行训练，得到训练之后的配音生成框架模型；

将参考语音和文本输入训练之后的所述配音生成框架模型，实现快速配音生成。

进一步地，所述采用端到端的方式对所述配音生成框架进行训练，得到训练之后的配音生成框架模型的步骤包括：

分别获取扬声器编码器、合成器和声码器的训练数据集；

依次对所述扬声器编码器、合成器和声码器在不同的数据集上分别进行训练，得到训练之后的配音生成框架模型。

进一步地，在分别获取扬声器编码器、合成器和声码器的训练数据集的步骤之后，所述方法还包括：

采用均匀流形近似和投影UMAP对所述扬声器编码器训练数据集、合成器训练数据集和声码器的训练数据集进行降维处理。

进一步地，所述频谱图为梅尔频谱图，所述声码器为基于WaveRNN的模型。

进一步地，所述扬声器编码器的训练数据集为LibriSpeech、VoxCeleb1和VoxCeleb2数据集的组合，且仅包括说话人身份标签，对所述扬声器编码器进行训练的目标函数为GE2E损失函数；

所述合成器的训练数据集为LibriSpeech数据集，在所述合成器的训练过程中采用自动语音识别(ASR)模型将LibriSpeech音频与文本对齐，并将无声时间超过0.4秒的话语进行分割。

第二方面，本发明实施例提供一种快速配音生成装置，包括：

框架构建模块，用于构建配音生成框架，其中，所述配音生成框架包括扬声器编码器、合成器和声码器，所述扬声器编码器用于从单个说话人的短促讲话中提取嵌入信息，所述合成器用于根据所据嵌入信息，将文本生成频谱图，所述声码器用于根据所述频谱图推断并输出音频波形；

模型训练模块，用于采用端到端的方式对所述配音生成框架进行训练，得到训练之后的配音生成框架模型；

配音生成模块，用于将参考语音和文本输入训练之后的所述配音生成框架模型，实现快速配音生成。

进一步地，所述模型训练模块包括：

获取模块，用于分别获取扬声器编码器、合成器和声码器的训练数据集；

训练模块，用于依次对所述扬声器编码器、合成器和声码器在不同的数据集上分别进行训练，得到训练之后的配音生成框架模型。

进一步地，所述装置还包括：

UMAP模块，用于采用均匀流形近似和投影UMAP对所述扬声器编码器训练数据集、合成器训练数据集和声码器的训练数据集进行降维处理。

第三方面，本发明实施例提供一种存储介质，所述存储介质包括存储的程序，其中，所述程序执行任意一种上述的方法。

第四方面，本发明实施例提供一种处理器，上述处理器用于运行程序，其中，所述程序运行时执行任意一种上述的方法。

第五方面，本发明实施例提供一种电子设备，包括：一个或多个处理器，存储器，显示装置以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置为由上述一个或多个处理器执行，上述一个或多个程序包括用于执行任意一种上述的方法。

有益效果

本发明提供的快速配音生成方法及装置，通过配音生成框架捕获说话者的语音，能够在任意输入上执行文本到语音的转换，且允许从仅仅几秒钟的参考语音中克隆出在训练过程中看不到的语音，并且不需要对配音生成框架模型进行再训练。与现有的为每个说话者训练单独的文本到语音的模型相比，速度更快，计算成本更低，能够实现实时快速的配音生成。

附图说明

图1是根据本发明实施例的一种快速配音生成方法的流程图；

图2是发音嵌入的UMAP投影；

图3是包括有男性和女性的120个嵌入信息的UMAP投影；

图4是根据本发明实施例的一种快速配音生成装置的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

在本发明实施中，提供一种快速配音生成方法，如图1所示，该方法包括如下步骤：

步骤S100，构建配音生成框架，其中，配音生成框架包括扬声器编码器、合成器和声码器，扬声器编码器用于从单个说话人的短促讲话中提取嵌入信息，合成器用于根据所据嵌入信息，将文本生成频谱图，声码器用于根据频谱图推断并输出音频波形；

步骤S102，采用端到端的方式对配音生成框架进行训练，得到训练之后的配音生成框架模型；

步骤S104，将参考语音和文本输入训练之后的配音生成框架模型，实现快速配音生成。

其中，本发明方法基于Speaker Verification to Multispeaker Text-To-Speech(简称SV2TTS)， SV2TTS是Tacotron系列5在谷歌上发表的谷歌的论文，它号称能用于零样本(zero-shot)配音生成，只需要5秒钟的参照语音，但目前没有公开实现，且没有一个SV2TTS框架，无法实时运行。本发明方法首先构建一个SV2TTS框架，即配音生成框架，它使用一个比SV2TTS 更新的声码器，以便它能够实时运行，实现快速配音生成。

其中，配音生成框架包括如下三个部分：

(1)一种扬声器编码器，可从单个说话人的短促讲话中提取嵌入信息。嵌入是说话人声音的一种有意义的表示，使得相似的声音在潜在空间中很接近；

(2)一种合成器，其以扬声器的嵌入为条件，可从文本生成频谱图，该模型是移除了 Wavenet的Tacotron 2模型；

(3)一个声码器，可以从合成器生成的频谱图中推断出音频波形。其使用WaveNet作为声码器，有效地重新应用了整个Tacotron 2框架。

在推断时间，扬声器编码器会收到扬声器的简短参考言语以进行克隆，它生成用于调节合成器的嵌入，并且将作为音素序列处理的文本作为合成器的输入给出，声码器获取合成器的输出以生成语音波形。

由于SV2TTS没有得到任何公开实施的支持，我们创建了配音生成框架，使其实时运行，即在更短的时间内或等于产生的语音的持续时间内生成语音，训练之后的配音生成框架模型是一个固定的模型，能够在几乎没有数据的情况下合并较新的语音。与现有的为每个说话者训练单独的文本到语音的模型相比，速度更快，计算成本更低，能够实现实时快速的配音生成。

考虑由说话者分组的话语数据集。我们将第i个说话者的第j个发音表示为u_ij。话语在波形域中。我们用x_ij表示发音u_ij的对数梅尔频谱图。对数梅尔频谱图是确定性的，不可逆的(有损)函数，可从波形中提取语音特征，以便在机器学习中以更易处理的方式处理语音。

编码器

计算与发音u_ij对应的嵌入

其中

是编码器的参数。此外，作者将说话人嵌入定义为说话人话语嵌入的质心：

最后，由

参数化的声码器V的任务是给定

近似u_ij。我们有

我们可以以端到端的方式对该配音生成框架进行训练，其目标功能如下：

其中，

是波形域中的损失函数。但这种方法要求在同一数据集上训练所有三个部分，这意味着该数据集在理想情况下需要满足所有模型的要求：扬声器编码器需要大量说话者，但合成器需要同时转录。合成器的低电平噪声，以及编码器的平均噪声电平(以便能够处理有噪声的输入语音)。这些冲突是有问题的，因此，我们在不同的数据集上对三个部分分别训练，将导致训练的配音生成框架模型的性能更好。

此外，由于合成模型的收敛性可能很难达到。特别是，Tacotron合成器可能需要花费大量时间才能产生正确的校准。我们将合成器和声码器的训练分开。假设经过预训练的扬声器编码器，则可以训练合成器以直接预测目标音频的梅尔频谱图：

其中

为时频域中的损失函数。然后直接在声谱图上训练声码器。在地面真实频谱图上或在合成器生成的频谱图上进行训练的方法都是有效的。后者需要预训练的合成器。

与合成器和声码器不同，扬声器编码器没有要训练的标签，我可以对扬声器编码器进行优化，其被大胆地被定义为产生有意义的“嵌入”，以体现话语中的语音特征。我们可以想到一种将扬声器编码器训练为自动编码器的方法，但是这需要使相应的上采样模型知道要预测的文本，要么将数据集限制在同一句子中，要么需要转录，而上采样模型就是合成器。在这两种情况下，为了使训练的质量不会受到数据集的影响，我们使用GE2E损失模拟这一过程并允许独立于合成器训练扬声器编码器。在不对音频的噪声水平有任何强烈要求的情况下，q我们采用由许多不同说话者组成的大型语料库来训练编码器，以生成一种对噪声稳定并且能够捕获人类语音的许多特征的模型。此外，扬声器接受了GE2E损失训练，除说话人身份外，不需要其他任何标签。对于GE2E，模型要学习的任务是说话者验证任务，而该任务本身与配音生成无关。但是，该任务以网络将输出嵌入的方式规定，该嵌入是说话者语音的有意义的表示。这种嵌入适合将合成器置于声音上，我们采用相对较小的更高质量和带注释的数据集作为合成器和声码器的数据集，对合成器和声码器的进行训练。

虽然配音生成框架的所有部分都是单独训练的，但合成器仍然需要从训练过的编码器中嵌入，而声码器需要从训练过的合成器中提取梅尔频谱图，配音生成框架中每一部分都依赖于前一个部分模型进行训练。扬声器编码器需要有足够的泛化能力，以便在合成器的数据集上产生有意义的嵌入；即使是在通用数据集上进行训练，它也必须能够在推理时在零样本设置下进行操作。

扬声器编码器模型是一个三层的LSTM，有768个隐藏节点，之后是一个由256个单元的全连接层。每个全连接层分别连接在每个LSTM层之后，接收上一个LSTM层的输出。为了快速制作原型，简化操作并减轻训练负担，我们直接使用了256个单元的LSTM层来代替全连接层，使得模型更小，效果极好。该模型的输入是40通道对数梅尔频谱图，窗口宽度为25ms，步长为10ms。输出是最后一层的L2归一化隐藏状态，它是256个元素的向量。我们的实现在归一化之前还具有ReLU层，其目标是使嵌入变得稀疏，从而更容易解释。

扬声器编码器在扬声器验证任务上接受训练。扬声器验证是一种典型的生物鉴定应用，通过鉴定人声判定人的身份。通过从人的一些话语中获取扬声器嵌入，进而可以创建此人的模板。这个过程被称为登入(enrollment)。在运行过程中，用户说出一些话，并且系统会对这段话语的嵌入与已登入的扬声器嵌入进行比较。如果两个嵌入向量的相似度超过给定的阈值，则用户验证成功。GE2E loss模拟这一过程，作为模型的目标函数。

在训练时，扬声器编码器模型计算了N个说话人M个固定时长的话语的嵌入e_ij(1≤i≤N, 1≤j≤m)，导出了每个说话人的说话人嵌入c_i：

相似度矩阵S_ij，k是将所有嵌入e_ij与批处理中每个说话人嵌入c_k(1≤K≤N)进行二乘二比较的结果。此度量是缩放余弦相似度

S_ij，k＝w·cos(e_ij，c_k)+b＝w·e_ij·||c_k||₂+b

其中w和b是可学习的参数。从计算的角度来看，两个L2归一化向量的余弦相似度只是它们的点积，因此是上述方程的最右边。当一个话语与说话人匹配时(i＝k)，一个最优模型期望输出高相似度值，而在其他地方则输出低相似度值(i≠k)。要在这个方向上进行优化，损失是逐行softmax损失的总和。

在计算损耗时，每个话语e_ij都包含在同一个说话者的质心c_i中。这就造成了对正确说话者的偏见，而这与扬声器编码器模型的准确性无关，也为微不足道的解决方案留下了空间。为了防止这种情况的发生，将从说话人嵌入中移除与其自身说话人嵌入进行比较的话语。相似矩阵定义为:

其中唯一的质心

定义为:

一个训练批次中说话的固定时长是1.6秒，这些是从数据集中较长完整的话语中采样的部分话语。虽然该扬声器编码器模型体系结构能够处理可变长度的输入，但是我们有理由期望它在处理与训练中相同持续时间的话语时表现得最好。因此，在推断时，一个话语被分割成1.6秒的片段，重叠50％，扬声器编码器分别转发每个片段。然后对结果进行平均，然后归一化以产生发声嵌入。

计算相似矩阵的时间复杂度为O(N²M)，应选择不太大的参数，以免大大降低训练速度，而不是简单地选择GPU上的最大批量。当然，仍然有可能在同一GPU上并行化多个批次，同时跨批次同步操作以提高效率。我们发现在计算相似矩阵时，对所有操作进行矢量化以最小化GPU事务的数量尤为重要。

我们使用LibriSpeech-Other、VoxCeleb1和VoxCeleb2作为扬声器编码器的训练数据集，经实验发现，说话者的数量不仅与扬声器编码器在验证任务上的良好性能密切相关，而且与整个框架在生成语音的质量及其克隆语音的能力方面的良好性能也密切相关。

我们训练扬声器编码器一百万步。为了监测训练，我们报告了能效比，并观察了模型聚集说话者的能力。我们采用随机抽样的方式，每组10个说话者，每个说话者有10个话语，计算话语嵌入，并使用UMAP将它们投射到二维空间中。UMAP是均匀流形近似和投影(uniform manifold approximation and projection)，用于对数据集降维，由于不同说话者的嵌入在潜在空间中的距离比来自同一说话者的嵌入要远，因此随着训练的进行，来自同一说话者的话语集群也会出现。我们在图2中报告了我们的UMAP预测，在图2中可以观察到这种行为。在我们模型的不同迭代中，从训练集中随机选择的批次中发音嵌入的UMAP投影。可以看出来自同一扬声器的讲话用相同颜色的点表示，我们特别省略了将标签传递给UMAP的操作，因此聚类完全由模型完成。

等误差率(EER)是生物计量系统中常用的一种测量方法，用于评估系统的准确性。它是假阳性率与真负性率相等时的值。通过改变生物识别系统识别用户的相似度阈值来实现这些术语的等价，我们计算的EER为4.5％。

我们发现该模型产生的潜在空间聚类具有很强的鲁棒性和泛化能力。在我们所有的测试中，UMAP投影完美地将话语从三个数据集的测试集中分离出来，具有较大的簇间距离和较小的簇内方差。图3给出了一个示例，120个嵌入信息的UMAP投影，12个演讲者每人10个，从测试集中随机选择六位男性和六位女性演讲者，使用的测试集是LibriSpeech、VoxCeleb1 和VoxCeleb2测试集的组合。带F的是女性，带M的是男性。我们发现，我们的预测会在预测空间中线性地将说话者的性别分开。我们的集群比现有方法预测的集群更密集，我们使用的话语为部分话语，因为实验发现完整的话语会产生更低的能率。

合成器是移除了Wavenet的Tacotron 2，Tacotron是一个循环的序列到序列模型，它能够从文本中预测梅尔声谱图。Tacotron是编码器-解码器结构(并非SV2TTS的扬声器编码器)，中间由位置敏感的注意力机制连接。首先，输入为文本序列，其中的字符首先转换为嵌入向量。随后嵌入向量通过卷积层，用于增加单个编码器帧的范围。通过卷积层之后的编码器帧再通过双向LSTM，生成编码器输出帧。

注意力机制对编码器输出帧进行处理，以生成解码器输入帧。每个解码器输入帧和经过 pre-net的前一个解码器帧输出级联，使模型实现自回归。这个级联向量通过两个单向LSTM 层，然后映射到梅尔声图谱帧。级联向量同时映射到一个标量(scalar)上，使网络预测一个值，如果该值超过设定阈值，则停止生成。整个帧序列在转换为梅尔声谱图前通过残差 post-net传递。

用于合成器的目标梅尔频谱图比用于扬声器编码器的梅尔频谱图具有更多的特性。它们是在一个50ms的窗口中以12.5ms的步长计算的，有80个通道。在我们的实现中，输入文本经过清洗过程，字符按原样输入，我们用完整的文本形式替换缩写和数字，强制所有字符用 ASCII码表示，将空白规整并使所有字符小写，可以使用标点。

我们使用LibriSpeech数据集训练合成器，LibriSpeech数据集上的采样率为16kHz，我们发现在LibriSpeech数据集上训练的合成器生成效果优于VCTK数据集，为了不损失语音自然度。我们在LibriSpeech数据集上训练合成器，在VCTK数据集上进行测试。

我们使用一个自动语音识别(ASR)模型来强制使LibriSpeech音频与文本对齐。将音频与文本对齐后，我们将无声时间超过0.4秒的话语进行分割。这有助于合成器的收敛，一方面是因为目标频谱图中无声的消除，另一方面是因为数据集中话语持续时间的中位数减少了，因为较短的序列为计时错误提供了更少的空间。我们确保话语不少于1.6秒，用于训练扬声器编码器的部分话语的持续时间，不长于11.25秒，节省GPU内存用于训练。

通过将文本与音频对齐来隔离无声信息，还可以为同一说话者的所有话语创建噪音概要。我们使用python实现了LogMMSE算法。使用LogMMSE通过在最早的几帧(通常还不包含语音) 中分析噪声，并在整个语音过程中在非语音帧中不断更新噪声，从而清理音频语音段，这个额外的预处理步骤大大有助于降低合成光谱图的背景噪声。

我们训练合成器150K步，批量大小为144，跨4个gpu。损失函数是L2损失之间的预测和地面真相梅尔光谱图。在训练过程中，将模型设置为Ground Truth Aligned(GTA)模式，其中预网的输入是Ground Truth图谱的前一帧，而不是预测的前一帧。使用GTA，生成的谱图的音高和韵律与地面真值保持一致，允许预测与地面真值之间共享上下文，并更快地收敛。如果没有GTA，合成器就会在给定固定文本和嵌入输入的情况下生成相同话语的不同变体，就像推理时的情况一样。

其中，声码器为基于WaveRNN的模型。WaveRNN是一个描述自回归模型推理速度的简单方案。给定一个具有|u|个样本的目标向量u，推理的总时间T(u)可以分解为：

其中N是产生一个样本所需的矩阵向量积的数目(∝是层的数目)，c(op_i)是层i的计算时间，d(op_i)是层i的计算开销(通常是i/O操作)。语音的标准采样率包括16kHz，22.05kHz和24kHz(而音乐采样频率通常为44.1kHz)，这意味着仅5秒的音频|u|就接近100000个采样。标准的WaveNet架构包含三个堆栈，每个堆栈包含10个残差块，每个块有两层，从而得到N＝60。WaveRNN模型不仅减少了N的贡献，而且减少了c(op_i)和d(op_i)的贡献，我们使用的声码器模型是一个开源的PyTorch实现，它基于WaveRNN，我们将此架构称为“替代WaveRNN”。

在替代的WaveRNN中，WaveNet的全部60个卷积被一个GRU层替代。WaveNet的MOS值为4.51±0.08，而最佳的WaveRNN模型的MOS值为4.48±0.07。模型输入的是由合成器生成的GTA met声谱图，以ground truth音频为目标。模型在训练时预测固定大小的波形片段。在粗精方案中，WaveRNN的前向传递通过N＝5的矩阵向量乘积来实现，其中首先对16位目标样本的较低8位(粗)进行预测，然后据此对较高8位(精)的预测进行调整。预测包含对输出进行采样的分布参数。

在批量采样中，话语被分成固定长度的片段，并并行生成在所有部分。为了在一个段的结束和下一个段的开始之间保留一些上下文，在下一个段的开始处重复一小段段的结束。这个过程叫做折叠。然后，模型将折叠好的线段向前传递。为了获得展开张量，对连续段的重叠部分进行交叉消隐合并。我们使用替代的WaveRNN进行批量采样，片段长度为8000个样本，重叠长度为400个样本。使用这些参数，对于16kHz的语音，大小为2的折叠批将产生稍多于1秒的音频。

在处理短话语时，声码器的运行速度通常低于实时速度。推理速度高度依赖于批采样过程中的折叠次数。事实上，就折叠次数而言，声码器网络几乎是在恒定时间内运行，并且随着折叠次数的增加，时间只有少量增加。可以设置阈值持续时间为12.5秒，如果话语短于该阈值，则模型的运行速度将慢于实时速度。

为了使声码器模型表现得更好更快，更有利于提高推理速度。我们可以对替代WaveRNN模型进行修剪，一个大型的稀疏的WaveRNN将比一个小型的稠密的WaveRNN表现得更好更快，通过实验，我们发现对于稀疏矩阵和稠密向量的矩阵乘法运算在时间上只在稀疏度大于91％的情况下才会打破时间上的平衡，在这个值以下，使用稀疏张量实际上会降低前向传递的速度。测试表明，在最好的情况下，96.4％的稀疏性水平会将实时阈值降低到7.86秒，将97.8％的水平降低到4.44秒。

在本发明实施例中，通过配音生成框架捕获说话者的语音，能够在任意输入上执行文本到语音的转换，且允许从仅仅几秒钟的参考语音中克隆出在训练过程中看不到的语音，并且不需要对配音生成框架模型进行再训练。

图4显示了根据本发明实施例的一种快速配音生成装置的示意图，如图4所示，本实施例的快速配音生成装置包括框架构建模块200、模型训练模块202和配音生成模块204。框架构建模块200、模型训练模块202和配音生成模块204分别用于执行图1中的S100、S102、S104中的具体方法，详情可参见图1的相关介绍，在此仅作简单描述：

框架构建模块200，用于构建配音生成框架，其中，配音生成框架包括扬声器编码器、合成器和声码器，扬声器编码器用于从单个说话人的短促讲话中提取嵌入信息，合成器用于根据所据嵌入信息，将文本生成频谱图，声码器用于根据频谱图推断并输出音频波形；

模型训练模块202，用于采用端到端的方式对配音生成框架进行训练，得到训练之后的配音生成框架模型；

配音生成模块204，用于将参考语音和文本输入训练之后的配音生成框架模型，实现快速配音生成。

进一步地，模型训练模块202可以包括：

训练模块，用于依次对扬声器编码器、合成器和声码器在不同的数据集上分别进行训练，得到训练之后的配音生成框架模型。

进一步地，装置还可以包括：

UMAP模块，用于采用均匀流形近似和投影UMAP对扬声器编码器训练数据集、合成器训练数据集和声码器的训练数据集进行降维处理。

进一步地，频谱图为梅尔频谱图，声码器为基于WaveRNN的模型。

进一步地，扬声器编码器的训练数据集为LibriSpeech、VoxCeleb1和VoxCeleb2数据集的组合，且仅包括说话人身份标签，对扬声器编码器进行训练的目标函数为GE2E损失函数；

合成器的训练数据集为LibriSpeech数据集，在合成器的训练过程中采用自动语音识别 (ASR)模型将LibriSpeech音频与文本对齐，并将无声时间超过0.4秒的话语进行分割。

在本发明实施中，还提供一种存储介质，存储介质包括存储的程序，其中，程序执行任意一种上述的方法。

在本发明实施中，还提供一种处理器，上述处理器用于运行程序，其中，程序运行时执行任意一种上述的方法。

在本发明实施中，还提供一种电子设备，包括：一个或多个处理器，存储器，显示装置以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置为由上述一个或多个处理器执行，上述一个或多个程序包括用于执行任意一种上述的方法。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种快速配音生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述采用端到端的方式对所述配音生成框架进行训练，得到训练之后的配音生成框架模型的步骤包括：

分别获取扬声器编码器、合成器和声码器的训练数据集；

3.根据权利要求2所述的方法，其特征在于，在分别获取扬声器编码器、合成器和声码器的训练数据集的步骤之后，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述频谱图为梅尔频谱图，所述声码器为基于WaveRNN的模型。

5.根据权利要求4所述的方法，其特征在于，

所述扬声器编码器的训练数据集为LibriSpeech、VoxCeleb1和VoxCeleb2数据集的组合，且仅包括说话人身份标签，对所述扬声器编码器进行训练的目标函数为GE2E损失函数；

6.一种快速配音生成装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述模型训练模块包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.根据权利要求8所述的装置，其特征在于，所述频谱图为梅尔频谱图，所述声码器为基于WaveRNN的模型。

10.根据权利要求9所述的装置，其特征在于，