CN116564269A

CN116564269A - 语音数据的处理方法、装置、电子设备和可读存储介质

Info

Publication number: CN116564269A
Application number: CN202310595157.2A
Authority: CN
Inventors: 朱鹏程; 张雍茂; 毕梦霄; 郭帅; 张晴; 薛鹤洋; 胡志鹏; 吕唐杰
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2023-05-24
Filing date: 2023-05-24
Publication date: 2023-08-08

Abstract

本公开提供了一种语音数据的处理方法、装置、电子设备和可读存储介质。其中，方法包括：获取目标说话人的人声标签和文本数据；将人声标签输入预先训练完成的音色生成模型，生成目标说话人的目标人声表征向量，其中，音色生成模型根据对多维先验概率分布进行采样的采样结果与人声标签生成目标人声表征向量；将目标人声表征向量和文本数据输入预先训练完成的语音合成模型，生成目标说话人的语音数据。该方式中，通过音色生成模型可以分类生成不同类型的人声和音色的目标人声表征向量；通过语音合成模型可以生成目标说话人的语音数据，从而控制目标说话人的语音数据的音色特点，提高说话人音色生成的可控性。

Description

语音数据的处理方法、装置、电子设备和可读存储介质

技术领域

本公开涉及语音合成技术领域，尤其是涉及一种语音数据的处理方法、装置、电子设备和可读存储介质。

背景技术

语音是人类之间进行沟通的最自然最常用的形式，同时也是机器与人类之间交互的重要方式。语音中除了包含有语言的内容信息，同时也体现了说话人的音色、情感和说话风格等语义无关的信息。语音合成技术旨在根据输入文本信息来合成对应的语音。

但是在现有技术中，典型的语音合成技术只能合成训练数据中存在的说话人对应的语音，无法在合成过程提供训练数据之外新的说话人音色，无法满足一些应用场景的需求。此外，现有的音色生成方案通常说话人表征建模较为简单，所以较难在这个过程中对音色的特点进行控制，从而造成音色生成可控性不足的问题。

发明内容

有鉴于此，本公开提供了一种语音数据的处理方法、装置、电子设备和可读存储介质，以至少部分地解决音色生成可控性不足的问题。

第一方面，本公开实施例提供了一种语音数据的处理方法，方法包括：获取目标说话人的人声标签和文本数据；将人声标签输入预先训练完成的音色生成模型，生成目标说话人的目标人声表征向量，其中，音色生成模型根据对多维先验概率分布进行采样的采样结果与人声标签生成目标人声表征向量；将目标人声表征向量和文本数据输入预先训练完成的语音合成模型，生成目标说话人的语音数据。

第二方面，本公开实施例还提供一种语音数据的处理装置，装置包括：标签和数据获取模块，用于获取目标说话人的人声标签和文本数据；音色生成模型处理模块，用于将人声标签输入预先训练完成的音色生成模型，生成目标说话人的目标人声表征向量，其中，音色生成模型根据对多维先验概率分布进行采样的采样结果与人声标签生成目标人声表征向量；语音合成模型处理模块，用于将目标人声表征向量和文本数据输入预先训练完成的语音合成模型，生成目标说话人的语音数据。

第三方面，本公开实施例还提供一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的计算机可执行指令，处理器执行计算机可执行指令以实现上述的语音数据的处理方法的步骤。

第四方面，本公开实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现上述的语音数据的处理方法的步骤。

本公开实施例提供了一种语音数据的处理方法、装置、电子设备和可读存储介质，将人声标签输入预先训练完成的音色生成模型，生成目标说话人的目标人声表征向量；将目标人声表征向量和文本数据输入预先训练完成的语音合成模型，生成目标说话人的语音数据。该方式中，通过音色生成模型可以分类生成不同类型的人声和音色的目标人声表征向量；通过语音合成模型可以生成目标说话人的语音数据，从而控制目标说话人的语音数据的音色特点，提高说话人音色生成的可控性。

本公开的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种语音数据的处理方法的流程图；

图2为本公开实施例提供的一种音色生成模型和语音合成模型的示意图；

图3为本公开实施例提供的一种音色生成模型的示意图；

图4为本公开实施例提供的一种第一子模型的示意图；

图5为本公开实施例提供的一种第二子模型的示意图；

图6为本公开实施例提供的一种语音数据的处理装置的结构示意图；

图7为本公开实施例提供的另一种语音数据的处理装置的结构示意图；

图8为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合附图对本公开的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

语音是人类之间进行沟通的最自然最常用的形式，同时也是机器与人类之间交互的重要方式。语音中除了包含有语言的内容信息，同时也体现了说话人的音色、情感和说话风格等语义无关的信息。语音合成技术旨在根据输入文本信息来合成对应的语音，但是典型的语音合成技术只能合成训练数据中存在的说话人对应的语音，无法在合成过程提供无限的说话人音色，无法满足一些应用场景的需求。例如：为大量的游戏角色配音、为各种个性化定制的虚拟人合成语音等旨在生成现实世界中不存在的说话人音色，提供无限说话人音色的语音合成服务的场景中。

现有技术中通常使用一个高维向量来表征说话人音色，该高维向量可以称为目标人声表征向量。目标人声表征向量可以通过预训练的说话人音色编码器提取或者在语音合成模型中联合训练得到。在音色生成任务中，通常通过生成一个训练集中不存在的目标人声表征向量作为语音合成模型的输入来生成对应的新说话人的语音。

现有的方法中大多采用使用多维概率分布的方式来建模目标人声表征向量，在推理过程中从先验分布中进行采样得到新的目标人声表征向量。例如：采用多维高斯分布来建模说话人表征，即首先训练多说话人的语音合成模型，使用该语音合成模型中的说话人嵌入作为说话人表征，并使用地域和性别作为高斯分布的条件来建模说话人表征，最终通过从高斯分布中采样得到新的说话人表征。

然而，现有技术中存在音色生成过程的可控性不足和对于有标注的语音合成训练数据需求较大的缺陷。由于现有音色生成方案通常采用较为简单的先验分布来建模说话人表征，所以较难在这个过程中对音色的特点进行控制，从而造成可控性不足的问题，例如从音色的年龄段和主观感受(音色的浑厚与否、甜美与否)上进行控制。同时，由于整个模型需要大量的说话人音色的数据才能实现生成新的音色，所以需要大量说话人的有标注语音合成数据，对于有标注的语音合成训练数据需求较大，带来了很高的数据门槛。

基于此，本公开实施例提供的一种语音数据的处理方法、装置、电子设备和可读存储介质，具体提供了一种可控音色的生成方法，可以提高音色生成系统的可控性，并且降低数据门槛。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种语音数据的处理方法进行详细介绍。

本实施例提供了一种语音数据的处理方法，参见图1所示的一种语音数据的处理方法的流程图，该语音数据的处理方法包括如下步骤：

步骤S102，获取目标说话人的人声标签和文本数据。

本实施例中可以预先设置不同的人声标签，用于表征不同说话人的特征，该特征可以包括说话人的特征，也可以包括说话人的人声特征。示例性的，人声标签可以包括说话人年龄、说话人性别、音色，例如：可以设置浑厚程度、甜美程度等作为人声标签。

举例来说，本实施例可以先针对每个音色设定一个参考音频，例如“深沉”这个音色，选取一个符合深沉音色的声音和一个不符合深沉音色的人的声音分别作为这个特点的“1.0”和“0.0”参考值，后续所有人的标注根据这个参考值进行，例如某个人介于二者中间就标注“0.5”作为人声标签。

文本数据可以理解为目标说话人想要说出的内容，即生成的目标说话人的语音数据对应的文字内容。可以通过文本处理模块获取文本数据，例如：本实施例可以获取目标说话人的目标文本，基于预先训练好的文本处理模块获取目标文本的文本数据。文本数据可以包括音素数据，本实施例中的文本数据可以为经过语音合成前端处理得到的音素级数据(例如k ei3 p u3 p ei2)。

本实施例中的输入可以为目标说话人的人声标签和文本数据，输出可以为人声标签对应的语音数据。在本实施例中通过两部分实现，一部分是音色生成模型，用于根据人声标签生成人声表征向量；另一部分是语音合成模型，用于根据人声表征向量和文本生成目标说话人的语音数据。

步骤S104，将人声标签输入预先训练完成的音色生成模型，生成目标说话人的目标人声表征向量，其中，音色生成模型根据对多维先验概率分布进行采样的采样结果与人声标签生成目标人声表征向量。

音色生成模型的输入可以为人声标签与多维先验概率分布的采样结果，输出可以为目标说话人的目标人声表征向量，人声表征向量可以为一个表征音色的固定维度的向量。

音色生成模型在训练过程中，是将带人声标注的各类型人声样本的样本人声表征向量进行变换，使得变换后的样本人声表征向量满足多维先验概率分布，可以理解为音色生成模型学习了将人声表征向量变换为多维先验概率分布的变换规则，并且该变换规则是与各类型的人声标注对应的。其中，人声标注与人声标签是对应的。多维先验概率分布是预先指定的一种多维的概率分布，例如高斯分布、拉普拉斯分布或者泊松分布等。而在音色生成模型的使用过程中，训练完成的音色生成模型则可以根据人声标签，以及学习到的变换规则的逆变换，将多维先验概率分布的随机采样通过逆变换得到目标人声表征向量。由于多维先验概率分布的采样是随机的，因此通过音色生成模型，理论上是可以不限数量地生成与人声标签对应的新的人声表征向量。

其中，本实施例中对多维先验概率分布进行采样的采样结果可以为多维采样向量。多维采样向量与目标人声表征向量的维度可以相同也可以不相同。

在一些实施例中，多维采样向量与目标人声表征向量的维度相同，若目标人声表征向量的维度高于多维采样向量，则将高维度映射到低维度可能会降低映射的准确率；若目标人声表征向量的维度低于多维采样向量，则将低维度映射到高维度可能会增加需要的计算资源。

在一些实施例中，人声标签包括人声分类标签和音色特征标签，可以根据人声分类标签确定与人声分类标签对应的第一音色生成模型；第一音色生成模型是多个预先训练完成的音色生成模型中的一个；将音色特征标签输入第一音色生成模型，生成目标说话人的目标人声表征向量。

更进一步地，本实施例的人声分类标签包括性别分类标签和年龄分类标签，音色特征标签包括预设的音色描述标签。

示例性的，性别分类标签包括男、女；年龄分类标签包括幼年、青年、成年、老年，根据上述标签的不同组合，将人声分类标签划分为八类，每一类人声分类标签单独训练一个音色生成模型，音色特征标签则作为训练各个音色生成模型过程中的样本标注。在使用音色生成模型时，可以先根据人声分类标签从八个音色生成模型中确定与该人声分类标签对应的第一音色生成模型，再将音色特征标签输入该第一音色生成模型，生成目标说话人的目标人声表征向量。这样，可以使得不同人声分类的音色生成模型更加准确，从而使得生成的目标人声向量也更加准确。

音色生成模型可以针对各类型的人声标签训练一个模型，也可以对每一类人声分类标签训练一个模型。其中，如果只训练一个音色生成模型，可以在256维的多维先验概率分布上采样，把说话人声分类标签和音色特征标签(男、青年、浑厚)一起输进去，得到预测的256维的目标人声表征向量。

如果对每一类人声分类标签训练一个音色生成模型，则可以先在256维的多维先验概率分布上采样，得到256维的向量，把这个256维的向量输入人声分类标签对应的第一音色生成模型(假设是男、青年对应的模型)，同时把音色特征标签(浑厚或不浑厚)输入该第一音色生成模型，得到预测的256维的目标人声表征向量。其中，在256维的多维先验概率分布采样的过程可以是256个单独的N(0，1)采样256个数。

音色描述标签可以表征声音的浑厚程度或甜美程度，例如：可以将男声的浑厚程度、女声的甜美程度等进行量化，作为音色描述标签。

更进一步地，本实施例中的音色生成模型可以为非线性可逆变换流模型。示例性的，上述非线性可逆变换流模型可以为Glow模型，Glow模型可以建立在标准化流(Normalizing Flow)的基础上，标准化流可以理解成是一系列可逆函数的复合，能够将简单分布(如多维先验概率分布)变换成复杂分布(例如本实施例中的目标人声表征向量)，且该变换是完全可逆的。

步骤S106，将目标人声表征向量和文本数据输入预先训练完成的语音合成模型，生成目标说话人的语音数据。

在音色生成模型输出目标人声表征向量之后，与音色生成模型级联的语音合成模型可以接收音色生成模型输出的目标人声表征向量，根据目标人声表征向量和文本数据输出目标说话人的语音数据，输出的语音数据既可以控制说话人的音色特点，又可以控制说话人的语音内容。其中，语音合成模型可以为任何训练好的模型，用于将输入的目标人声表征向量和文本数据输出为目标说话人的语音数据。

在一些实施例中，可以将文本数据输入预先训练完成的语音合成模型的第一子模型，通过第一子模型生成文本数据的瓶颈特征；将目标人声表征向量和瓶颈特征输入语音合成模型的第二子模型，通过第二子模型生成目标说话人的语音数据。

参见图2所示的一种音色生成模型和语音合成模型的示意图，音色生成模型可以根据人声标签生成可控的目标人声表征向量；语音合成模型可以将文本数据和目标人声表征向量作为输入，合成对应的语音数据。其中，本实施例中的文本数据可以为经过语音合成前端处理得到的音素级数据。

如图2所示，本实施例中的语音合成模型可以分为第一子模型和第二子模型。第一子模型的输入可以是文本数据，输出可以是瓶颈特征；瓶颈特征可以是不包含音色相关信息的特征。

在一些实施例中，瓶颈特征包括帧级语义特征。瓶颈特征中可以仅包含帧级的语义相关信息而不包含音色相关信息。

如图2所示，第二子模型的输入可以是瓶颈特征和目标人声表征向量，输出可以是语音数据。目标人声表征向量可以由音色生成模型输出，因此，目标人声表征向量包含音色相关信息，第二子模型输出的输出语音数据也包含音色相关信息。

在语音合成模型输出目标说话人的语音数据之后，可以将该语音数据发送至手机、电脑、服务器等具有通信功能的终端设备，上述终端设备可以播放的语音数据。

本公开实施例提供了一种语音数据的处理方法，将人声标签输入预先训练完成的音色生成模型，生成目标说话人的目标人声表征向量；将目标人声表征向量和文本数据输入预先训练完成的语音合成模型，生成目标说话人的语音数据。该方式中，通过音色生成模型可以分类生成不同类型的人声和音色的目标人声表征向量；通过语音合成模型可以生成目标说话人的语音数据，从而控制目标说话人的语音数据的音色特点，提高说话人音色生成的可控性。

可选的实施例中的预先训练音色生成模型的过程可以包括：获取第一样本人声表征向量和第一样本标注，将第一样本人声表征向量和第一样本标注输入音色生成模型；第一样本标注包括第一样本人声表征向量的人声标注；音色生成模型对第一样本人声表征向量进行变换，使经过变换后的第一样本人声表征向量服从多维先验概率分布；根据经过变换后的第一样本人声表征向量与多维先验概率分布计算第一损失函数；以第一损失函数最小化为训练目标，调整音色生成模型的模型参数，得到对应于第一样本标注的训练完成的音色生成模型。

本实施例可以将说话人按照人声分类标签进行分类标注。其中，人声标注与人声标签是对应的。本实施例中可以预先设置不同的人声标注，用于表征不同说话人的特征，该特征可以包括说话人的特征，也可以包括说话人的人声特征。示例性的，人声标注可以包括说话人年龄、说话人性别、音色，例如：可以设置浑厚程度、甜美程度等作为人声标注。

本实施例中的音色生成模型可以对第一样本人声表征向量进行变换，使变换后的第一样本人声表征向量服从多维先验概率分布。可以根据经过变换后的第一样本人声表征向量与多维先验概率分布计算第一损失函数，第一损失函数可以表征变换后的第一样本人声表征向量与多维先验概率分布的相似程度。可选的，第一损失函数用于表征变换后的第一样本人声表征向量与多维先验概率分布的差异度，第一损失函数越小，则变换后的第一样本人声表征向量与多维先验概率分布越相似。

因此，本实施例可以以第一损失函数最小化为训练目标，通过调整模型参数，使变换后的第一样本人声表征向量与多维先验概率分布最相似，从而得到对应于第一样本标注的训练完成的音色生成模型。多维先验概率分布是预先指定的一种多维的概率分布，例如高斯分布、拉普拉斯分布或者泊松分布等。

在一些实施例中，第一样本人声表征向量的人声标注可以包括人声分类标注和音色特征标注。其中，人声分类标注可以包括性别分类标注和年龄分类标注，音色特征标注包括预设的音色描述标注。

相应地，在一些实施例中，可以预先根据人声分类标注分别建立不同的待训练音色生成模型；根据人声分类标注确认目标待训练音色生成模型；将音色特征标注输入目标待训练音色生成模型。

示例性的，性别分类标注包括男、女；年龄分类标注包括幼年、青年、成年、老年。根据上述标注的不同组合，将人声分类标注划分为八类，每一类人声分类标注单独训练一个音色生成模型，音色特征标注则作为训练各个音色生成模型过程中的样本标注。在训练音色生成模型时，可以先根据人声分类标注确认一个音色生成模型作为目标待训练音色生成模型，再将音色特征标注输入目标待训练音色生成模型，完成对目标待训练音色生成模型的训练。这样，可以使得不同人声分类的音色生成模型更加准确，从而使得生成的目标人声表征向量也更加准确。

在一些实施例中，本实施例中的多维先验概率分布可以为高斯分布。高速分布具有分布相对简单，常用，采样方便等优势。

本实施例可以基于人声标注确定目标说话人的高斯分布；将人声标注输入预先训练完成的音色生成模型，输出满足高斯分布的目标人声表征向量。

参见图3所示的一种音色生成模型的示意图，其中，音色生成模型可以包括非线性可逆变换流模型，该流模型为多层堆叠的结构，流模型的每一层均包括归一化层、可逆一维卷积和耦合层。

本实施例中的流模型可以为Glow模型，Glow模型可以建立在标准化流(Normalizing Flow)的基础上，标准化流可以理解成是一系列可逆函数的复合，能够将简单分布(如高斯分布)变换成复杂分布(例如本实施例中的目标人声表征向量)，且该变换是完全可逆的。

在一些实施例中，本实施例中的Glow模型为多层堆叠结构，每一层均包括：归一化层(actnorm)、可逆一维卷积(invertible 1×1convolution)和耦合层(coupling layer)。本实施例中可以将第一样本标注输入仿射耦合变换层，通过仿射耦合变换层对第一样本人声表征向量进行变换。

在一些实施例中，本实施例可以计算经过变换后的第一样本人声表征向量与高斯分布的相对熵，或者称为Kullback-Leibler，KL散度，将相对熵作为第一损失函数。

如图3所示，Glow模型可以获取人声标签作为条件，并对目标人声表征向量进行变换，Glow模型实现了分布之间的变换，经过变换后的第一样本人声表征向量与高斯分布计算相对熵作为第一损失函数，来保证变换后的第一样本人声表征向量服从高斯分布。通过上述方式，在推理过程中可以从高斯分布中采样并经过Glow模型的逆变换来得到新的目标人声表征向量。

在一些实施例中，第一样本人声表征向量和多维先验概率分布的维度相同。可以在不降低映射的准确率的基础上，尽量减少需要的计算资源。

此外，在对音色生成模型进行训练时，本实施例可以获取第一样本人声音频，通过训练完成的声纹特征模型获取第一样本人声音频的第一人声表征向量。

本实施例中的音色生成模型和语音合成模型可以分开进行训练，可以使用预先训练的声纹模型提取第一样本人声音频的第一人声表征向量，将提取的目标人声表征向量作为音色生成模型和语音合成模型的中间特征，以供音色生成模型和语音合成模型进行训练。

现有技术中需要大量说话人的有标注数据进行训练，为了降低对于有标注训练数据的需求，本实施例可以使用大量多说话人的无标注数据和少量单说话人的有标注数据来训练语音合成模块。为此，如图2所示，本实施例中的语音合成模型可以分为第一子模型和第二子模型；第一子模型的输入可以为文本数据，输出可以为瓶颈特征；第二子模型的输入可以为瓶颈特征，输出可以为语音数据。

可选的实施例中，语音合成模型包括第一子模型和第二子模型，预先训练语音合成模型的过程可以包括：获取第二样本人声音频、第二样本人声音频的瓶颈特征标注以及第三样本人声音频；通过第二样本人声音频以及第二样本人声音频的瓶颈特征标注训练第一子模型，以使训练完成的第一子模型根据人声音频获取瓶颈特征；通过第三样本人声音频训练第二子模型，以使训练完成的第二子模型根据人声音频的瓶颈特征以及人声表征向量生成目标语音。

本实施例中的语音合成模型包括第一子模型和第二子模型，第一子模型和第二子模型可以分开分别进行训练，第一子模型和第二子模型使用的训练样本可以相同也可以不同。

参见图4所示的一种第一子模型的示意图，第一子模型可以使用少量单说话人的有标注数据进行训练，实现从文本数据预测帧级瓶颈特征的任务。参见图5所示的一种第二子模型的示意图，第二子模型可以大量使用多说话人的无标注数据进行训练，这些无标注数据只有音频而没有对应文本标注，最终第一子模型和第二子模型级联起来就得到了所需的语音合成模型。通过上述方式，可以使用无标注的多说话人数据来训练语音合成模型的第二子模型，从而降低了对于有标注训练数据的需求。

其中，在对第一子模型和第二子模型进行训练时，本实施例可以通过预先训练的语音识别模型提取瓶颈特征。其中，语音识别模型可以为ASR(Automatic SpeechRecognition，语音识别)模型，瓶颈特征可以为使用预训练的ASR模型提取的隐层特征，例如：使用Wenet语音识别模型的编码器提取512维的瓶颈特征，提取的瓶颈特征的序列长度与频谱长度一致。

在一些实施例中，在对第一子模型进行训练时，可以根据第二样本人声音频生成样本文本；将样本文本输入第一子模型，获取第一瓶颈特征；根据第一瓶颈特征和第二样本人声音频的瓶颈特征标注计算第二损失函数；以第二损失函数最小化为目标，对第一子模型进行训练，得到训练完成的第一子模型。

在对第一子模型进行训练时，本实施例可以基于预先训练的语音识别模型提取单说话人的有标注数据(即上述第二样本人声音频)的第一瓶颈特征；基于第一瓶颈特征和第二样本人声音频的瓶颈特征训练语音合成模型的第一子模型。在训练第一子模型时，本实施例可以使用预先训练的语音识别模型提取单说话人的有标注数据的瓶颈特征，以供第一子模型进行训练。

其中，第二样本人声音频可以为音素标注，样本文本为音素文本；本实施例可以将第二样本人声音频转换成文字文本，根据文字文本获取音素文本。

本实施例中的第一子模型可以为Text2BN模型，Text2BN模型可以根据给定的音素序列预测瓶颈特征，瓶颈特征可以包括帧级语义特征，与语义相关与音色无关。其中，Text2BN模型的第二损失函数可以为L2 loss损失函数，是基于预测的瓶颈特征跟真实的瓶颈特征计算的。

训练第一子模型时可以获取带标注的第二样本人声音频，音素标注是文本转换成了音素之后人工修正的结果，通过文本处理模块可以把汉字转成音素，在最终使用的时候可以先把汉字转成音素再作为文本输入Text2BN模型。

图4中的时长扩展可以理解为音素序列扩展成帧序列，帧序列比音素序列要长几倍。图4中的时长预测器用于预测每个音素要扩展成多少帧。

在一些实施例中，在对第二子模型进行训练时，本实施例可以获取第三样本人声音频的第二瓶颈特征以及第二人声表征向量；将第二瓶颈特征以及第二人声表征向量输入第二子模型，第二子模型包括生成对抗网络，生成对抗网络用于根据第二瓶颈特征以及第二人声表征向量生成目标语音，以第三样本人声音频作为生成对抗网络的真实样本；以生成对抗网络的判别器损失函数最小化为目标，对第二子模型进行训练，得到训练完成的第二子模型。

在对第二子模型进行训练时，本实施例可以基于语音识别模型提取多说话人的无标注数据(即第三样本人声音频)的第二瓶颈特征；基于预先训练的声纹模型提取多说话人的无标注数据的第二人声表征向量；基于无标注数据、无标注数据的第二瓶颈特征和无标注数据的第二人声表征向量训练语音合成模型的第二子模型。在训练第二子模型时，本实施例可以使用预先训练的语音识别模型提取多说话人的无标注数据的瓶颈特征，以供第二子模型进行训练。

在一些实施例中，本实施例可以根据生成的目标语音的梅尔谱与第三样本人声音频的梅尔谱计算第三损失函数；以生成对抗网络的判别器损失函数以及第三损失函数最小化为目标，对第二子模型进行训练。

本实施例中的第二子模型可以为BN2wav模型，BN2wav模型可以是一个生成对抗网络(GAN，Generative Adversarial Networks)的结构，因此，第三损失函数可以包括两个，一个是梅尔谱损失函数(mel loss)，一个是判别器损失函数。

在一些实施例中，上述判别器损失函数可以为：上述梅尔谱损失函数可以为：/>也即，使用BN2wav模型合成的第三样本人声音频的梅尔谱，与真实语音的目标语音的梅尔谱对比来计算第三损失函数。

此外，生成器可以根据大量说话人音频数据的瓶颈特征生成语音数据，判别器会判断生成的语音与大量说话人音频数据的真伪，以此达到根据语音数据生成真实的人声的目的。并且，在此过程中，瓶颈特征可以连接目标人声表征向量，这样也可以在生成过程中以目标人声表征向量为生成因素。

综上，第一子模型可以为Text2BN模型，第二子模型可以为BN2wav模型，Text2BN模型和BN2wav模型级联即可得到完整的语音合成模型，完成根据文本数据和目标人声表征向量来合成语音数据的功能。在合成语音数据的过程中，音色生成模型生成的新的目标人声表征向量可以作为合成条件输入第二子模型，在一些实施例中，可以将一维的目标人声表征向量经过一层全连接层后与瓶颈特征进行拼接，随后输入第二子模型的结构中。

本公开实施例提供的上述方法，可以使用少量单说话人的有标注数据训练语音合成模型的第一子模型，使用大量多说话人的无标注数据训练语音合成模型的第二子模型，无需全部使用有标注数据训练语音合成模型，降低了对于有标注训练数据的需求。

本公开实施例提供的上述方法，可以将表征说话人音色特点的人声标签作为输入，从而控制说话人的语音数据的音色特点，提高说话人音色生成的可控性。还可以使用少量单说话人的有标注数据训练语音合成模型的第一子模型，使用大量多说话人的无标注数据训练语音合成模型的第二子模型，无需全部使用有标注数据训练语音合成模型，降低了对于有标注训练数据的需求。

对应于上述方法实施例，本公开实施例提供了一种语音数据的处理装置。如图6所示的一种语音数据的处理装置的结构示意图，该语音数据的处理装置包括：

标签和数据获取模块61，用于获取目标说话人的人声标签和文本数据；

音色生成模型处理模块62，用于将人声标签输入预先训练完成的音色生成模型，生成目标说话人的目标人声表征向量，其中，音色生成模型根据对多维先验概率分布进行采样的采样结果与人声标签生成目标人声表征向量；

语音合成模型处理模块63，用于将目标人声表征向量和文本数据输入预先训练完成的语音合成模型，生成目标说话人的语音数据。

本公开实施例提供了一种语音数据的处理装置，将人声标签输入预先训练完成的音色生成模型，生成目标说话人的目标人声表征向量；将目标人声表征向量和文本数据输入预先训练完成的语音合成模型，生成目标说话人的语音数据。该方式中，通过音色生成模型可以分类生成不同类型的人声和音色的目标人声表征向量；通过语音合成模型可以生成目标说话人的语音数据，从而控制目标说话人的语音数据的音色特点，提高说话人音色生成的可控性。

在本公开的可选实施例中，上述对多维先验概率分布进行采样的采样结果为多维采样向量。

在本公开的可选实施例中，上述多维采样向量与目标人声表征向量的维度相同。

在本公开的可选实施例中，上述人声标签包括人声分类标签和音色特征标签；音色生成模型处理模块，用于根据人声分类标签确定与人声分类标签对应的第一音色生成模型；第一音色生成模型是多个预先训练完成的音色生成模型中的一个；将音色特征标签输入第一音色生成模型，生成目标说话人的目标人声表征向量。

在本公开的可选实施例中，上述人声分类标签包括性别分类标签和年龄分类标签，音色特征标签包括预设的音色描述标签。

在本公开的可选实施例中，上述音色生成模型为非线性可逆变换流模型。

在本公开的可选实施例中，上述语音合成模型处理模块，用于将文本数据输入预先训练完成的语音合成模型的第一子模型，通过第一子模型生成文本数据的瓶颈特征；将目标人声表征向量和瓶颈特征输入语音合成模型的第二子模型，通过第二子模型生成目标说话人的语音数据。

在本公开的可选实施例中，上述瓶颈特征包括帧级语义特征。

在本公开的可选实施例中，上述标签和数据获取模块，用于获取目标说话人的目标文本，基于预先训练完成的文本处理模块获取目标文本的文本数据，文本数据包括音素数据。

参见图7所示的另一种语音数据的处理装置的结构示意图，该语音数据的处理装置还包括：音色生成模型训练模块64，与音色生成模型处理模块62连接，音色生成模型训练模块64用于获取第一样本人声表征向量和第一样本标注，将第一样本人声表征向量和第一样本标注输入音色生成模型；第一样本标注包括第一样本人声表征向量的人声标注；音色生成模型对第一样本人声表征向量进行变换，使经过变换后的第一样本人声表征向量服从多维先验概率分布；根据经过变换后的第一样本人声表征向量与多维先验概率分布计算第一损失函数；以第一损失函数最小化为训练目标，调整音色生成模型的模型参数，得到对应于第一样本标注的训练完成的音色生成模型。

在本公开的可选实施例中，上述第一样本人声表征向量的人声标注包括人声分类标注和音色特征标注。

在本公开的可选实施例中，预先根据人声分类标注分别建立不同的待训练音色生成模型；上述音色生成模型训练模块，用于根据人声分类标注确认目标待训练音色生成模型；将音色特征标注输入目标待训练音色生成模型。

在本公开的可选实施例中，上述多维先验概率分布为高斯分布。

在本公开的可选实施例中，上述音色生成模型训练模块，用于计算经过变换后的第一样本人声表征向量与高斯分布的相对熵，将相对熵作为第一损失函数。

在本公开的可选实施例中，上述音色生成模型包括非线性可逆变换流模型，流模型为多层堆叠结构，流模型的每一层均包括归一化层、可逆卷积层和仿射耦合变换层；上述音色生成模型训练模块，用于将第一样本标注输入仿射耦合变换层。

在本公开的可选实施例中，上述第一样本人声表征向量和多维先验概率分布的维度相同。

在本公开的可选实施例中，上述音色生成模型训练模块，用于获取第一样本人声音频，通过训练完成的声纹特征模型获取第一样本人声音频的第一人声表征向量。

在本公开的可选实施例中，上述语音合成模型包括第一子模型和第二子模型，如图7所示，该语音数据的处理装置还包括：语音合成模型训练模块65，与语音合成模型处理模块63连接，语音合成模型训练模块65用于获取第二样本人声音频、第二样本人声音频的瓶颈特征标注以及第三样本人声音频；通过第二样本人声音频以及第二样本人声音频的瓶颈特征标注训练第一子模型，以使训练完成的第一子模型根据人声音频获取瓶颈特征；通过第三样本人声音频训练第二子模型，以使训练完成的第二子模型根据人声音频的瓶颈特征以及人声表征向量生成目标语音。

在本公开的可选实施例中，上述语音合成模型训练模块，用于根据第二样本人声音频生成样本文本；将样本文本输入第一子模型，获取第一瓶颈特征；根据第一瓶颈特征和第二样本人声音频的瓶颈特征标注计算第二损失函数；以第二损失函数最小化为目标，对第一子模型进行训练，得到训练完成的第一子模型。

在本公开的可选实施例中，上述第二样本人声音频为音素标注，样本文本为音素文本；上述语音合成模型训练模块，用于根将第二样本人声音频转换成文字文本，根据文字文本获取音素文本。

在本公开的可选实施例中，上述语音合成模型训练模块，用于获取第三样本人声音频的第二瓶颈特征以及第二人声表征向量；将第二瓶颈特征以及第二人声表征向量输入第二子模型，第二子模型包括生成对抗网络，生成对抗网络用于根据第二瓶颈特征以及第二人声表征向量生成目标语音，以第三样本人声音频作为生成对抗网络的真实样本；以生成对抗网络的判别器损失函数最小化为目标，对第二子模型进行训练，得到训练完成的第二子模型。

在本公开的可选实施例中，上述语音合成模型训练模块，还用于根据生成的目标语音的梅尔谱与第三样本人声音频的梅尔谱计算第三损失函数；以生成对抗网络的判别器损失函数以及第三损失函数最小化为目标，对第二子模型进行训练。

本公开实施例提供的语音数据的处理装置，与上述实施例提供的语音数据的处理方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

本公开实施例还提供了一种电子设备，用于运行上述语音数据的处理方法；参见图8所示的一种电子设备的结构示意图，该电子设备包括存储器100和处理器101，其中，存储器100用于存储一条或多条计算机指令，一条或多条计算机指令被处理器101执行，以执行以下步骤：

获取目标说话人的人声标签和文本数据；将人声标签输入预先训练完成的音色生成模型，生成目标说话人的目标人声表征向量，其中，音色生成模型根据对多维先验概率分布进行采样的采样结果与人声标签生成目标人声表征向量；将目标人声表征向量和文本数据输入预先训练完成的语音合成模型，生成目标说话人的语音数据。

在本公开的可选实施例中，上述人声标签包括人声分类标签和音色特征标签；将人声标签输入预先训练完成的音色生成模型，生成目标说话人的目标人声表征向量，包括：根据人声分类标签确定与人声分类标签对应的第一音色生成模型；第一音色生成模型是多个预先训练完成的音色生成模型中的一个；将音色特征标签输入第一音色生成模型，生成目标说话人的目标人声表征向量。

在本公开的可选实施例中，上述将目标人声表征向量和文本数据输入预先训练完成的语音合成模型，生成目标说话人的语音数据，包括：将文本数据输入预先训练完成的语音合成模型的第一子模型，通过第一子模型生成文本数据的瓶颈特征；将目标人声表征向量和瓶颈特征输入语音合成模型的第二子模型，通过第二子模型生成目标说话人的语音数据。

在本公开的可选实施例中，上述获取目标说话人的文本数据，包括：获取目标说话人的目标文本，基于预先训练完成的文本处理模块获取目标文本的文本数据，文本数据包括音素数据。

在本公开的可选实施例中，上述预先训练音色生成模型的过程包括：获取第一样本人声表征向量和第一样本标注，将第一样本人声表征向量和第一样本标注输入音色生成模型；第一样本标注包括第一样本人声表征向量的人声标注；音色生成模型对第一样本人声表征向量进行变换，使经过变换后的第一样本人声表征向量服从多维先验概率分布；根据经过变换后的第一样本人声表征向量与多维先验概率分布计算第一损失函数；以第一损失函数最小化为训练目标，调整音色生成模型的模型参数，得到对应于第一样本标注的训练完成的音色生成模型。

在本公开的可选实施例中，上述预先根据人声分类标注分别建立不同的待训练音色生成模型；将第一样本标注输入音色生成模型，包括：根据人声分类标注确认目标待训练音色生成模型；将音色特征标注输入目标待训练音色生成模型。

在本公开的可选实施例中，上述根据经过变换后的第一样本人声表征向量与多维先验概率分布计算第一损失函数，包括：计算经过变换后的第一样本人声表征向量与高斯分布的相对熵，将相对熵作为第一损失函数。

在本公开的可选实施例中，上述音色生成模型包括非线性可逆变换流模型，流模型为多层堆叠结构，流模型的每一层均包括归一化层、可逆卷积层和仿射耦合变换层；将第一样本标注输入音色生成模型，包括：将第一样本标注输入仿射耦合变换层。

在本公开的可选实施例中，上述获取第一样本人声表征向量，包括：获取第一样本人声音频，通过训练完成的声纹特征模型获取第一样本人声音频的第一人声表征向量。

在本公开的可选实施例中，上述语音合成模型包括第一子模型和第二子模型，预先训练语音合成模型的过程包括：获取第二样本人声音频、第二样本人声音频的瓶颈特征标注以及第三样本人声音频；通过第二样本人声音频以及第二样本人声音频的瓶颈特征标注训练第一子模型，以使训练完成的第一子模型根据人声音频获取瓶颈特征；通过第三样本人声音频训练第二子模型，以使训练完成的第二子模型根据人声音频的瓶颈特征以及人声表征向量生成目标语音。

在本公开的可选实施例中，上述通过第二样本人声音频以及第二样本人声音频的瓶颈特征标注训练第一子模型，包括：根据第二样本人声音频生成样本文本；将样本文本输入第一子模型，获取第一瓶颈特征；根据第一瓶颈特征和第二样本人声音频的瓶颈特征标注计算第二损失函数；以第二损失函数最小化为目标，对第一子模型进行训练，得到训练完成的第一子模型。

在本公开的可选实施例中，上述第二样本人声音频为音素标注，样本文本为音素文本；根据第二样本人声音频生成样本文本包括：将第二样本人声音频转换成文字文本，根据文字文本获取音素文本。

在本公开的可选实施例中，上述通过第三样本人声音频训练第二子模型，包括：获取第三样本人声音频的第二瓶颈特征以及第二人声表征向量；将第二瓶颈特征以及第二人声表征向量输入第二子模型，第二子模型包括生成对抗网络，生成对抗网络用于根据第二瓶颈特征以及第二人声表征向量生成目标语音，以第三样本人声音频作为生成对抗网络的真实样本；以生成对抗网络的判别器损失函数最小化为目标，对第二子模型进行训练，得到训练完成的第二子模型。

在本公开的可选实施例中，上述通过第三样本人声音频训练第二子模型，还包括：根据生成的目标语音的梅尔谱与第三样本人声音频的梅尔谱计算第三损失函数；以生成对抗网络的判别器损失函数以及第三损失函数最小化为目标，对第二子模型进行训练。

本公开实施例将人声标签输入预先训练完成的音色生成模型，生成目标说话人的目标人声表征向量；将目标人声表征向量和文本数据输入预先训练完成的语音合成模型，生成目标说话人的语音数据。该方式中，通过音色生成模型可以分类生成不同类型的人声和音色的目标人声表征向量；通过语音合成模型可以生成目标说话人的语音数据，从而控制目标说话人的语音数据的音色特点，提高说话人音色生成的可控性。

进一步地，图8所示的电子设备还包括总线102和通信接口103，处理器101、通信接口103和存储器100通过总线102连接。

其中，存储器100可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线102可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器101可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processor，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器100，处理器101读取存储器100中的信息，结合其硬件完成前述实施例的方法的步骤。

本公开实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现上述语音数据的处理方法，可以执行以下步骤：

本公开实施例所提供的语音数据的处理方法、装置、电子设备和可读存储介质的计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行前面方法实施例中的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和/或装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本公开实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本公开中的具体含义。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)执行本公开各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本公开的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本公开和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本公开的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音数据的处理方法，其特征在于，所述方法包括：

获取目标说话人的人声标签和文本数据；

将所述人声标签输入预先训练完成的音色生成模型，生成所述目标说话人的目标人声表征向量，其中，所述音色生成模型根据对多维先验概率分布进行采样的采样结果与所述人声标签生成所述目标人声表征向量；

将所述目标人声表征向量和所述文本数据输入预先训练完成的语音合成模型，生成所述目标说话人的语音数据。

2.根据权利要求1所述的方法，其特征在于，所述对多维先验概率分布进行采样的采样结果为多维采样向量。

3.根据权利要求2所述的方法，其特征在于，所述多维采样向量与所述目标人声表征向量的维度相同。

4.根据权利要求1所述的方法，其特征在于，所述人声标签包括人声分类标签和音色特征标签；将所述人声标签输入预先训练完成的音色生成模型，生成所述目标说话人的目标人声表征向量，包括：

根据所述人声分类标签确定与所述人声分类标签对应的第一音色生成模型；所述第一音色生成模型是多个预先训练完成的音色生成模型中的一个；

将所述音色特征标签输入所述第一音色生成模型，生成所述目标说话人的目标人声表征向量。

5.根据权利要求4所述的方法，其特征在于，所述人声分类标签包括性别分类标签和年龄分类标签，所述音色特征标签包括预设的音色描述标签。

6.根据权利要求1所述的方法，其特征在于，所述音色生成模型为非线性可逆变换流模型。

7.根据权利要求1所述的方法，其特征在于，将所述目标人声表征向量和所述文本数据输入预先训练完成的语音合成模型，生成所述目标说话人的语音数据，包括：

将所述文本数据输入预先训练完成的语音合成模型的第一子模型，通过所述第一子模型生成所述文本数据的瓶颈特征；

将所述目标人声表征向量和所述瓶颈特征输入所述语音合成模型的第二子模型，通过所述第二子模型生成所述目标说话人的语音数据。

8.根据权利要求7所述的方法，其特征在于，所述瓶颈特征包括帧级语义特征。

9.根据权利要求1所述的方法，其特征在于，获取目标说话人的文本数据，包括：

获取目标说话人的目标文本，基于预先训练完成的文本处理模块获取所述目标文本的文本数据，所述文本数据包括音素数据。

10.根据权利要求1所述的方法，其特征在于，预先训练所述音色生成模型的过程包括：

获取第一样本人声表征向量和第一样本标注，将所述第一样本人声表征向量和所述第一样本标注输入所述音色生成模型；所述第一样本标注包括所述第一样本人声表征向量的人声标注；

所述音色生成模型对所述第一样本人声表征向量进行变换，使经过变换后的所述第一样本人声表征向量服从所述多维先验概率分布；

根据经过变换后的第一样本人声表征向量与所述多维先验概率分布计算第一损失函数；

以所述第一损失函数最小化为训练目标，调整所述音色生成模型的模型参数，得到对应于所述第一样本标注的训练完成的所述音色生成模型。

11.根据权利要求10所述的方法，其特征在于，所述第一样本人声表征向量的人声标注包括人声分类标注和音色特征标注。

12.根据权利要求11所述的方法，其特征在于，预先根据所述人声分类标注分别建立不同的待训练音色生成模型；将所述第一样本标注输入所述音色生成模型，包括：

根据所述人声分类标注确认目标待训练音色生成模型；

将所述音色特征标注输入所述目标待训练音色生成模型。

13.根据权利要求10所述的方法，其特征在于，所述多维先验概率分布为高斯分布。

14.根据权利要求13所述的方法，其特征在于，根据经过变换后的第一样本人声表征向量与所述多维先验概率分布计算第一损失函数，包括：

计算经过变换后的第一样本人声表征向量与所述高斯分布的相对熵，将所述相对熵作为第一损失函数。

15.根据权利要求10所述的方法，其特征在于，所述音色生成模型包括非线性可逆变换流模型，所述流模型为多层堆叠结构，所述流模型的每一层均包括归一化层、可逆卷积层和仿射耦合变换层；将所述第一样本标注输入所述音色生成模型，包括：

将所述第一样本标注输入所述仿射耦合变换层。

16.根据权利要求10所述的方法，其特征在于，所述第一样本人声表征向量和所述多维先验概率分布的维度相同。

17.根据权利要求10所述的方法，其特征在于，获取第一样本人声表征向量，包括：

获取第一样本人声音频，通过训练完成的声纹特征模型获取所述第一样本人声音频的第一人声表征向量。

18.根据权利要求1所述的方法，其特征在于，所述语音合成模型包括第一子模型和第二子模型，预先训练所述语音合成模型的过程包括：

获取第二样本人声音频、第二样本人声音频的瓶颈特征标注以及第三样本人声音频；

通过所述第二样本人声音频以及第二样本人声音频的瓶颈特征标注训练所述第一子模型，以使训练完成的所述第一子模型根据人声音频获取瓶颈特征；

通过所述第三样本人声音频训练所述第二子模型，以使训练完成的所述第二子模型根据人声音频的瓶颈特征以及人声表征向量生成目标语音。

19.根据权利要求18所述的方法，其特征在于，通过所述第二样本人声音频以及第二样本人声音频的瓶颈特征标注训练所述第一子模型，包括：

根据所述第二样本人声音频生成样本文本；

将所述样本文本输入所述第一子模型，获取第一瓶颈特征；

根据所述第一瓶颈特征和所述第二样本人声音频的瓶颈特征标注计算第二损失函数；

以所述第二损失函数最小化为目标，对所述第一子模型进行训练，得到训练完成的第一子模型。

20.根据权利要求19所述的方法，其特征在于，所述第二样本人声音频为音素标注，所述样本文本为音素文本；所述根据所述第二样本人声音频生成样本文本包括：

将所述第二样本人声音频转换成文字文本，根据所述文字文本获取音素文本。

21.根据权利要求18所述的方法，其特征在于，通过所述第三样本人声音频训练所述第二子模型，包括：

获取所述第三样本人声音频的第二瓶颈特征以及第二人声表征向量；

将所述第二瓶颈特征以及第二人声表征向量输入所述第二子模型，所述第二子模型包括生成对抗网络，所述生成对抗网络用于根据所述第二瓶颈特征以及所述第二人声表征向量生成目标语音，以所述第三样本人声音频作为所述生成对抗网络的真实样本；

以所述生成对抗网络的判别器损失函数最小化为目标，对所述第二子模型进行训练，得到训练完成的第二子模型。

22.根据权利要求21所述的方法，其特征在于，通过所述第三样本人声音频训练所述第二子模型，还包括：

根据生成的目标语音的梅尔谱与所述第三样本人声音频的梅尔谱计算第三损失函数；

以所述生成对抗网络的判别器损失函数以及所述第三损失函数最小化为目标，对所述第二子模型进行训练。

23.一种语音数据的处理装置，其特征在于，所述装置包括：

标签和数据获取模块，用于获取目标说话人的人声标签和文本数据；

音色生成模型处理模块，用于将所述人声标签输入预先训练完成的音色生成模型，生成所述目标说话人的目标人声表征向量，其中，所述音色生成模型根据对多维先验概率分布进行采样的采样结果与所述人声标签生成所述目标人声表征向量；

语音合成模型处理模块，用于将所述目标人声表征向量和所述文本数据输入预先训练完成的语音合成模型，生成所述目标说话人的语音数据。

24.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机可执行指令，所述处理器执行所述计算机可执行指令以实现权利要求1-22任一项所述的语音数据的处理方法。

25.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，所述计算机可执行指令促使处理器实现权利要求1-22任一项所述的语音数据的处理方法。