CN112509550A

CN112509550A - 语音合成模型训练方法、语音合成方法、装置及电子设备

Info

Publication number: CN112509550A
Application number: CN202011266576.4A
Authority: CN
Inventors: 郭俊龙; 赖勇铨; 贺亚运; 李美玲
Original assignee: China Citic Bank Corp Ltd
Current assignee: China Citic Bank Corp Ltd
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2021-03-16

Abstract

本申请提供了一种语音合成模型训练方法、语音合成方法、装置及电子设备，应用于语音处理领域，其中该方法包括：通过不同说话人的语音样本、语音样本对应的文本、说话人的标识进行语音合成模型的训练，从而得到能够合成多人语音的模型，进而可以根据该能够合成多人语音的模型生成多个人的合成语音，与现有技术每个说话人都需训练模型，合成多个人的语音需要训练多个模型相比，本申请不必训练多个模型，仅训练一个模型即可得到多人合成语音。

Description

语音合成模型训练方法、语音合成方法、装置及电子设备

技术领域

本申请涉及语音处理技术领域，具体而言，本申请涉及一种语音合成模型训练方法、语音合成方法、装置及电子设备。

背景技术

语音合成(Text to Speech，TTS)技术，即通过文本内容生成语音信号，涉及数字信号处理、计算机技术、声学、语言学。随着语音合成技术在各行各业的应用，对于语音合成的个性化需求越来越急迫，即根据不同的场景使用不同说话人的语音。因此产生了多人语音合成技术的需求，即能够根据不同场景的需求个性化的生成不同韵律的语音信号。在当前单人语音合成技术不断完善的情况下，如何快速高效并且合成带有不同韵律的多人语音，成为了一个亟待解决的难题。

发明内容

本申请提供了一种语音合成模型训练方法、语音合成方法、装置及电子设备，用于实现多人语音的合成，本申请采用的技术方案如下：

第一方面，提供了一种一种语音合成模型训练方法，包括：

获取第一训练语音样本、第一训练语音样本对应的文本、第一训练语音样本对应的说话人的标识；

确定第一训练语音样本对应的文本对应的第一文本向量，以及确定第一训练语音样本对应的说话人的标识对应的第一说话人向量；

基于第一文本向量与第一说话人向量确定第一拼接向量；

将第一拼接向量输入至预设的语音合成模型生成第一梅尔声谱图；

基于第一训练语音样本与生成的第一梅尔声谱图确定第一损失值，并基于确定的第一损失值判定预设的语音合成模型是否收敛；

如果预设的语音合成模型收敛，则得到训练成功的语音合成模型。

可选地，该方法还包括：

如果预设的语音合成模型不收敛，则基于损失值进行梯度下降调整预设的语音合成模型的参数，得到调整后的语音合成模型；

获取第二训练语音样本、第二训练语音样本对应的文本、第二训练语音样本对应的说话人的标识；

确定第二训练语音样本对应的文本对应的第二文本向量，以及确定第二训练语音样本对应的说话人的标识对应的第二说话人向量；

基于第二文本向量与第二说话人向量确定第二拼接向量；

将第二拼接向量输入至调整后语音合成模型生成第二梅尔声谱图；

基于第二训练语音样本与生成的第二梅尔声谱图确定第二损失值，并基于确定的第二损失值判定调整后语音合成模型是否收敛；

如果调整后的语音合成模型收敛，则得到训练成功的语音合成模型。

可选地，确定第一训练语音样本对应的第一文本向量，包括：

将第一训练语音样本对应的文本转换成带音调标识的拼音字符串；

基于预定的映射规则将拼音字符串转换为数字字符串；

基于数字字符串以及预训练的文本嵌入矩阵得到第一文本向量。

可选地，确定第一训练语音样本对应的说话人的标识对应的第一说话人向量，包括：

基于第一训练语音样本对应的说话人的标识通过预训练的说话人嵌入矩阵确定第一说话人向量。

可选地，该方法还包括：

获取目标说话人的训练语音样本、目标说话人的训练语音样本对应的文本、目标说话人的标识；

确定目标说话人的训练语音样本对应的文本对应的第三文本向量，以及确定目标说话人的标识对应的目标说话人向量；

基于第三文本向量与目标说话人向量确定第三拼接向量；

将第三拼接向量输入至训练好的语音合成模型生成第三梅尔声谱图；

基于目标说话人的训练语音样本与生成的第三梅尔声谱图确定第三损失值，并基于确定的第三损失值确定是否需要对训练成功好的语音合成模型继续进行训练；

如果需要继续训练，则基于目标说话人的至少一个其他训练语音样本及其他训练语音样本对应的文本、目标说话人的标识进行模型训练，直至训练成功得到更新后的语音合成模型。

第二方面，提供了一种语音合成方法，包括：

获取待合成语音文本、目标说话人标识；

确定待合成语音文本对应的第四文本向量，以及确定目标说话人标识对应的目标说话人向量；

基于第四文本向量与目标说话人向量确定第四拼接向量；

将第四拼接向量输入至训练成功的语音合成模型生成第四梅尔声谱图；

基于第四梅尔声谱图通过声码器生成目标合成语音。

可选地，确定待合成语音文本对应的第四文本向量，包括：

将待合成语音文本转换成带音调标识的目标拼音字符串；

基于预定的映射规则将目标拼音字符串转换为目标数字字符串；

基于目标数字字符串以及预训练的文本嵌入矩阵得到第四文本向量。

可选地，确定目标说话人标识对应的目标说话人向量，包括：

基于目标说话人的标识通过预训练的说话人嵌入矩阵确定目标说话人向量。

可选地，该方法还包括：

基于目标说话人标识判断训练成功的语音合成模型的训练样本的说话人是否包括目标说话人；

如果不包括目标说话人，则获取根据目标说话人的训练样本语音以及目标说话人的训练样本语音对应的文本、目标说话人的标识训练成功的更新后的语音合成模型；

将第四拼接向量输入至训练好的语音合成模型生成第四梅尔声谱图，包括：

将第四拼接向量输入至更新后的语音合成模型生成第四梅尔声谱图。

第三方面，提供了一种语音合成模型训练装置，包括：

第一获取模块，用于获取第一训练语音样本、第一训练语音样本对应的文本、第一训练语音样本对应的说话人的标识；

第一确定模块，用于确定第一训练语音样本对应的文本对应的第一文本向量，以及确定第一训练语音样本对应的说话人的标识对应的第一说话人向量；

第二确定模块，用于基于第一文本向量与第一说话人向量确定第一拼接向量；

第一生成模块，用于将第一拼接向量输入至预设的语音合成模型生成第一梅尔声谱图；

第三确定模块，用于基于第一训练语音样本与生成的第一梅尔声谱图确定第一损失值，并基于确定的第一损失值判定预设的语音合成模型是否收敛；

第一得到模块，用于如果预设的语音合成模型收敛，则得到训练成功的语音合成模型。

可选地，该装置还包括：

调整模块，用于如果预设的语音合成模型不收敛，则基于损失值进行梯度下降调整预设的语音合成模型的参数，得到调整后的语音合成模型；

第二获取模块，用于获取第二训练语音样本、第二训练语音样本对应的文本、第二训练语音样本对应的说话人的标识；

第四确定模块，用于确定第二训练语音样本对应的文本对应的第二文本向量，以及确定第二训练语音样本对应的说话人的标识对应的第二说话人向量；

第五确定模块，用于基于第二文本向量与第二说话人向量确定第二拼接向量；

第二生成模块，用于将第二拼接向量输入至调整后语音合成模型生成第二梅尔声谱图；

第六确定模块，用于基于第二训练语音样本与生成的第二梅尔声谱图确定第二损失值，并基于确定的第二损失值判定调整后语音合成模型是否收敛；

第二得到模块，用于如果调整后的语音合成模型收敛，则得到训练成功的语音合成模型。

可选地，第一确定模块包括：

第一转换单元，用于将第一训练语音样本对应的文本转换成带音调标识的拼音字符串；

第二转换单元，用一个基于预定的映射规则将拼音字符串转换为数字字符串；

得到单元，用于基于数字字符串以及预训练的文本嵌入矩阵得到第一文本向量。

可选地，第一确定模块具体还用于基于第一训练语音样本对应的说话人的标识通过预训练的说话人嵌入矩阵确定第一说话人向量。

可选地，该装置还包括：

第三获取模块，用于获取目标说话人的训练语音样本、目标说话人的训练语音样本对应的文本、目标说话人的标识；

第七确定模块，用于确定目标说话人的训练语音样本对应的文本对应的第三文本向量，以及确定目标说话人的标识对应的目标说话人向量；

第八确定模块，用于基于第三文本向量与目标说话人向量确定第三拼接向量；

第三生成模块，用于将第三拼接向量输入至训练好的语音合成模型生成第三梅尔声谱图；

第八确定模块，用于基于目标说话人的训练语音样本与生成的第三梅尔声谱图确定第三损失值，并基于确定的第三损失值确定是否需要对训练成功好的语音合成模型继续进行训练；

继续训练模块，用于如果需要继续训练，则基于目标说话人的至少一个其他训练语音样本及其他训练语音样本对应的文本、目标说话人的标识进行模型训练，直至训练成功得到更新后的语音合成模型。

第四方面，提供了一种语音合成装置，包括：

第四获取模块，用于获取待合成语音文本、目标说话人标识；

第九确定模块，用于确定待合成语音文本对应的第四文本向量，以及确定目标说话人标识对应的目标说话人向量；

第十确定模块，用于基于第四文本向量与目标说话人向量确定第四拼接向量；

输入模块，用于将第四拼接向量输入至训练成功的语音合成模型生成第四梅尔声谱图；

合成语音模块，用于基于第四梅尔声谱图通过声码器生成目标合成语音。

可选地，第九确定模块，具体用于将待合成语音文本转换成带音调标识的目标拼音字符串；以及用于基于预定的映射规则将目标拼音字符串转换为目标数字字符串；以及用于基于目标数字字符串以及预训练的文本嵌入矩阵得到第四文本向量。

可选地，第九确定模块具体用于基于目标说话人的标识通过预训练的说话人嵌入矩阵确定目标说话人向量。

可选地，该装置还包括：

判断模块，用于基于目标说话人标识判断训练成功的语音合成模型的训练样本的说话人是否包括目标说话人；

第五获取模块，用于如果不包括目标说话人，则获取根据目标说话人的训练样本语音以及目标说话人的训练样本语音对应的文本、目标说话人的标识训练成功的更新后的语音合成模型；

语音合成模块，具体用于将第四拼接向量输入至更新后的语音合成模型生成第四梅尔声谱图。

第五方面，提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：执行第一方面所示的语音合成模型训练方法或语音合成方法。

第六方面，提供了一种计算机可读存储介质，计算机存储介质用于存储计算机指令，当其在计算机上运行时，使得计算机可以执行第一方面所示的语音合成模型训练方法或语音合成方法。

本申请提供了一种语音合成模型训练方法、语音合成方法、装置及电子设备，与现有技术仅能合成单人语音相比，本申请通过获取第一训练语音样本、第一训练语音样本对应的文本、第一训练语音样本对应的说话人的标识；确定第一训练语音样本对应的文本对应的第一文本向量，以及确定第一训练语音样本对应的说话人的标识对应的第一说话人向量；基于第一文本向量与第一说话人向量确定第一拼接向量；将第一拼接向量输入至预设的语音合成模型生成第一梅尔声谱图；基于第一训练语音样本与生成的第一梅尔声谱图确定第一损失值，并基于确定的第一损失值判定预设的语音合成模型是否收敛；如果预设的语音合成模型收敛，则得到训练成功的语音合成模型。即通过不同说话人的语音样本、语音样本对应的文本、说话人的标识进行语音合成模型的训练，从而得到能够合成多人语音的模型，进而可以根据该能够合成多人语音的模型生成多个人的合成语音，与现有技术每个说话人都需训练模型，合成多个人的语音需要训练多个模型相比，本申请不必训练多个模型，仅训练一个模型即可得到多人合成语音。

本申请附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的及附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例的一种语音合成模型训练方法的流程示意图；

图2为本申请实施的一种语音合成方法的流程示意图；

图3为本申请实施例的一种电子设备的结构示意图；

图4为本申请实施例的一种语音合成模型训练装置的结构示意图；

图5为本申请实施例的一种语音合成装置的结构示意图；

图6为本申请实施例文本预处理流程示意图；

图7为本申请实施例的梅尔声谱图示例图。

具体实施方式

下面详细描述本申请的实施例，各实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件及组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件及它们的组。这里使用的措辞“及”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

实施例一

本申请实施例提供了一种语音合成模型训练方法，如图1所示，该方法可以包括以下步骤：

步骤S101，获取第一训练语音样本、第一训练语音样本对应的文本、第一训练语音样本对应的说话人的标识；其中，模型的训练样本可以包括 wav格式的语音数据(也可以是其他格式的语音数据)、以及语音数据对应的文本和说话人ID。

步骤S102，确定第一训练语音样本对应的文本对应的第一文本向量，以及确定第一训练语音样本对应的说话人的标识对应的第一说话人向量；

步骤S103，基于第一文本向量与第一说话人向量确定第一拼接向量；

步骤S104，将第一拼接向量输入至预设的语音合成模型生成第一梅尔声谱图；其中，拼接向量C经过预设的神经网络模型，生成梅尔声谱图

梅尔滤波器组由80个带通滤波器组成。预设的神经网络可以使用常用的Tacotron2或其它自定义的神经网络模型，在此处不做限定。示例性地，图6示出了模型输出的梅尔声图谱示例图。

步骤S105，基于第一训练语音样本与生成的第一梅尔声谱图确定第一损失值，并基于确定的第一损失值判定预设的语音合成模型是否收敛；

具体地，为了训练得到最优的网络参数，能够合成语音与真实语音相似的语音，可以采用L2范数损失函数作为模型的损失函数。

其中，i为样本下标；

为模型输出的梅尔声谱图；M为真实语音的声谱图；O表示因模型不同而不同的损失项，例如如果使用Tacotron2模型，O为预测语音是否结束的交叉熵损失函数-∑p(x)logq(x)，p代表语音结束的正确标记，q代表语音是否结束的预测值。

根据损失函数，计算损失值，并根据损失值进行梯度下降调整神经网络模型中的参数值，得到文本到梅尔声谱图的语音合成模型。

步骤S106，如果预设的语音合成模型收敛，则得到训练成功的语音合成模型。

对于本申请实施例，通过不同说话人的语音样本、语音样本对应的文本、说话人的标识进行语音合成模型的训练，从而得到能够合成多人语音的模型，进而可以根据该能够合成多人语音的模型生成多个人的合成语音，与现有技术每个说话人都需训练模型，合成多个人的语音需要训练多个模型相比，本申请不必训练多个模型，仅训练一个模型即可得到多人合成语音。

本申请实施例提供了一种可能的实现方式，进一步地，该方法还包括：

获取第二训练语音样本、第二训练语音样本对应的文本、第二训练语音样本对应的说话人的标识；其中，第二训练语音样本对应的说话人的标识可以与第一训练语音样本对应的说话人的标识相同，也可以不相同。如果不想同，则可以是对多个人的语音进行模型训练。根据具体的训练过程，可以先用一个人的多个训练样本训练，然后用另一个人的训练样本进行训练。从而能够得到多人语言合成模型。

基于第二文本向量与第二说话人向量确定第二拼接向量；

本申请实施例提供了一种可能的实现方式，具体地，确定第一训练语音样本对应的第一文本向量，包括：

基于预定的映射规则将拼音字符串转换为数字字符串；

具体地，训练语音样本可以是中文语音数据。在模型训练过程种，可以对训练语音样本对应的中文文本进行预处理，其中，如图5所示，预处理可以包括如下步骤去除非中文字符、拼音转换、数字转换等。具体地，

首先，采用正则匹配并且替换的方式，将中文字符串中阿拉伯数字百分号等非中文字符转换成中文字符，无法转换的非中文字符以空格代替。如字符串“您可以选择1-18个月的分期计划，费率为5.25％”进行预处理以后的字符串为“您可以选择一至十八个月的分期计划费率为百分之五点二五”；

然后，将中文字符串转换成带音调标识的拼音字符串，每个字的拼音之间使用空格隔开，遇到空格字符转换成两个空格。音调标识字符“1”表示第一声，“2”表示第二声，“3”表示第三声，“4”表示第四声，“5”表示轻声。并且使用了多音字匹配模块，可以配置多音字词组的读音，防止出现个别专业词汇读音不准确的问题。例如字符串“我想办理一张信用卡可以吗”转换成拼音格式为“wo1 xiang2 ban4 li3 yi1 zhang1 xin4 yong4 ka3 ke2 yi3ma5”

最后，将拼音字符串按照表1的对应关系转换成数字字符串，作为模型的输入。

表1

本申请实施例提供了一种可能的实现方式，具体地，确定第一训练语音样本对应的说话人的标识对应的第一说话人向量，包括：

具体地，说话人ID经过可训练的说话人嵌入矩阵得到表征说话人的说话人向量S＝(s₁,s₂,...,s_n)。其中n表示嵌入矩阵的维度。

相应地，拼接向量可以是通过如下方法得到的，预处理完的文本 a＝(a₁,a₂,...,a_m)经过可训练的文本嵌入矩阵得到表征文本的文本向量 T＝(T₁,T₂,...,T_m)，其中T_i＝(t_i,0,t_i,1,...,t_i,n),i∈(1,m)。其中n表示嵌入矩阵的维度应该与上述说话人嵌入矩阵的维度保持一致，m表示文本的长度。

将说话人向量S与文本向量T拼接在一起得到拼接向量 C＝(T₁,T₂,...,T_m,S)＝(C₁,C₂,...,C_m,C_m+1)。

这样，拼接向量C既包含文本信息又包含说话人信息，用作下游梅尔声图谱的生成。在推理阶段可以通过改变说话人信息合成不同韵律的语音，实现个性化的语音生成。

基于第三文本向量与目标说话人向量确定第三拼接向量；

实施例二

本申请实施例提供了一种语音合成方法，如图2所示，该方法包括：

步骤S201，获取待合成语音文本、目标说话人标识；

步骤S202，确定待合成语音文本对应的第四文本向量，以及确定目标说话人标识对应的目标说话人向量；

步骤S203，基于第四文本向量与目标说话人向量确定第四拼接向量；

步骤S204，将第四拼接向量输入至训练成功的语音合成模型生成第四梅尔声谱图；

步骤S205，基于第四梅尔声谱图通过声码器生成目标合成语音。

其中，声码器实现梅尔声谱图到语音的转换过程，在本专利中不限定实现声码器的模型结构，可以使用WaveGlow、WaveNet、Griffin-lim等声码器。

具体地，梅尔声谱图生成有两种方式：第一种：直接选择一个在训练集中存在的说话人ID，经过训练好的嵌入矩阵，得到说话人向量，与文本向量拼接以后进入下游流程。使用该方式可以生成与说话人ID音调以及语气一致的语音。第二种：手动指定说话人向量，与文本向量拼接以后进入下游处理流程。使用该方式可以生成大量不同韵律的个性化语音。

本申请实施例提供了一种可能的实现方式，具体地，确定待合成语音文本对应的第四文本向量，包括：

将待合成语音文本转换成带音调标识的目标拼音字符串；

本申请实施例提供了一种可能的实现方式，具体地，确定目标说话人标识对应的目标说话人向量，包括：

即当目标说话人不再训练样本所涵盖的说话人的范围内时，基于该目标说话人的语音样本、对应的文本、目标说话人标识对训练成功的语音合成模型进行重新训练，从而得到更新后的语音合成模型，然后根据待合成文本、目标说话人标识通过更新后的语音合成模型得到目标合成语音。从而提升了模型的泛化能力。

本申请实施例方法同实施例一的方法效果类似，具体不再此赘述。

实施例三

图3为本申请实施例提供的一种语音合成模型训练装置，该装置30 包括：

第一获取模块301，用于获取第一训练语音样本、第一训练语音样本对应的文本、第一训练语音样本对应的说话人的标识；

第一确定模块302，用于确定第一训练语音样本对应的文本对应的第一文本向量，以及确定第一训练语音样本对应的说话人的标识对应的第一说话人向量；

第二确定模块303，用于基于第一文本向量与第一说话人向量确定第一拼接向量；

第一生成模块304，用于将第一拼接向量输入至预设的语音合成模型生成第一梅尔声谱图；

第三确定模块305，用于基于第一训练语音样本与生成的第一梅尔声谱图确定第一损失值，并基于确定的第一损失值判定预设的语音合成模型是否收敛；

第一得到模块306，用于如果预设的语音合成模型收敛，则得到训练成功的语音合成模型。

进一步地，该装置还包括：

具体地，第一确定模块包括：

具体地，第一确定模块具体还用于基于第一训练语音样本对应的说话人的标识通过预训练的说话人嵌入矩阵确定第一说话人向量。

进一步地，该装置还包括：

本申请实施例提供了一种语音合成模型训练装置，适用于上述实施例所示的语音合成模型训练方法，在此不再赘述。

实施例四

本申请实施例提供了一种语音合成装置，如图4所示，该装置包括：

第四获取模块401，用于获取待合成语音文本、目标说话人标识；

第九确定模块402，用于确定待合成语音文本对应的第四文本向量，以及确定目标说话人标识对应的目标说话人向量；

第十确定模块403，用于基于第四文本向量与目标说话人向量确定第四拼接向量；

输入模块404，用于将第四拼接向量输入至训练成功的语音合成模型生成第四梅尔声谱图；

合成语音模块405，用于基于第四梅尔声谱图通过声码器生成目标合成语音。

具体地，第九确定模块，具体用于将待合成语音文本转换成带音调标识的目标拼音字符串；以及用于基于预定的映射规则将目标拼音字符串转换为目标数字字符串；以及用于基于目标数字字符串以及预训练的文本嵌入矩阵得到第四文本向量。

具体地，第九确定模块具体用于基于目标说话人的标识通过预训练的说话人嵌入矩阵确定目标说话人向量。

进一步地，该装置还包括：

本申请实施例提供了一种语音合成装置，适用于上述实施例所示的语音合成方法，在此不再赘述。

实施例五

本申请实施例提供了一种电子设备，如图3所示，图3所示的电子设备30包括：处理器3001和存储器3003。其中，处理器3001和存储器3003 相连，如通过总线3002相连。进一步地，电子设备30还可以包括收发器 3003。需要说明的是，实际应用中收发器3004不限于一个，该电子设备 30的结构并不构成对本申请实施例的限定。其中，处理器3001应用于本申请实施例中，用于实现图2所示的模块的功能。收发器3003包括接收机和发射机。

处理器3001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器3001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线3002可包括一通路，在上述组件之间传送信息。总线3002可以是PCI总线或EISA总线等。总线3002可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器3003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器3003用于存储执行本申请方案的应用程序代码，并由处理器 3001来控制执行。处理器3001用于执行存储器3003中存储的应用程序代码，以实现图4或图5所示实施例提供的装置的功能。

本申请实施例提供了一种电子设备，通过不同说话人的语音样本、语音样本对应的文本、说话人的标识进行语音合成模型的训练，从而得到能够合成多人语音的模型，进而可以根据该能够合成多人语音的模型生成多个人的合成语音，与现有技术每个说话人都需训练模型，合成多个人的语音需要训练多个模型相比，本申请不必训练多个模型，仅训练一个模型即可得到多人合成语音。

本申请实施例提供了一种电子设备适用于上述方法实施例。在此不再赘述。

实施例六

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述实施例中所示的方法。

本申请实施例提供了一种计算机可读存储介质，通过不同说话人的语音样本、语音样本对应的文本、说话人的标识进行语音合成模型的训练，从而得到能够合成多人语音的模型，进而可以根据该能够合成多人语音的模型生成多个人的合成语音，与现有技术每个说话人都需训练模型，合成多个人的语音需要训练多个模型相比，本申请不必训练多个模型，仅训练一个模型即可得到多人合成语音。

本申请实施例提供了一种计算机可读存储介质适用于上述方法实施例。在此不再赘述。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种语音合成模型训练方法，其特征在于，包括：

获取第一训练语音样本、所述第一训练语音样本对应的文本、所述第一训练语音样本对应的说话人的标识；

确定所述第一训练语音样本对应的文本对应的第一文本向量，以及确定所述第一训练语音样本对应的说话人的标识对应的第一说话人向量；

基于所述第一文本向量与所述第一说话人向量确定第一拼接向量；

将所述第一拼接向量输入至预设的语音合成模型生成第一梅尔声谱图；

基于所述第一训练语音样本与生成的所述第一梅尔声谱图确定第一损失值，并基于确定的所述第一损失值判定所述预设的语音合成模型是否收敛；

如果所述预设的语音合成模型收敛，则得到训练成功的语音合成模型。

2.根据权利要求1所述的方法，其特征在于，该方法还包括：

如果所述预设的语音合成模型不收敛，则基于所述损失值进行梯度下降调整所述预设的语音合成模型的参数，得到调整后的语音合成模型；

获取第二训练语音样本、所述第二训练语音样本对应的文本、所述第二训练语音样本对应的说话人的标识；

确定所述第二训练语音样本对应的文本对应的第二文本向量，以及确定所述第二训练语音样本对应的说话人的标识对应的第二说话人向量；

基于所述第二文本向量与所述第二说话人向量确定第二拼接向量；

将所述第二拼接向量输入至调整后语音合成模型生成第二梅尔声谱图；

基于所述第二训练语音样本与生成的所述第二梅尔声谱图确定第二损失值，并基于确定的所述第二损失值判定所述调整后语音合成模型是否收敛；

如果所述调整后的语音合成模型收敛，则得到训练成功的语音合成模型。

3.根据权利要求1或2所述的方法，其特征在于，确定所述第一训练语音样本对应的第一文本向量，包括：

将所述第一训练语音样本对应的文本转换成带音调标识的拼音字符串；

基于预定的映射规则将拼音字符串转换为数字字符串；

基于所述数字字符串以及预训练的文本嵌入矩阵得到所述第一文本向量。

4.根据权利要求1或2所述的方法，其特征在于，所述确定所述第一训练语音样本对应的说话人的标识对应的第一说话人向量，包括：

基于所述第一训练语音样本对应的说话人的标识通过预训练的说话人嵌入矩阵确定所述第一说话人向量。

5.根据权利要求1-4任一项所述的方法，其特征在于，该方法还包括：

获取目标说话人的训练语音样本、所述目标说话人的训练语音样本对应的文本、目标说话人的标识；

确定所述目标说话人的训练语音样本对应的文本对应的第三文本向量，以及确定所述目标说话人的标识对应的目标说话人向量；

基于所述第三文本向量与所述目标说话人向量确定第三拼接向量；

将所述第三拼接向量输入至训练好的语音合成模型生成第三梅尔声谱图；

基于所述目标说话人的训练语音样本与生成的所述第三梅尔声谱图确定第三损失值，并基于确定的所述第三损失值确定是否需要对所述训练成功好的语音合成模型继续进行训练；

如果需要继续训练，则基于所述目标说话人的的至少一个其他训练语音样本及所述其他训练语音样本对应的文本、目标说话人的标识进行模型训练，直至训练成功得到更新后的语音合成模型。

6.一种语音合成方法，其特征在于，包括：

获取待合成语音文本、目标说话人标识；

确定所述待合成语音文本对应的第四文本向量，以及确定所述目标说话人标识对应的目标说话人向量；

基于所述第四文本向量与所述目标说话人向量确定第四拼接向量；

将所述第四拼接向量输入至训练成功的语音合成模型生成第四梅尔声谱图；

基于所述第四梅尔声谱图通过声码器生成目标合成语音。

7.根据权利要求6所述的方法，其特征在于，确定所述待合成语音文本对应的第四文本向量，包括：

将所述待合成语音文本转换成带音调标识的目标拼音字符串；

基于所述目标数字字符串以及预训练的文本嵌入矩阵得到所述第四文本向量。

8.根据权利要求6或7所述的方法，其特征在于，所述确定所述目标说话人标识对应的目标说话人向量，包括：

9.根据权利要求6-8任一项所述的方法，其特征在于，该方法还包括：

基于所述目标说话人标识判断训练成功的语音合成模型的训练样本的说话人是否包括目标说话人；

所述将所述第四拼接向量输入至训练好的语音合成模型生成第四梅尔声谱图，包括：

将所述第四拼接向量输入至更新后的语音合成模型生成第四梅尔声谱图。

10.一种语音合成模型训练装置，其特征在于，包括：

第一获取模块，用于获取第一训练语音样本、所述第一训练语音样本对应的文本、所述第一训练语音样本对应的说话人的标识；

第一确定模块，用于确定所述第一训练语音样本对应的文本对应的第一文本向量，以及确定所述第一训练语音样本对应的说话人的标识对应的第一说话人向量；

第二确定模块，用于基于所述第一文本向量与所述第一说话人向量确定第一拼接向量；

第一生成模块，用于将所述第一拼接向量输入至预设的语音合成模型生成第一梅尔声谱图；

第三确定模块，用于基于所述第一训练语音样本与生成的所述第一梅尔声谱图确定第一损失值，并基于确定的所述第一损失值判定所述预设的语音合成模型是否收敛；

第一得到模块，用于如果所述预设的语音合成模型收敛，则得到训练成功的语音合成模型。

11.一种语音合成装置，其特征在于，包括：

第九确定模块，用于确定所述待合成语音文本对应的第四文本向量，以及确定所述目标说话人标识对应的目标说话人向量；

第十确定模块，用于基于所述第四文本向量与所述目标说话人向量确定第四拼接向量；

输入模块，用于将所述第四拼接向量输入至训练成功的语音合成模型生成第四梅尔声谱图；

合成语音模块，用于基于所述第四梅尔声谱图通过声码器生成目标合成语音。

12.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求1至9任一项所述的语音合成模型训练方法或语音合成方法。

13.一种计算机可读存储介质，其特征在于，所述计算机存储介质用于存储计算机指令，当其在计算机上运行时，使得计算机可以执行上述权利要求1至9中任一项所述的语音合成模型训练方法或语音合成方法。