CN113327579A

CN113327579A - 语音合成方法、装置、存储介质和电子设备

Info

Publication number: CN113327579A
Application number: CN202110888150.0A
Authority: CN
Inventors: 郭少彤; 陈昌滨; 陈帅婷
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2021-08-31

Abstract

本公开涉及一种语音合成方法、装置、存储介质和电子设备，其中方法包括：获取待合成文本；将待合成文本输入预设语音合成模型，以得到待合成文本的语音信息，其中，预设语音合成模型是基于第一样本多语种文本、第一样本多语种文本的指定信息以及第一样本多语种文本对应的样本音频数据对原始语音合成模型进行训练得到的，指定信息包括第一样本多语种文本的语种转换信息。

Description

语音合成方法、装置、存储介质和电子设备

技术领域

本公开实施例涉及语音合成技术领域，尤其涉及一种语音合成方法，语音合成装置，以及实现语音合成方法的计算机可读存储介质和电子设备。

背景技术

语音合成技术又称文语转换（Text to Speech，TTS）技术，它能将文字信息实时转化为语音。多语种文本即混读文本广泛存在于日常生活、会议交流、新闻播报等场景，这就对语音合成技术提出了新的要求，需要同时合成两种语言的声音，并且保证合成语音自然准确且在不同语言转换处保持自然流畅。

然而，目前的语音合成技术在处理混读文本时，合成的语音常常存在语种转换处的语音不够自然流畅，混读文本语音合成准确度较低等问题。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开实施例提供了一种语音合成方法，语音合成装置，以及实现语音合成方法的计算机可读存储介质和电子设备。

第一方面，本公开实施例提供了一种语音合成方法，包括：

获取待合成文本；

将所述待合成文本输入预设语音合成模型，以得到所述待合成文本的语音信息，其中，所述预设语音合成模型是基于第一样本多语种文本、所述第一样本多语种文本的指定信息以及所述第一样本多语种文本对应的样本音频数据对原始语音合成模型进行训练得到的，所述指定信息包括所述第一样本多语种文本的语种转换信息。

可选的，在本公开的一些实施例中，所述第一样本多语种文本的指定信息由以下方式得到：

利用语种标记模型，对所述第一样本多语种文本进行语种分类处理，以获得所述第一样本多语种文本的语种特征向量，其中，所述语种特征向量用于表征所述指定信息，并且其中，所述语种标记模型是基于第二样本多语种文本对深度学习网络进行语种分类训练得到的，所述第二样本多语种文本包括预先标注的音素级别的多语种文本和/或预先标注的音素级别的单语种文本。

可选的，在本公开的一些实施例中，所述指定信息还包括所述第一样本多语种文本的语法结构信息。

可选的，在本公开的一些实施例中，所述语种标记模型包括第一卷积神经网络和第一长短期记忆网络，

并且其中，利用语种标记模型，对所述第一样本多语种文本进行语种分类处理，以获得所述第一样本多语种文本的语种特征向量，包括：

利用所述第一卷积神经网络，对所述第一样本多语种文本进行处理，得到指定语种特征向量，其中，所述指定语种特征向量是所述第一卷积神经网络的最后一个卷积层输出的特征向量；

利用所述第一长短期记忆网络对所述指定语种特征向量进行处理，得到所述语种特征向量。

可选的，在本公开的一些实施例中，所述原始语音合成模型包括编码器、解码器和声码器，所述预设语音合成模型由以下方式训练得到：

将第一样本多语种文本输入所述编码器，得到文本特征向量；

将所述语种特征向量与所述文本特征向量拼接，得到目标特征向量；

将所述目标特征向量输入所述解码器，得到解码信息；

将所述解码信息输入所述声码器，得到合成音频数据；

基于所述合成音频数据与所述第一样本多语种文本对应的样本音频数据的对比结果，对所述编码器和解码器进行训练，以得到所述预设语音合成模型。

可选的，在本公开的一些实施例中，所述编码器依次包括第二卷积神经网络和第二长短期记忆网络，所述解码器依次包括注意力网络、第三长短期记忆网络和第三卷积神经网络，所述第二长短期记忆网络与所述注意力网络连接；

所述对比所述合成音频数据与对应的样本音频数据，得到对比结果的步骤之后，所述方法还包括：

基于所述对比结果迭代训练所述编码器和解码器，直至所述解码器对应的第三卷积神经网络的损失函数值小于预设阈值时结束训练。

可选的，在本公开的一些实施例中，所述语种转换信息包括第一样本多语种文本中至少一个语种转换点的位置信息。

第二方面，本公开实施例提供一种语音合成装置，包括：

文本获取模块，用于获取待合成文本；

语音合成模块，用于将所述待合成文本输入预设语音合成模型，以得到所述待合成文本的语音信息，其中，所述预设语音合成模型是基于第一样本多语种文本、所述第一样本多语种文本的指定信息以及所述第一样本多语种文本对应的样本音频数据对原始语音合成模型进行训练得到的，所述指定信息包括所述第一样本多语种文本的语种转换信息。

第三方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一实施例所述语音合成方法的步骤。

第四方面，本公开实施例提供一种电子设备，包括：

处理器；以及

存储器，用于存储计算机程序；

其中，所述处理器配置为经由执行所述计算机程序来执行上述任一实施例所述语音合成方法的步骤。

本公开实施例提供的技术方案与现有技术相比具有如下优点：

本公开实施例提供的语音合成方法、装置、存储介质和电子设备，获取待合成文本之后，将所述待合成文本输入预设语音合成模型，以得到所述待合成文本的语音信息，其中，所述预设语音合成模型是基于第一样本多语种文本、所述第一样本多语种文本的指定信息以及所述第一样本多语种文本对应的样本音频数据对原始语音合成模型进行训练得到的，所述指定信息包括所述第一样本多语种文本的语种转换信息。这样，本实施例中对原始语音合成模型进行训练时，在基于第一样本多语种文本以及对应的样本音频数据进行训练的基础上，加入第一样本多语种文本的指定信息即语种转换信息辅助训练得到预设语音合成模型，该预设语音合成模型合成多语种文本即混读文本时，可较准确地识别混读文本的语种转换点，从而可使合成语音在语种转换处的语音自然流畅。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例的语音合成方法的流程图；

图2为本公开实施例的原始语音合成模型及语种标记模型的示意图；

图3为本公开又一实施例的语音合成方法的流程图；

图4为本公开实施例的语音合成装置的示意图；

图5为本公开实施例的实现语音合成方法的电子设备的示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

应当理解，在下文中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

图1为本公开实施例示例性示出的语音合成方法流程图，该语音合成方法可以应用于电子设备如智能手机、平板电脑或者服务器等，该方法可以包括以下步骤：

步骤S101：获取待合成文本。

示例性的，待合成文本如多语种文本即混读文本，如包括至少两种不同语种的文本。具体的，例如多语种文本可以是包含中文和英文的混读文本，或者包含中文、日文和英文的混读文本，或者包含韩文、日文和英文的混读文本，当然并不限于此，本实施例中对此不作限制。需要对混读文本进行语音合成时，电子设备如智能手机可以获取待合成的混读文本，例如基于用户对文本的操作如选取等获取混读文本。

步骤S102：将待合成文本输入预设语音合成模型，以得到待合成文本的语音信息，其中，预设语音合成模型是基于第一样本多语种文本、第一样本多语种文本的指定信息以及第一样本多语种文本对应的样本音频数据对原始语音合成模型进行训练得到的，指定信息包括第一样本多语种文本的语种转换信息。

示例性的，语种转换信息可以包括第一样本多语种文本中至少一个语种转换点的位置信息。在一个示例中，第一样本多语种文本如混读文本可包括但不限于中文和英文，示例的，例如混读文本是“我是中国人，从美国Stanford University毕业”，则语种转换点包括中文到英文的转换点，以及英文到中文的转换点，其中的中文到英文的转换点的位置信息可以是“美国”的“国”字之后的位置，也即英文单词“Stanford”前的位置，该位置可以用字符位置标识，字符通常包括字母、数字、运算符号、标点符号和其他符号等。在混读文本“我是中国人，从美国Stanford University毕业”中，中文到英文的转换点的位置信息用字符位置标识时，对应的字符位置是从首字符“我”开始起算的第10字符位置，此处仅为举例说明，不用于限制本实施例。

相关技术中一般是基于多个第一样本多语种文本以及对应的样本音频数据对原始语音合成模型进行训练，本实施例中在此基础上，加入第一样本多语种文本的指定信息即语种转换信息辅助训练得到预设语音合成模型，该训练方式得到的预设语音合成模型合成多语种文本即混读文本时，可较准确地识别混读文本的语种转换特点等信息。

具体的，通过该预设语音合成模型对多语种文本即混读文本进行语音合成处理，得到合成的语音信息如音频波形信息，基于该音频波形信息即可播放语音。

本公开上述实施例的语音合成方法中，对原始语音合成模型进行训练时，在基于第一样本多语种文本以及对应的样本音频数据进行训练的基础上，加入第一样本多语种文本的指定信息即语种转换信息辅助训练得到预设语音合成模型，该预设语音合成模型合成多语种文本即混读文本时，可较准确地识别混读文本的语种转换特点，从而使得合成语音在语种转换处的语音自然流畅。

可选的，在本公开的一些实施例中，指定信息还可包括第一样本多语种文本的语法结构信息。示例性的，语法结构信息可以包括但不限于文本中的主语、谓语、宾语、定语、状语、补语等相关信息。

在上述实施例的基础上，本实施例中，对原始语音合成模型进行训练时，在基于第一样本多语种文本以及对应的样本音频数据进行训练的基础上，加入第一样本多语种文本的指定信息即语法结构信息和语种转换信息辅助训练得到预设语音合成模型，该预设语音合成模型合成多语种文本即混读文本时，可较准确地识别混读文本的语法结构及语种转换特点，从而可以提高合成语音的准确性，同时可使合成语音在语种转换处的语音更加自然流畅。

可选的，在本公开的一些实施例中，参考图2中所示，第一样本多语种文本的指定信息可以由以下方式得到。

步骤i）：利用语种标记模型，对第一样本多语种文本进行语种分类处理，以获得第一样本多语种文本的语种特征向量，其中，语种特征向量用于表征指定信息，并且其中，语种标记模型是基于第二样本多语种文本对深度学习网络进行语种分类训练得到的，第二样本多语种文本包括预先标注的音素级别的多语种文本和/或预先标注的音素级别的单语种文本。

示例性的，在本实施例中，语种标记模型可以使用多个单语种文本的语料库和/或少量的混读文本的语料进行训练，其中单语种的语料库是一个语料库只含有单一语种的文本，混读文本的语料当中含有至少两种不同语种的文本。这样训练得到的语种标记模型便于较准确地标注每个语种的真实标签。在训练之前，可以首先标注语料。对于单语种语料的标注，由于语种标记是单一的，可以直接由机器标注完成，混读语料的标注则可以先使用机器标注，然后由人工检查标注作为辅助，弥补机器标注精确度不高的不足，确保训练数据的正确性，使得训练得到的语种标记模型可以获取较准确的信息，进而使得后续语音合成的准确度提高。一般情况下，不同语种使用不同的整数值标注，同一语种对应相同的整数值。至此完成语料标注。

语料标注之后，进行语种标记模型的训练。其中深度学习网络可以是但不限于由常用的卷积神经网络和长短期记忆网络LSTM（Long Short-Term Memory）形成。输入深度学习网络的为准备好的音素级别的混读文本，输出为对应的语种标记如语种标签。训练期间，各个语种经过预处理生成音素级别表示形式作为模型的输入，比如中文转换为拼音，英文转换为音素，日语转换为假名等，具体的训练过程可以参考现有技术理解，此处不再赘述。训练结束之后得到的语种标记模型，将处理成音素级别的混读文本输入语种标记模型，输出是语种标签，这样通过训练完成音素级别混读文本与语种标签之间的准确映射，同时在这个过程中深度学习网络可以自主学习混读文本中的语种转换点、语法结构等隐式信息。

具体的，训练结束得到语种标记模型之后，对原始语音合成模型进行训练，在基于第一样本多语种文本以及对应的样本音频数据对原始语音合成模型进行训练的过程中，第一样本多语种文本同时输入语种标记模型，利用语种标记模型对第一样本多语种文本进行语种分类处理，以获得第一样本多语种文本的语种特征向量，语种特征向量用于表征第一样本多语种文本的指定信息即语法结构信息和/或语种转换信息。通过加入第一样本多语种文本的指定信息即语法结构信息和/或语种转换信息等隐式信息到原始语音合成模型，以辅助训练原始语音合成模型得到预设语音合成模型，这样训练得到的预设语音合成模型合成多语种文本即混读文本时，可较准确地识别混读文本的语法结构及语种转换特点，从而可以提高合成语音的准确性，同时可使合成语音在语种转换处的语音自然流畅。

可选的，在本公开的一些实施例中，结合图2中所示，语种标记模型可以包括第一卷积神经网络和第一长短期记忆网络LSTM，步骤i）具体可包括：

步骤1）：利用第一卷积神经网络，对第一样本多语种文本进行处理，得到指定语种特征向量E_c，其中，指定语种特征向量E_c是第一卷积神经网络的最后一个卷积层输出的特征向量。

步骤2）：利用第一长短期记忆网络对指定语种特征向量进行处理，得到语种特征向量E_r。

示例性的，假设第一卷积神经网络包含3个卷积层，输入的第一样本多语种文本的文本序列为X_test，则语种标记模型的处理过程可以描述为以下公式：

E_c=relu(F_c3*relu(F_c2*relu(F_c1*E(X_test))))

E_r= LSTM(E_c)

Y_lable=FC(E_r)其中，F_ci表示第i卷积层，用于学习文本序列的局部特征和依赖关系，也即上下文相关信息，激活函数为relu()。E()表示经过嵌入（Embedding）层处理，本实施例中语种标记模型可以包括预处理模块，其可以是嵌入层，嵌入层将文本序列X_test转换为对应的向量，便于后续卷积处理。之后依次经过3个卷积层处理得到指定语种特征向量E_c。然后LSTM()表示经过第一LSTM处理，获取每一个时间步的隐状态信息，得到表征语法结构信息和/或语种转换信息等隐式信息的语种特征向量E_r。FC()表示经过全连接层处理，本实施例中最后通过全连接层FC处理输出预测的语种标签Y_lable。由于是回归任务，这里可以使用但不限于均方误差MSE(Mean-Square Error)作为损失函数，通过梯度计算更新网络参数，这些可以参考现有技术理解，此处不再赘述。卷积层的数量也仅为举例说明，对此不作任何限制。

本实施例的上述方案，训练原始语音合成模型过程中，主要是通过获取语种标记模块在处理样本混读文本时的中间向量即语种特征向量E_r，进而辅助训练原始语音合成模型得到预设语音合成模型，以提高预设语音合成模型的合成效果，如提高合成语音的准确性，使合成语音在语种转换处的语音自然流畅。

另外，在相关技术中，为了辅助训练原始语音合成模型，目前的实现方式上有基于显式语种标记的方法，即为输入的混读文本打上字符级别或者音素级别的语种标记，辅助混读语音合成模型学习不同语种的发音信息，但是这种方法需要基于规则的语种标记模型，依赖人为指定的规则，一般基于语法或者音素集，需要较多的专业语言学知识，但是精确度不高，并且容易造成错误累积。此外，单独的语种标记模型，规则制定复杂，面对多种语言情景时，规则变更不灵活。

而本实施例中的上述方案，如图2中所示，在原始语音合成模型的基础上，添加一个预先训练得到的语种标记模型，该语种标记模型预先基于例如大量已标注的单语种语料和少量已标注的混读语料进行训练得到，其输入是音素级别不同单语种文本或混读文本，输出是因素级别的语种标记。原始语音合成模型合成语音训练过程中，训练的样本混读文本同时输入语种标记模型，获取语种标记模型的全连接层之前的语种特征向量作为原始语音合成模型训练增加的条件，参与原始语音合成模型训练。

与上述相关技术相比，本实施例中针对已有多语种语料和少量的混读语料进行音素级别的机器标注，该过程仍基于规则实现，然后以人工标注作为辅助，弥补机器标注精确度不高的不足，确保训练数据的正确性。基于标注好的多语种数据集对深度学习网络进行语种分类训练，完成音素级别混读文本与语种标签之间的准确映射，同时学习语种转换点等隐式信息。

进一步的，本实施例方案通过深度学习网络的自主学习，无需基于人为指定规则的语种标记模型，解决了传统基于指定规则的语种标记模型的规则指定复杂，导致语种分类精确度不高、易造成错误传导等问题，同时还可以通过深度学习网络的建模能力学习语种转换点以及混读文本的语法结构等隐式信息，更好的辅助训练原始语音合成模型，完成多语种文本与声学特征之间的转换，提高合成语音的准确性以及语种转换点处的语音流畅度。此外也更容易完成语种类别的扩展，由于无需人为复杂的规则制定，面对多种语言情景时，规则变更更灵活。

可选的，在本公开的一些实施例中，如图2中所示，原始语音合成模型可以包括但不限于编码器、解码器和声码器，这些具体可以参考现有技术理解，此处不再赘述。相应的，预设语音合成模型由以下方式训练得到，参考图3中所示，该训练过程可以包括以下步骤：

步骤S301：将第一样本多语种文本输入编码器，得到文本特征向量。

示例性的，编码器对第一样本多语种文本处理得到文本特征向量E_text。

步骤S302：将语种特征向量与文本特征向量拼接，得到目标特征向量。

示例性的，将语种特征向量E_r与文本特征向量E_text拼接可以得到目标特征向量E_en，E_en=E_r+E_text，+表示拼接。关于向量拼接的具体实现过程可以参考现有技术理解，此处不再赘述。

步骤S303：将目标特征向量输入解码器，得到解码信息。

示例性的，目标特征向量E_en输入解码器，由解码器处理后输出解码信息，解码信息例如可以包括梅尔频谱（mel spectrogram）特征信息。

步骤S304：将解码信息输入声码器，得到合成音频数据。

示例性的，合成音频数据可以是音频波形数据。声码器例如可以是Wavenet声码器、Griffin-Lim声码器等，本实施例中对此不作限制。

具体的，可以将梅尔频谱特征信息输入例如Griffin-Lim声码器，Griffin-Lim声码器对梅尔频谱特征信息进行合成，得到合成音频波形数据。

步骤S305：基于合成音频数据与第一样本多语种文本对应的样本音频数据的对比结果，对编码器和解码器进行训练，以得到预设语音合成模型。

示例性的，本实施例中训练原始语音合成模型时，可以基于大量的第一样本多语种文本以及对应的样本音频数据进行训练，即将<样本多语种文本，样本音频数据>对作为训练数据。例如样本多语种文本1对应样本音频数据1，而样本多语种文本2对应样本音频数据2，……，样本多语种文本n对应样本音频数据n。

具体的，在得到样本多语种文本1对应的合成音频数据1’之后，可将合成音频数据1’与样本音频数据1对比得到对比结果，对比结果可以是交叉熵（Cross Entropy），但不限于此。

具体的，在对比结果例如交叉熵大于预设交叉熵阈值时，则返回步骤S301基于例如样本多语种文本2进行迭代训练，直至交叉熵小于或等于预设交叉熵阈值时结束训练。满足预设条件即交叉熵小于或等于预设交叉熵阈值，其中预设交叉熵阈值可以根据需要设置，本实施中对此不作限制。

需要说明的是，在预设语音合成模型的训练过程中，迭代训练每次返回步骤S301时，样本多语种文本同时输入上述语种标记模型，语种标记模型仅用于输出中间的语种特征向量，语种标记模型的最终输出结果如语种标签不参与训练。

可选的，在本公开的一些实施例中，编码器依次可以包括但不限于第二卷积神经网络和第二长短期记忆网络，解码器依次可以包括但不限于注意力（Attention）网络、第三长短期记忆网络和第三卷积神经网络，第二长短期记忆网络与注意力网络连接。在一个示例中，输入的样本多语种文本依次经过第二卷积神经网络、第二长短期记忆网络编码成文本特征向量，文本特征向量与获取的来自语种标记模型的语种特征向量拼接得到目标特征向量，目标特征向量输入解码器，经过带有注意力机制（Attention Mechanism）的解码器，最终解码成梅尔频谱特征信息。这些过程具体可以参考现有技术理解，此处不再赘述。

可选的，在上述实施例的基础上，于另一实施例中，上述步骤S305具体可以包括：基于对比结果迭代训练编码器和解码器，直至解码器对应的第三卷积神经网络的损失函数值小于预设阈值时结束训练。

示例性的，本实施例中对比结果可以是解码器中第三卷积神经网络的损失函数值Loss，而预设阈值可以根据需要设置，对此不作限制。例如得到样本多语种文本1对应的合成音频数据1’之后，当前的损失函数值Loss大于或等于预设阈值，则返回步骤S301基于例如样本多语种文本2进行迭代训练，直至损失函数值Loss小于预设阈值时结束训练。

需要说明的是，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。另外，也易于理解的是，这些步骤可以是例如在多个模块/进程/线程中同步或异步执行。

本公开实施例提供一种语音合成装置，图4为本公开实施例的语音合成装置的示意图。如图4所示，语音合成装置可以包括文本获取模块401和语音合成模块402。

文本获取模块401用于获取待合成文本。

语音合成模块402用于将待合成文本输入预设语音合成模型，以得到待合成文本的语音信息。预设语音合成模型是基于第一样本多语种文本、第一样本多语种文本的指定信息以及第一样本多语种文本对应的样本音频数据对原始语音合成模型进行训练得到的，指定信息包括第一样本多语种文本的语种转换信息。

本公开上述实施例的语音合成装置中，对原始语音合成模型进行训练时，在基于第一样本多语种文本以及对应的样本音频数据进行训练的基础上，加入第一样本多语种文本的指定信息即语种转换信息辅助训练得到预设语音合成模型，该预设语音合成模型合成多语种文本即混读文本时，可较准确地识别混读文本的语种转换特点，从而使得合成语音在语种转换处的语音更加自然流畅。

可选的，在本公开的一些实施例中，语音合成装置还可包括信息获取模块，用于利用语种标记模型，对第一样本多语种文本进行语种分类处理，以获得第一样本多语种文本的语种特征向量。语种特征向量用于表征指定信息，语种标记模型是基于第二样本多语种文本对深度学习网络进行语种分类训练得到的，第二样本多语种文本包括预先标注的音素级别的多语种文本和/或预先标注的音素级别的单语种文本。

可选的，在本公开的一些实施例中，指定信息还包括第一样本多语种文本的语法结构信息。

可选的，在本公开的一些实施例中，语种标记模型包括第一卷积神经网络和第一长短期记忆网络。信息获取模块还用于利用第一卷积神经网络，对第一样本多语种文本进行处理，得到指定语种特征向量；以及利用第一长短期记忆网络对指定语种特征向量进行处理，得到语种特征向量。指定语种特征向量是第一卷积神经网络的最后一个卷积层输出的特征向量。

可选的，在本公开的一些实施例中，原始语音合成模型包括编码器、解码器和声码器。在一些实施例中，可以通过以下方式训练得到预设语音合成模型：将第一样本多语种文本输入编码器，得到文本特征向量；将语种特征向量与文本特征向量拼接，得到目标特征向量；将目标特征向量输入解码器，得到解码信息；将解码信息输入声码器，得到合成音频数据；以及基于合成音频数据与第一样本多语种文本对应的样本音频数据的对比结果，对编码器和解码器进行训练，以得到预设语音合成模型。

可选的，在本公开的一些实施例中，编码器依次包括第二卷积神经网络和第二长短期记忆网络，解码器依次包括注意力网络、第三长短期记忆网络和第三卷积神经网络，第二长短期记忆网络与注意力网络连接。在一些实施例中，基于合成音频数据与第一样本多语种文本对应的样本音频数据的对比结果，对编码器和解码器进行训练可以包括：基于对比结果迭代训练编码器和解码器，直至解码器对应的第三卷积神经网络的损失函数值小于预设阈值时结束训练。

可选的，在本公开的一些实施例中，语种转换信息可以包括但不限于第一样本多语种文本中至少一个语种转换点的位置信息。

关于上述实施例中的装置，其中各个模块执行操作的具体方式以及带来的相应技术效果已经在有关该方法的实施例中进行了对应的详细描述，此处将不做详细阐述说明。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。作为模块或单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现木公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一项实施例所述的语音合成方法的步骤。

示例性的，该可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

本公开实施例还提供一种电子设备，如图5所示电子设备可包括处理器501以及存储器502，存储器502用于存储计算机程序。其中，所述处理器501配置为经由执行所述计算机程序来执行上述任一项实施例中所述语音合成方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的。计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线式动态随机存储器(Rambus DRAM，简称RDRAM)以及接口动态随机存储器(DRDRAM)等。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音合成方法，包括：

获取待合成文本；

2.根据权利要求1所述的语音合成方法，其中，所述第一样本多语种文本的指定信息由以下方式得到：

3.根据权利要求1或2所述的语音合成方法，其中，所述指定信息还包括所述第一样本多语种文本的语法结构信息。

4.根据权利要求2所述的语音合成方法，其中，所述语种标记模型包括第一卷积神经网络和第一长短期记忆网络，

5.根据权利要求2所述的语音合成方法，其中，所述原始语音合成模型包括编码器、解码器和声码器，所述预设语音合成模型由以下方式训练得到：

将所述目标特征向量输入所述解码器，得到解码信息；

将所述解码信息输入所述声码器，得到合成音频数据；

6.根据权利要求5所述的语音合成方法，其特征在于，所述编码器依次包括第二卷积神经网络和第二长短期记忆网络，所述解码器依次包括注意力网络、第三长短期记忆网络和第三卷积神经网络，所述第二长短期记忆网络与所述注意力网络连接；

所述基于所述合成音频数据与所述第一样本多语种文本对应的样本音频数据的对比结果，对所述编码器和解码器进行训练，包括：

7.根据权利要求1或2所述的语音合成方法，其中，所述语种转换信息包括第一样本多语种文本中至少一个语种转换点的位置信息。

8.一种语音合成装置，其特征在于，包括：

文本获取模块，用于获取待合成文本；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1~7任一项所述语音合成方法的步骤。

10.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储计算机程序；

其中，所述处理器配置为经由执行所述计算机程序来执行权利要求1~7任一项所述语音合成方法的步骤。