CN116386593A

CN116386593A - 语音合成方法、预测模型的训练方法、服务器和存储介质

Info

Publication number: CN116386593A
Application number: CN202310268409.0A
Authority: CN
Inventors: 徐东; 刘若澜
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2023-03-08
Filing date: 2023-03-08
Publication date: 2023-07-04

Abstract

本申请涉及一种语音合成方法、预测模型的训练方法、服务器和存储介质。所述语音合成方法包括：获取文本序列；将文本序列输入预先训练完成的特征预测模型，由特征预测模型对文本序列进行音素预测，得到预测音素数据；以及对文本序列进行停顿时长预测，得到预测停顿数据；以及对文本序列进行发音强度预测，得到预测强度数据；以及对文本序列进行语句类型预测，得到预测句型数据；以及对文本序列的融合数据进行声谱预测，确定对应的预测声谱特征；将预测声谱特征输入预先训练完成的声码器中进行语音转换，生成针对于文本序列的合成语音音频。采用本方法能够提升合成语音音频的自然度以及使得合成的语音音频更加贴合语境。

Description

语音合成方法、预测模型的训练方法、服务器和存储介质

技术领域

本申请涉及互联网技术领域，特别是涉及一种语音合成方法、特征预测模型的训练方法、服务器和存储介质。

背景技术

随着互联网技术的发展，语音合成作为一个新的应用技术领域，其利用音频和单词的相关合成技术，经过计算机制作出针对于目标用户的合成语音音频。因此，语音合成技术在电子听书、虚拟歌手、数字音乐创作等领域具有相当大的应用价值和前景。

在传统的语音合成的方法中，一般是先由人工听录得到大量的词语发音模板，再利用这些词语发音模板和待合成语音的文本内容进行匹配拼接，以合成得到合成语音音频。

然而，目前的语音合成的方法中，由于人工听录的词语发音模板的数量不够充足和词语发音的特点和类型不够丰富的情况，因而通过词语发音模板来合成的语音音频的自然度不高以及听感不能够贴合语境，从而导致合成的语音音频质量不高。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升合成语音音频质量的语音合成方法、特征预测模型的训练方法、语音合成装置、特征预测模型的训练装置、服务器、存储介质和计算机程序产品。

根据本公开实施例的第一方面，提供一种语音合成方法，包括：

获取文本序列；

将所述文本序列输入预先训练完成的特征预测模型，由所述特征预测模型对所述文本序列中的文字进行音素预测，得到预测音素数据；以及对所述文本序列中的文字进行停顿时长预测，得到预测停顿数据；以及对所述文本序列中的文字进行发音强度预测，得到预测强度数据；以及对所述文本序列中的语句进行语句类型预测，得到预测句型数据；以及对所述文本序列与所述预测音素数据、所述预测停顿数据、所述预测强度数据和所述预测句型数据之间的融合数据进行声谱预测，确定对应的预测声谱特征；

将所述预测声谱特征输入预先训练完成的声码器中进行语音转换，生成针对于所述文本序列的合成语音音频。

在一示例性实施例中，所述特征预测模型包括语句类型预测网络；所述对所述文本序列中的语句进行语句类型预测，得到预测句型数据，包括：

将所述文本序列输入所述语句类型预测网络，由所述语句类型预测网络基于所述文本序列中每一语句的文本结构和标点字符，对各所述语句进行语句类型预测，得到对应的预测语句数据。

在一示例性实施例中，所述特征预测模型包括发音强度预测网络；所述对所述文本序列中的文字进行发音强度预测，得到预测强度数据，包括：

将所述文本序列输入所述发音强度预测网络，由所述发音强度预测网络基于所述文本序列中每一语句的文本结构和对应各文字的词性，对所述文本序列中每一文字进行发音强度预测，得到对应的预测强度数据。

在一示例性实施例中，所述对所述文本序列中每一文字进行发音强度预测，包括：

在预设的多个强度等级中，预测所述文本序列中的各文字的发音强度分别属于对应的目标强度等级，并将所述目标强度等级作为对应文字的预测强度数据；其中，所述发音强度基于文字的发音时长和发音基频表征；各所述强度等级表征文字对应所属的发音强度范围。

在一示例性实施例中，所述特征预测模型包括声谱预测网络，所述预测声谱特征表征针对于所述文本序列的预测梅尔谱特征；

所述对所述文本序列与所述预测音素数据、所述预测停顿数据、所述预测强度数据和所述预测句型数据之间的融合数据进行声谱预测，确定对应的预测声谱特征，包括：

将所述文本序列分别与所述文本序列中各文字的预测音素数据、预测停顿数据、预测强度数据，以及所述文本序列中各语句的预测句型数据进行数据融合，得到对应的融合数据；

将所述融合数据输入所述声谱预测网络，由所述声谱预测网络对所述融合数据进行声谱预测，得到对应的初始预测特征；

对所述初始预测特征进行频谱调整，得到所述预测梅尔谱特征；所述频谱调整用于调整所述初始预测特征的频谱单位和频谱范围。

在一示例性实施例中，所述将所述融合数据输入所述声谱预测网络，由所述声谱预测网络对所述融合数据进行声谱预测，包括：

获取针对所述文本序列所预设的语速阈值，所述语速阈值用于指示在表达所述文本序列中的文字时的发音语速；并将所述语速阈值与所述融合数据进行数据融合，得到新的融合数据；

将所述新的融合数据输入所述声谱预测网络，由所述声谱预测网络对所述新的融合数据进行声谱预测。

在一示例性实施例中，所述方法还包括：

获取语音训练样本以及所述语音训练样本所对应的样本文本内容；

将所述样本文本内容输入所述预先训练完成的特征预测模型，并获得所述特征预测模型输出的针对所述样本文本内容的预测声谱特征；

将所述预测声谱特征输入待训练的声码器中进行语音波形转换，得到针对于所述语音训练样本的合成语音音频；

基于所述合成语音音频和所述语音训练样本之间的差异，调整所述待训练的声码器的模型参数，直到满足训练结束条件，得到训练完成的声码器。

在一示例性实施例中，在所述得到训练完成的声码器之后，还包括：

对所述语音训练样本进行变速变调处理，得到对应的扩展训练样本；所述变速变调处理用于修改语音训练样本的发音语速和发音基频；

基于所述语音训练样本的合成语音音频和所述扩展训练样本之间的差异，调整所述训练完成的声码器的模型参数，得到调整后的声码器。

根据本公开实施例的第二方面，提供一种特征预测模型的训练方法，包括：

获取语音训练样本的样本文本序列和原始特征数据；所述原始特征数据包括针对所述样本文本序列中各文字的原始音素特征、原始停顿特征、原始强度特征、针对所述样本文本序列中各语句的原始句型特征，以及针对所述语音训练样本的原始声谱特征；

将所述样本文本序列输入待训练的特征预测模型中进行特征预测，得到对应的预测特征数据；所述预测特征数据包括对应于所述原始音素特征的预测音素特征、对应于所述原始停顿特征的预测停顿特征、对应于所述原始强度特征的预测强度特征、对应于所述原始句型特征的预测句型特征和对应于所述原始声谱特征的预测声谱特征；

基于所述预测特征数据和所述原始特征数据之间的差异，调整所述待训练的特征预测模型的模型参数，直到满足训练结束条件，得到训练完成的特征预测模型；

其中，所述训练完成的特征预测模型应用于针对输入的文本序列输出对应的预测特征数据，所述预测特征数据用于合成所述文本序列对应的语音音频。

在一示例性实施例中，所述特征预测模型包括音素预测网络；所述基于所述预测特征数据和所述原始特征数据之间的差异，调整所述待训练的特征预测模型的模型参数，包括：

在所述预测音素特征中确定出与所述原始音素特征不相同的目标音素特征集合；

基于预设的音素特征映射表，将所述目标音素特征集合中的各音素特征转换为对应的修正音素特征；所述修正音素特征属于所述原始音素特征；

基于所述目标音素特征集合中的各音素特征和所述修正音素特征之间的差异，调整所述待训练的音素预测网络的网络参数，得到训练完成的音素预测网络；

其中，所述训练完成的音素预测网络应用于针对输入的文本序列输出对应的预测音素特征，所述预测音素特征用于合成所述文本序列对应的语音音频。

在一示例性实施例中，所述特征预测模型包括语速控制网络；所述方法还包括：

获取语音训练样本的初始音频时长；以及

将所述文本序列所对应的初始音素序列输入待训练的语速控制网络中进行语速控制，得到所述语音训练样本在对应预设语速阈值控制下的控制音频时长；

基于所述初始音频时长和所述控制音频时长之间的差异，调整所述待训练的语速控制网络的网络参数，直到满足训练结束条件，得到训练完成的语速控制网络；

其中，所述训练完成的语速控制网络应用于针对输入的音素序列和预设语速阈值输出对应的音频时长特征，所述音频时长特征用于控制所述文本序列对应的合成语音音频的语速。

在一示例性实施例中，所述特征预测模型包括对抗学习网络；所述方法还包括：

获取所述语音训练样本的原始声谱特征和预测声谱特征；

按照预设的频带范围，将所述原始声谱特征分解为对应的多个第一子类特征，以及将所述预测声谱特征分解为对应的多个第二子类特征；

基于所述多个第一子类特征和所述多个第二子类特征之间的差异，对待训练的对抗学习网络的网络参数进行迭代学习，得到训练完成的对抗学习网络；

其中，所述训练完成的对抗学习网络应用于针对输入的第一子类特征和第二子类特征输出对应调整后的第二子类特征，所述调整后的第二子类特征用于合成所述文本序列对应的语音音频。

根据本公开实施例的第三方面，提供一种语音合成装置，包括：

数据获取单元，被配置为执行获取文本序列；

模型预测单元，被配置为执行将所述文本序列输入预先训练完成的特征预测模型，由所述特征预测模型对所述文本序列中的文字进行音素预测，得到预测音素数据；以及对所述文本序列中的文字进行停顿时长预测，得到预测停顿数据；以及对所述文本序列中的文字进行发音强度预测，得到预测强度数据；以及对所述文本序列中的语句进行语句类型预测，得到预测句型数据；以及对所述文本序列与所述预测音素数据、所述预测停顿数据、所述预测强度数据和所述预测句型数据之间的融合数据进行声谱预测，确定对应的预测声谱特征；

语音合成单元，被配置为执行将所述预测声谱特征输入预先训练完成的声码器中进行语音转换，生成针对于所述文本序列的合成语音音频。

根据本公开实施例的第四方面，提供一种特征预测模型的训练装置，包括：

样本获取单元，被配置为执行获取语音训练样本的样本文本序列和原始特征数据；所述原始特征数据包括针对所述样本文本序列中各文字的原始音素特征、原始停顿特征、原始强度特征、针对所述样本文本序列中各语句的原始句型特征，以及针对所述语音训练样本的原始声谱特征；

样本预测单元，被配置为执行将所述样本文本序列输入待训练的特征预测模型中进行特征预测，得到对应的预测特征数据；所述预测特征数据包括对应于所述原始音素特征的预测音素特征、对应于所述原始停顿特征的预测停顿特征、对应于所述原始强度特征的预测强度特征、对应于所述原始句型特征的预测句型特征和对应于所述原始声谱特征的预测声谱特征；

模型调整单元，被配置为执行基于所述预测特征数据和所述原始特征数据之间的差异，调整所述待训练的特征预测模型的模型参数，直到满足训练结束条件，得到训练完成的特征预测模型；

根据本公开实施例的第五方面，提供一种服务器，包括：

处理器；

用于存储所述处理器的可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令，以实现如上述任一项所述的语音合成方法，和/或特征预测模型的训练方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，所述计算机可读存储介质中包括计算机程序，当所述计算机程序由服务器的处理器执行时，使得所述服务器能够执行如上述任一项所述的语音合成方法，和/或特征预测模型的训练方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，所述计算机程序产品中包括程序指令，当所述程序指令被服务器的处理器执行时，使得所述服务器能够执行如上述任一项所述的语音合成方法，和/或特征预测模型的训练方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

该方法先通过获取文本序列；然后，再将文本序列输入预先训练完成的特征预测模型，由特征预测模型对文本序列中的文字进行音素预测，得到预测音素数据；以及对文本序列中的文字进行停顿时长预测，得到预测停顿数据；以及对文本序列中的文字进行发音强度预测，得到预测强度数据；以及对文本序列中的语句进行语句类型预测，得到预测句型数据；以及对文本序列与预测音素数据、预测停顿数据、预测强度数据和预测句型数据之间的融合数据进行声谱预测，确定对应的预测声谱特征；最后，再将预测声谱特征输入预先训练完成的声码器中进行语音转换，生成针对于文本序列的合成语音音频。这样，一方面，区别于现有技术中通过人工听录大量的词语发音模板来合成语音音频的方式，本申请仅利用待合成音频的文字序列和对应的预测特征数据，即合成得到针对于文本序列的合成语音音频，从而优化了合成语音音频制作的流程，节省了人工录制的成本和用户的等待时间；另一方面，通过关于文本序列的预测音素数据、预测停顿数据、预测强度数据和预测句型数据之间的融合数据所对应的预测声谱特征来生成针对文本序列的合成语音音频，使得合成语音音频具有更加丰富和自然的音频特征，从而在表达合成语音音频时具有更高的自然度、更加贴合文本语境，以保证了合成语音音频具有较高质量。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种语音合成方法的应用环境图。

图2是根据一示例性实施例示出的一种语音合成方法的流程图。

图3是根据一示例性实施例示出的一种预测文字发音强度等级的模块图。

图4是根据一示例性实施例示出的一种训练声码器步骤的流程图。

图5是根据一示例性实施例示出的一种调整声码器步骤的流程图。

图6是根据一示例性实施例示出的一种特征预测模型的训练方法的流程图。

图7是根据一示例性实施例示出的一种特征预测模型的训练方法的模块图。

图8是根据一示例性实施例示出的一种语速控制网络的训练方法的流程图。

图9是根据另一示例性实施例示出的一种语音合成方法的流程图。

图10是根据另一示例性实施例示出的一种语音合成方法的模块图。

图11为根据一示例性实施例示出的一种语音合成装置框图。

图12是根据一示例性实施例示出的一种特征预测模型的训练装置框图。

图13是根据一示例性实施例示出的一种用于语音合成的服务器的框图。

图14是根据一示例性实施例示出的一种用于语音合成的计算机可读存储介质的框图。

图15是根据一示例性实施例示出的一种用于语音合成的计算机程序产品的框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例中的术语“和/或”指的是包括相关联的列举项目中的一个或多个的任何和全部的可能组合。还要说明的是：当用在本说明书中时，“包括/包含”指定所陈述的特征、整数、步骤、操作、元件和/或组件的存在，但是不排除一个或多个其他特征、整数、步骤、操作、元件和/或组件和/或它们的组群的存在或添加。

本申请中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

另外，本申请中尽管多次采用术语“第一”、“第二”等来描述各种操作(或各种元件或各种应用或各种指令或各种数据)等，不过这些操作(或元件或应用或指令或数据)不应受这些术语的限制。这些术语只是用于区分一个操作(或元件或应用或指令或数据)和另一个操作(或元件或应用或指令或数据)。例如，第一预测网络可以被称为第二预测网络，第二预测网络也可以被称为第一预测网络，仅仅是其两者所包括的范围不同，而不脱离本申请的范围，第一预测网络和第二预测网络都是各种类别的用于预测音频特征的网络模型的集合，只是二者并不是相同类别的预测音频特征的网络模型的集合而已。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本申请实施例提供的语音合成方法和/或训练模型的训练方法，可以应用于如图1所示的应用环境中。其中，终端102通过通信网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或网络服务器上。

在一些实施例中，参考图1，服务器104首先获取文本序列；然后，服务器104再将文本序列输入预先训练完成的特征预测模型，由特征预测模型对文本序列中的文字进行音素预测，得到预测音素数据；以及对文本序列中的文字进行停顿时长预测，得到预测停顿数据；以及对文本序列中的文字进行发音强度预测，得到预测强度数据；以及对文本序列中的语句进行语句类型预测，得到预测句型数据；以及对文本序列与预测音素数据、预测停顿数据、预测强度数据和预测句型数据之间的融合数据进行声谱预测，确定对应的预测声谱特征；最后，服务器104再将预测声谱特征输入预先训练完成的声码器中进行语音转换，生成针对于文本序列的合成语音音频。

在一些实施例中，终端102(如移动终端、固定终端)可以以各种形式来实施。其中，终端102可为包括诸如移动电话、智能电话、笔记本电脑、便携式手持式设备、个人数字助理(PDA，Personal Digital Assistant)、平板电脑(PAD)等等的可以根据待合成语音音频的文本序列进行语音合成的移动终端，终端102也可以是自动柜员机(Automated TellerMachine，ATM)、自动一体机、数字TV、台式计算机、固式计算机等等的可以根据待合成语音音频的文本序列进行语音合成的固定终端。

下面，假设终端102是固定终端。然而，本领域技术人员将理解的是，若有特别用于移动目的的操作或者元件，根据本申请公开的实施方式的构造也能够应用于移动类型的终端102。

在一些实施例中，服务器104运行的数据处理组件可以加载正在被执行的可以包括各种附加服务器应用和/或中间层应用中的任何一种，如包括HTTP(超文本传输协议)、FTP(文件传输协议)、CGI(通用网关界面)、RDBMS(关系型数据库管理系统)等。

在一些实施例中，服务器104可以通过部署的服务器(如独立的服务器或者是多个服务器组成的服务器集群)来实现对应的网络功能。服务器104也可以适于运行提供前述公开中描述的终端102的一个或多个应用服务或软件组件。

在一些实施例中，应用服务可以包括向用户提供关于多种待合成音频的文本序列的服务界面(网络小说有声化界面、歌词文本演唱化界面等)，以及对应程序服务等等。其中，软件组件可以包括例如具有根据用户选择的文本内容，来对文本内容进行特征预测和语音合成功能的应用程序(SDK)或者客户端(APP)。

在一些实施例中，服务器104所提供的具有根据用户选择的文本内容，来对文本内容进行特征预测和语音合成功能的应用程序或者客户端包括一个在前台向用户提供一对一应用服务的门户端口和多个位于后台进行数据处理的业务系统，以将关于文本内容的特征预测和语音合成功能应用扩展到APP或者客户端，从而用户能够在任何时间任何地点进行语音合成相关联功能的使用和访问。

在一些实施例中，APP或者客户端中关于文本内容的特征预测和语音合成功能可为运行在用户模式以完成某项或多项特定工作的计算机程序，其可以与用户进行交互，且具有可视的用户界面。其中，APP或者客户端可以包括两部分：图形用户接口(GUI)和引擎(engine)，利用这两者能够以用户界面的形式向用户提供多种应用服务的数字化客户系统。

在一些实施例中，用户可以通过预设的输入装置或者自动控制程序向APP或者客户端输入相应的代码数据或者控制参数，以执行服务器104中的计算机程序的应用服务，以及显示用户界面中的应用服务。

作为一种示例，当用户需要将在终端102中实时合成并播放一段用户针对一网络小说时，用户可以通过输入装置向终端102传入关于网络小说的文本序列，然后通过服务器104调用预先训练完成的网络模型对文本序列进行特征预测和语音合成，从而得到针对于该网络小说的合成语音音频，最后，服务器104向终端102发送该合成语音音频，以使合成的语音音频在终端102所运行的APP或者客户端中进行播放。

在一些实施例中，APP或者客户端运行的操作系统可以包括各种版本的Microsoft

Apple />

和/或Linux操作系统、各种商用或类/>

操作系统(包括但不限于各种GNU/Linux操作系统、Google />

OS等)和/或移动操作系统，诸如

Phone、/>

OS、/>

OS、/>

OS操作系统，以及其它在线操作系统或者离线操作系统，在这里不做具体的限制。

在一些实施例中，如图2所示，提供了一种语音合成方法，以该方法应用于图1中的服务器104为例进行说明，该方法包括以下步骤：

步骤S11，获取文本序列。

在一些实施例中，文本序列为由多个文字语句组成的文字序列，其用于表达待合成音频的文本内容。在一些实施例中，文字序列可以有多种表达形式，例如，中文形式的文字序列、英文形式的文字序列、德语形式的文字序列等等。

在一些实施例中，服务器首先从终端应用(如手机、平板等)中获取到关于待合成音频的文本文件，然后，服务器再对文本文件进行拆分和编码得到关于待合成音频的多个文本序列。

作为一示例，服务器从手机终端中提取出用户账户选择的一TXT格式的英文小说文件，然后，服务器将该英文小说文件按照章节分解为对应的N个子文件，然后，服务器再将该N个子文件转换为预设编码格式的多个文本序列。

其中，文本文件的格式可以为PDF格式、EXE格式、CHM格式、UMD格式、PDG格式、JAR格式、PDB格式、TXT格式、BRM格式等等，这里不做具体限定。

步骤S12：将文本序列输入预先训练完成的特征预测模型。

在一些实施例中，特征预测模型为服务器利用大量的训练音频样本训练完成的声学模型，在该声学模型中包括有多种声学特征预测网络，每种声学特征预测网络可以用于对输入的文本内容进行对应的声学特征预测，得到对应的特征预测结果。在一些实施中，特征预测模型可以为各种类型的深度神经网络，例如，基于CNN/RNN/LSTM的深度卷积神经网络等等，这里不做具体限定。

在一些实施例中，特征预测模型中包括音素预测网络，该音素预测网络用于对文本序列中的文字进行音素预测，得到预测音素数据。作为示例，服务器将文本序列输入音素预测网络，由音素预测网络对文本序列中的每一个文字进行音素类型的预测，得到关于各文字所组成的预测音素串。

在一些实施例中，在特征预测模型中包括韵律预测网络，该韵律预测网络用于对文本序列中的文字进行停顿时长预测，得到预测停顿数据。作为示例，服务器将文本序列输入韵律预测网络，由韵律预测网络对文本序列中的每一个文字进行停顿时长的预测，得到各文字对应在发音时的预测停顿时长。其中，文字的停顿时长用于表达文字语言的韵律。

在一些实施例中，在特征预测模型中包括发音强度预测网络，发音强度预测网络用于对文本序列中的文字进行发音强度预测，得到预测强度数据。作为示例，服务器将文本序列输入发音强度预测网络，由发音强度预测网络对文本序列中的每一个文字进行发音强度的预测，得到各文字对应在发音时的预测发音强度。其中，文字的发音强度用于表达文字语言的发音时长和发音基频。

在某些实施例中，文字的发音强度与表达文字语言的发音时长、发音基频正相关，即若预测的文字的发音强度越高，则对应预测的在表达文字语言时的发音时长越长、发音基频越高；若预测的文字的发音强度越低，则对应预测的在表达文字语言时的发音时长越短、发音基频越低。

在一些实施例中，特征预测模型中包括语句类型预测网络，语句类型预测网络用于对文本序列中的语句进行语句类型预测，得到预测句型数据。作为示例，服务器将文本序列输入语句类型预测网络，由语句类型预测网络对文本序列中的每一个语句进行语句类型的预测，得到各语句对应的预测类型。

在一实施例中，语句类型用于表达文字语言的角色或者语言文体。例如，在一文本序列中包括多种类型语言文体(如旁白语言、对话语言等)，每一种类型语言文体为一种类型的语句类型。又如，在一文本序列中包括多个不同人物角色的对话语句，每一个人物角色的对话语句为一种类型的语句类型。

在一些实施例中，在特征预测模型中包括声谱预测网络，该声谱预测网络用于对文本序列与预测音素数据、预测停顿数据、预测强度数据和预测句型数据之间的融合数据进行声谱预测，确定对应的预测声谱特征。

作为示例，服务器首先将文本序列与对应的预测音素数据、预测停顿数据、预测强度数据和预测句型数据进行数据融合，得到对应的融合数据，然后，服务器再将融合数据输入声谱预测网络，由声谱预测网络对融合数据进行声谱的预测，得到对应的预测声谱特征。

其中，声谱预测网络对融合数据进行声谱的预测包括对融合数据进行频域、时域、功率、振幅中的至少一种的声谱预测，得到的预测声谱特征可以表征为梅尔谱特征、梅尔倒谱特征等的声学特征。

步骤S13：将预测声谱特征输入预先训练完成的声码器中进行语音转换，生成针对于文本序列的合成语音音频。

在一些实施例中，服务器首先对预测声谱特征进行特征解码，得到对应的预测声谱数据，然后，服务器再将预测声谱数据输入预先训练完成的声码器中进行语音波形转换，得到针对于文本序列对应媒体格式的语音波形文件，其中，语音波形文件即为合成语音音频。其中，合成语音音频对应媒体格式的语音波形文件可以为关于如MP3、MP4等的多媒体文件，这里不做具体限定。

上述的语音合成过程中，服务器首先获取文本序列；然后，服务器再将文本序列输入预先训练完成的特征预测模型，由特征预测模型对文本序列中的文字进行音素预测，得到预测音素数据；以及对文本序列中的文字进行停顿时长预测，得到预测停顿数据；以及对文本序列中的文字进行发音强度预测，得到预测强度数据；以及对文本序列中的语句进行语句类型预测，得到预测句型数据；以及对文本序列与预测音素数据、预测停顿数据、预测强度数据和预测句型数据之间的融合数据进行声谱预测，确定对应的预测声谱特征；最后，服务器将预测声谱特征输入预先训练完成的声码器中进行语音转换，生成针对于文本序列的合成语音音频。这样，一方面，区别于现有技术中通过人工听录大量的词语发音模板来合成语音音频的方式，本申请仅利用待合成音频的文字序列和对应的预测特征数据，即合成得到针对于文本序列的合成语音音频，从而优化了合成语音音频的制作流程，节省了人工录制的制作成本和用户的等待时间；另一方面，通过关于文本序列的预测音素数据、预测停顿数据、预测强度数据和预测句型数据之间的融合数据所对应的预测声谱特征来生成针对文本序列的合成语音音频，使得合成语音音频具有更加丰富和自然的音频特征，从而在表达合成语音音频时具有更高的自然度、更加贴合文本语境，以保证了合成语音音频具有较高质量。

本领域技术人员可以理解地，在具体实施方式的上述方法中，所揭露的方法可以通过更为具体的方式以实现。例如，以上所描述的服务器将预测声谱特征输入预先训练完成的声码器中进行语音转换，生成针对于文本序列的合成语音音频的实施方式仅仅是示意性的。

示例性地，特征预测模型对文本序列中的每一文字进行音素预测，得到预测音素数据的方式；或者特征预测模型对文本序列中每一文字进行停顿时长预测，得到预测停顿数据的方式等等，其仅仅为一种集合的方式，实际实现时可以有另外的划分方式，例如针对文本序列中每一文字的预测音素数据、预测停顿数据和预测强度数据之间可以结合或者可以集合到另一个系统中，或一些特征可以忽略，或不执行。

在一实施例中，在步骤S12中，服务器对文本序列中的语句进行语句类型预测，得到预测句型数据的过程，具体可以通过以下方式实现：将文本序列输入语句类型预测网络，由语句类型预测网络基于文本序列中每一语句的文本结构和标点字符，对各语句进行语句类型预测，得到对应的预测语句数据。

在一实施例中，服务器对各语句进行语句类型预测，包括：预测文本序列中的各语句为对话类型语句或者旁白类型语句。即预测的语句类型包括对话类型语句或者旁白类型语句。在其他实施例中，预测的语句类型也可以为其他的类型，如按照对话角色进行分类的语句类型、按照语句长度进行分类的语句类型。

在一些实施例中，语句类型预测网络根据语句的文本结构所对应的上下文、文本位置，以及语句中的标点字符所表征的语言意义，来对各语句进行语句类型预测。作为一示例，若语句类型预测网络分析出在语句中出现双引号、并且其右引号前是标点的情况，则语句类型预测网络预测该段语句为对话类型。

在一实施例中，在步骤S12中，服务器对文本序列中的文字进行发音强度预测，得到预测强度数据的过程，具体可以通过以下方式实现：

将文本序列输入发音强度预测网络，由发音强度预测网络基于文本序列中每一语句的文本结构和对应各文字的词性，对文本序列中每一文字进行发音强度预测，得到对应的预测强度数据。

在一些实施例中，服务器预设有多个强度等级，各所述强度等级表征文字对应所属的发音强度范围。其中，针对文本序列中文字的对应所属的目标强度等级用于表征文字对应的预测强度数据。作为一示例，服务器预设的强度等级有第1等级、第2等级和第3等级，且第1等级对应的发音强度范围包括(x1，x2)、第2等级对应的发音强度范围包括(x2，x3)和第3等级对应的发音强度范围包括(x3，x4)。其中，文字序列“A1-A2-A3”中的文字“A1”的发音强度处于(x1，x2)、文字“A2”的发音强度处于(x2，x3)和文字“A3”的发音强度处于(x3，x4)，则文字“A1”对应的预测强度数据为第1等级，文字“A2”对应的预测强度数据为第2等级和文字“A3”对应的预测强度数据为第3等级。

在一实施例中，服务器对文本序列中每一文字进行发音强度预测，得到对应的预测强度数据，包括：在预设的多个强度等级中，预测文本序列中的各文字的发音强度分别所属的目标强度等级，并将所述目标强度等级作为对应文字的预测强度数据。其中，发音强度基于文字的发音时长和发音基频表征，即不同强度等级的文字所对应的发音强度的发音时长和发音基频不同。例如，预设的强度等级有第1等级、第2等级和第3等级，且第3等级的发音时长和发音基频均高于第2等级，第2等级的发音时长和发音基频均高于第1等级。在某些实施例中，文字的发音强度等级与表达文字的发音时长、发音基频正相关，即若预测的文字的发音强度等级越高，则对应预测在表达文字时的发音时长越长、发音基频越高；若预测的文字的发音强度等级越低，则对应预测在表达文字时的发音时长越短、发音基频越低。

在一些实施例中，语句类型预测网络根据语句的文本结构，以及语句中各文字的词性意义，来对各文字进行发音强度预测。其中，语句的文本结构基于对应的上下文和文本位置表征。

参阅图3，图3为本申请中预测文字发音强度等级一实施例的界面示意图。其中，语句类型预测网络分析语句A：“你总是吃得这么多”的上下文、文本位置，以及语句A中各文字的词性意义，预测语句A中“你”的发音强度第1等级P1、“总”的发音强度第1等级P1、“是”的发音强度第2等级P2、“吃”的发音强度第1等级P1、“得”的发音强度第1等级P1、“这”的发音强度第2等级P2、“多”的发音强度第3等级P3。

在一实施例中，在步骤S12中，服务器对文本序列与预测音素数据、预测停顿数据、预测强度数据和预测句型数据之间的融合数据进行声谱预测，确定对应的预测声谱特征的过程，具体可以通过以下方式实现：

步骤一：将文本序列分别与文本序列中各文字的预测音素数据、预测停顿数据、预测强度数据，以及文本序列中各语句的预测句型数据进行数据融合，得到对应的融合数据。其中，文本序列、预测音素数据、预测停顿数据、预测强度数据，以及预测句型数据均基于对应的特征向量表达，且其特征向量的维度相同。

在一些实施例中，服务器将各种特征数据的特征向量按照文本序列中各文本的先后次序，将对应的文本序列向量、预测音素向量、预测停顿向量、预测强度向量，以及预测句型向量进行融合，得到对应融合后的特征向量，即融合数据。

步骤二：将融合数据输入声谱预测网络，由声谱预测网络对融合数据进行声谱预测，得到对应的初始预测特征。

在一些实施例中，声谱预测网络用于对融合特征数据中的文字特征、音素特征、文字停顿特征、文字强度特征和语句类型特征进行频域、时域、功率、振幅中至少一种的特征分析，预测得到对应的初始预测特征。

步骤三：对初始预测特征的频谱单位和频谱范围进行调整，得到针对于文本序列的预测梅尔谱特征。

在一些实施例中，初始预测特征为文本序列的预测声谱特征的一种表现形式，预测梅尔谱特征为文本序列的预测声谱特征的另一种表现形式。其中，由于人耳能听到的声音的频率范围是20-20000HZ，并且人耳对HZ单位的声音不是线性敏感，因此，为了使得后续的合成语音音频更加符合人耳听觉系统的特性，服务器再对初始预测特征进行频谱调整，以将初始预测特征的频谱范围调整为适用于人耳的范围，以及将初始预测特征的频谱单位由赫兹(Hz)转换为梅尔(Mel)。

在一实施例中，在步骤S12中，服务器将融合数据输入声谱预测网络，由声谱预测网络对融合数据进行声谱预测，还可以执行以下方式的技术方案：

步骤一：获取针对文本序列所预设的语速阈值。

在一些实施例中，预设的语速阈值用于指示在表达文本序列中的文字时的发音语速。其中，用户账户通过向服务器输入对应的语速控制数据，以在播放合成语音音频的文本内容时控制文字的播放速度。在一些实施例中，预设的语速阈值可以为例如1.5倍语速阈值、2.0倍语速阈值、3.0倍语速阈值等等，这里不做具体限定。

步骤二：将语速阈值与融合数据进行数据融合，得到对应新的融合数据。

在一些实施例中，语速阈值可以以控制字符的形式叠加入融合数据之中，以形成对应新的融合数据；语速阈值也可以以对应的特征向量的形式拼接在融合数据之中，以形成对应新的融合数据，以使得该新的融合数据具有语速阈值的数据特征。

步骤三：将新的融合数据输入声谱预测网络，由声谱预测网络对新的融合数据进行声谱预测。

其中，该步骤三与上述实施例中的“将融合数据输入声谱预测网络，由声谱预测网络对融合数据进行声谱预测，得到对应的初始预测特征”相似，这里不再赘述。

在一示例性实施例中，参阅图4，图4为本申请中训练声码器一实施例的流程示意图。

在步骤S11之前，服务器还可以执行以下方式的技术内容：

步骤a1，获取语音训练样本以及语音训练样本所对应的样本文本内容。

在一实施例中，服务器从样本数据库中提取出多个语音训练样本，以及从各语音训练样本中提取出对应的各样本文本内容。其中，样本文本内容以文本序列的形式表征。

步骤a2，将样本文本内容输入预先训练完成的特征预测模型，并获得特征预测模型输出的针对样本文本内容的预测声谱特征。

在一些实施例中，服务器将样本文本内容输入上述已预先训练完成的特征预测模型中进行特征预测(包括音素预测、停顿时长预测、发音强度预测、语句类型预测、声谱预测)，并获得特征预测模型输出的针对文本序列与预测音素数据、预测停顿数据、预测强度数据和预测句型数据之间融合数据的预测声谱特征。

步骤a3，将样本文本内容的预测声谱特征输入待训练的声码器中进行语音波形转换，得到针对于语音训练样本的合成语音音频。

在一实施例中，服务器首先对预测声谱特征进行特征解码，得到对应的预测声谱数据，然后，服务器再将预测声谱数据输入待训练的声码器中进行语音波形转换，得到针对于文本序列对应媒体格式的语音波形文件，其中，语音波形文件即为合成语音音频。

步骤a4，基于合成语音音频和语音训练样本之间的差异，调整待训练的声码器的模型参数，直到满足训练结束条件，得到训练完成的声码器。

在一实施例中，服务器根据合成语音音频和语音训练样本之间的差异，确定出待训练的声码器当前的第一模型损失值。然后，服务器根据第一模型损失值调整待训练的声码器的模型参数。其中，服务器在根据第一模型损失值调整模型参数时，可以采用梯度下降方法朝着使模型对应的损失值下降的方向对模型参数进行调整。

在根据合成语音音频和语音训练样本之间的差异，确定第一模型损失值后，服务器可以朝着使第一模型损失值变小的方向调整声码器的模型参数。在对待训练的声码器进行训练的过程中，通过逐步地对模型参数进行调整，直到满足训练结束条件时，可以得到预训练的声码器，该声码器可以基于输入的梅尔谱特征数据进行语音合成，得到具有训练对象音色的语音音频。

在一些实施例中，预训练的声码器合成的语音音频对应媒体格式的语音波形文件，其中，语音波形文件的媒体格式可以为关于如MP3、MP4等的多媒体文件，这里不做具体限定。

在一示例性实施例中，参阅图5，图5为本申请中调整声码器一实施例的流程示意图。

在步骤a4之后，服务器还可以执行以下方式的技术内容：

步骤b1，对语音训练样本进行变速变调处理，得到对应的扩展训练样本。

在一实施例中，变速变调处理用于修改语音训练样本的发音语速和发音基频。作为一示例，语音训练样本A1的初始发音语速为X1、初始发音基频值为Y1；服务器对对语音训练样本A1进行三次不同的变速变调处理，得到对应的语音训练样本A2，且语音训练样本A2的发音语速为X2、发音基频值为Y2；得到对应的语音训练样本A3，且语音训练样本A3的发音语速为X3、发音基频值为Y3；得到对应的语音训练样本A4，且语音训练样本A4的发音语速为X4、发音基频值为Y4。其中，X1＜X2＜X3＜X4，Y1＜Y2＜Y3＜Y4。

步骤b2，基于语音训练样本的合成语音音频和扩展训练样本之间的差异，调整训练完成的声码器的模型参数，得到调整后的声码器。

在一些实施例中，服务器根据合成语音音频和扩展训练样本之间的差异，确定出声码器当前的第二模型损失值。然后，服务器根据第二模型损失值调整声码器的模型参数，得到调整后的声码器。

其中，服务器在根据第二模型损失值调整模型参数时，可以采用梯度下降方法朝着使模型对应的损失值下降的方向对模型参数进行调整。

在一些实施例中，如图6和图7所示，图6提供了一种特征预测模型的训练方法的流程示意图，图7提供了一种特征预测模型的训练方法的模块示意图，以该方法应用于图1中的服务器104为例进行说明，该方法包括以下步骤：

步骤S21，获取语音训练样本的样本文本序列和原始特征数据。

在一实施例中，原始特征数据包括针对样本文本序列中各文字的原始音素特征、原始停顿特征、原始强度特征、针对样本文本序列中各语句的原始句型特征，以及针对语音训练样本的原始声谱特征。

在一些实施例中，样本文本序列为由多个文字组成的文字序列，其用于表达语音训练样本的文本内容。在一些实施例中，样本文字序列可以有多种表达形式，例如，中文形式的文字序列、英文形式的文字序列、德语形式的文字序列等等。

步骤S22，将样本文本序列输入待训练的特征预测模型中进行特征预测，得到对应的预测特征数据。

在一些实施例中，待训练的特征预测模型为声学模型，在该声学模型中包括有多种待训练的声学特征预测网络(包括音素预测网络、韵律预测网络、发音强度预测网络、语句类型预测网络、声谱预测网络、语速控制网络和对抗学习网络)，每种声学特征预测网络可以用于对输入的文本内容进行对应的声学特征预测，得到对应的特征预测结果。

在一些实施中，待训练的特征预测模型可以为各种类型的深度神经网络，例如，基于CNN/RNN/LSTM的深度卷积神经网络等等，这里不做具体限定。

在一实施例中，预测特征数据包括对应于原始音素特征的预测音素特征、对应于原始停顿特征的预测停顿特征、对应于原始强度特征的预测强度特征、对应于原始句型特征的预测句型特征和对应于原始声谱特征的预测声谱特征。

步骤S23，基于预测特征数据和原始特征数据之间的差异，调整待训练的特征预测模型的模型参数，直到满足训练结束条件，得到训练完成的特征预测模型。

在一实施例中，服务器根据预测特征数据和原始特征数据之间的差异，确定出待训练的特征预测模型当前的模型损失值。然后，服务器根据模型损失值调整待训练的特征预测模型的模型参数。其中，服务器在根据模型损失值调整模型参数时，可以采用梯度下降方法朝着使模型对应的损失值下降的方向对模型参数进行调整。

具体地，由于预测特征数据是待训练的特征预测模型对文本序列预测出的特征向量，因此对于待训练的特征预测模型来说，预测特征数据和原始特征数据之间的差异越小越好，即使得待训练的特征预测模型可以更准确地预测出文本序列的特征向量。

因此，在根据预测特征数据和原始特征数据之间的差异，确定模型损失值后，服务器可以朝着使模型损失值变小的方向调整特征预测模型的模型参数。在对待训练的特征预测模型进行训练的过程中，通过逐步地对模型参数进行调整，直到满足训练结束条件时，可以得到预训练的特征预测模型。从而，训练完成的特征预测模型可以基于输入的文本序列对文本序列中的语句和/或文字进行特征预测，得到文本序列的特征向量。

在一实施例中，训练完成的特征预测模型应用于针对输入的文本序列输出对应的预测特征数据。其中，预测特征数据用于合成上述公开实施例中的文本序列对应的语音音频。

在一实施例中，在服务器训练特征预测模型中待训练的音素预测网络时，即在步骤S23中，服务器基于预测特征数据和原始特征数据之间的差异，调整待训练的特征预测模型的模型参数，具体可以通过以下方式实现：

步骤一：在预测音素特征中确定出与原始音素特征不相同的目标音素特征集合。

作为一示例，待训练的音素预测网络针对文本序列预测的预测音素特征基于音素特征序列A1表征，语音训练样本的原始音素特征基于音素特征序列A2表征。服务器通过比对文本序列中的每一文字对应在音素特征序列A1中的音素特征和音素特征序列A2中的音素特征，以确定对应文字的音素特征不相同的目标音素特征集合。

步骤二：基于预设的音素特征映射表，将目标音素特征集合中的各音素特征转换为对应的修正音素特征。

在一些实施例中，预设的音素特征映射表用于指示文字对应的标准音素串，或者用于指示文字对应为语音训练样本中原始音素特征时的原始音素串。

在一些实施例中，服务器将目标音素特征集合中的各音素特征替换为音素特征映射表对应指示的标准音素的音素特征或者原始音素的音素特征。其中，修正音素特征属于原始音素特征或者用户账户设置的标准音素特征。

步骤三：基于目标音素特征集合中的各音素特征和修正音素特征之间的差异，调整待训练的音素预测网络的网络参数，得到训练完成的音素预测网络。

在一实施例中，服务器根据目标音素特征集合中的各音素特征和修正音素特征之间的差异，确定出待训练的音素预测网络当前的模型损失值。然后，服务器根据模型损失值调整待训练的音素预测网络的网络参数。其中，服务器在根据模型损失值调整网络参数时，可以采用梯度下降方法朝着使网络对应的损失值下降的方向对网络参数进行调整。

在一实施例中，训练完成的音素预测网络应用于针对输入的文本序列输出对应的预测音素特征，预测音素特征用于合成文本序列对应的语音音频。这样即可在音素预测网络的应用阶段，音素预测网络预测的每个文字的预测音素特征都能够与修正音素特征相同，从而可以提升后续合成音频的自然度。

在一示例性实施例中，如图8所示，图8提供了一种语速控制网络的训练方法的流程示意图，以该方法应用于图1中的服务器104为例进行说明，其中，语速控制网络属于特征预测模型中的一种预测模型，该方法包括以下步骤：

步骤c1，获取语音训练样本的初始音频时长。

在一实施例中，初始音频时长基于语音训练样本的原始语速阈值与文本序列中的文字数量之间的乘积值表征。其中，原始语速阈值为语音训练样本对应的原始播放速度。例如，文本序列中每个文字的原始播放速度为0.1秒、0.2秒等。

步骤c2，将文本序列所对应的初始音素序列输入待训练的语速控制网络中进行语速控制，得到语音训练样本在对应预设语速阈值控制下的控制音频时长。

在一实施例中，待训练的语速控制网络基于文本序列所对应的初始音素序列和用户账户对应的预设语速阈值来对语音训练样本的音频时长进行控制。

其中，预设语速阈值为用户账户人工配置的音频播放速度比例，该比例可以为任意的自然数值。例如，语音训练样本的原始音频时长为P1秒，预设语速阈值为1.5，则语音训练样本在对应1.5倍的语速阈值的控制下的控制音频时长为P1×1.5。

步骤c3，基于初始音频时长和控制音频时长之间的差异，调整待训练的语速控制网络的网络参数，直到满足训练结束条件，得到训练完成的语速控制网络。

在一实施例中，服务器根据初始音频时长和控制音频时长之间的差异，确定出待训练的语速控制网络当前的模型损失值。然后，服务器根据模型损失值调整待训练的语速控制网络的网络参数。其中，服务器在根据模型损失值调整网络参数时，可以采用梯度下降方法朝着使网络对应的损失值下降的方向对网络参数进行调整。

在一实施例中，训练完成的语速控制网络应用于针对输入的音素序列和预设语速阈值输出对应的音频时长特征，音频时长特征用于控制文本序列对应的合成语音音频的语速。这样即可在语速控制网络的应用阶段，语速控制网络可以根据用户账户输入的预设语速阈值来控制合成语音音频的播放速度，从而可以控制合成语音音频的音频时长和提升合成音频的自然度。

在一实施例中，特征预测模型包括对抗学习网络，服务器训练对抗学习网络具体可以通过以下方式实现：

步骤一：获取语音训练样本的原始声谱特征和预测声谱特征。

其中，原始声谱特征为语音训练样本的实际声谱特征，预测声谱特征为特征预测模型中的声谱预测网络预测的声谱特征。

步骤二：按照预设的频带范围，将语音训练样本的原始声谱特征分解为对应的多个第一子类特征，以及将语音训练样本的预测声谱特征分解为对应的多个第二子类特征。

作为一示例，对抗学习网络的结构可以通过针对于多个子类特征的三层二维卷积网络来实现，多个子类特征是指将原始声谱特征和预测声谱特征在频率维度拆分为多个频带范围，如由原来的80维声学特征变为0-40维和40-80维两个频带范围。

步骤三：基于多个第一子类特征和对应的多个第二子类特征之间的差异，对待训练的对抗学习网络的网络参数进行迭代学习，得到训练完成的对抗学习网络。

其中，服务器对分解后的各个频带范围的子类特征进行逐个分析，其有助于提升对抗学习网络的鉴别能力。在一实施例中，服务器根据多个第一子类特征和对应的多个第二子类特征之间的差异，确定出待训练的对抗学习网络当前的网络损失值(如，MSE loss函数)。然后，服务器根据网络损失值调整待训练的对抗学习网络的网络参数。其中，服务器在根据网络损失值调整网络参数时，可以采用梯度下降方法朝着使网络对应的损失值下降的方向对网络参数进行调整。

在一实施例中，训练完成的对抗学习网络应用于针对输入的第一子类特征和第二子类特征输出对应调整后的第二子类特征，调整后的第二子类特征用于合成所述文本序列对应的语音音频。这样即可在特征预测模型的应用阶段，通过对抗学习网络可以使得对应输出的预测声谱特征更加贴合原始声谱特征，从而可以提升最终针对于文本序列的合成语音音频的自然度。

为了更清晰阐明本公开实施例提供的语音合成方法，以下以一个具体的实施例对该语音合成方法进行具体说明。在一示例性实施例中，参考图9和图10，图9为根据另一示例性实施例示出的一种语音合成方法的流程图，图10为根据另一示例性实施例示出的一种语音合成方法的模块图，该音频模板的制作方法用于服务器104中，具体包括如下内容：

步骤S31：获取用户账户输入的英文文本。

其中，该输入的英文文本可以是任意的英文文字内容，例如是一段英文文章，也可以是一个章节英文报告，甚至是一本完整的英文小说等等。

步骤S32：将英文文本输入到预先训练完成的自然语言处理网络中对英文文本中每一文字进行发音强度预测，得到预测强度数据。

其中，在自然语言处理网络为一种发音强度预测网络，发音强度预测网络用于对英文文本中的文字进行发音强度预测，得到预测强度数据。

作为示例，服务器将英文文本输入发音强度预测网络，由发音强度预测网络对英文文本中的每一个文字进行发音强度的预测，得到各文字对应在发音时的预测发音强度。其中，文字的发音强度用于表达文字语言的发音时长和发音基频。

其中，文字的发音强度与表达文字语言的发音时长、发音基频正相关，即若预测的文字的发音强度越高，则对应预测的在表达文字语言时的发音时长越长、发音基频越高；若预测的文字的发音强度越低，则对应预测的在表达文字语言时的发音时长越短、发音基频越低。

步骤S33：将英文文本输入到预先训练完成的自然语言处理网络中对英文文本中每一语句进行语句类型预测，得到预测句型数据。

其中，在自然语言处理网络为一种语句类型预测网络，服务器将英文文本输入语句类型预测网络，由语句类型预测网络对英文文本中的每一个语句进行语句类型的预测，得到各语句对应的预测类型。

其中，语句类型用于表达文字语言的角色或者语言文体。

例如，在一英文文本中包括多种类型语言文体(如旁白语言、对话语言等)，每一种类型语言文体为一种类型的语句类型。

步骤S34：将英文文本输入到预先训练完成的音素预测网络中对英文文本中每一语句进行音素预测，得到预测音素数据。

作为示例，服务器将英文文本输入音素预测网络，由音素预测网络对英文文本中的每一个文字进行音素类型的预测，得到关于各文字所组成的预测音素串。

步骤S35，将英文文本输入到预先训练完成的韵律预测网络中对英文文本中每一语句进行停顿时长预测，得到预测停顿数据。

作为示例，服务器将英文文本输入韵律预测网络，由韵律预测网络对英文文本中的每一个文字进行停顿时长的预测，得到各文字对应在发音时的预测停顿时长。其中，文字的停顿时长用于表达文字语言的韵律。

步骤S36，将英文文本与预测音素数据、预测停顿数据、预测强度数据和预测句型数据之间的融合数据输入到预先训练完成的声谱预测网络中对英文文本进行声谱预测，得到对应的预测声谱特征。

作为示例，服务器首先将英文文本与预测音素数据、预测停顿数据、预测强度数据和预测句型数据进行数据融合，得到对应的融合数据，然后，服务器再将融合数据输入声谱预测网络，由声谱预测网络对融合数据进行声谱的预测，得到对应的预测声谱特征。

其中，声谱预测网络对融合数据进行声谱的预测包括对融合数据进行频域、时域、功率、振幅中的至少一种的声谱预测，得到的预测声谱特征可以表征为预测的梅尔谱特征、预测的梅尔倒谱特征等的声学特征。

步骤S37，将预测声谱特征输入到预先训练完成的声码器进行语音转换，生成针对于英文文本的合成语音。

其中，服务器首先对预测声谱特征进行特征解码，得到对应的预测声谱数据(即梅尔谱图)，然后，服务器再将预测声谱数据输入预先训练完成的声码器中进行语音波形转换，得到针对于英文文本对应媒体格式的语音波形文件，其中，语音波形文件即为合成语音。

其中，合成语音对应媒体格式的语音波形文件可以为关于如MP3、MP4等的多媒体文件，这里不做具体限定。

这样，一方面，区别于现有技术中通过人工听录大量的词语发音模板来合成语音音频的方式，本申请仅利用待合成音频的文字序列和对应的预测特征数据，即合成得到针对于文本序列的合成语音音频，从而优化了合成语音音频制作的流程，节省了人工录制的成本和用户的等待时间；另一方面，通过关于文本序列的预测音素数据、预测停顿数据、预测强度数据和预测句型数据之间的融合数据所对应的预测声谱特征来生成针对文本序列的合成语音音频，使得合成语音音频具有更加丰富和自然的音频特征，从而在表达合成语音音频时具有更高的自然度、更加贴合文本语境，以保证了合成语音音频具有较高质量。

应该理解的是，虽然图2-图10的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-图10中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

可以理解的是，本说明书中上述方法的各个实施例之间相同/相似的部分可互相参见，每个实施例重点说明的是与其他实施例的不同之处，相关之处参见其他方法实施例的说明即可。

图11是本申请实施例提供的一种语音合成装置框图。参照图11，该语音合成装置10包括：数据获取单元11、模型预测单元12、语音合成单元13。

其中，该数据获取单元11，被配置为执行获取文本序列。

其中，该模型预测单元12，被配置为执行将所述文本序列输入预先训练完成的特征预测模型，由所述特征预测模型对所述文本序列中的文字进行音素预测，得到预测音素数据；以及对所述文本序列中的文字进行停顿时长预测，得到预测停顿数据；以及对所述文本序列中的文字进行发音强度预测，得到预测强度数据；以及对所述文本序列中的语句进行语句类型预测，得到预测句型数据；以及对所述文本序列与所述预测音素数据、所述预测停顿数据、所述预测强度数据和所述预测句型数据之间的融合数据进行声谱预测，确定对应的预测声谱特征。

其中，该语音合成单元13，被配置为执行将所述预测声谱特征输入预先训练完成的声码器中进行语音转换，生成针对于所述文本序列的合成语音音频。

图12是本申请实施例提供的一种特征预测模型的训练装置框图。参照图12，该特征预测模型的训练装置10A包括：样本获取单元11A、样本预测单元12A、模型调整单元13A。

其中，该样本获取单元11A，被配置为执行获取语音训练样本的样本文本序列和原始特征数据；所述原始特征数据包括针对所述样本文本序列中各文字的原始音素特征、原始停顿特征、原始强度特征、针对所述样本文本序列中各语句的原始句型特征，以及针对所述语音训练样本的原始声谱特征。

其中，该样本预测单元12A，被配置为执行将所述样本文本序列输入待训练的特征预测模型中进行特征预测，得到对应的预测特征数据；所述预测特征数据包括对应于所述原始音素特征的预测音素特征、对应于所述原始停顿特征的预测停顿特征、对应于所述原始强度特征的预测强度特征、对应于所述原始句型特征的预测句型特征和对应于所述原始声谱特征的预测声谱特征。

其中，该模型调整单元13A，模型调整单元，被配置为执行基于所述预测特征数据和所述原始特征数据之间的差异，调整所述待训练的特征预测模型的模型参数，直到满足训练结束条件，得到训练完成的特征预测模型。

其中，所述训练完成的特征预测模型10A应用于针对输入的文本序列输出对应的预测特征数据，所述预测特征数据用于合成所述文本序列对应的语音音频。

图13是本申请实施例提供的一种服务器20的框图。例如，服务器20可以为一种电子设备、电子组件或者服务器阵列等等。参照图13，服务器20包括处理器21，其进一步处理器21可以为处理器集合，其可以包括一个或多个处理器，以及服务器20包括由存储器22所代表的存储器资源，其中，存储器22上存储有计算机程序，例如应用程序。在存储器22中存储的计算机程序可以包括一个或一个以上的每一个对应于一组可执行指令的模块。此外，处理器21被配置为执行计算机程序时实现如上述的语音合成方法，和/或特征预测模型的训练方法。

在一些实施例中，服务器20为电子设备，该电子设备中的计算系统可以运行一个或多个操作系统，包括以上讨论的任何操作系统以及任何商用的服务器操作系统。该服务器20还可以运行各种附加服务器应用和/或中间层应用中的任何一种，包括HTTP(超文本传输协议)服务器、FTP(文件传输协议)服务器、CGI(通用网关界面)服务器、超级服务器、数据库服务器等。示例性数据库服务器包括但不限于可从(国际商业机器)等商购获得的数据库服务器。

在一些实施例中，处理器21通常控制服务器20的整体操作，诸如与显示、数据处理、数据通信和记录操作相关联的操作。处理器21可以包括一个或多个处理器组件来执行计算机程序，以完成上述的方法的全部或部分步骤。此外，处理器组件可以包括一个或多个模块，便于处理器组件和其他组件之间的交互。例如，处理器组件可以包括多媒体模块，以方便利用多媒体组件控制用户服务器20和处理器21之间的交互。

在一些实施例中，处理器21中的处理器组件还可以称为CPU(Central ProcessingUnit，中央处理单元)。处理器组件可能是一种电子芯片，具有信号的处理能力。处理器还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器组件等。另外，处理器组件可以由集成电路芯片共同实现。

在一些实施例中，存储器22被配置为存储各种类型的数据以支持在服务器20的操作。这些数据的示例包括用于在服务器20上操作的任何应用程序或方法的指令、采集数据、消息、图片、视频等。存储器22可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘、光盘或石墨烯存储器。

在一些实施例中，存储器22可以为内存条、TF卡等，可以存储服务器20中的全部信息，包括输入的原始数据、计算机程序、中间运行结果和最终运行结果都保存在存储器22中。在一些实施例中，它根据处理器指定的位置存入和取出信息。在一些实施例中，有了存储器22，服务器20才有记忆功能，才能保证正常工作。在一些实施例中，服务器20的存储器22按用途可分为主存储器(内存)和辅助存储器(外存)，也有分为外部存储器和内部存储器的分类方法。外存通常是磁性介质或光盘等，能长期保存信息。内存指主板上的存储部件，用来存放当前正在执行的数据和程序，但仅用于暂时存放程序和数据，关闭电源或断电，数据会丢失。

在一些实施例中，服务器20还可以包括：电源组件23被配置为执行服务器20的电源管理，有线或无线网络接口24被配置为将服务器20连接到网络，和输入输出(I/O)接口25。服务器20可以操作基于存储在存储器22的操作系统，例如Windows Server，Mac OS X，Unix，Linux，FreeBSD或类似。

在一些实施例中，电源组件23为服务器20的各种组件提供电力。电源组件23可以包括电源管理系统，一个或多个电源，及其他与为服务器20生成、管理和分配电力相关联的组件。

在一些实施例中，有线或无线网络接口24被配置为便于服务器20和其他设备之间有线或无线方式的通信。服务器20可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。

在一些实施例中，有线或无线网络接口24经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，有线或无线网络接口24还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在一些实施例中，输入输出(I/O)接口25为处理器21和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

图14是本申请实施例提供的一种计算机可读存储介质30的框图。该计算机可读存储介质30上存储有计算机程序31，其中，计算机程序31被处理器执行时实现如上述的语音合成方法，和/或特征预测模型的训练方法。

在本申请各个实施例中的各功能单元集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在计算机可读存储介质30中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机可读存储介质30在一个计算机程序31中，包括若干指令用以使得一台计算机设备(可以是个人计算机，系统服务器，或者网络设备等)、电子设备(例如MP3、MP4等，也可以是手机、平板电脑、可穿戴设备等智能终端，也可以是台式电脑等)或者处理器(processor)以执行本申请各个实施方式方法的全部或部分步骤。

图15是本申请实施例提供的一种计算机程序产品40的框图。该计算机程序产品40中包括程序指令41，该程序指令41可由服务器20的处理器执行以实现如上述的语音合成方法，和/或特征预测模型的训练方法。

本领域内的技术人员应明白，本申请的实施例可提供有语音合成方法，特征预测模型的训练方法、语音合成装置10、特征预测模型的训练装置10A、服务器20、计算机可读存储介质30或计算机程序产品40。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机程序指令41(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品40的形式。

本申请是参照根据本申请实施例中语音合成方法，特征预测模型的训练方法、语音合成装置10、特征预测模型的训练装置10A、服务器20、计算机可读存储介质30或计算机程序产品40的流程图和/或方框图来描述的。应理解可由计算机程序产品40实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序产品40到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的程序指令41产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序产品40也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机程序产品40中的程序指令41产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些程序指令41也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的程序指令41提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的，上述的各种方法、装置、电子设备、计算机可读存储介质、计算机程序产品等根据方法实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

获取文本序列；

2.根据权利要求1所述的方法，其特征在于，所述特征预测模型包括语句类型预测网络；所述对所述文本序列中的语句进行语句类型预测，得到预测句型数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述特征预测模型包括发音强度预测网络；所述对所述文本序列中的文字进行发音强度预测，得到预测强度数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述文本序列中每一文字进行发音强度预测，得到对应的预测强度数据，包括：

在预设的多个强度等级中，预测所述文本序列中的各文字的发音强度分别所属的目标强度等级，并将所述目标强度等级作为对应文字的预测强度数据；其中，所述发音强度基于文字的发音时长和发音基频表征；各所述强度等级表征文字对应所属的发音强度范围。

5.根据权利要求1所述的方法，其特征在于，所述特征预测模型包括声谱预测网络，所述预测声谱特征表征针对于所述文本序列的预测梅尔谱特征；

对所述初始预测特征的频谱单位和频谱范围进行调整，得到针对于所述文本序列的预测梅尔谱特征。

6.根据权利要求5所述的方法，其特征在于，所述将所述融合数据输入所述声谱预测网络，由所述声谱预测网络对所述融合数据进行声谱预测，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述样本文本内容的预测声谱特征输入待训练的声码器中进行语音波形转换，得到针对于所述语音训练样本的合成语音音频；

8.根据权利要求7所述的方法，其特征在于，在所述得到训练完成的声码器之后，还包括：

9.一种特征预测模型的训练方法，其特征在于，所述方法包括：

10.根据权利要求9所述的方法，其特征在于，所述特征预测模型包括音素预测网络；所述基于所述预测特征数据和所述原始特征数据之间的差异，调整所述待训练的特征预测模型的模型参数，包括：

11.根据权利要求9所述的方法，其特征在于，所述特征预测模型包括语速控制网络；所述方法还包括：

获取语音训练样本的初始音频时长；以及

12.根据权利要求9所述的方法，其特征在于，所述特征预测模型包括对抗学习网络；所述方法还包括：

获取所述语音训练样本的原始声谱特征和预测声谱特征；

按照预设的频带范围，将所述语音训练样本的原始声谱特征分解为对应的多个第一子类特征，以及将所述语音训练样本的预测声谱特征分解为对应的多个第二子类特征；

13.一种服务器，其特征在于，包括：

处理器；

用于存储所述处理器的可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令，以实现如权利要求1至8中任一项所述的语音合成方法，和/或权利要求9至12中任一项所述的特征预测模型的训练方法。

14.一种计算机可读存储介质，所述计算机可读存储介质中包括计算机程序，其特征在于，当所述计算机程序由服务器的处理器执行时，使得所述服务器能够执行如权利要求1至8中任一项所述的语音合成方法，和/或权利要求9至12中任一项所述的特征预测模型的训练方法。