CN113488022A

CN113488022A - 一种语音合成方法和装置

Info

Publication number: CN113488022A
Application number: CN202110769530.2A
Authority: CN
Inventors: 方鹏; 刘恺; 陈伟
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2021-10-08
Also published as: WO2023279976A1; US20230298564A1

Abstract

本发明实施例提供了一种语音合成方法和装置，所述方法包括：获取待合成文本；生成所述待合成文本的隐层特征以及韵律特征，并预测所述待合成文本中每一字符的时长；基于所述待合成文本的隐层特征、韵律特征、以及所述待合成文本中每一字符的时长，生成所述待合成文本对应的声学特征；根据所述待合成文本对应的声学特征，生成所述待合成文本对应的文本语音。从而实现无需预处理大量素材，而通过提取文本中的隐层特征以及韵律特征，并基于字符预测语音时长，实现字符级别的语音合成。而且合成语音质量较好，同时可以降低语音合成的难度，以便用户可以根据实际需要应用于不同场景中，满足用户的个性化需求。

Description

一种语音合成方法和装置

技术领域

本发明涉及语音处理技术领域，特别是涉及一种语音合成方法和一种语音合成装置。

背景技术

现有技术中，通常可以基于音素实现语音合成。具体而言，基于音素的语音合成需要提前采集大量的单词以及单词对应的音素作为素材，实现文本至语音的转换；还需要提前采集大量的单词与单词对应的停顿信息作为素材，实现语音的韵律预测。但是，单词、音素、停顿信息等素材的预处理需要花费较大工作量，且基于大量素材的语音合成通常对电子设备的处理能力具有较高要求，导致语音合成工作难度较大，且基于音素的语音合成的准确率不高。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音合成方法和相应的一种语音合成装置。

为了解决上述问题，本发明实施例公开了一种语音合成方法，包括：

获取待合成文本；

生成所述待合成文本的隐层特征以及韵律特征，并预测所述待合成文本中每一字符的时长；

基于所述待合成文本的隐层特征、韵律特征、以及所述待合成文本中每一字符的时长，生成所述待合成文本对应的声学特征；

根据所述待合成文本对应的声学特征，生成所述待合成文本对应的文本语音。

可选地，所述生成所述待合成文本的隐层特征以及韵律特征，并预测所述待合成文本中每一字符的时长的步骤，包括：

采用所述待合成文本对应的语种和/或语音风格的声学模型，生成所述待合成文本的隐层特征以及韵律特征，并预测所述待合成文本中每一字符的时长。

将所述待合成文本通过编码器输出所述待合成文本的隐层特征；

将所述隐层特征通过时长模型输出所述待合成文本中每一字符的时长；

将所述隐层特征通过变分自动编码器输出韵律特征。

可选地，所述基于所述待合成文本的隐层特征、韵律特征、以及所述待合成文本中每一字符的时长，生成所述待合成文本对应的声学特征的步骤，包括：

基于所述待合成文本中每一字符的时长，所述隐层特征的长度进行调整；

将调整后的所述隐层特征以及所述待合成文本的韵律特征通过解码器输出所述待合成文本对应的声学特征。

可选地，所述采用所述待合成文本对应的声学特征，生成所述待合成文本对应的文本语音的步骤，包括：

将所述待合成文本对应的声学特征输入预设的声码器中，获取所述声码器输出的所述待合成文本对应的文本语音。

可选地，所述声学模型采用如下方式训练得到：

获取一语种的训练文本以及所述训练文本对应的训练音频；

采用所述一语种的训练文本以及所述训练文本对应的训练音频，对待训练的所述声学模型进行训练，得到训练完成的所述语种的声学模型。

可选地，所述一语种的训练文本以及所述训练文本对应的训练音频包括来自若干人的训练文本以及所述训练文本对应的训练音频；

所述采用所述一语种的训练文本以及所述训练文本对应的训练音频，对待训练的所述声学模型进行训练，得到训练完成的所述语种的声学模型的步骤，包括：

采用一语种中若干人的训练文本以及所述训练文本对应的训练音频，对待训练的所述声学模型进行训练，得到训练完成的所述语种的声学模型；

采用所述语种中目标语音风格的训练文本以及所述训练文本对应的训练音频，对待训练的所述声学模型进行训练，得到训练完成的所述目标语音风格的声学模型。

可选地，所述声学模型采用如下方式训练得到：

获取训练文本以及所述训练文本对应的训练音频；

提取所述训练音频中的目标声学特征；

将所述训练文本输入待训练的声学模型中，获取所述待训练的声学模型输出的模型声学特征；

比较所述模型声学特征以及所述目标声学特征之间的相似度；

基于所述模型声学特征以及所述目标声学特征之间的相似度，调整所述待训练的声学模型中的模型参数，完成所述声学模型训练。

可选地，所述时长模型采用如下方式训练得到：

提取所述训练音频中每一字符的标准时长；

将所述训练文本输入编码器中，获取所述编码器输出的所述训练文本的隐层特征；

将所述隐层特征作为输入，将所述训练音频中每一字符的标准时长作为训练目标，对所述待训练的时长模型进行训练，得到时长模型。

可选地，所述提取所述训练音频中每一字符的标准时长的步骤，包括：

将所述训练音频以及所述隐层特征输入预设的切分模型中；

所述切分模型基于所述隐层特征，标注所述训练音频中每一字符的起点与终点；

基于所述训练音频中每一字符的起点与终点，确定所述训练音频中每一字符的标准时长。

本发明实施例还公开一种语音合成合成装置，包括：

文本获取模块，用于获取待合成文本；

第一特征生成模块，用于生成所述待合成文本的隐层特征以及韵律特征，并预测所述待合成文本中每一字符的时长；

第二特征生成模块，用于基于所述待合成文本的隐层特征、韵律特征、以及所述待合成文本中每一字符的时长，生成所述待合成文本对应的声学特征；

语音合成模块，用于根据所述待合成文本对应的声学特征，生成所述待合成文本对应的文本语音。

可选地，所述第一特征生成模块包括：

第一特征生成子模块，用于采用所述待合成文本对应的语种和/或语音风格的声学模型，生成所述待合成文本的隐层特征以及韵律特征，并预测所述待合成文本中每一字符的时长。

可选地，所述第一特征生成模块包括：

编码器处理子模块，用于将所述待合成文本通过编码器输出所述待合成文本的隐层特征；

时长模块处理子模块，用于将所述隐层特征通过时长模型输出所述待合成文本中每一字符的时长；

变分自动编码器处理子模块，用于将所述隐层特征通过变分自动编码器输出韵律特征。

可选地，所述第二特征生成子模块包括：

调整子模块，用于基于所述待合成文本中每一字符的时长，所述隐层特征的长度进行调整；

解码器处理子模块，用于将调整后的所述隐层特征以及所述待合成文本的韵律特征通过解码器输出所述待合成文本对应的声学特征。

可选地，所述语音合成模块包括：

语音合成子模块，用于将所述待合成文本对应的声学特征输入预设的声码器中，获取所述声码器输出的所述待合成文本对应的文本语音。

可选地，所述声学模型采用如下模块训练得到：

训练样本获取模块，用于获取一语种的训练文本以及所述训练文本对应的训练音频；

训练模块，用于采用所述一语种的训练文本以及所述训练文本对应的训练音频，对待训练的所述声学模型进行训练，得到训练完成的所述语种的声学模型。

所述训练模块包括：

第一训练子模块，用于采用一语种中若干人的训练文本以及所述训练文本对应的训练音频，对待训练的所述声学模型进行训练，得到训练完成的所述语种的声学模型；

第二训练子模块，用于采用所述语种中目标语音风格的训练文本以及所述训练文本对应的训练音频，对待训练的所述声学模型进行训练，得到训练完成的所述目标语音风格的声学模型。

可选地，所述声学模型采用如下模块训练得到：

训练样本获取模块，获取训练文本以及所述训练文本对应的训练音频；

声学特征提取模块，用于提取所述训练音频中的目标声学特征；

模块输出获取模块，用于将所述训练文本输入待训练的声学模型中，获取所述待训练的声学模型输出的模型声学特征；

比较模块，用于比较所述模型声学特征以及所述目标声学特征之间的相似度；

调整模块，用于基于所述模型声学特征以及所述目标声学特征之间的相似度，调整所述待训练的声学模型中的模型参数，完成所述声学模型训练。

可选地，所述时长模型采用如下模块训练得到：

时长提取模块，用于提取所述训练音频中每一字符的标准时长；

隐层特征获取模块，用于将所述训练文本输入编码器中，获取所述编码器输出的所述训练文本的隐层特征；

时长模型训练模块，用于将所述隐层特征作为输入，将所述训练音频中每一字符的标准时长作为训练目标，对所述待训练的时长模型进行训练，得到时长模型。

可选地，所述时长提取模块包括：

切分模块输入子模块，用于将所述训练音频以及所述隐层特征输入预设的切分模型中；

标注子模块，用于所述切分模型基于所述隐层特征，标注所述训练音频中每一字符的起点与终点；

时长提取子模块，用于基于所述训练音频中每一字符的起点与终点，确定所述训练音频中每一字符的标准时长。

本发明实施例还公开了一种电子设备，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述电子设备执行如本发明实施例所述的一个或多个的方法。

本发明实施例还公开了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行如本发明实施例所述的一个或多个的方法。

本发明实施例包括以下优点：

通过本发明实施例的语音合成方法，获取待合成文本，生成待合成文本的隐层特征以及韵律特征，以基于待合成文本提取与文本特性关联的特征信息以及与语音韵律关联的特征信息，并预测待合成文本中每一字符的时长，以便后续基于字符进行语音合成；基于待合成文本的隐层特征、韵律特征、以及待合成文本中每一字符的时长，生成合成语音所需要的待合成文本对应的声学特征；采用待合成文本对应的声学特征，生成待合成文本对应的文本语音，从而实现无需预处理大量素材，而通过提取文本中的隐层特征以及韵律特征，并基于字符预测语音时长，实现字符级别的语音合成。而且合成语音质量较好，同时可以降低语音合成的难度，以便用户可以根据实际需要应用于不同场景中，满足用户的个性化需求。

附图说明

图1是本发明实施例的一种语音合成方法实施例的步骤流程图；

图2是本发明实施例的另一种语音合成方法实施例的步骤流程图；

图3是本发明实施例的另一种语音合成方法实施例的步骤流程图；

图4是本发明实施例的一种声学模型的结构示意图；

图5是本发明实施例一种声学模型的训练示意图；

图6是本发明实施例的一种语音合成装置实施例的结构框图；

图7根据一示例性实施例示出的一种用于信息推荐的电子设备的结构框图；

图8是本发明根据另一示例性实施例示出的一种用于信息推荐的电子设备的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例为了降低语音合成的难度，采用字符级别的语音合成方式，不需要获取音素输入，而可以直接预测所述待合成文本中每一字符的时长，生成所述待合成文本对应的韵律特征。其后基于所述待合成文本中每一字符的时长以及所述待合成文本的韵律特征，生成所述待合成文本对应的声学特征，并最终基于声学特征合成所述待合成文本对应的语音，可以使语音合成的流程更加简单，降低语音合成的难度。面对多种不同的个性化需求，也可以较为便利地实现对个性化需求的支持。

参照图1，示出了本发明实施例的一种语音合成方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，获取待合成文本；

在本发明实施例中，在需要进行语音合成的情况下，用户可以提交待合成文本，从而可以获取需要进行语音合成的待合成文本。

其中，所述待合成文本可以为一种语言的单词、短句、长句、文章等，本发明对此不做限制。

步骤102，生成所述待合成文本的隐层特征以及韵律特征，并预测所述待合成文本中每一字符的时长；

在本发明实施例中，在获取所述待合成文本之后，可以提取待合成文本中的与语音合成相关的特征信息，生成所述待合成文本的隐层特征。其中，所述隐层特征可以为与待合成文本中字符词性、字符上下文关联、字符情感等文本特性存在关联，通常可以采用向量形式表达。

一般来说，在得到待合成文本的隐层特征之后，通常可以基于隐层特征中隐含的待合成文本的字符词性、字符上下文关联、字符情感等特征，确定文本中的每一个字符的发音、时长、声调、语调，以及文本整体的发声节奏等，生成待合成文本对应的声音波形特征，得到声学特征。但是，仅采用隐层特征生成声学特征，通常无法获得效果较好的合成语音，合成语音可以仍然存在发声自然度不足、表现力不足的情况。

由此，可以进一步生成与声调、语调、重音、节奏等韵律特性存在关联的韵律特征，并预测所述待合成文本中每一字符的时长，以便在后续的语音合成过程中，可以得到更加自然、表现力更好的合成语音，同时每一字符的发声时长预测可以更加准确。

其中，字符可以为语言学中可以辨认的抽象图形符号，文字中最小的区别性单位。例如，英语中的字母“a、b、c”等，中文中的汉字“你、我、他”等，日语中的平假名“あ、い、う”等。

具体而言，在文本中，根据词性、上下文、情感等因素，字符可以分别具有对应的发音时长。若存在字符不需要发音的情况，发音时长也可以为0。可以以字符为单位，预测其发音所需的时长，以便合成的语音可以具有更加准确的发音时长，使最终的合成语音具有较好的效果。

在具体实现中，由于基于待合成文本提取得到的隐层特征可以与字符词性、字符上下文关联、字符情感等文本特性存在关联，因此在预测每一字符的时长时，可以基于隐层特征进行字符时长预测，以根据词性、上下文、情感等因素预测字符时长，得到较为准确的时长预测效果。

步骤103，基于所述待合成文本的隐层特征、韵律特征、以及所述待合成文本中每一字符的时长，生成所述待合成文本对应的声学特征；

在本发明实施例中，在得到所述待合成文本中每一字符的时长以及所述待合成文本的隐层特征以及韵律特征之后，可以基于所述待合成文本的隐层特征中隐含的文本相关特征、韵律特征中隐含的韵律相关特征、以及所述待合成文本中每一字符的时长，生成所述待合成文本对应的声音波形特征，得到声学特征。由于在语音合成的过程中在隐层特征的技术上进一步考虑了韵律特征以及每一字符的时长，从而生成的声音波形特征可以具有更加准确的韵律以及发音时长，使合成的语音可以具有较好的发音自然度以及表现力。

其中，所述声学特征可以为声音的波形特征信息，例如，随时间变化的响度、频率信息。所述声学特征可以采用频谱图表达，例如，梅尔顿谱、线性谱等。

步骤104，采用所述待合成文本对应的声学特征，生成所述待合成文本对应的文本语音。

在本发明实施例中，由于声音为物体振动产生的波，在得知声音的波形特征之后，即可以还原声音信号。由此，在得到所述待合成文本对应的声学特征之后，即可以采用所述待合成文本对应的声学特征还原声音信号，生成所述待合成文本对应的文本语音，完成所述待合成文本的语音合成。

由于语音合成过程中基于字符预测待合成文本的时长，同时生成隐层特征以及韵律特征，并最终基于所述待合成文本的隐层特征、韵律特征、以及所述待合成文本中每一字符的时长，生成所述待合成文本对应的声学特征完成基于字符级别的语音合成，可以无需提取大量的单词、音素、停顿等信息构建语音库，使语音合成的流程更加简单，降低语音合成的难度，且由于生成声学特征的过程中在隐层特征的基础上进一步参考了韵律特征以及字符的时长，可以使语音合成的质量进一步提高。此外，面对用户需要合成不同人物的语音等个性化需求时，也可以较为简单地完成语音合成的个性化支持。

参照图2，示出了本发明实施例的一种语音合成方法实施例的步骤流程图，具体可以包括如下步骤：

步骤201，获取待合成文本；

步骤202，采用所述待合成文本对应的语种和/或语音风格的声学模型，生成所述待合成文本的隐层特征以及韵律特征，并预测所述待合成文本中每一字符的时长；

在本发明实施例中，可以采用一声学模型生成所述待合成文本的隐层特征以及韵律特征，并预测所述待合成文本中每一字符的时长。

具体而言，所述声学模型中可以包含多个子模型，其中一子模型可以用于预设所述待合成文本中每一字符的时长，一子模型可以用于生成所述待合成文本对的韵律特征、一子模型可以用于生成所述待合成文本的隐层特征。

在模型训练过程中，可以训练用于预设时长的子模型将待合成文本作为输入，并将所述待合成文本中每一字符的时长作为输出，从而可以得到预测所述待合成文本中每一字符时长的模型。同时，可以训练用于生成韵律特征的模型将待合成文本作为输入，并将所述待合成文本的韵律特征作为输出，从而可以得到生成所述待合成文本的韵律特征的模型。还可以训练用于生成隐层特征的模型将待合成文本作为输入，并将所述待合成文本的隐层特征作为输入，从而可以得到生成所述待合成文本的隐层特征的模型。

在本发明实施例中，根据训练过程中使用的语音样本的区别，所述声学模型可以具有多种类型。具体而言，所述声学模型可以适配多种不同的语种，例如适用于中文的声学模型、适用于英语的声学模型、适用于日语的声学模型等。所述声学模型还可以具有个性化的语音风格，例如，女高音、男中音、女低音、男低音、儿童音、特定卡通人物的语音风格、特定明星的语音风格等。同时，由于声学模型基于字符进行语音合成，无需提取大量的单词、音素、停顿等信息构建语音库，其训练过程可以较为简单。由此，可以较为容易根据用户不同的需求，部署相应的声学模型，满足多语种、个性化风格语音的需求。

由此，在获取所述待合成文本后，还可以根据所述待合成文本对应的语种和/或用户指定语音风格的要求，选取适用于所述语种和/或语音风格的声学模型对待合成文本进行处理，生成所述待合成文本的隐层特征以及韵律特征，并预测所述待合成文本中每一字符的时长，后续在生成声学特征的过程中，也可以采用适用于所述语种和/或语音风格的声学模型进行处理，从而可以满足用户的多种个性化需求。

步骤203，采用所述声学模型，基于所述待合成文本的隐层特征、韵律特征、以及所述待合成文本中每一字符的时长，生成所述待合成文本对应的声学特征；

在本发明实施例中，在得到所述待合成文本中每一字符的时长以及所述待合成文本的隐层特征以及韵律特征之后，可以采用所述声学模型，基于所述待合成文本的隐层特征、韵律特征、以及所述待合成文本中每一字符的时长，生成所述待合成文本对应的声学特征。所述声学特征可以为声音的波形特征信息，例如，随时间变化的响度、频率信息。所述声学特征可以采用频谱图表达，例如，梅尔顿谱、线性谱等。

在具体实现中，所述声学模型还可以包含一用于合成所述待合成文本对应声学特征的子模型。在模型训练过程中，可以训练用于合成所述待合成文本对应声学特征的子模型可以所述待合成文本的隐层特征、韵律特征、以及所述待合成文本中每一字符的时长作为输入，并将所述待合成文本对应的声学特征作为输出，从而可以得到用于合成所述待合成文本对应声学特征的子模型。

步骤204，采用所述待合成文本对应的声学特征，生成所述待合成文本对应的文本语音。

由于语音合成过程中基于字符预测待合成文本的时长，同时生成隐层特征以及韵律特征，并最终基于所述待合成文本的隐层特征、韵律特征、以及所述待合成文本中每一字符的时长，生成所述待合成文本对应的声学特征完成基于字符级别的语音合成，可以无需提取大量的单词、音素、停顿等信息构建语音库，使语音合成的流程更加简单，降低语音合成的难度，且由于生成声学特征的过程中参考了韵律特征，可以使语音合成的质量进一步提高。此外，面对用户需要合成不同人物的语音等个性化需求时，也可以较为简单地完成语音合成的个性化支持。

在本发明的一种实施例中，所述声学模型采用如下方式训练得到：

S11，获取一语种的训练文本以及所述训练文本对应的训练音频；

在本发明实施例中，在需要训练某一语种的声学模型的情况下，可以获取一语种的训练文本以及所述训练文本对应的训练音频。

其中，所述语种可以为不同地区使用的语言，例如，中文、英语、日语、韩语、法语等；也可以为某种语言分支下的地方方言，例如，客家语、粤语等。

S12，采用所述一语种的训练文本以及所述训练文本对应的训练音频，对待训练的所述声学模型进行训练，得到训练完成的所述语种的声学模型。

在本发明实施例中，可以采用所述一语种的训练文本以及所述训练文本对应的训练音频，对待训练的所述声学模型进行训练，得到训练完成的所述语种的声学模型。训练完成的所述语种的声学模型可以适用于所述语种的语音合成。

具体而言，所述声学模型可以采用端到端模型的形式，所述声学模型中包含的子模型是相互联系而非独立的，子模型的输入可以为其他子模型的输出。同时声学模型在训练过程中，也可以整体地进行训练，在获取所述声学模型的最终输出的声学特征之后，在基于声学模型的的最终输出，对所述声学模型中的各个子模型的进行调整，得到训练完成的所述语种的声学模型。

在本发明一种实施例中，所述一语种的训练文本以及所述训练文本对应的训练音频包括来自若干人的训练文本以及所述训练文本对应的训练音频；

S21，采用一语种中若干人的训练文本以及所述训练文本对应的训练音频，对待训练的所述声学模型进行训练，得到训练完成的所述语种的声学模型；

在本发明实施例中，所述训练文本以及所述训练文本对应的训练音频可以来自使用所述语种的若干人。采用一语种中若干人的训练文本以及所述训练文本对应的训练音频，对待训练的所述声学模型进行训练，得到训练完成的所述语种的声学模型，可以使所述声学模型可以学习到所述语种普遍的发声规律，降低声学模型发声的错误率。

S22，采用所述语种中目标语音风格的训练文本以及所述训练文本对应的训练音频，对待训练的所述声学模型进行训练，得到训练完成的所述目标语音风格的声学模型。

在本发明实施例中，可以在基于采用若干人的语音训练完成的声学模型的基础上，再采用所述语种中目标语音风格的训练文本以及所述训练文本对应的训练音频，对待训练的所述声学模型进行训练，得到训练完成的所述目标语音风格的声学模型。

由于所述目标语音风格的声学模型基于采用若干人的语音训练完成的声学模型训练得到，因此，基于所述目标语音风格的声学模型合成的语音，可以明显具有目标语音风格的同时，具有较高的发声准确率，同时发声音质也可以得到一定程度的提高。

通过本发明实施例的语音合成方法，获取待合成文本；采用所述待合成文本对应的语种和/或语音风格的声学模型，生成所述待合成文本的隐层特征以及韵律特征，并预测所述待合成文本中每一字符的时长；基于所述待合成文本的隐层特征、韵律特征、以及所述待合成文本中每一字符的时长，生成所述待合成文本对应的声学特征；采用所述待合成文本对应的声学特征，生成所述待合成文本对应的文本语音。可以实现字符级别的语音合成，降低语音合成的难度，可以较为稳定地进行语音合成，且可以提供较好质量的合成语音。

参照图3，示出了本发明实施例的一种语音合成方法实施例的步骤流程图，具体可以包括如下步骤：

步骤301，获取待合成文本；

在本发明实施例中，可以采用声学模型完成语音合成。所述声学模型可以包括多个子模型。具体而言，所述声学模型可以包括编码器、时长模型、变分自动编码器、以及解码器。所述待合成文本需要经过编码器、时长模型、变分自动编码器、以及解码器的处理，最终得到所述待合成文本对应的声学特征。

具体而言，所述声学模型可以为端到端模型，所述声学模型中编码器、时长模型、变分自动编码器、以及解码器的是相互联系而非独立的。编码器以及变分自动编码器可以不输出独立的结果，而是输出模型处理过程中产生的中间向量，中间向量再输入所述解码器中，得到所述待合成文本的声学特征。对于用户来说，其可以将所述待合成文本输入所述声学模型中，即可以直接获取所述声学模型输出的声学特征。通过采用端到端模型生成声学模型，可以进一步简化声学模型的结构，提高声学模型将所述待合成文本转换为声学特征的效率。

步骤302，将所述待合成文本通过编码器输出所述待合成文本的隐层特征；

在本发明实施例中，所述编码器可以学习所述待合成文本的潜在信息，输出与字符词性、字符上下文关联、字符情感等文本特性存在关联的隐层特征，以便后续模型可以基于所述隐层特征做进一步处理。其中，所述编码器输出的隐层特征可以采用向量形式进行表达。由于所述编码器输出的所述待合成文本的隐层特征可以认为是模型中间处理过程中的输出，其可以不具备可解释性。

步骤303，将所述隐层特征通过时长模型输出所述待合成文本中每一字符的时长；

在本发明实施例中，一般来说，在获得所述待合成文本的隐层特征之后，即可以采用与编码器对应的解码器，根据隐层特征隐含的字符词性、字符上下文关联、字符情感、字符时长等文本特性，预测每一个字符的发音所需时长以及发音韵律，待合成文本的整体发声节奏，生成待合成文本对应的声学特征。但是，仅采用编码器与解码器生成待合成文本对应的声学特征的情况下，通常无法获得效果较好的合成语音，合成语音可以仍然存在发声自然度不足、表现力不足的情况。

由此，为了提高合成语音的质量，可以采用时长模型对字符的时长进行预测，以进一步提高合成语音中字符发音时长的准确率以提高发声自然度。在获取所述隐层特征之后，可以将所述隐层特征输入所述时长模型中，所述时长模型可以通过所述隐层特征隐含的与字符词性、字符上下文关联、字符情感等文本特性存在关联的信息，预测所述待合成文本中每一字符对应语音的持续时间，得到每一字符的时长。

步骤304，将所述隐层特征通过变分自动编码器输出韵律特征。

在本发明实施例中，为了进一步提高合成的发声自然度和表现力，还可以进一步将隐层特征通过变分自动编码器输出韵律特征，从而在后续的语音合成的过程中，可以基于韵律特征提高合成语音的发声自然度和表现力。由此，在将所述隐层特征输入所述变分自动编码器的同时，还可以将所述隐层特征输入所述变分自动编码器，所述变分自动编码器可以学习所述待合成文本中说话人状态的潜在表示，并输出与声调、语调、重音、节奏等韵律特性存在关联的韵律特征。所述韵律特征可以采用向量形式进行表达。

步骤305，基于所述待合成文本中每一字符的时长，所述隐层特征的长度进行调整；

在本发明实施例中，隐层特征的长度可以与语音中每一字符的发声时长存在关联。为了在生成声学特征的过程中，使解码器可以生成发声时长准确率高的声学特征，可以基于所述待合成文本中每一字符的时长，对所述隐层特征的长度进行调整。例如，若所述隐层特征为“abc”，则可以基于所述待合成文本中每一字符的时长，将所述隐层特征调整为“aaabbbccc”。

步骤306，将调整后的所述隐层特征以及所述待合成文本的韵律特征输入所述解码器中，并获取所述解码器输出的所述待合成文本对应的声学特征。

在本发明实施例中，可以将调整后的所述隐层特征以及所述待合成文本的韵律特征输入所述解码器中，所述解码器根据调整后的所述隐层特征隐含的字符词性、字符上下文关联、字符情感、字符时长等文本特性，以及所述韵律特征隐含的声调、语调、重音、节奏等韵律特性，生成所述待合成文本对应的声学特征。由于所述解码器在参考调整后的隐层特征的基础上，进一步参考了变分自编码输出韵律特征生成声学特征，可以使合成的语音的韵律特征更加准确，进一步提高了语音的质量。

步骤307，将调整后的所述隐层特征以及所述待合成文本的韵律特征通过解码器输出所述待合成文本对应的声学特征。

在本发明实施例中，由于声音为物体振动产生的波，在得知声音的波形特征之后，即可以还原声音信号。由此，在得到所述待合成文本对应的声学特征之后，可以将所述待合成文本对应的声学特征输入预设的声码器中，获取所述声码器输出的所述待合成文本对应的文本语音，完成所述待合成文本的语音合成。

其中，所述声码器可以为经过训练的，用于将所述声学特征转换为语音的模型。所述声码器可以为循环神经网络、基于源-滤波器模型等，本发明对此不做限制。

作为本发明的一种示例，图4为本发明实施例的一种声学模型的结构示意图。所述声学模型可以包括编码器401、时长模型402、变分自动编码器403、以及解码器404。可以将所述待合成文本输入所述编码器401中，并获取所述编码器401输出的隐层特征。其后，可以将所述隐层特征输入所述时长模型402中，获取所述时长模型402输出的所述待合成文本中每一字符的时长。同时，可以将所述编码器401输出的隐层特征输入所述变分自动编码器403中，并获取所述变分自动编码器403输出的韵律特征。其后，可以采用所述待合成文本中每一字符的时长对所述隐层特征进行调整，并将调整后的所述隐层特征以及所述待合成文本的韵律特征输入所述解码器404中，并获取所述解码器404输出的所述待合成文本对应的声学特征。其后，可以采用预设的声码器，对所述声学特征进行处理，得到所述待合成文本对应的语音。

S31，获取训练文本以及所述训练文本对应的训练音频；

在本发明实施例中，可以获取训练文本以及所述训练文本对应的训练音频，所述训练音频可以同一种语言中来自多个不同的人物或来自同一人物的音频。所述训练文本可以为一种语言的单词、短句、长句、文章等，本发明对此不做限制。

S32，提取所述训练音频中的目标声学特征；

在本发明实施例中，可以提取所述训练音频中的目标声学特征，作为所述声学模型整体的训练目标。所述目标声学特征可以为声音的波形特征信息，例如，随时间变化的响度、频率信息。所述声学特征可以采用频谱图表达，例如，梅尔顿谱、线性谱等。

具体而言，可以采用声学特征提取算法，在所述训练音频总提取搜训练音频中的目标声学特征。例如，可以采用MFCC(Mel Frequency Cepstrum Coefficient，梅尔导谱系数算法)、FBank(Filter Banks，滤波器组算法)、LogFBank(Log Filter Banks，对数滤波器组算法)等，本发明对此不做限制。

S33，将所述训练文本输入待训练的声学模型中，获取所述待训练的声学模型输出的模型声学特征；

在本发明实施例中，可以将所述训练文本输入待训练的声学模型中，经过所述声学模型中编码器、时长模型、变分自动编码器、解码器的处理，所述模型可以输出一模型声学特征。需要对所述声学模型进行训练，使所述模型声学特征可以与所述目标声学特征接近。

具体而言，对于所述变分自动编码器来说，其在训练中，可以将所述编码器输出的隐层特征以及所述目标声学特征皆作为输入。所述变分自动编码器可以将所述目标声学特征以及所述编码器输出的隐层特征通过其自身包含的两个神经网络拟合成一个值，所述变分值编码器可以学习该值，其后在应用阶段中，在获取所述编码器输出的隐层特征之后，即可基于所述隐层特征以及其自身学习到的值，相应地的输出所述待合成文本的韵律特征。

S34，比较所述模型声学特征以及所述目标声学特征之间的相似度；

在本发明实施例中，可以比较所述模型声学特征以及所述目标声学特征之间的相似度，以确定所述模型声学特征是否与所述目标声学特征接近，所述声学模型是否已经完成训练。

具体而言，可以将所述声学模型作为生成器，并设置一鉴别器，使所述声学模型以及所述鉴别器构成生成对抗网络。声学模型的目标为生成接近目标声学特征的模型声学特征，鉴别器用于评估所述模型声学特征以及所述目标声学特征之间的相似度，以确定声学模型是否已经达到目标。

S35，基于所述模型声学特征以及所述目标声学特征之间的相似度，调整所述待训练的声学模型中的模型参数，完成所述声学模型训练。

在本发明实施例中，可以基于所述模型声学特征以及所述目标声学特征之间的相似度，调整所述待训练的声学模型中的模型参数，使所述声学模型输出的模型声学特征可以不断接近所述目标声学特征。

其后，若所述模型声学特征以及所述目标声学特征之间的相似度满足预设条件，可以认为所述声学模型训练完成。

所述预设条件可以为所述模型声学特征以及所述目标声学特征之间的相似度高于预设阈值；所述模型声学特征以及所述目标声学特征之间的相似度基本不再变化等，本发明对此不做限制。

在具体实现中，在所述声学模型与鉴别器构成生成对抗网络的情况下，鉴别器可以评估所述模型声学特征以及所述目标声学特征之间的相似度，并基于相似度对所述声学模型中的模型参数进行梯度更新，提高所述声学模型生成模型声学特征的准确度。同时，所述鉴别器也可以基于所述声学模型输出的所述模型声学特征以及所述目标声学特征之间的相似度，对自身进行调整，提高自身区分所述模型声学特征以及所述目标声学特征的能力。从而所述声学模型以及所述鉴别器可以相互对抗，相互提高模型输出的准确率，最终可以得到具有较高准确率的声学模型。

在本发明实施例中，通过整体地训练所述声学模型中的子模型，基于所述声学模型的最终输出对所述声学模型中的子模型进行训练，从而可以使所述声学模型中每一子模型可以具有相同的训练目标，使声学模型中子模型之间可以具有更好的契合度，获得更好的语音合成。同时，采用生成对抗网络对所述声学模型，可以进一步提高声学模型的效果，使最终生成的合成语音的质量可以进一步提高。

在本发明的一种实施例中，所述时长模型采用如下方式训练得到：

S41，提取所述训练音频中每一字符的标准时长；

在本发明实施例中，可以在所述声学模型整体训练的基础上，进一步针对所述时长模型进行训练，以提高所述时长模型预测字符时长的效果，使所述声学模型的输出可以更加准确。

由此，可以提取所述训练音频中每一字符的标准时长，提取得到的所述训练音频中每一字符的标准时长，可以认为是所述字符正确的时长。所述训练音频中每一字符的标准时长的提取可以采用模型进行提取，也可以采用人工进行提取，本发明对此不做限制。

S42，将所述训练文本输入编码器中，获取所述编码器输出的隐层特征；

在本发明实施例中，所述时长模型的输入可以为所述编码器的输出，由此，可以将所述训练文本输入所述编码器中，并获取所述编码器输出的隐层特征，以对所述时长模型进行训练。

S43，将所述隐层特征作为输入，将所述训练音频中每一字符的标准时长作为训练目标，对所述待训练的时长模型进行训练，得到时长模型。

在本发明实施例中，可以将所述隐层特征作为所述时长模型的输入，并将所述训练音频中每一字符的标准时长作为所述时长模型的训练目标，对所述待训练的时长模型进行训练，得到训练完成的时长模型。通过对所述时长模型进一步进行训练，可以进一步提高所述时长模型输出的准确率，使最终合成的语音可以具有更好的质量。

具体而言，可以将所述隐层特征输入所述时长模型中，所述时长模型可以输出所述训练文本中每一字符的时长。其后，可以比较所述时长模型输出的输出所述训练文本中每一字符的时长与所述训练音频中每一字符的标准时长之间的相似度，并根据所述时长模型输出的输出所述训练文本中每一字符的时长与所述训练音频中每一字符的标准时长之间的相似度对所述时长模型中的模型参数进行调整，直至所述时长模型的输出满足预设条件，所述时长模型训练完成。

所述预设条件可以为所述时长模型输出的输出所述训练文本中每一字符的时长与所述训练音频中每一字符的标准时长之间的相似度达到预设阈值，也可以为所述时长模型输出的输出所述训练文本中每一字符的时长与所述训练音频中每一字符的标准时长之间的相似度基本不再变化等，本发明对此不做限制。

在本发明的一种实施例中，所述提取所述训练音频中每一字符的标准时长的步骤，包括：

S51，将所述训练音频以及所述隐层特征输入切分模型中；

在本发明实施例中，在训练过程中，可以采用切分模型对所述时长模型进行训练。所述切分模型可以用于切分所述训练文本中的每一个字符，并相应地标注每一字符在所述训练音频中的起点以及终点，从而可以得知所述训练文本中每一字符对应的时长。可以认为所述切分模型输出的字符时长是正确的字符时长，从而可以基于所述切分模型的输出，对所述时长模型进行训练。

由此，可以将所述训练音频以及所述隐层特征输入预设的切分模型中，以获取所述切分模型的输出。

S52，所述切分模型基于所述隐层特征，标注所述训练音频中每一字符的起点与终点；

在本发明实施例中，所述切分模型可以基于所述隐层特征，预测所述训练音频每一帧对应的字符。其后，可以将所述字符对应的最早一帧作为所述字符在所述训练音频中的起点，将所述字符对应的最晚一帧作为所述字符在所述训练音频中的终点，从而可以实现标注所述训练音频中每一字符的起点与终点。

具体而言，所述目标声学特征可以记载有所述训练音频在连续时长中频度、响度的变化。由此，所述切分模型可以在所述目标声学特征的基础上，预测所述目标声学特征中每一帧对应的字符，对所述字符的起点与终点进行标注。

S53，基于所述训练音频中每一字符的起点与终点，确定所述训练音频中每一字符的标准时长。

在本发明实施例中，在确定所述训练音频中每一字符的起点与终点之后，可以基于所述训练音频中每一字符的起点与终点，确定所述训练音频中每一字符的标准时长。

具体而言，可以将所述字符的起点与终点之间的时间差，作为所述字符对应的标准时长，从而可以得到所述训练音频中每一字符的标准时长。

具体而言，在所述声学模型的训练过程中，同样可以基于所述模型声学特征以及所述目标声学特征之间的相似度，调整所述切分模型的模型参数。由此，在训练过程中，所述切分模型也可以不断提高自身切分所述训练文本中的每一个字符并确定每一字符时长的准确率。从而在训练过程中，所述时长模型也可以获得更加准确的训练目标，可以提高时长模型输出的准确率，并使所述声学模型最终输出的声学特征可以具有更高的准确率。

由此，所述声学模型可以实现端到端的学习，可以基于所述声学模型整体最终输出的声学特征，对所述声学模型中的每一子模型以及所述切分模型进行训练，得到具有较高准确率的声学模型。同时，训练过程中，由于采用对抗训练的方式对所述声学模型以及所述切分模型进行训练，同时采用切分模型的输出对所述时长模型进行训练，从而所述声学模型在训练过程中，可以在无人工监督或者较少人工监督的情况下完成模型的训练，便于声学模型可以较为简便地适配多种语种以及不同发言人的需求。

作为本发明的一种示例，图5为本发明实施例一种声学模型的训练示意图。在训练过程中，可以将训练文本输入编码器501中，并获取所述编码器501输出的隐层特征，其后，可以将隐层特征输入时长模型502中，获取所述时长模型502输出的每一字符的时长。还可以将所述隐层特征以及所述目标声学特征输入所述切分模型505中，以获取所述切分模型505输出的标准时长。可以将所述切分模型505输出的标准时长作为所述时长模型502的训练目标，将所述隐层特征作为所述时长模型的输入，对所述时长模型进行训练。

同时，还可以将所述隐层特征以及从所述训练音频提取得到的目标声学特征输入所述变分自动编码器503中，并获取所述变分自动编码器503输出的韵律特征。其后，所述解码器504可以基于所述隐层特征、所述每一字符的时长、以及韵律特征，输出模型声学特征。其后，可以采用鉴别器506比较所述模型声学特征以及所述目标声学特征之间的相似度，基于所述模型声学特征以及所述目标声学特征之间的相似度，调整所述待训练的声学模型每一子模型的模型参数，最终得到训练完成的声学特征。

通过本发明实施例的语音合成方法，获取待合成文本；将所述待合成文本输入所述编码器中，并获取所述编码器输出的所述待合成文本的隐层特征；将所述隐层特征输入所述时长模型中，并获取所述时长模型输出的所述待合成文本中每一字符的时长；将所述隐层特征输入所述变分自动编码器中，并获取所述变分自动编码器输出的韵律特征；基于所述待合成文本中每一字符的时长，所述隐层特征的长度进行调整；将调整后的所述隐层特征以及所述待合成文本的韵律特征输入所述解码器中，并获取所述解码器输出的所述待合成文本对应的声学特征。将所述待合成文本对应的声学特征输入预设的声码器中，获取所述声码器输出的所述待合成文本对应的文本语音。可以无需提取大量的单词、音素、停顿等信息构建语音库，使语音合成的流程更加简单，降低语音合成的难度，且由于生成声学特征的过程中参考了韵律特征，可以使语音合成的质量进一步提高。此外，面对用户需要合成不同人物的语音等个性化需求时，也可以较为简单地完成语音合成的个性化支持。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图6，示出了本发明实施例的一种语音合成装置实施例的结构框图，具体可以包括如下模块：

文本获取模块601，用于获取待合成文本；

第一特征生成模块602，用于生成所述待合成文本的隐层特征以及韵律特征，并预测所述待合成文本中每一字符的时长；

第二特征生成模块603，用于基于所述待合成文本的隐层特征、韵律特征、以及所述待合成文本中每一字符的时长，生成所述待合成文本对应的声学特征；

语音合成模块604，用于根据所述待合成文本对应的声学特征，生成所述待合成文本对应的文本语音。

在本发明一种实施例中，所述第一特征生成模块包括：

在本发明一种实施例中，所述声学模型包括解码器；

所述第二特征生成子模块包括：

在本发明一种实施例中，所述语音合成模块包括：

在本发明一种实施例中，所述声学模型采用如下模块训练得到：

所述训练模块包括：

在本发明一种实施例中，所述时长模型采用如下模块训练得到：

隐层特征获取模块，用于将所述训练文本输入编码器中，获取所述编码器输出的隐层特征；

在本发明一种实施例中，所述时长提取模块包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

参照图7，电子设备700可以包括以下一个或多个组件：处理组件702，存储器704，电力组件706，多媒体组件708，音频组件710，输入/输出(I/O)的接口712，传感器组件714，以及通信组件716。

处理组件702通常控制电子设备700的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件702可以包括一个或多个处理器720来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件702可以包括一个或多个模块，便于处理组件702和其他组件之间的交互。例如，处理部件702可以包括多媒体模块，以方便多媒体组件708和处理组件702之间的交互。

存储器704被配置为存储各种类型的数据以支持在设备700的操作。这些数据的示例包括用于在电子设备700上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件706为电子设备700的各种组件提供电力。电力组件706可以包括电源管理系统，一个或多个电源，及其他与为电子设备700生成、管理和分配电力相关联的组件。

多媒体组件708包括在所述电子设备700和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件708包括一个前置摄像头和/或后置摄像头。当电子设备700处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件710被配置为输出和/或输入音频信号。例如，音频组件710包括一个麦克风(MIC)，当电子设备700处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中，音频组件710还包括一个扬声器，用于输出音频信号。

I/O接口712为处理组件702和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件714包括一个或多个传感器，用于为电子设备700提供各个方面的状态评估。例如，传感器组件714可以检测到设备700的打开/关闭状态，组件的相对定位，例如所述组件为电子设备700的显示器和小键盘，传感器组件714还可以检测电子设备700或电子设备700一个组件的位置改变，用户与电子设备700接触的存在或不存在，电子设备700方位或加速/减速和电子设备700的温度变化。传感器组件714可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件714还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件716被配置为便于电子设备700和其他设备之间有线或无线方式的通信。电子设备700可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件714经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件714还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器704，上述指令可由电子设备700的处理器720执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种语音合成方法，包括：

获取待合成文本；

采用预设的声学模型，生成所述待合成文本的第一隐层特征以及第二隐层特征，并预测所述待合成文本中每一字符的时长；

采用所述声学模型，基于所述待合成文本的第一隐层特征、第二隐层特征、以及所述待合成文本中每一字符的时长，生成所述待合成文本对应的声学特征；

采用所述待合成文本对应的声学特征，生成所述待合成文本对应的文本语音。

可选地，所述采用预设的声学模型，生成所述待合成文本的第一隐层特征以及第二隐层特征，并预测所述待合成文本中每一字符的时长的步骤，包括：

采用所述待合成文本对应的语种和/或语音风格的声学模型，生成所述待合成文本的第一隐层特征以及第二隐层特征，并预测所述待合成文本中每一字符的时长。

可选地，所述声学模型包括编码器、时长模型、以及变分自动编码器；

所述采用预设的声学模型，生成所述待合成文本的第一隐层特征以及第二隐层特征，并预测所述待合成文本中每一字符的时长的步骤，包括：

将所述待合成文本输入所述编码器中，并获取所述编码器输出的所述待合成文本的第一隐层特征；

将所述第一隐层特征输入所述时长模型中，并获取所述时长模型输出的所述待合成文本中每一字符的时长；

将所述第一隐层特征输入所述变分自动编码器中，并获取所述变分自动编码器输出的第二隐层特征。

可选地，所述声学模型包括解码器；

所述采用所述声学模型，基于所述待合成文本的第一隐层特征、第二隐层特征、以及所述待合成文本中每一字符的时长，生成所述待合成文本对应的声学特征的步骤，包括：

基于所述待合成文本中每一字符的时长，所述第一隐层特征的长度进行调整；

将调整后的所述第一隐层特征以及所述待合成文本的第二隐层特征输入所述解码器中，并获取所述解码器输出的所述待合成文本对应的声学特征。

可选地，所述声学模型采用如下方式训练得到：

获取一语种的训练文本以及所述训练文本对应的训练音频；

可选地，所述声学模型采用如下方式训练得到：

获取训练文本以及所述训练文本对应的训练音频；

提取所述训练音频中的目标声学特征；

基于所述模型声学特征以及所述目标声学特征之间的相似度，调整所述待训练的声学模型中的模型参数，直至所述声学模型训练完成。

可选地，所述时长模型采用如下方式训练得到：

提取所述训练音频中每一字符的标准时长；

将所述训练文本输入编码器中，获取所述编码器输出的第一隐层特征；

将所述第一隐层特征作为输入，将所述训练音频中每一字符的标准时长作为训练目标，对所述待训练的时长模型进行训练，得到时长模型。

将所述训练音频以及所述第一隐层特征输入预设的切分模型中；

所述切分模型基于所述第一隐层特征，标注所述训练音频中每一字符的起点与终点；

图8是本发明根据另一示例性实施例示出的一种用于信息推荐的电子设备800的结构示意图。该电子设备800可以是服务器，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)822(例如，一个或一个以上处理器)和存储器832，一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器822可以设置为与存储介质830通信，在服务器上执行存储介质830中的一系列指令操作。

服务器还可以包括一个或一个以上电源826，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口858，一个或一个以上键盘856，和/或，一个或一个以上操作系统841，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取待合成文本；

可选地，所述声学模型包括解码器；

可选地，所述声学模型采用如下方式训练得到：

获取一语种的训练文本以及所述训练文本对应的训练音频；

可选地，所述声学模型采用如下方式训练得到：

获取训练文本以及所述训练文本对应的训练音频；

提取所述训练音频中的目标声学特征；

可选地，所述时长模型采用如下方式训练得到：

提取所述训练音频中每一字符的标准时长；

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种语音合成方法和一种语音合成装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音合成方法，其特征在于，包括：

获取待合成文本；

2.根据权利要求1所述的方法，其特征在于，所述生成所述待合成文本的隐层特征以及韵律特征，并预测所述待合成文本中每一字符的时长的步骤，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述生成所述待合成文本的隐层特征以及韵律特征，并预测所述待合成文本中每一字符的时长的步骤，包括：

将所述隐层特征通过变分自动编码器输出韵律特征。

4.根据权利要求1或2所述的方法，其特征在于，所述基于所述待合成文本的隐层特征、韵律特征、以及所述待合成文本中每一字符的时长，生成所述待合成文本对应的声学特征的步骤，包括：

5.根据权利要求1所述的方法，其特征在于，所述采用所述待合成文本对应的声学特征，生成所述待合成文本对应的文本语音的步骤，包括：

6.根据权利要求2所述的方法，其特征在于，所述声学模型采用如下方式训练得到：

获取一语种的训练文本以及所述训练文本对应的训练音频；

7.根据要求6所述的方法，其特征在于，所述一语种的训练文本以及所述训练文本对应的训练音频包括来自若干人的训练文本以及所述训练文本对应的训练音频；

8.根据权利要求2所述的方法，其特征在于，所述声学模型采用如下方式训练得到：

获取训练文本以及所述训练文本对应的训练音频；

提取所述训练音频中的目标声学特征；

9.根据权利要求3或8所述的方法，其特征在于，所述时长模型采用如下方式训练得到：

提取所述训练音频中每一字符的标准时长；

10.根据权利要求9所述的方法，其特征在于，所述提取所述训练音频中每一字符的标准时长的步骤，包括：

将所述训练音频以及所述隐层特征输入切分模型中；

11.一种语音合成合成装置，其特征在于，包括：

文本获取模块，用于获取待合成文本；

第一特征生成模块，用于采用预设的声学模型，生成所述待合成文本的隐层特征以及韵律特征，并预测所述待合成文本中每一字符的时长；

第二特征生成模块，用于采用所述声学模型，基于所述待合成文本的隐层特征、韵律特征、以及所述待合成文本中每一字符的时长，生成所述待合成文本对应的声学特征；

语音合成模块，用于采用所述待合成文本对应的声学特征，生成所述待合成文本对应的文本语音。

12.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如方法权利要求1-10任一所述的语音合成方法。

13.一种电子设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行如方法权利要求1-10任一所述的语音合成方法。