CN113178188A

CN113178188A - 语音合成方法、装置、设备及存储介质

Info

Publication number: CN113178188A
Application number: CN202110454505.5A
Authority: CN
Inventors: 苏雪琦; 王健宗; 程宁
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2021-07-27
Anticipated expiration: 2041-04-26
Also published as: CN113178188B

Abstract

本申请涉及人工智能技术领域，揭示了一种语音合成方法、装置、设备及存储介质，其中方法包括：对待语音合成的文本数据依次进行句子结构分析、文本正则化处理、分词处理和词性预测得到预处理后的文本数据；根据预处理后的文本数据得到音素预测结果；根据音素时长数据库、音素预测结果和预处理后的文本数据进行单字时间对齐得到单字时间数据；根据音素预测结果进行韵律预测得到韵律预测结果；将单字时间数据、音素预测结果和韵律预测结果输入声学模型进行声学特征预测得到待合成语音的声学特征数据；将待合成语音的声学特征数据输入声码器得到目标音频数据。通过向自回归结构的注意力机制提供单字时间对齐的信息，降低了注意力对齐不准。

Description

语音合成方法、装置、设备及存储介质

技术领域

本申请涉及到人工智能技术领域，特别是涉及到一种语音合成方法、装置、设备及存储介质。

背景技术

目前主流的TTS(文本转换语音)系统采用了基于Encoder(编码)-Attention(注意力)-Decoder(解码)的自回归结构。因为自回归结构容易导致序列生成的错误传播以及注意力对齐不准，所以导致出现重复、跳过问题，从而导致部分文字对应的语音重复和部分文字没有对应的语音；因为自回归结构会逐个文字生成梅尔频谱图，不会明确地利用文本和语音之间的对齐，所以很难直接控制生成语音的速度或韵律停顿，从而导致速度异常、停顿异常。

发明内容

本申请的主要目的为提供一种语音合成方法、装置、设备及存储介质，旨在解决现有技术的语音合成系统采用自回归结构，导致出现重复、跳过，以及导致出现速度异常、韵律停顿异常的技术问题。

为了实现上述发明目的，本申请提出一种语音合成方法，所述方法包括：

获取待语音合成的文本数据；

对所述待语音合成的文本数据依次进行句子结构分析、文本正则化处理、分词处理和词性预测，得到预处理后的文本数据；

根据所述预处理后的文本数据进行音素预测，得到音素预测结果；

获取音素时长数据库，根据所述音素时长数据库、所述音素预测结果和所述预处理后的文本数据进行单字时间对齐，得到单字时间数据；

根据所述音素预测结果进行韵律预测，得到韵律预测结果；

将所述单字时间数据、所述音素预测结果和所述韵律预测结果输入声学模型进行声学特征预测，得到待合成语音的声学特征数据；

将所述待合成语音的声学特征数据输入声码器进行语音合成，得到目标音频数据。

进一步的，所述获取音素时长数据库的步骤之前，还包括：

获取多个待分析的梅尔频谱，所述多个待分析的梅尔频谱中的每个待分析的梅尔频谱是采用所述声学模型生成的梅尔频谱；

从所述多个待分析的梅尔频谱中提取一个所述待分析的梅尔频谱作为目标梅尔频谱；

根据所述目标梅尔频谱进行频带能量图生成，得到待分析的频带能量图；

获取预设的音频信号窗口，所述预设的音频信号窗口的长度小于元音音素的平均持续时长；

根据所述预设的音频信号窗口，对所述待分析的频带能量图进行音素检测，得到所述目标梅尔频谱对应的单音素频带能量图集合；

分别根据所述单音素频带能量图集合中的每个单音素频带能量图进行音素时长提取，得到所述目标梅尔频谱对应的单音素时长数据集合；

重复执行所述从所述多个待分析的梅尔频谱中提取一个所述待分析的梅尔频谱作为目标梅尔频谱的步骤，直至完成所述多个待分析的梅尔频谱中的各个所述待分析的梅尔频谱各自对应的所述单音素时长数据集合；

根据所述单音素时长数据集合更新所述音素时长数据库。

进一步的，所述根据所述音素时长数据库、所述音素预测结果和所述预处理后的文本数据进行单字时间对齐，得到单字时间数据的步骤，还包括：

根据所述音素时长数据库和所述音素预测结果进行音素时长的全局对齐，得到所述音素预测结果对应的对齐后的音素时长数据；

针对所述预处理后的文本数据中的每个单字，根据所述音素预测结果和所述对齐后的音素时长数据进行单字时间计算，得到所述单字时间数据。

进一步的，所述根据所述音素时长数据库和所述音素预测结果进行音素时长的全局对齐，得到所述音素预测结果对应的对齐后的音素时长数据的步骤，包括：

采用最短编辑距离算法，根据所述音素时长数据库和所述音素预测结果进行音素时长的全局对齐，得到所述音素预测结果对应的所述对齐后的音素时长数据。

进一步的，所述将所述单字时间数据、所述音素预测结果和所述韵律预测结果输入声学模型进行声学特征预测，得到待合成语音的声学特征数据的步骤，还包括：

通过所述声学模型的编码模块，根据所述单字时间数据和所述韵律预测结果进行向量生成，得到待分析的向量数据；

通过所述声学模型，根据所述待分析的向量数据和所述音素预测结果进行声学特征预测，得到所述待合成语音的声学特征数据。

进一步的，所述通过所述声学模型的编码模块，根据所述单字时间数据和所述韵律预测结果进行向量生成，得到待分析的向量数据的方法，包括：

通过所述声学模型的所述编码模块，根据one-hot编码方法对所述单字时间数据进行编码，得到待分析的时间编码向量；

通过所述声学模型的所述编码模块，根据所述待分析的时间编码向量和所述韵律预测结果进行嵌入向量计算，得到所述待分析的向量数据。

进一步的，所述通过所述声学模型，根据所述待分析的向量数据和所述音素预测结果进行声学特征预测，得到所述待合成语音的声学特征数据的步骤，包括：

将所述待分析的向量数据和所述音素预测结果输入所述声学模型的注意力模块；

本申请还提出了一种语音合成装置，所述装置包括：

数据获取模块，用于获取待语音合成的文本数据；

预处理后的文本数据确定模块，用于对所述待语音合成的文本数据依次进行句子结构分析、文本正则化处理、分词处理和词性预测，得到预处理后的文本数据；

音素预测结果确定模块，用于根据所述预处理后的文本数据进行音素预测，得到音素预测结果；

单字时间数据确定模块，用于获取音素时长数据库，根据所述音素时长数据库、所述音素预测结果和所述预处理后的文本数据进行单字时间对齐，得到单字时间数据；

韵律预测结果确定模块，用于根据所述音素预测结果进行韵律预测，得到韵律预测结果；

待合成语音的声学特征数据确定模块，用于将所述单字时间数据、所述音素预测结果和所述韵律预测结果输入声学模型进行声学特征预测，得到待合成语音的声学特征数据；

目标音频数据确定模块，用于将所述待合成语音的声学特征数据输入声码器进行语音合成，得到目标音频数据。

本申请还提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的语音合成方法、装置、设备及存储介质，通过首先根据预处理后的文本数据进行音素预测，得到音素预测结果，然后根据音素时长数据库、音素预测结果和预处理后的文本数据进行单字时间对齐，得到单字时间数据，根据音素预测结果进行韵律预测，得到韵律预测结果，最后将单字时间数据、音素预测结果和韵律预测结果输入声学模型进行声学特征预测，得到待合成语音的声学特征数据，通过向语音合成系统的自回归结构的注意力机制提供单字时间对齐的信息，从而降低了注意力对齐不准的问题，提高了合成的语音的准确性和稳定性。

附图说明

图1为本申请一实施例的语音合成方法的流程示意图；

图2为本申请一实施例的语音合成装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

为了解决现有技术的语音合成系统采用自回归结构，导致出现重复、跳过，以及导致出现速度异常、韵律停顿异常的技术问题，本申请提出了一种语音合成方法，所述方法应用于人工智能技术领域，所述方法进一步应用于人工智能的语音处理技术领域。所述语音合成方法通过在文本转音素后，进行单字时间对齐，将音素和单字时间对齐结果输入声学模型进行声学特征预测，根据声学特征预测结果进行语音合成，通过向语音合成系统的自回归结构的注意力机制提供单字时间对齐的信息，从而降低了注意力对齐不准的问题，提高了合成的语音的准确性和稳定性。

参照图1，本申请实施例中提供一种语音合成方法，所述方法包括：

S1：获取待语音合成的文本数据；

S2：对所述待语音合成的文本数据依次进行句子结构分析、文本正则化处理、分词处理和词性预测，得到预处理后的文本数据；

S3：根据所述预处理后的文本数据进行音素预测，得到音素预测结果；

S4：获取音素时长数据库，根据所述音素时长数据库、所述音素预测结果和所述预处理后的文本数据进行单字时间对齐，得到单字时间数据；

S5：根据所述音素预测结果进行韵律预测，得到韵律预测结果；

S6：将所述单字时间数据、所述音素预测结果和所述韵律预测结果输入声学模型进行声学特征预测，得到待合成语音的声学特征数据；

S7：将所述待合成语音的声学特征数据输入声码器进行语音合成，得到目标音频数据。

本实施例通过首先根据预处理后的文本数据进行音素预测，得到音素预测结果，然后根据音素时长数据库、音素预测结果和预处理后的文本数据进行单字时间对齐，得到单字时间数据，根据音素预测结果进行韵律预测，得到韵律预测结果，最后将单字时间数据、音素预测结果和韵律预测结果输入声学模型进行声学特征预测，得到待合成语音的声学特征数据，通过向语音合成系统的自回归结构的注意力机制提供单字时间对齐的信息，从而降低了注意力对齐不准的问题，提高了合成的语音的准确性和稳定性。

对于S1，可以获取用户输入的待语音合成的文本数据，也可以从数据库中获取待语音合成的文本数据，还可以从第三方应用系统中获取待语音合成的文本数据。

待语音合成的文本数据，是需要转换成语音的文本数据。

对于S2，对所述待语音合成的文本数据进行句子结构分析，得到待正则化的文本数据；对所述待正则化的文本数据进行文本正则化处理，得到待分词的文本数据；对所述待分词的文本数据进行分词处理，得到分词后的文本数据；对所述分词后的文本数据进行词性预测，得到所述预处理后的文本数据。

句子结构分析，用于将所述待预测的文本数据划分成句子。可选的，句子结构分析可以采用基于神经网络训练的模型实现。

文本正则化处理，用于在中文语境下，把所述待正则化的文本数据中不是中文的标点或数字转换为汉子表达。比如，对文本数据“3.9”进行文本正则化处理，得到文本数据“三点九”，在此举例不做具体限定。可选的，文本正则化处理可以采用基于神经网络训练的模型实现。

分词处理，用于把所述待分词的文本数据中的句子根据语义进行切分，切分时将一个词的中文文字切分在一起。可选的，分词处理可以采用基于神经网络训练的模型实现。

词性预测，用于对所述分词后的文本数据中每个词的词性进行预测。词性包括：名词、动词、形容词、数量词、代词、副词、介词、连词、助词、叹词、拟声词。可选的，词性预测可以采用基于神经网络训练的模型实现。

对于S3，音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。

将所述预处理后的文本数据输入音素预测模型进行音素预测，以实现对所述预处理后的文本数据中的每个文字的音素进行预测。可以理解的是，音素预测也就是对中文的拼音进行预测。

可以理解的是，音素预测模型用于将文字转换为音素，具体实现原理和方法在此不做赘述。

比如，所述预处理后的文本数据为“普通话”，则将所述预处理后的文本数据输入音素预测模型进行音素预测，确定音素预测结果为“p,u,t,o,ng,h,u,a”，“p,u,t,o,ng,h,u,a”中包括8个音素，在此举例不做具体限定。

对于S4，可以获取用户输入的音素时长数据库，也可以从数据库中获取音素时长数据库，还可以从第三方应用系统中获取音素时长数据库。

音素时长数据库包括：音素、持续时长，其中，每个音素对应一个持续时长。可以理解的是，音素时长数据库中的音素是一个音素，也是单音素。

其中，根据所述音素时长数据库和所述音素预测结果，对所述预处理后的文本数据中每个文字进行时间确定，得到单字时间数据。

可选的，所述单字时间数据包括：文字、持续时长，其中，所述单字时间数据中的文字是中文中的一个文字，所述单字时间数据中的每个文字对应一个持续时长。

可选的，所述单字时间数据包括：文字、开始时间、结束时间，其中，所述单字时间数据中的文字是中文中的一个文字，所述单字时间数据中的每个文字对应一个开始时间和一个结束时间。

对于S5，将所述音素预测结果输入韵律预测模型进行韵律预测，将韵律预测得到的数据作为韵律预测结果。

所述韵律预测模型，是基于神经网络训练得到的模型。

对于S6，将所述单字时间数据、所述音素预测结果和所述韵律预测结果输入声学模型进行声学特征预测，从而实现通过所述单字时间数据向所述声学模型的注意力机制提供单字时间对齐的信息，最终将声学特征预测得到的数据作为待合成语音的声学特征数据。

所述声学模型，是基于隐马尔科夫模型训练得到的模型。

对于S7，将所述待合成语音的声学特征数据输入声码器进行语音合成，将语音合成得到的音频作为所述待语音合成的文本数据对应的目标音频数据。

所述声码器，是语音分析合成系统，在传输中只利用模型参数，在编译码时利用模型参数估计和语音合成技术的语音信号编译码器，一种对话音进行分析和合成的编、译码器，也称话音分析合成系统或话音频带压缩系统。

在一个实施例中，上述获取音素时长数据库的步骤之前，还包括：

S411：获取多个待分析的梅尔频谱，所述多个待分析的梅尔频谱中的每个待分析的梅尔频谱是采用所述声学模型生成的梅尔频谱；

S412：从所述多个待分析的梅尔频谱中提取一个所述待分析的梅尔频谱作为目标梅尔频谱；

S413：根据所述目标梅尔频谱进行频带能量图生成，得到待分析的频带能量图；

S414：获取预设的音频信号窗口，所述预设的音频信号窗口的长度小于元音音素的平均持续时长；

S415：根据所述预设的音频信号窗口，对所述待分析的频带能量图进行音素检测，得到所述目标梅尔频谱对应的单音素频带能量图集合；

S416：分别根据所述单音素频带能量图集合中的每个单音素频带能量图进行音素时长提取，得到所述目标梅尔频谱对应的单音素时长数据集合；

S417：重复执行所述从所述多个待分析的梅尔频谱中提取一个所述待分析的梅尔频谱作为目标梅尔频谱的步骤，直至完成所述多个待分析的梅尔频谱中的各个所述待分析的梅尔频谱各自对应的所述单音素时长数据集合；

S418：根据所述单音素时长数据集合更新所述音素时长数据库。

本实施例实现了根据频带能量图和预设的音频信号窗口进行音素时长提取，从而有利于提高提取的单音素时长数据的准确性，进一步提高了合成的语音的准确性。

对于S411，可以获取用户输入的多个待分析的梅尔频谱，也可以从数据库中获取多个待分析的梅尔频谱，还可以从第三方应用系统中获取多个待分析的梅尔频谱。

待分析的梅尔频谱，也就是梅尔频谱。

对于S412，依次从所述多个待分析的梅尔频谱中提取一个所述待分析的梅尔频谱，将获取的所述待分析的梅尔频谱作为目标梅尔频谱。

对于S413，根据所述目标梅尔频谱中的频带能量和时间数据进行频带能量图生成，将生成的频带能量图作为待分析的频带能量图。也就是说，待分析的频带能量图是一个二维图像。

其中，将所述目标梅尔频谱中的频带能量的数据作为频带能量图的Y轴，将所述目标梅尔频谱中的时间数据作为频带能量图的X轴.

对于S414，可以获取用户输入的预设的音频信号窗口，也可以从数据库中获取预设的音频信号窗口，还可以从第三方应用系统中获取预设的音频信号窗口。

其中，所述预设的音频信号窗口的长度小于元音音素的平均持续时长。

元音音素，是人说话的声音是由若干单个的音组成的，即使是一个很短的字、词也是由一定的读音组成的。元音音素包括：[i:]、[i]、[e]、[ae]、[□]、[□:]、[u:]、[u]、[a:]、[□]、[□:]、[□]、[ei]、[ai]、[□u]、[au]、[□i]、[i□]、[□□]、[u□]。

对于S415，采用所述预设的音频信号窗口在所述待分析的频带能量图中，对每个音素对应的频带能量进行滑动提取，将提取的每个频带能量子图作为一个单音素频带能量图，将所有单音素频带能量图作为所述目标梅尔频谱对应的所述单音素频带能量图集合。也就是说，单音素频带能量图是一个音素的频带能量形成的图。

其中，采用所述预设的音频信号窗口在所述待分析的频带能量图中，对每个音素对应的频带能量进行滑动提取的实现原理和方法在此不做赘述。

对于S416，分别对所述单音素频带能量图集合中的每个单音素频带能量图进行时长计算，将计算得到的每个时长作为一个单音素时长，根据所有所述单音素时长，确定所述目标梅尔频谱对应的单音素时长数据集合。

所述单音素时长数据集合中的每个单音素时长数据包括：音素、单音素时长，其中，所述单音素时长数据集合中的每个音素对应一个单音素时长。

对于S417，重复执行步骤S412至步骤S417，直至完成所述多个待分析的梅尔频谱中的各个所述待分析的梅尔频谱各自对应的所述单音素时长数据集合。

对于S418，将所述单音素时长数据集合中每个单音素时长数据的音素及其对应的单音素时长作为关联数据更新到所述音素时长数据库的音素及持续时长。

在一个实施例中，上述根据所述音素时长数据库、所述音素预测结果和所述预处理后的文本数据进行单字时间对齐，得到单字时间数据的步骤，还包括：

S421：根据所述音素时长数据库和所述音素预测结果进行音素时长的全局对齐，得到所述音素预测结果对应的对齐后的音素时长数据；

S422：针对所述预处理后的文本数据中的每个单字，根据所述音素预测结果和所述对齐后的音素时长数据进行单字时间计算，得到所述单字时间数据。

本实施例实现了首先进行音素时长的全局对齐，然后进行单字时间计算，从而得到了预处理后的文本数据中的每个单字的音素时间，确定了为后续向语音合成系统的自回归结构的注意力机制提供单字时间对齐的信息，从而降低了注意力对齐不准的问题，提高了合成的语音的准确性和稳定性。

对于S421，针对所述音素预测结果中的每个音素，从所述音素时长数据库中获取音素时长，根据获取的音素时长确定所述音素预测结果对应的对齐后的音素时长数据。

可选的，所述音素时长数据包括：音素、持续时长，其中，所述音素时长数据中的每个音素对应一个持续时长。

可选的，所述音素时长数据包括：音素、开始时间、结束时间，其中，所述音素时长数据中的每个音素对应一个开始时间和一个结束时间。

对于S422，根据所述音素预测结果和所述对齐后的音素时长数据，对所述预处理后的文本数据中的每个单字进行音素时间计算，根据计算得到的数据确定所述单字时间数据。

比如，所述预处理后的文本数据为“普通话”，所述音素预测结果为“p,u,t,o,ng,h,u,a”，则将“普”对应的二个音素“p,u”在所述对齐后的音素时长数据中进行音素时间计算得到第一单字时间，将“通”对应的三个音素“t,o,ng”在所述对齐后的音素时长数据中进行音素时间计算得到第二单字时间，将“话”对应的三个音素“h,u,a”在所述对齐后的音素时长数据中进行音素时间计算得到第三单字时间，将“普”和第一单字时间作为所述单字时间数据中的关联数据，将“通”和第二单字时间作为所述单字时间数据中的关联数据，将“话”和第三单字时间作为所述单字时间数据中的关联数据，在此举例不做具体限定。

在一个实施例中，上述根据所述音素时长数据库和所述音素预测结果进行音素时长的全局对齐，得到所述音素预测结果对应的对齐后的音素时长数据的步骤，包括：

S4211：采用最短编辑距离算法，根据所述音素时长数据库和所述音素预测结果进行音素时长的全局对齐，得到所述音素预测结果对应的所述对齐后的音素时长数据。

本实施例实现了采用最短编辑距离算法进行音素时长的全局对齐，从而减少了编辑次数，提高了全局对齐的效率，提高了文本转换语音是速度。

对于S4211，将所述音素预测结果复制一份作为待编辑的数据；采用最短编辑距离算法，将所述待编辑的数据中的音素移除并替换为所述音素时长数据库中的内容，将完成替换后的所述待编辑的数据作为所述音素预测结果对应的所述对齐后的音素时长数据。

可以理解的是，采用最短编辑距离算法，将所述待编辑的数据中的音素移除并替换为所述音素时长数据库中的内容的原理和步骤在此不做赘述。

在一个实施例中，上述将所述单字时间数据、所述音素预测结果和所述韵律预测结果输入声学模型进行声学特征预测，得到待合成语音的声学特征数据的步骤，还包括：

S61：通过所述声学模型的编码模块，根据所述单字时间数据和所述韵律预测结果进行向量生成，得到待分析的向量数据；

S62：通过所述声学模型，根据所述待分析的向量数据和所述音素预测结果进行声学特征预测，得到所述待合成语音的声学特征数据。

本实施例实现了先通过所述声学模型的编码模块根据所述单字时间数据和所述韵律预测结果进行向量生成，然后再通过所述声学模型的编码模块以后的模块进行声学特征预测，从而实现了向语音合成系统的自回归结构的注意力机制提供单字时间对齐的信息，从而降低了注意力对齐不准的问题，提高了合成的语音的准确性和稳定性。

对于S61，通过所述声学模型的编码模块，所述单字时间数据和所述韵律预测结果进行向量生成，得到一个向量数据，将得到的向量数据作为待分析的向量数据。

对于S62，通过所述声学模型，根据所述待分析的向量数据和所述音素预测结果进行声学特征预测以实现向语音合成系统的自回归结构的注意力机制提供单字时间对齐的信息，在降低了注意力对齐不准的情况下生成声学特征数据，将生成的声学特征数据作为所述待合成语音的声学特征数据。

在一个实施例中，上述通过所述声学模型的编码模块，根据所述单字时间数据和所述韵律预测结果进行向量生成，得到待分析的向量数据的方法，包括：

S611：通过所述声学模型的所述编码模块，根据one-hot编码方法对所述单字时间数据进行编码，得到待分析的时间编码向量；

S612：通过所述声学模型的所述编码模块，根据所述待分析的时间编码向量和所述韵律预测结果进行嵌入向量计算，得到所述待分析的向量数据。

本实施例通过采用one-hot编码方法对所述单字时间数据进行编码，从而实现将强制对齐得到的所述单字时间数据转换为只有0和1的编码，从而有利于将所述单字时间数据和所述韵律预测结果的信息融合到一个向量中，为向语音合成系统的自回归结构的注意力机制提供单字时间对齐的信息提供了基础。

对于S611，通过所述声学模型的所述编码模块，根据one-hot编码方法对所述单字时间数据进行编码，将编码得到的向量作为待分析的时间编码向量。

one-hot编码方法，也就是独热编码方法。

比如，预处理后的文本数据包括3个字，每个字的时间分别为00:00:00-00:00:01、00:00:01-00:00:03、00:00:03-00:00:04，此时通过所述声学模型的所述编码模块，根据one-hot编码方法对所述单字时间数据进行编码，将00:00:00-00:00:01编码成向量[0,0,1]，将00:00:01-00:00:03编码成向量[1,0,0]，将00:00:03-00:00:04编码成向量[0,1,0]，那么根据预处理后的文本数据中文字的顺序将[0,0,1]、[1,0,0]、[0,1,0]进行拼接，确定待分析的时间编码向量为[0,0,1,1,0,0,0,1,0]，在此举例不做具体限定。

对于S612，通过所述声学模型的所述编码模块，将所述待分析的时间编码向量嵌入到所述韵律预测结果中以生成一个向量，将生成的向量作为所述待分析的向量数据。

在一个实施例中，上述通过所述声学模型，根据所述待分析的向量数据和所述音素预测结果进行声学特征预测，得到所述待合成语音的声学特征数据的步骤，包括：

S621：将所述待分析的向量数据和所述音素预测结果输入所述声学模型的注意力模块；

S622：通过所述声学模型，根据所述待分析的向量数据和所述音素预测结果进行声学特征预测，得到所述待合成语音的声学特征数据。

本实施例实现了向语音合成系统的自回归结构的注意力机制提供单字时间对齐的信息，从而降低了注意力对齐不准的问题，提高了合成的语音的准确性和稳定性。

对于S621，将所述待分析的向量数据和所述音素预测结果输入所述声学模型的注意力模块。

对于S622，通过所述声学模型的编码模块以后的模块，根据所述待分析的向量数据和所述音素预测结果进行声学特征预测，将声学特征预测得到的数据作为所述待合成语音的声学特征数据。

参照图2，本申请还提出了一种语音合成装置，所述装置包括：

数据获取模块100，用于获取待语音合成的文本数据；

预处理后的文本数据确定模块200，用于对所述待语音合成的文本数据依次进行句子结构分析、文本正则化处理、分词处理和词性预测，得到预处理后的文本数据；

音素预测结果确定模块300，用于根据所述预处理后的文本数据进行音素预测，得到音素预测结果；

单字时间数据确定模块400，用于获取音素时长数据库，根据所述音素时长数据库、所述音素预测结果和所述预处理后的文本数据进行单字时间对齐，得到单字时间数据；

韵律预测结果确定模块500，用于根据所述音素预测结果进行韵律预测，得到韵律预测结果；

待合成语音的声学特征数据确定模块600，用于将所述单字时间数据、所述音素预测结果和所述韵律预测结果输入声学模型进行声学特征预测，得到待合成语音的声学特征数据；

目标音频数据确定模块700，用于将所述待合成语音的声学特征数据输入声码器进行语音合成，得到目标音频数据。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存语音合成方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音合成方法。所述语音合成方法，包括：获取待语音合成的文本数据；对所述待语音合成的文本数据依次进行句子结构分析、文本正则化处理、分词处理和词性预测，得到预处理后的文本数据；根据所述预处理后的文本数据进行音素预测，得到音素预测结果；获取音素时长数据库，根据所述音素时长数据库、所述音素预测结果和所述预处理后的文本数据进行单字时间对齐，得到单字时间数据；根据所述音素预测结果进行韵律预测，得到韵律预测结果；将所述单字时间数据、所述音素预测结果和所述韵律预测结果输入声学模型进行声学特征预测，得到待合成语音的声学特征数据；将所述待合成语音的声学特征数据输入声码器进行语音合成，得到目标音频数据。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种语音合成方法，包括步骤：获取待语音合成的文本数据；对所述待语音合成的文本数据依次进行句子结构分析、文本正则化处理、分词处理和词性预测，得到预处理后的文本数据；根据所述预处理后的文本数据进行音素预测，得到音素预测结果；获取音素时长数据库，根据所述音素时长数据库、所述音素预测结果和所述预处理后的文本数据进行单字时间对齐，得到单字时间数据；根据所述音素预测结果进行韵律预测，得到韵律预测结果；将所述单字时间数据、所述音素预测结果和所述韵律预测结果输入声学模型进行声学特征预测，得到待合成语音的声学特征数据；将所述待合成语音的声学特征数据输入声码器进行语音合成，得到目标音频数据。

上述执行的语音合成方法，通过首先根据预处理后的文本数据进行音素预测，得到音素预测结果，然后根据音素时长数据库、音素预测结果和预处理后的文本数据进行单字时间对齐，得到单字时间数据，根据音素预测结果进行韵律预测，得到韵律预测结果，最后将单字时间数据、音素预测结果和韵律预测结果输入声学模型进行声学特征预测，得到待合成语音的声学特征数据，通过向语音合成系统的自回归结构的注意力机制提供单字时间对齐的信息，从而降低了注意力对齐不准的问题，提高了合成的语音的准确性和稳定性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

获取待语音合成的文本数据；

根据所述音素预测结果进行韵律预测，得到韵律预测结果；

2.根据权利要求1所述的语音合成方法，其特征在于，所述获取音素时长数据库的步骤之前，还包括：

根据所述单音素时长数据集合更新所述音素时长数据库。

3.根据权利要求1所述的语音合成方法，其特征在于，所述根据所述音素时长数据库、所述音素预测结果和所述预处理后的文本数据进行单字时间对齐，得到单字时间数据的步骤，还包括：

4.根据权利要求3所述的语音合成方法，其特征在于，所述根据所述音素时长数据库和所述音素预测结果进行音素时长的全局对齐，得到所述音素预测结果对应的对齐后的音素时长数据的步骤，包括：

5.根据权利要求1所述的语音合成方法，其特征在于，所述将所述单字时间数据、所述音素预测结果和所述韵律预测结果输入声学模型进行声学特征预测，得到待合成语音的声学特征数据的步骤，还包括：

6.根据权利要求5所述的语音合成方法，其特征在于，所述通过所述声学模型的编码模块，根据所述单字时间数据和所述韵律预测结果进行向量生成，得到待分析的向量数据的方法，包括：

7.根据权利要求5所述的语音合成方法，其特征在于，所述通过所述声学模型，根据所述待分析的向量数据和所述音素预测结果进行声学特征预测，得到所述待合成语音的声学特征数据的步骤，包括：

8.一种语音合成装置，其特征在于，所述装置包括：

数据获取模块，用于获取待语音合成的文本数据；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。