CN104934028B

CN104934028B - 用于语音合成的深度神经网络模型的训练方法及装置

Info

Publication number: CN104934028B
Application number: CN201510339032.9A
Authority: CN
Inventors: 盖于涛; 康永国
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-06-17
Filing date: 2015-06-17
Publication date: 2017-11-17
Anticipated expiration: 2035-06-17
Also published as: CN104934028A

Abstract

本发明提出一种用于语音合成的深度神经网络模型的训练方法及装置，其中，该方法包括：从训练语料中提取上下文语境特征和音子边界特征；从训练语料提取声学特征参数；将上下文语境特征作为深度神经网络模型的输入特征，并将音子边界特征、声学参数特征和相邻时长特征作为深度神经网络模型的输出特征，对深度神经网络模型进行训练。本发明实施例的用于语音合成的深度神经网络模型的训练方法及装置，提供了一种语境特征、声学特征与音子边界特征同步建模的方式，增加了声学特征与语境特征对时长的同步约束，所建立的模型符合人的发音特性，模型准确度较高。

Description

用于语音合成的深度神经网络模型的训练方法及装置

技术领域

本发明涉及计算机技术领域，特别涉及一种用于语音合成的深度神经网络模型的训练方法及装置。

背景技术

语音合成是通过机械的、电子的方法产生人造语音的技术，它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的语音输出的技术。在语音合成的过程中，发音时长是影响合成语音节奏感的主要因素。

传统的语音合成技术多是采用基于隐马尔科夫模型(以下简称HMM)对语音时长建模。具体地，隐马尔可夫时长建模中分为训练和预测两个部分，在训练阶段，首先从训练文本中得到上下文语境特征信息，并从语音数据中提取声学特征信息；然后使用隐马尔可夫模型对声学特征和时长进行建模，得到一系列HMM；最后，对这些HMM在人工已设计好的问题集上针对语境特征进行决策树聚类，得到最终的时长模型。

在预测阶段，获得待合成文本的上下文语境特征，并通过决策树找到所对应的时长HMM，经过最大似然得到待合成文本的时长序列，并获得待合成文本的声学特征信息，将时长序列和声学特征信息输入声码器中获得合成语音。

然而，传统的基于隐马尔科夫模型(以下简称HMM)对语音时长建模进行语音合成的方式存在的问题是：(1)由于训练过程中仅考虑当前音子的声学特征对当前音子产生的影响，并且声学特征对时长的建模(隐马尔可夫建模过程)，语境特征对时长的建模(决策树聚类过程)两个过程相互独立，在实际真人播放的过程中，两者对时长均会有影响，因此，基于隐马尔科夫模型所建立的时长模型精度不高，从而导致所建立的时长模型预测出的发音时长比较的平均，进而导致合成语音的节奏感单调平淡、表现力不足；(2)决策树是一个浅层模型，通过对决策树聚类可以解决数据的稀疏性及增强模型的泛化能力，但由于决策树是对特征空间的线性划分，在复杂的上下文特征情况下具有较低的建模精度；(3)基于隐马尔可夫模型的建模方式考虑的上下文语境特征有限，仅考虑前后有限的音子个数(一般为5个)，而人的发声过程受到语言规则、韵律特性的影响，可能不仅仅与前后几个音子有关，还有可能与更多音子有关，因此，对于较为复杂的上下文语境特征情况下建模精度较低；(4)为了对特征空间进行合理的区分，需要人工设计一个复杂的问题集，如果问题集设计的不合理，将直接影响时长建模的精度，即问题集设计的否合理限制了时长建模的精度。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的第一个目的在于提出一种用于语音合成的深度神经网络模型的训练方法，该方法提供了一种语境特征、声学特征与音子边界特征同步建模的方式，增加了声学特征与语境特征对时长的同步约束，所建立的模型准确度较高。

本发明的第二个目的在于提出一种使用深度神经网络模型进行语音合成的方法。

本发明的第三个目的在于提出一种用于语音合成的深度神经网络模型的训练装置。

本发明的第四个目的在于提出一种使用深度神经网络模型进行语音合成的装置。

为实现上述目的，本发明第一方面实施例的用于语音合成的深度神经网络模型的训练方法，包括：从训练语料中提取上下文语境特征和音子边界特征；从所述训练语料提取声学特征参数；将所述上下文语境特征作为深度神经网络模型的输入特征，并将所述音子边界特征、声学参数特征和相邻时长特征作为所述深度神经网络模型的输出特征，对所述深度神经网络模型进行训练。

本发明实施例的用于语音合成的深度神经网络模型的训练方法，首先从训练语料文本中提取上下文语境特征和音子边界特征，然后从训练语料提取声学特征参数，以及将上下文语境特征作为深度神经网络模型的输入特征，并将音子边界特征、声学参数特征和相邻时长特征作为深度神经网络模型的输出特征，对深度神经网络模型进行训练。由此，提供了一种语境特征、声学特征与音子边界特征同步建模的方式，增加了声学特征与语境特征对时长的同步约束，所建立的模型符合人的发音特性，模型准确度较高。

为实现上述目的，本发明第二方面实施例的使用深度神经网络模型进行语音合成的方法，包括：获取待处理文本的上下文语境特征；根据所述待处理文本的上下文语境特征利用深度神经网络模型确定所述待处理文本的时长特征和声学特征参数；以及根据所述待处理文本的时长特征和声学特征参数来合成语音。

本发明实施例的使用深度神经网络模型进行语音合成的方法，在语音合成系统中使用第一方面实施例所训练的深度神经网络模型，在获得待处理文本的上下文语境特征后，将所获得的上下文语境特征输入至深度神经网络模型中即可获得待处理文本的时长特征和声学特征，最后根据待处理文本的时长特征和声学特征参数来合成语音。由此，简化了语音合成步骤，通过深度神经网络模型预测出的发音时长避免了平滑现象，进而提高了合成语音的节奏感和表现力，增强了合成语音的自然度。

为实现上述目的，本发明第三方面实施例的用于语音合成的深度神经网络模型的训练装置，包括：第一提取模块，用于从训练语料中提取上下文语境特征和音子边界特征；第二提取模块，用于从所述训练语料提取声学特征参数；处理模块，用于将所述上下文语境特征作为深度神经网络模型的输入特征，并将所述音子边界特征、声学参数特征和相邻时长特征作为所述深度神经网络模型的输出特征，对所述深度神经网络模型进行训练。

本发明实施例的用于语音合成的深度神经网络模型的训练装置，通过第一提取模块从训练语料中提取上下文语境特征和音子边界特征，然后第二提取模块从训练语料提取声学特征参数，以及处理模块将上下文语境特征作为深度神经网络模型的输入特征，并将音子边界特征、声学参数特征和相邻时长特征作为深度神经网络模型的输出特征，对深度神经网络模型进行训练，由此，提供了一种语境特征、声学特征与音子边界特征同步建模的方式，增加了声学特征与语境特征对时长的同步约束，所建立的模型符合人的发音特性，模型准确度较高。

为实现上述目的，本发明第四方面实施例的使用第一方面实施的深度神经网络模型进行语音合成的装置，包括：获取模块，用于获取待处理文本的上下文语境特征；确定模块，用于根据所述待处理文本的上下文语境特征利用深度神经网络模型确定所述待处理文本的时长特征和声学特征参数；以及合成模块，用于根据所述待处理文本的时长特征和声学特征参数来合成语音。

本发明实施例的使用深度神经网络模型进行语音合成的装置，通过获取模块获取待处理文本的上下文语境特征，然后确定模块根据待处理文本的上下文语境特征利用深度神经网络模型确定待处理文本的时长特征和声学特征参数，以及合成模块根据待处理文本的时长特征和声学特征参数来合成语音。由此，简化了语音合成步骤，通过深度神经网络模型预测出的发音时长避免了平滑现象，进而提高了合成语音的节奏感和表现力，增强了合成语音的自然度。

附图说明

图1是根据本发明一个实施例的用于语音合成的深度神经网络模型的训练方法的流程图。

图2是建立深度神经网络模型的示意图。

图3是根据本发明一个实施例的使用深度神经网络模型进行语音合成的方法。

图4是根据本发明一个实施例的用于语音合成的深度神经网络模型的训练装置的结构示意图。

图5是根据本发明一个实施例的使用深度神经网络模型进行语音合成的装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的用于语音合成的深度神经网络模型的训练方法及装置。

如图1所示，该用于语音合成的深度神经网络模型的训练方法包括：

S101，从训练语料中提取上下文语境特征和音子边界特征。

具体地，由于语音是一个时序过程，当前音子的发音时长会受到相邻音子的发音时长的影响，因而，在从训练语料中提取上下文语境特征后，还可以从训练语料中提取出每个音子和其相邻音子的发音时长，以方便后续可基于相邻音子的发音时长进行时长训练。

其中，需要说明的是，音子是指拼音的声韵母，是基本的建模单元。上下文语境特征是由当前音子的前后音子标记、停顿信息、词性、声调、重音、边界信息和在不同韵律层级的位置信息等信息组合成的特征向量。

S102，从训练语料提取声学特征参数。

其中，声学特征参数可以包括但不限于谱和基频特征参数。

具体地，可从训练语料中提出每个音子和其相邻音子的声学特征参数。

S103，将上下文语境特征作为深度神经网络模型的输入特征，并将音子边界特征、声学参数特征和相邻时长特征作为深度神经网络模型的输出特征，对深度神经网络模型进行训练。

其中，相邻时长特征是指相邻音子的边界信息，通过在提取音子边界信息时统计每句话中与当前音子相邻的音子边界值获得。

在本发明的一个实施例中，在从训练语料中提取出训练语料的上下文语境特征信息、音子边界特征、相邻时长特征和声学特征参数后，可对语境特征、声学特征与音子边界特征进行同步建模，即通过深度神经网络学习三者之间的关系，并且还可利用长短时记忆神经网络学习记忆语境信息、声学特征在时序范围上对发音时长造成的影响，该长短时记忆神经网络可以自动学习记忆历史语境信息并且可以记忆很大的范围的上下文语境特征，在训练过程中，无需对上下文语境特征添加额外的上下文信息，因此，与基于隐马尔可夫模型的建模方式的方式相比，该实施例的建模方式，可以增强时长建模的精度。

具体地，在训练深度神经网络模型的过程中，可将提取出的上下文语境特征作为深度神经网络模型的输入，并将提取出的音子边界特征、声学参数特征以及相邻时长特征联合作为深度神经网络模型的输出目标。其中，可将音子边界特征作为主目标，声学参数特征、相邻的时长信息作为辅助目标。

其中，对深度神经网络模型进行训练的目标函数为：

其中，y_n是联合输出目标，y_n由时长信息、相关声学特征以及相邻时长特征组成，f(x_n,θ)为上下文语境特征x_n在神经网络模型参数θ下的回归函数，W_n为约束因子。

在神经网络训练时，训练目标为最小化上述目标函数L的值，在最小化过程中不断更新网络模型参数θ的取值，以使得上下文语境特征x_n通过模型θ预测得到的输出f(x_n,θ)与联合输出目标y_n最接近。

需要说明的是，上述相关声学特征是指当前声学特征和相邻声学特征，也就是说，该实施例的建模方式，引入相邻声学特征对当前时长的约束，更加符合人的发音的时序特性。

另外，上述约束因子W_n与输出目标维度相同，且可根据人工指示调整。也就是说，在训练的过程中，可通过人为干预W_n的值的方式来调整辅助目标对目标函数的影响。

其中，该实施例的建立深度神经网络模型的示意图如图2所示，通过图2可以看出，在训练深度神经网络模型时，将训练语料的上下文语境特征作为输入参数，将训练语料的时长特征和声学特征作为输出参数，并通过深度神经网络训练输入参数与输出参数之间的映射关联，相对于仅将训练语料的时长特征作为输出参数的训练方式相比，将训练语料的时长特征和声学特征作为输出参数所训练出的深度神经网络模型可以建立上下文语境特征、声学特征和时长特征三者之间的映射关系，所建立的深度神经网络模型的精确度较高。

综上可以看出，与传统的基于隐马尔科夫模型对语音时长建模该实施例在建模的方式相比，该实施例的建模方式，在建模过程中，采用声学特征(当前声学特征及其相邻声学特征)、上下文语境特征和时长特征同步建模的策略，增加了声学特征与上下文语境特征对时长的同步约束，这与人的实际发音特性更为符合，因此，该实施例所建立的模型准确度较高。另外，该实施例在建模的过程中，不需要人工设计问题集的环节，更为自动化，且可以降低建模的人工成本。

为了实现上述实施例，本发明还提出一种使用第一方面实施例的使用深度神经网络模型进行语音合成的方法。

图3是根据本发明一个实施例的使用深度神经网络模型进行语音合成的方法，如图3所示，该使用深度神经网络模型进行语音合成的方法包括：

S301，获取待处理文本的上下文语境特征。

具体地，在通过第一方面实施例的训练方式建立深度神经网络模型后，可将所建立的深度神经网络模型应用于语音合成系统中，在语音合成系统接收到待处理文本后，可对待处理文本进行文本分析以获得待处理文本的上下文语境特征。

S302，根据待处理文本的上下文语境特征利用深度神经网络模型确定待处理文本的时长特征和声学特征参数。

具体地，在获得待处理文本的上下文语境特征后，可将上下文语境特征输入至深度神经网络模型中，深度神经网络模型将输出待处理文本的时长特征和声学特征参数。

其中，深度神经网络模型输出的时长特征包含当前时长特征及相邻时长特征、当前声学特征及相邻声学特征。

例如，待处理文本为“我们是一家人”，在获得待处理文本的上下文语境特征后，深度神经网络模型可以确定出待处理文本中每个字和其相邻字的时长、谱和基频等特征信息。具体而言，对于待处理文本中的“家”字，深度神经网络模型可输出该字的时长、谱和基频等特征信息，以及相邻字“一”和“人”的时长、谱和基频等特征信息。

S303，根据待处理文本的时长特征和声学特征参数来合成语音。

具体地，获得待处理文本的时长、谱和基频等特征信息后，可将上述所获得的信息输入至声码器中，声码器将根据上述信息合成待处理文本所对应的合成语音，从而提高了合成语音的节奏感和表现力，增强了合成语音的自然度。

为了实现上述实施例，本发明还提出一种用于语音合成的深度神经网络模型的训练装置。

如图4所示，该用于语音合成的深度神经网络模型的训练装置包括第一提取模块11、第二提取模块12和处理模块13，其中：

第一提取模块11用于从训练语料中提取上下文语境特征和音子边界特征；第二提取模块12用于从训练语料提取声学特征参数；处理模块13用于将上下文语境特征作为深度神经网络模型的输入特征，并将音子边界特征、声学参数特征和相邻时长特征作为深度神经网络模型的输出特征，对深度神经网络模型进行训练。

具体地，由于语音是一个时序过程，当前音子的发音时长会受到相邻音子的发音时长的影响，因而，第一提取模块11在从训练语料中提取上下文语境特征后，还可以从训练语料中提取出每个音子和其相邻的两个音子的发音时长，以方便后续可基于相邻音子的发音时长进行时长训练。

需要说明的是，音子是指拼音的声韵母，是基本的建模单元。

其中，声学特征参数可以包括但不限于谱和基频特征参数。

具体地，处理模块13在获得第一提取模块11提取的上下文语境特征信息和音子边界特征，以及第二提取模块12提取的声学特征参数后，处理模块13可对语境特征、声学特征与音子边界特征进行同步建模，即通过深度神经网络学习三者之间的关系，并且还可利用长短时记忆神经网络学习记忆语境信息、声学特征在时序范围上对发音时长造成的影响，该长短时记忆神经网络可以自动学习记忆历史语境信息、声学特征与时长之间的复杂关系，可以提高时长建模的精度。

具体地，在训练深度神经网络模型的过程中，处理模块13可将提取出的上下文语境特征作为深度神经网络模型的输入，并将提取出的音子边界特征、声学参数特征以及相邻时长特征联合作为深度神经网络模型的输出目标。其中，可将音子边界特征作为主目标，声学参数特征、相邻的时长信息作为辅助目标。

其中，处理模块13通过以下公式对深度神经网络模型进行训练的目标函数为：

需要说明的是，上述相关声学特征是指当前声学特征和相邻声学特征，也就是说，该实施例的建模方式在训练过程中，引入相邻声学特征对当前时长约束，更加符合语音的时序特性。

需要说明的是，前述对用于语音合成的深度神经网络模型的训练方法实施例的解释说明也适用于该实施例的用于语音合成的深度神经网络模型的训练模型，此处不再赘述。

为了实现上述实施例，本发明还提出一种使用第一方面实施例的深度神经网络模型进行语音合成的装置。

如图5所示，该使用深度神经网络模型进行语音合成的装置包括获取模块21、确定模块22和合成模块23，其中：

获取模块21用于获取待处理文本的上下文语境特征；确定模块22用于根据所述待处理文本的上下文语境特征利用深度神经网络模型确定所述待处理文本的时长特征和声学特征参数；以及合成模块23用于根据所述待处理文本的时长特征和声学特征参数来合成语音。

具体地，在通过第一方面实施例的训练方式建立深度神经网络模型后，可将所建立的深度神经网络模型应用与语音合成的装置中，获取模块21在接收到待处理文本后，可对待处理文本进行文本分析以获得待处理文本的上下文语境特征。

例如，待处理文本为“我们是一家人”，在获取模块21获得待处理文本的上下文语境特征后，确定模块22通过深度神经网络模型可以确定出待处理文本中每个字和其相邻字的时长、谱和基频等特征信息。具体而言，对于待处理文本中的“家”字，确定模块22通过深度神经网络模型可确定出该字的时长、谱和基频等特征信息，以及相邻字“一”和“人”的时长、谱和基频等特征信息。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种用于语音合成的深度神经网络模型的训练方法，其特征在于，包括以下步骤：

从训练语料中提取上下文语境特征和音子边界特征；

从所述训练语料提取声学特征参数；

将所述上下文语境特征作为深度神经网络模型的输入特征，并将所述音子边界特征、声学参数特征和相邻时长特征作为所述深度神经网络模型的输出特征，对所述深度神经网络模型进行训练。

2.如权利要求1所述的用于语音合成的深度神经网络模型的训练方法，其特征在于，根据联合输出目标、所述上下文语境特征在神经网络模型参数下的回归函数以及约束因子计算所述深度神经网络模型进行训练的目标函数，其中，所述联合输出目标是所述音子边界特征、声学参数特征以及相邻时长特征联合后的输出目标。

3.如权利要求2所述的用于语音合成的深度神经网络模型的训练方法，其特征在于，所述约束因子与输出目标维度相同，且根据人工指示调整。

4.一种使用如权利要求1-3任一项的深度神经网络模型进行语音合成的方法，其特征在于，包括以下步骤：

获取待处理文本的上下文语境特征；

根据所述待处理文本的上下文语境特征利用深度神经网络模型确定所述待处理文本的时长特征和声学特征参数；以及

根据所述待处理文本的时长特征和声学特征参数来合成语音。

5.一种用于语音合成的深度神经网络模型的训练装置，其特征在于，包括：

第一提取模块，用于从训练语料中提取上下文语境特征和音子边界特征；

第二提取模块，用于从所述训练语料提取声学特征参数；

处理模块，用于将所述上下文语境特征作为深度神经网络模型的输入特征，并将所述音子边界特征、声学参数特征和相邻时长特征作为所述深度神经网络模型的输出特征，对所述深度神经网络模型进行训练。

6.如权利要求5所述的用于语音合成的深度神经网络模型的训练装置，其特征在于，根据联合输出目标、所述上下文语境特征在神经网络模型参数下的回归函数以及约束因子计算所述深度神经网络模型进行训练的目标函数，其中，所述联合输出目标是所述音子边界特征、声学参数特征以及相邻时长特征联合后的输出目标。

7.如权利要求6所述的用于语音合成的深度神经网络模型的训练装置，其特征在于，所述约束因子与输出目标维度相同，且根据人工指示调整。

8.一种使用如权利要求1-3任一项的深度神经网络模型进行语音合成的装置，其特征在于，包括：

获取模块，用于获取待处理文本的上下文语境特征；

确定模块，用于根据所述待处理文本的上下文语境特征利用深度神经网络模型确定所述待处理文本的时长特征和声学特征参数；以及

合成模块，用于根据所述待处理文本的时长特征和声学特征参数来合成语音。