CN106971709B

CN106971709B - 统计参数模型建立方法和装置、语音合成方法和装置

Info

Publication number: CN106971709B
Application number: CN201710258873.6A
Authority: CN
Inventors: 李为; 严航宇; 李科; 吴永坚; 黄飞跃
Original assignee: Tencent Technology Shanghai Co Ltd
Current assignee: Tencent Technology Shanghai Co Ltd
Priority date: 2017-04-19
Filing date: 2017-04-19
Publication date: 2021-10-15
Anticipated expiration: 2037-04-19
Also published as: EP3614376A1; US20190221202A1; EP3614376A4; EP3614376B1; US11289069B2; WO2018192424A1; CN106971709A

Abstract

本发明涉及一种统计参数模型建立方法，包括获取模型训练数据，模型训练数据包括文本特征序列和对应的原始语音样本序列；将文本特征样本序列中的文本特征样本点与原始语音样本序列中的语音样本点匹配形成的原始向量矩阵输入统计参数模型训练；将原始向量矩阵在隐层中进行非线性映射计算，输出对应的预测语音样本点；根据预测语音样本点与对应的原始语音样本点采用差距最小原则确定统计参数模型的模型参数，得到对应的目标统计参数模型。此方法提高了合成语音的饱和度和自然度，还涉及一种统计参数模型建立装置以及利用上述目标统计参数模型的语音合成方法和装置。

Description

统计参数模型建立方法和装置、语音合成方法和装置

技术领域

本发明涉及语音技术领域，特别是涉及一种统计参数模型建立方法和装置、语音合成方法和装置。

背景技术

TTS(Text To Speech，文本到语音)系统由前端和后端两个模块构成，用于将一段文本内容通过一系列的分析和建模后转换为可以播放和存储的语音文件。前端主要是对文本内容进行处理，将文本内容转换成不同形式的中间表达状态，用于指导后端模型将文本内容转换成对应的语音。后端模块的其中一类为统计参数模型，统计参数模型是指通过对发声机理的模式进行建模的一种模型。

传统技术中的统计参数模型需要从语音中提取与发声关系最密切的基频、发声时长以及频谱特征等特征后，对提取到的语音特征进行建模，在语音合成的过程中，传统技术中的统计参数模型也是首先合成预测的基频、发声时长以及频谱特征，然后通过后端信号处理模块将获取的语音特征重新融合为语音波形。但是传统技术的参数统计模型在对特征进行提取时，需要对原始语音进行变换，在对语音进行变换的过程中容易造成信息的损失，而信息的损失让合成的音色不够饱满、有明显机器音等缺陷。

发明内容

基于此，有必要针对上述问题，提供一种能够提高合成语音的饱和度和自然度的统计参数模型建立方法和装置、语音合成方法和装置。

一种统计参数模型建立方法，所述方法包括：

获取模型训练数据，所述模型训练数据包括文本特征序列和对应的原始语音样本序列；

将所述文本特征样本序列中的文本特征样本点与原始语音样本序列中的语音样本点匹配形成的原始向量矩阵输入统计参数模型训练；

将所述原始向量矩阵在隐层中进行非线性映射计算，输出对应的预测语音样本点；

根据所述预测语音样本点与对应的原始语音样本点采用差距最小原则确定所述统计参数模型的模型参数，得到对应的目标统计参数模型。

一种统计参数模型建立装置，所述装置包括：

获取模块，用于获取模型训练数据，所述模型训练数据包括文本特征序列和对应的原始语音样本序列；

训练模块，用于将所述文本特征样本序列中的文本特征样本点与原始语音样本序列中的语音样本点匹配形成的原始向量矩阵输入统计参数模型训练；

样本点预测模块，用于将所述原始向量矩阵在隐层中进行非线性映射计算，输出对应的预测语音样本点；

模型建立模块，用于根据所述预测语音样本点与对应的原始语音样本点采用差距最小原则确定所述统计参数模型的模型参数，得到对应的目标统计参数模型。

上述统计参数模型建立方法和装置，通过将训练数据中的文本特征序列中的文本特征样本点与原始语音样本序列中的语音样本点匹配形成的原始向量矩阵进行统计参数模型训练，将原始向量矩阵在隐层中进行非线性映射计算，得到对应的预测语音样本点，将预测语音样本点与对应的原始语音样本点相比较，采用差距最小原则确定统计参数模型的模型参数，得到对应的目标统计参数模型。通过直接对文本特征序列进行采样获取文本特征样本点，直接对文本特征样本点与语音特征样本点进行建模，不需要进行语音特征提取，最大程度上避免了语音在特征提取的过程中造成的原始信息的丢失，提高了统计参数模型合成语音的饱和度和自然度。

一种语音合成方法，所述方法包括：

获取待转换文本信息；

对所述待转换文本信息进行处理得到对应的文本特征序列；

获取初始化语音样本点与所述文本特征序列中的部分文本特征样本点匹配形成初始化向量矩阵；

将所述初始化向量矩阵输入上述任意实施例中的所述目标统计参数模型中，得到所述文本特征序列对应的预测语音样本点序列；

根据所述预测语音样本点序列输出所述待转换文本信息对应的合成语音。

一种语音合成装置，所述装置包括：

文本获取模块，用于获取待转换文本信息；

文本处理模块，用于对所述待转换文本信息进行处理得到对应的文本特征序列；

初始化模块，用于获取初始化语音样本点与所述文本特征序列中的部分文本特征样本点匹配形成初始化向量矩阵；

预测样本点序列获取模块，用于将所述初始化向量矩阵输入上述任意实施例中所述目标统计参数模型中，得到所述文本特征序列对应的预测语音样本点序列；

语音合成模块，用于根据所述预测语音样本点序列输出所述待转换文本信息对应的合成语音。

上述语音合成方法和装置，通过对待转换成语音的文本信息进行处理获取对应的文本特征序列，对文本特征序列进行采样获取对应的文本特征序列样本点，将获取的文本特征样本点中的其中一部分文本特征样本点与初始化语音序列匹配形成初始化向量矩阵，将初始化向量矩阵输入根据文本序列样本点与原始语音样本点建立的目标统计参数模型得到预测语音样本点序列，并根据预测语音样本点序列输出待转换文本信息对应的合成语音。通过对待转换成语音信息的文本信息直接进行采样，然后将文本特征样本点序列与初始化语音输入建立的目标统计模型得到预测语音样本点序列，不需要对待转换的文本信息进行特征提取，最大程度上避免了语音在特征提取的过程中造成的原始信息的丢失，并且直接输出预测语音样本点，不需要任何后端的声码器模块，提高了合成语音的自然度和饱和度。

附图说明

图1为一个实施例中统计参数模型建立方法和语音合成方法应用环境图；

图2为图1中服务器的内部结构图；

图3为一个实施例中统计参数模型建立方法的流程图；

图4为一个实施例中获取预测语音样本点的步骤的流程图；

图5为另一个实施例中获取下一层隐层节点序列的步骤的流程图；

图6为另一个实施例中统计参数模型建立方法的流程图；

图7为一个实施例中获取预测样本点的方法原理示意图；

图8为一个实施例中统计参数模型建立方法中非线性映射的原理示意图；

图9为一个实施例中语音合成方法的流程图；

图10为一个实施例中获取文本特征序列的步骤的流程图；

图11为一个实施例中获取预测语音样本点序列的步骤的流程图；

图12为另一个实施例中语音合成方法的流程图；

图13为一个实施例中获取文本特征序列的步骤的示意图；

图14为一个实施例中根据统计参数模型获取合成语音的原理简图；

图15为一个实施例中获取预测语音样本点序列的步骤的原理示意图；

图16为一个实施例中统计参数模型建立装置的结构框图；

图17为一个实施例中样本点预测模块的结构框图；

图18为一个实施例中样本点预测单元的结构框图；

图19为一个实施例中语音合成装置的结构框图；

图20为一个实施例中文本处理模块的结构框图；

图21为一个实施例中预测样本点序列获取模块的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1为一个实施例中统计参数模型建立方法的应用环境图。如图1所示，该应用环境包括终端110和服务器120，其中终端110和服务器120可通过网络进行通信。终端110向服务器120发送训练数据，其中训练数据包括文本特征序列和与文本特征序列对应的原始语音样本点序列，服务器120根据接收到的训练数据对统计参数模型进行训练，并将训练结果与接收到的原始语音样本点序列进行比较，从而不断调整优化统计参数模型的模型参数，确定统计参数模型的模型参数从而得到对应的目标统计参数模型，并存储在服务器120中。其中，终端110可以是但不仅限于是智能手机、平板电脑、笔记本电脑、穿戴设备等。

在一个实施例中图1的应用环境图还可以应用于语音合成方法。终端110将需要转换成语音的待转换文本信息发送至服务器120，服务器120对接收到的待转换文本信息进行处理，得到对应的文本特征序列，并对获取的文本特征序列进行采样获取对应的文本特征样本点序列，对语音样本点序列进行初始化，将初始化语音样本点与部分文本特征样本点生成向量矩阵输入建立的目标统计参数模型获取对应的预测语音样本点序列，生成待转换文本信息对应的合成语音发送至终端110，终端110根据接收到的合成语音进行播放。其中，终端110可以是但不仅限于是智能手机、平板电脑、笔记本电脑、穿戴设备等。

图2为一个实施例中图1中的服务器的内部结构示意图。如图2所示，该服务器包括通过系统总线连接的处理器、非易失性存储介质、内存储器和网络接口。其中，该服务器的非易失性存储介质存储有操作系统、数据库和一种统计参数模型建立装置和/或一种语音合成装置，数据库中存储有训练数据和模型参数数据，其中统计参数模型建立装置用于实现适用于服务器的一种统计参数模型建立方法，语音合成装置用户实现适用于服务器的一种语音合成方法。该服务器的处理器用于提供计算和控制能力，支撑整个服务器的运行。该服务器的内存储器为非易失性存储介质中的统计参数模型建立装置或者语音合成装置的运行提供环境，该内存储器中可储存有计算机可读指令，该计算机可读指令被所述处理器执行时，可使得所述处理器执行一种统计参数模型建立方法或者一种语音合成方法。该服务器的网络接口用于据以与外部的终端通过网络连接通信，比如接收终端发送的将文本信息转换为语音信息的请求以及向终端返回输出的合成语音等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的服务器的限定，具体的服务器可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

如图3所示，在一个实施例中，提供一种统计参数模型建立方法，包括如下内容：

步骤S310，获取模型训练数据，模型训练数据包括文本特征序列和对应的原始语音样本序列。

具体地，模型训练数据是指用于对统计参数模型进行训练以确定模型参数的数据，包括文本特征序列和对应的原始语音样本点序列。文本特征序列是指需要转换成语音的文本信息经过前期处理后得到的能够指导发声的文本特征序列，可由能够指导发声的文本特征进行编码生成。原始语音样本序列是指由原始语音样本点组成的序列，用来结合文本特征序列通过统计参数模型获取预设语音样本点，并与得到的预测语音样本序列相比较，调整统计参数模型的参数。

步骤S320，将文本特征样本序列中的文本特征样本点与原始语音样本序列中的语音样本点匹配形成的原始向量矩阵输入统计参数模型训练。

具体地，文本特征样本序列即由多个文本特征样本点构成的序列，文本特征样本序列中的文本特征样本点与原始语音样本点序列中的样本点一一对应，将文本特征样本点与原始语音样本点匹配形成向量对，将向量对组成形成原始向量矩阵输入统计参数模型，对统计参数模型进行训练。

步骤S330，将原始向量矩阵在隐层中进行非线性映射计算，输出对应的预测语音样本点。

具体地，统计参数模型中包括不同数目的隐层，隐层是神经网络建模中的一种术语，是相对于输入层和输出层的中间层，能够在建模中提供更好的非线性建模能力，而非线性建模能力越强，统计参数模型输出的语音更贴近真实人声。进一步，隐层的数目取值不固定，能够根据不同的训练数据和应用场景进行调整和优化，一般取值在32-512之间。

将获取的原始向量矩阵输入统计参数模型后，原始向量矩阵在隐层中逐层参与非线性映射计算，首先根据原始向量矩阵获取对应的输入层节点序列，然后对输入层节点序列进行非线性映射计算输出第一隐层对应的隐层节点序列，第一隐层节点序列作为第一隐层的输入，在第一隐层进行非线性映射计算输出第二隐层对应的隐层节点序列，以此类推，最终在输出层得到原始向量矩阵对应的预测语音样本点。每一隐层对应的非线性映射的参数均可不同，每一隐层的采样间隔也可不同，从而可调整每一隐层对应的非线性映射参数和采样间隔，通过间隔采样以及非线性映射计算，得到精确的预测语音样本点。其中原始向量矩阵中包括文本特征样本点与原始语音样本点，文本特征样本点在进行非线性映射计算时使用的非线性映射参数可与原始语音样本点在进行非线性映射时使用的非线性映射参数不同。

步骤S340，根据预测语音样本点与对应的原始语音样本点采用差距最小原则确定统计参数模型的模型参数，得到对应的目标统计参数模型。

具体地，预测语音样本点与对应的原始语音样本点是当前原始语音样本序列中最后一个原始语音样本点的下一个原始语音样本点。利用BP(Back Propagation，反向传播)梯度下降算法，将预测语音样本点与对应的原始语音样本点相比较，对于原始语音样本点序列{x_t-L，x_t-L+1，...x_t-1}进行预测得到预测语音样本点{o_t|x_t-L，x_t-L+1，...x_t-1}，通过对比原始语音样本点序列的下一个样本点x_t与预测语音{o_t|x_t-L，x_t-L+1，…x_t-1}之间的差异，通过更新模型参数缩小x_t与o_t之间的差距，不断优化统计参数模型的模型参数，采用差距最小化原则确定使x_t与o_t之间差距最小的模型参数，得到目标统计参数模型。

本实施例中，统计参数模型建立方法，通过将训练数据中的文本特征序列中的文本特征样本点与原始语音样本序列中的语音样本点匹配形成的原始向量矩阵进行统计参数模型训练，将原始向量矩阵在隐层中进行非线性映射计算，得到对应的预测语音样本点，将预测语音样本点与对应的原始语音样本点相比较，采用差距最小原则确定统计参数模型的模型参数，得到对应的目标统计参数模型。通过直接对文本特征序列进行采样获取文本特征样本点，直接对文本特征样本点与语音特征样本点进行建模，不需要进行语音特征提取，最大程度上避免了语音在特征提取的过程中造成的原始信息的丢失，提高了统计参数模型合成语音的饱和度和自然度。

如图4所示，在一个实施例中，步骤S330包括：

步骤S331，根据原始向量矩阵得到输入层节点序列，将输入层节点序列进行非线性映射得到第一隐层对应的隐层节点序列，将第一隐层作为当前处理隐层。

具体地，输入层节点序列为原始向量矩阵本身形成的序列或由原始向量矩阵进行补充样本点形成的序列。输入层输入的是原始语音采样点，一般为一秒钟16000个采样点，将文本特征样本点序列与原始语音样本点序列组成原始向量矩阵，输入统计参数模型，统计参数模型的输入层对原始向量矩阵进行非线性映射计算得到第一隐层对应的隐层节点序列，将第一隐层作为当前处理隐层，对获取的隐层节点序列进行非线性映射处理。

步骤S332，获取当前处理隐层对应的当前隐层节点序列，根据当前处理隐层采样间隔对当前隐层节点序列进行采样和非线性映射得到下一层隐层节点序列，其中当前处理隐层的下一层隐层采样间隔为当前处理隐层采样间隔的倍数。

具体地，从第一隐层开始逐渐进行处理得到各个隐层对应的隐层节点序列，将第一隐层作为当前处理隐层时，获取第一隐层对应的隐层节点序列，对第一隐层对应的隐层节点序列按照第一采样间隔进行采样，并对间隔采样获取到的样本点进行第一非线性映射得到第二隐层对应的节点序列，即第二隐层中的输入是第一隐层的输出，然后将第二隐层作为当前处理隐层，对第二隐层对应的节点序列按照第二采样间隔进行采样，并将间隔采样获取到的样本点进行第二非线性映射得到第三隐层对应的节点序列，依次类推，通过对当前隐层对应的节点序列按照一定的采样间隔进行采样并将采样获取的样本点进行非线性映射得到下一层隐层对应的样本点序列，其中每一隐层对应的非线性映射的参数均可不同，且采样间隔能够根据训练数据和隐层总层数进行调整，每一个隐层的采样间隔不同，且当前处理隐层的下一层隐层采样间隔为当前处理隐层采样间隔的倍数，如2倍，当前处理隐层的下一层隐层采样间隔为当前处理隐层采样间隔的倍数便于快速计算。

步骤S333，将当前处理隐层的下一层隐层作为当前处理隐层，判断当前处理隐层数是否达到最大隐层数，若是，则得到第一预测语音样本点，若否，则执行步骤S332。

具体地，使用不同的隐层对根据原始向量矩阵获取的隐层节点序列进行处理，获取下一层隐层对应的隐层节点序列，将下一层隐层作为当前处理隐层，通过判断当前处理隐层是否为最后一层隐层来判断是否结束使用隐层进行间隔采样以及非线性映射的过程，若当前处理隐层对应的层数不是最大隐层数，则继续对当前隐层进行处理获取下一层隐层对应的隐层节点序列，若当前处理隐层对应的层数是最大隐层数则通过对最大隐层数对应的隐层节点序列进行间隔采样以及非线性映射计算，能够得到第一预测语音样本点。

进一步，可以通过同样的方法对同一组训练数据的不同的语音样本点进行预测或者对不同的训练数据对应的样本点进行预测，然后利用多组匹配的预测语音样本点与对应的原始语音样本点进行多组比较，通过比较多组预测语音样本点与对应的原始语音样本点采用多组差距最小和原则，进一步优化调整统计参数模型的模型参数。

本实施例中，通过统计参数模型中的输入层对原始向量矩阵的非线性映射得到第一隐层对应的节点序列，之后在统计参数模型的隐层中，逐层对该层对应的节点序列按照一定的采样间隔进行采样，并将采样之后的样本点进行非线性映射计算后得到下一层隐层对应的序列，通过逐渐增加的采样间隔以及不同的非线性映射得到输入的文本特征样本点序列对应的预测语音样本点。通过逐层采样与非线性映射，将当前隐层的输出作为当前隐层的下一个隐层的输入，使得当前的预测样本点的取值如t时刻的输出，除了依赖于当前的输入即t时刻的输入，还依赖于过去一段时间的累积输入如(t-k,t-k+1,…,t-1)时刻的输入，因此采用隐层逐层增大采样间隔的方式进行处理，可以让参数统计模型记住更多过去时间的输入，依赖于过去的输入和当前的输入，模型可以保留更多的信息，预测出更准确的样本点。

如图5所示，在一个实施例中，根据当前处理隐层采样间隔对当前隐层节点序列进行采样和非线性映射得到下一层隐层节点序列的步骤，包括：

步骤S332A，将当前隐层节点序列进行采样后进行第一线性卷积运算得到第一处理结果。

具体地，当统计参数模型中的其中一个隐层作为当前处理隐层对数据进行处理时，当前处理隐层获取对应的当前隐层节点序列，并将当前隐层节点序列按照一定的采样间隔进行采样，然后将采样获取的采样结果进行第一线性卷积运算得到第一处理结果。

步骤S332B，获取非线性映射函数集合，将第一处理结果分别采用非线性映射函数集合中的非线性映射函数进行非线性映射得到非线性映射结果集合。

具体地，对数据进行非线性函数运算能够提高统计参数模型合成语音的饱和度和自然度。因此，在获取第一线性卷积运算得到第一处理结果后，进一步地，获取预设非线性映射函数集合，并将第一处理结果分别使用非线性映射函数集合中的非线性映射函数进行非线性映射，得到非线性映射结果集合。其中非线性映射函数集合中的非线性映射函数的个数和具体运算公式可根据需要自定义。

步骤S332C，将非线性映射结果集合中的各个非线性映射结果相加，再进行第二线性卷积运算得到下一层隐层节点序列。

具体地，为了进一步增加参数统计模型对复杂数据的拟合成功，获取非线性映射结果集合，并将非线性映射结果集合中的各个非线性映射结果相加，相加之后进行第二线性卷积运算后输出，作为下一层隐层节点序列。其中第一线性卷积运算与第二线性卷积运算为参数不同的线性卷积运算。

本实施例中，通过对隐层节点序列进行第一线性卷积运算获取第一处理结果，之后对第一处理结果进行不同的非线性映射并将非线性映射结果向量相加，然后进行第二线性卷积运算，从而得到下一层隐层节点序列。通过两次不同的线性卷积运算和多个非线性映射求和，提高了统计参数模型的复杂数据的拟合能力。

在一个实施例中，获取非线性映射函数集合，将第一处理结果分别采用非线性映射函数集合中的非线性映射函数进行非线性映射得到非线性映射结果集合的步骤，包括：

获取非线性映射函数集合，将第一处理结果分别采用非线性映射函数集合中tanh函数和sigmoid函数进行非线性映射得到非线性映射结果集合。

具体地，非线性映射函数集合中包括多个不同的非线性映射函数，对数据进行不同的非线性映射处理。这里，使用非线性映射函数集合中的tanh函数和sigmoid函数对第一处理结果进行处理，得到非线性映射结果集合。其中，tanh函数为双曲正切函数，函数图像为过原点并且穿越Ⅰ、Ⅲ象限的严格单调递增曲线，其图像被限制在两水平渐近线y＝1和y＝-1之间。sigmoid函数为一种S型函数，由于其单增以及反函数单增等性质，Sigmoid函数常被用作神经网络的阈值函数，将变量映射到0-1之间。

在一个实施例中，根据原始向量矩阵得到输入层节点序列，将输入层节点序列进行非线性映射得到第一隐层对应的隐层节点序列，将所述第一隐层作为当前处理隐层的步骤，包括：

获取补充文本特征样本点和对应的补充语音样本点，匹配加入原始向量矩阵得到补充向量矩阵，根据补充向量矩阵得到输入层节点序列，将输入层节点序列进行非线性映射得到第一隐层对应的隐层节点序列，将所述第一隐层作为当前处理隐层；进入获取当前处理隐层对应的当前隐层节点序列的步骤，得到第二预测语音样本点；

根据预测语音样本点与对应的原始语音样本点差距最小原则确定统计参数模型的模型参数，得到对应的目标统计参数模型的步骤包括：

根据第一预测语音样本点与对应的第一原始语音样本点、第二预测语音样本点与对应的第二原始语音样本点采用差距最小原则确定统计参数模型的模型参数，得到对应的目标统计参数模型。

具体地，一段语音通常由静音开始，可将静音对应的文本特征样本点和语音样本点作为补充文本特征样本点，和对应的补充语音样本点，匹配加入原始向量矩阵得到补充向量矩阵，根据补充向量矩阵得到输入层节点序列，对输入层节点序列进行非线性映射得到第一隐层对应的隐层节点序列，并将第一隐层作为当前处理隐层，按照对原始向量矩阵的处理方式对补充向量矩阵进行处理，获取补充向量矩阵对应的第二预测语音样本点。

进一步地，将根据原始向量矩阵得到的第一预测语音样本点与对应的第一原始语音样本点、将根据补充向量矩阵得到的第二预测语音样本点与对应的第二原始语音样本点分别进行比较，确定使两组预测语音样本点与对应的原始语音样本点均差距最小的参数作为统计参数模型的模型参数，得到对应的目标统计参数模型。

本实施例中，通过补充文本特征样本点和对应的补充语音样本点，匹配生成补充向量矩阵，从而对统计参数模型进行训练获取第二预测样本点，通过将两个预测样本点分别与对应的原始语音样本点进行比较，提高了统计参数模型的模型参数的准确性。进一步，也可以通过该方式，再次补充文本特征样本点和对应的补充语音样本点，获取多个预测语音样本点，以提高模型参数的准确性，从而提高合成语音的自然度。

如图6所示，在一个具体的实施例中，提供一种统计参数模型建立方法，包括如下内容：

步骤S610，获取模型训练数据，模型训练数据包括文本特征序列和对应的原始语音样本序列。

步骤S620，将文本特征样本序列中的文本特征样本点与原始语音样本序列中的语音样本点匹配形成的原始向量矩阵输入统计参数模型训练。

步骤S630，根据原始向量矩阵得到输入层节点序列，将输入层节点序列进行非线性映射得到第一隐层对应的隐层节点序列，将第一隐层作为当前处理隐层。

步骤S640，将当前隐层节点序列采用预设采样间隔进行非线性映射计算得到下一层隐层对应的隐层节点序列。

具体地，对输入层或隐层中的样本点采用不同的采样间隔进行非线性映射运算得到一个对应的样本点，当前隐层的下一层隐层的采样间隔是当前隐层采样间隔的倍数。如图7所示，对于输入层节点序列701进行采样，将输入层节点序列710中的全部的节点进行非线性映射得到第一隐层对应的隐层节点序列702。对第一隐层对应的隐层节点序列702中的样本点进行采样，采样间隔为输入层节点序列采样间隔的2倍，每隔两个点选取一个隐层节点进行非线性映射得到对应的一个样本点，从而得到第二隐层对应的隐层节点序列703。以此类推，随着隐层数目的增加依次成倍增大隐层对应的隐层节点序列的采样间隔，直至隐层数目为最大隐层数目，对最大隐层数目中的隐层节点序列按照上述规则进行采样，得到一个对应的样本点，该样本点即为输入的语音样本点序列对应的预测语音样本点，如图7所示的，对第三隐层对应的隐层节点序列704进行采样得到预测语音样本点705。

进一步的，需要说明的是，在对统计参数模型进行训练获取预测语音样本点的过程中，输入的文本特征序列和原始语音样本序列均经过统计参数模型进行非线性映射，且文本特征序列与原始语音样本序列使用的非线性映射对应的参数不同，文本特征序列用于指导统计参数模型生成预测语音样本点，改变文本特征序列对应的统计参数模型的参数或者原始语音样本序列对应的统计参数模型中的参数均会对预测语音样本点结果造成影响。

进一步地，对文本特征样本序列中的文本特征样本点与原始语音样本序列中的语音样本点匹配形成的原始向量矩阵进行非线性映射，如图8所示，提供了一种统计参数模型中对文本特征样本点和语音样本点的非线性映射过程，针对不同的隐层获取预设数量的采样点进行1*1卷积核运算，得到第一处理结果，然后对第一处理结果分别进行tanh函数与Sigmoid函数进行非线性映射，并将非线性映射结果相加，并将相加结果进行1*1卷积核运算得到下一层对应的隐层节点序列中的一个隐层节点，多个隐层节点构成隐层节点序列。其中两次1*1卷积核运算中对应的参数不同，即是不同的卷积核运算。

步骤S650，将当前处理隐层的下一层隐层作为当前处理隐层，判断当前处理隐层是否为层数最大的隐层，若是，则执行步骤S660，若否，则跳转至步骤S640。

具体地，统计参数模型中包括多个隐层，当输入原始向量矩阵，利用原始语音样本点序列和文本特征序列得到预测语音样本点时，经过多层隐层运算，为了判断是否输出预测语音样本点，对隐层数目进行判断，若当前隐层的数目为最大隐层数目时，说明对当前隐层对应的隐层节点序列进行采样即可获取对应的预测语音样本点，若当前隐层不是最大隐层则得到的样本点位下一层隐层对应的节点，因此当获取当前隐层对应的节点序列后，首先判断当前隐层是否为层数最大的隐层，若是，则执行步骤S660，若否，则跳转至步骤S640。

步骤S660，输出对应的预测语音样本点。

具体地，当判断当前处理隐层的层数为最大隐层层数时，对最大隐层层数的隐层对应的隐层节点序列进行间隔采样和非线性映射，得到输入的向量矩阵对应的预测语音样本点，输出对应的预测语音样本点。

步骤S670，获取补充文本特征样本点和对应的补充语音样本点，匹配加入原始向量矩阵得到补充向量矩阵，将补充向量矩阵作为输入层节点序列，将输入层节点序列进行非线性映射得到第一隐层对应的隐层节点序列，将第一隐层作为当前处理隐层，执行步骤S640。

具体地，如图7所示的示意图中，为输入的原始语音向量矩阵对应的预测的语音样本点，而建立统计参数模型需要将预测语音样本点与对应的原始语音样本点相比较，因此，或只获取一个对应的语音样本点可以造成对应的统计参数模型的模型参数不准确，根据图7可以看出，若想获取到当前预测样本点的前一个预测样本点，需要在输入层节点序列中添加输入节点，而在一段语音中，通常包括静音部分，因此在输入层节点序列701前添加补充文本特征样本点和对应的补充语音样本点，生成新的输入层节点序列701。补充文本特征样本点能够根据实际需求不断的加入原来的向量矩阵生成新的补充向量矩阵，然后从步骤S640开始对补充向量矩阵进行处理，从而获取更多的预测语音样本点与原始语音样本点相比较，提高模型参数的准确性。

步骤S680，将输出的预测语音样本点与对应的原始语音样本点采用差距最小原则确定统计参数模型的模型参数，得到对应的目标统计参数模型。

具体地，将获取的一个或多个预测语音样本点分别与对应的原始语音样本点相比较，不断调整统计参数模型的模型参数，确定能够使一组或多组预测语音样本点与对应的原始语音样本点差距最小的模型参数，从而得到对应的目标统计模型。

如图9所示，在一个实施例中，提供一种语音合成方法，包括以下内容：

步骤S910，获取待转换文本信息。

具体地，待转换文本信息是指待转换为语音的文本信息，获取的待转换文本信息可以是终端输入的文本信息，通过安装的文本到语音的功能应用，将文本信息发送至服务器进行转换，也可以是其他能够实现文本到语音转换的硬件设备发送的文本信息。

步骤S920，对待转换文本信息进行处理得到对应的文本特征序列。

具体地，获取到待转换文本信息后，文本对语音系统中的前端模块对待转换文本信息进行分析处理，将原始输入的待转换文本信息转换为不同的中间状态信息，用于指导文本进行发声，将各个中间状态信息生成对应的文本特征序列。

步骤S930，获取初始化语音样本点与文本特征序列中的部分文本特征样本点匹配形成初始化向量矩阵。

具体地，对获取的文本特征序列进行采样得到文本特征样本点序列，由于在对统计参数模型进行训练的过程中，需要将文本特征样本点与语音样本点对应生成向量对才能得到预测语音样本点，因此为了得到预测语音样本点，需要获取的文本特征样本点序列中的部分样本点，并获取该部分样本点对应的初始化语音样本点，初始化语音样本点通常认为是静音对应的语音样本点的取值，将获取的部分文本特征样本点与初始化语音样本点形成初始化向量矩阵。

步骤S940，将初始化向量矩阵输入上述任意一个实施例中的目标统计参数模型中，得到文本特征序列对应的预测语音样本点序列。

具体地，将生成的初始化向量矩阵输入任意一个实施例中的目标统计参数模型中，利用目标统计参数模型对初始化向量矩阵进行计算，得到文本特征序列对应的预测语音样本点，不断补充文本特征样本点和对应的语音样本点至初始化向量矩阵，不断的获取预测语音样本点，最终将得到的预测语音样本点组合生成对应的预测语音样本点序列。

步骤S950，根据预测语音样本点序列输出待转换文本信息对应的合成语音。

具体地，获取到由预测语音样本点组成的预测语音样本点序列后，相当于得到输出语音的多个采样点，通过图像数据处理能够获取对应的输出语音的波形，从而输出待转换文本信息对应的合成语音。

如图10所示，在一个实施例中，步骤S920包括：

步骤S920A，对待转换文本信息中的段落进行语句切分、分词处理，得到第一文本特征序列。

具体地，文本到语音系统获取到待转换文本信息后首先进行文本规整，也就是将非汉字转化成标准汉语文字。然后对规整后的待转换文本信息进行不同的处理获取对应的文本特征序列。如首先为了方便读取文本信息中的内容，将待转换文本信息中的段落进行语句切分，即将段落分成相应的语句，然后对语句进行分词，将对应的词语组合在一起，并根据上下文关系确定分词之间存在的不同停顿间隔进行标注，得到第一文本特征序列。

步骤S920B，对待转换文本信息进行分词和词性标注处理，得到第二文本特征序列。

具体地，对获取的待转换文本信息进行分词处理后，对分词后的单词或者单个字进行词性标注，如注明对应的分词为名词、动词或形容词中的一种，得到第二文本特征序列。

步骤S920C，将待转换文本信息进行韵律层级预测处理，并生成读音，生成读音过程中进行多音字、儿化音、轻声至少一种处理，得到第三文本特征序列。

具体地，将待转换文本信息进行韵律层级预测，将分词进一步分成韵律词、韵律短语、语调短语，其中韵律词就是综合了读音、词性、停顿等所有信息之后的词语，韵律短语就是韵律词组合成的短语；语调短语指的是通过上下文分析后，表明一个短语应该用陈述句、疑问句或是感叹句等语调念出来的短语，根据韵律层级预测生成对应的读音，并进行读音中多音字、儿化音、轻声等读音现象的至少一种处理，得到第三文本序列。

步骤S920D，根据第一文本特征序列、第二文本特征序列、第三文本特征序列生成对应的文本特征序列。

具体地，通过对待转换文本信息的不同处理获取到对应的第一文本特征序列、第二文本特征序列以及第三文本特征序列，第一文本特征序列、第二文本特征序列以及第三文本特征序列均属于待转换文本信息的中间状态信息，用来指导统计参数模型将文本读取成语音，均需要参与计算，因此将第一文本特征序列、第二文本特征序列以及第三文本特征序列生成对应的文本特征序列，参与统计参数模型的运算。

如图11所示，在一个实施例中，步骤S940包括：

步骤S940A，将初始化向量矩阵输入上述任意一个实施例中的目标统计参数模型中，得到第一预测语音样本点。

具体地，将初始化向量矩阵输入上述任意一个实施例中的目标统计参数模型中，根据初始化向量矩阵以及目标统计参数模型的模型特点，能够获取初始化向量矩阵对应的第一预测语音样本点。

步骤S940B，将第一预测语音样本点作为当前预测样本点，从文本特征序列中获取与当前预测语音样本点对应的目标文本特征样本点匹配形成向量对，并累加至初始化向量矩阵中得到更新向量矩阵。

具体地，为了对后续文本信息进行语音转换，需要补充文本特征序列以及对应的语音样本点序列。而根据初始化向量矩阵获取到的第一预测语音样本点与文本特征样本点序列中的其中一个文本特征样本点相对应，将第一预测样本点与对应的文本特征样本点匹配形成向量对，并将该向量对累加至初始化向量矩阵中得到更新向量矩阵。

步骤S940C，将更新向量矩阵输入目标统计参数模型中，得到第二预测语音样本点，将第二预测样本点作为当前预测样本点，重复进入从文本特征序列中获取与当前预测语音样本点对应的目标文本特征样本点匹配形成向量对的步骤，直到文本特征序列中的全部文本特征样本点存在对应的预测语音样本点，预测语音样本点组成预测语音样本点序列。

具体地，将根据第一预测语音样本点形成的更新向量矩阵输入目标统计参数模型进行处理计算，得到第二预测语音样本点，然后获取补充文本特征样本点序列中与第二预测语音样本点相对应的文本特征样本点形成向量对，累加至第一预测语音样本点对应的更新向量矩阵中，形成新的更新向量矩阵，输入至目标统计参数模型得到第三预测语音样本点，依次类推，重复上述累加过程，直至文本特征样本点序列中的基本全部文本特征样本点与预测语音样本点相对应，将各个预测语音样本点组成预测语音样本点序列，以获取对应的合成语音。

本实施例中，通过将预测语音样本点累加至初始化语音样本点，并补充文本特征样本点序列与预测语音文本匹配并组合成向量对累加至原始向量矩阵，得到对应的预测语音样本点，重复上述过程，能够获取到待转换文本信息对应的文本特征样本点序列对应的预测语音样本点序列，从而获取到合成语音，实现样本点到样本点的转换，提高了合成语音输出的饱和度和自然度。

如图12所示，在一个具体的实施例中，提供一种语音合成方法流程图，包括以下内容：

步骤S1210，获取待转换文本信息。

步骤S1220，对待转换文本信息进行处理得到对应的文本特征序列。

具体地，如图13所示，获取待转换文本信息，对待转换文本信息进行处理，分别获取得到如第一中间状态信息1301、第二中间状态信息1302、第三中间状态信息1303，对获取的中间状态信息进行编码得到对应的文本特征序列。其中第一中间状态信息1301对应的中间状态信息中，#2对应的是韵律停顿，表示的是词与词之间该停顿多长的时间，#1对应于最短的停顿，人耳一般感受不到这种停顿，但这种停顿对于合成自然的语音来说是重要的。#4对应于长停顿，这种长停顿人耳能够分辨出来。第二中间状态信息1302状态中的n代表名词，v代表动词，不同的标注代表不同的词性。第三中间状态信息1303中为文本信息对应的拼音，以及拼音对应的声调。

步骤S1230，获取初始化语音样本点与文本特征序列中的部分文本特征样本点匹配形成初始化向量矩阵。

步骤S1240，将初始化向量矩阵输入上述任意一个实施例中的目标统计参数模型中，得到第一预测语音样本点，将第一预测语音样本点作为当前预测样本点。

具体地，将初始化向量矩阵输入上述任意一个实施例中的目标统计参数模型中，对初始化向量矩阵中的文本特征序列进行统计参数模型计算，指导统计参数模型对对应的文本信息发声，同时将初始化语音样本点序列进行统计参数模型计算，两者同时作用得到第一预测样本点，如图15中A所示，给出了将初始化向量矩阵输入目标统计参数模型后，目标统计参数模型进行非线性映射的过程，经过目标统计参数模型后获取到第一预测语音样本点1501，将第一预测语音样本点作为当前预测语音样本点。

步骤S1250，从文本特征序列中获取与当前预测语音样本点对应的目标文本特征样本点匹配形成向量对，并累加至初始化向量矩阵中得到更新向量矩阵。

具体地，将获取的当前预测语音样本点与对应的待转换文本特征序列中的文本特征样本点匹配成向量对，并累加至初始化向量矩阵中得到更新向量矩阵，如图15所示，在获取到第一预测语音样本点1501后，将第一预测语音样本点1501累加至输入层样本序列，形成新的输入层样本序列，同时将与第一预测语音样本点1501对应的文本特征样本点输入目标统计参数模型参与计算，指导目标统计参数模型生成对应的语音。

步骤S1260，将更新向量矩阵输入目标统计参数模型中，得到对应的预测语音样本点，将对应的预测样本点作为当前预测样本点。

具体地，将更新向量矩阵输入目标统计参数模型中，目标统计参数模型按照图15中B所示，对更新向量矩阵进行计算得到对应的预测语音样本点1502，将对应的预测语音样本点为当前语音样本点。

步骤S1270，判断文本特征序列中的全部文本特征样本点是否均存在对应的预测语音样本点，若是，则执行步骤S1280，若否，则跳转至步骤S1250。

具体地，按照图15中的A至图15中的B所示的过程，将获取的预测语音样本点累加至输入层节点序列，然后输入目标统计参数模型进行计算获取对应的预测语音样本点，为了获取到对应的合成语音对输入的文本特征样本点获取对应的预测语音样本点，因此，在获取的对应的预测语音样本点，并根据预测语音样本点匹配对应的待转换文本序列中的文本特征样本点后，判断文本特征序列中的全部文本特征样本点是否均存在对应的预测语音样本点，若是，则说明输入的文本特征序列全部转换为对应的预测语音样本点，如图15中的C所示，当获取到预测语音样本点1503并将其累加至输入层样本序列后，输入层样本序列再次进入目标统计参数模型参与计算的样本点全部变为预测语音样本点，此时执行步骤S1280，若不是，如图15中C所示的状态，则返回步骤S1250。

步骤S1280，将得到的预测语音样本点合成对应的预测语音样本点序列，根据预测语音样本点序列输出待转换文本信息对应的合成语音。

具体地，当获取到待转换文本信息对应的预测语音样本点序列后，根据图像处理获取预测语音样本点对应的语音波形，输出对应的合成语音。

如图14所示，给出了统计参数模型建立以及根据目标统计参数模型将输入的文本信息获取到对应的合成语音的过程。首先通过包括文本信息和对应的语音信息的训练数据对统计参数模型进行训练，得到上述任意一个实施例中的目标统计参数模型，建立目标统计参数模型后，输入待转换文本信息，对待转换文本信息首先经过如图13所示的处理过程，得到对应的文本中间状态信息，对中间状态信息进行编码获取文本特征序列，目标统计参数模型获取经过文本分析得到的文本特征序列，根据获取的文本特征序列结合自身参数获取合成语音。在实际测试中，通过10小时左右将文本特征序列和对应的男性语音样本序列作为训练数据进行基于统计参数模型的文本到语音(TTS)系统的训练结果，并与传统的基于声码器的隐马尔科夫模型+决策树的TTS系统和基于深度模型的TTS系统的合成音质对比，基于统计参数模型的方案输出的合成语音更接近人声，同时也优于基于拼接合成模型的TTS系统的音质。

如图16所示，在一个实施例中，提供一种统计参数模型建立装置，包括：

获取模块1610，用于获取模型训练数据，模型训练数据包括文本特征序列和对应的原始语音样本序列.

训练模块1620，用于将文本特征样本序列中的文本特征样本点与原始语音样本序列中的语音样本点匹配形成的原始向量矩阵输入统计参数模型训练。

样本点预测模块1630，用于将原始向量矩阵在隐层中进行非线性映射计算，输出对应的预测语音样本点。

模型建立模块1640，用于根据预测语音样本点与对应的原始语音样本点采用差距最小原则确定统计参数模型的模型参数，得到对应的目标统计参数模型。

本实施例中，统计参数模型建立装置，通过将训练数据中的文本特征序列中的文本特征样本点与原始语音样本序列中的语音样本点匹配形成的原始向量矩阵进行统计参数模型训练，将原始向量矩阵在隐层中进行非线性映射计算，得到对应的预测语音样本点，将预测语音样本点与对应的原始语音样本点相比较，采用差距最小原则确定统计参数模型的模型参数，得到对应的目标统计参数模型。通过直接对文本特征序列进行采样获取文本特征样本点，直接对文本特征样本点与语音特征样本点进行建模，不需要进行语音特征提取，最大程度上避免了语音在特征提取的过程中造成的原始信息的丢失，提高了统计参数模型合成语音的饱和度和自然度。

如图17所示，在一个实施例中，样本点预测模块1630包括：

隐层节点序列获取单元1631，用于根据原始向量矩阵得到输入层节点序列，将输入层节点序列进行非线性映射得到第一隐层对应的隐层节点序列，将第一隐层作为当前处理隐层。

样本点预测单元1632，用于获取当前处理隐层对应的当前隐层节点序列，根据当前处理隐层采样间隔对当前隐层节点序列进行采样和非线性映射得到下一层隐层节点序列，将当前处理隐层的下一层隐层作为当前处理隐层，重复进入样本点预测单元，直到处理隐层数到达最大隐层数得到第一预测语音样本点，其中当前处理应层的下一层隐层采样间隔是当前处理隐层采样间隔的倍数。

如图18所示，在一个实施例中，样本点预测单元1632包括：

第一卷积单元1632A，用于将当前隐层节点序列进行采样后进行第一线性卷积运算得到第一处理结果。

非线性映射单元1632B，用于获取非线性映射函数集合，将第一处理结果分别采用非线性映射函数集合中的非线性映射函数进行非线性映射得到非线性映射结果集合。

第二卷积单元1632C，用于将非线性映射结果集合中的各个非线性映射结果相加，再进行第二线性卷积运算得到下一层隐层节点序列。

在一个实施例中，非线性映射单元1632B还用于获取非线性映射函数集合，将第一处理结果分别采用非线性映射函数集合中tanh函数和sigmoid函数进行非线性映射得到非线性映射结果集合。

在一个实施例中，隐层节点序列获取单元1631还用于获取补充文本特征样本点和对应的补充语音样本点，匹配加入原始向量矩阵得到补充向量矩阵，根据补充向量矩阵得到输入层节点序列，将输入层节点序列进行非线性映射得到第一隐层对应的隐层节点序列，将第一隐层作为当前处理隐层，进入样本点预测单元，以使样本点预测单元得到第二预测语音样本点。

模型建立模块1640还用于根据第一预测语音样本点与对应的第一原始语音样本点、第二预测语音样本点与对应的第二原始语音样本点采用差距最小原则确定统计参数模型的模型参数，得到对应的目标统计参数模型。

如图19所示，在一个实施例中，提供一种语音合成装置，包括以下内容：

文本获取模块1910，用于获取待转换文本信息。

文本处理模块1920，用于对待转换文本信息进行处理得到对应的文本特征序列。

初始化模块1930，用于获取初始化语音样本点与文本特征序列中的部分文本特征样本点匹配形成初始化向量矩阵。

预测样本点序列获取模块1940，用于将初始化向量矩阵输入上述任意一个实施例中的目标统计参数模型中，得到文本特征序列对应的预测语音样本点序列。

语音合成模块1950，用于根据预测语音样本点序列输出待转换文本信息对应的合成语音。

本实施例中，语音合成装置通过对待转换成语音的文本信息进行处理获取对应的文本特征序列，对文本特征序列进行采样获取对应的文本特征序列样本点，将获取的文本特征样本点中的其中一部分文本特征样本点与初始化语音序列匹配形成初始化向量矩阵，将初始化向量矩阵输入根据文本序列样本点与原始语音样本点建立的目标统计参数模型得到预测语音样本点序列，并根据预测语音样本点序列输出待转换文本信息对应的合成语音。通过对待转换成语音信息的文本信息直接进行采样，然后将文本特征样本点序列与初始化语音输入建立的目标统计模型得到预测语音样本点序列，不需要对待转换的文本信息进行特征提取，最大程度上避免了语音在特征提取的过程中造成的原始信息的丢失，并且直接输出预测语音样本点，不需要任何后端的声码器模块，提高了合成语音的自然度和饱和度。

如图20所示，在一个实施例中，文本处理模块1920包括：

第一文本处理单元1921，用于对待转换文本信息中的段落进行语句切分、分词处理，得到第一文本特征序列。

第二文本处理单元1922，用于对待转换文本信息进行分词和词性标注处理，得到第二文本特征序列。

第三文本处理单元1923，用于将待转换文本信息进行韵律层级预测处理，并生成读音，生成读音过程中进行多音字、儿化音、轻声至少一种处理，得到第三文本特征序列。

文本序列获取单元1924，用于根据第一文本特征序列、第二文本特征序列、第三文本特征序列生成对应的文本特征序列。

如图21所示，在一个实施例中，预测样本点序列获取模块1940，包括：

预测样本点获取单元1941，用于将初始化向量矩阵输入上述任意一个实施例中的目标统计参数模型中，得到第一预测语音样本点。

矩阵更新单元1942，用于将第一预测语音样本点作为当前预测样本点，从文本特征序列中获取与当前预测语音样本点对应的目标文本特征样本点匹配形成向量对，并累加至初始化向量矩阵中得到更新向量矩阵。

预测样本点序列获取单元1943，用于将更新向量矩阵输入目标统计参数模型中，得到第二预测语音样本点，将第二预测样本点作为当前预测样本点，进入矩阵更新单元，直到文本特征序列中的全部文本特征样本点存在对应的预测语音样本点，预测语音样本点组成预测语音样本点序列。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种统计参数模型建立方法，所述方法包括：

将所述原始向量矩阵在隐层中进行非线性映射计算，输出对应的预测语音样本点；其中，所述统计参数模型中包括不同数目的隐层，当前隐层输出的隐层节点序列输入到当前隐层的下一隐层中进行非线性映射计算，直至在输出层得到原始向量矩阵对应的预测语音样本点；

2.根据权利要求1所述的方法，其特征在于，所述将所述向量矩阵在隐层中进行非线性映射计算，输出对应的预测语音样本点的步骤，包括：

根据原始向量矩阵得到输入层节点序列，将输入层节点序列进行非线性映射得到第一隐层对应的隐层节点序列，将第一隐层作为当前处理隐层；

获取所述当前处理隐层对应的当前隐层节点序列，根据当前处理隐层采样间隔对所述当前隐层节点序列进行采样和非线性映射得到下一层隐层节点序列，将所述当前处理隐层的下一层隐层作为当前处理隐层，重复进入所述获取所述当前处理隐层对应的当前隐层节点序列的步骤，直到处理隐层数到达最大隐层数得到第一预测语音样本点，其中当前处理隐层的下一层隐层采样间隔为当前处理隐层采样间隔的倍数。

3.根据权利要求2所述的方法，其特征在于，所述根据当前处理隐层采样间隔对所述当前隐层节点序列进行采样和非线性映射得到下一层隐层节点序列的步骤，包括：

将所述当前隐层节点序列进行采样后进行第一线性卷积运算得到第一处理结果；

获取非线性映射函数集合，将第一处理结果分别采用所述非线性映射函数集合中的非线性映射函数进行非线性映射得到非线性映射结果集合；

将所述非线性映射结果集合中的各个非线性映射结果相加，再进行第二线性卷积运算得到下一层隐层节点序列。

4.根据权利要求3所述的方法，其特征在于，所述获取非线性映射函数集合，将第一处理结果分别采用所述非线性映射函数集合中的非线性映射函数进行非线性映射得到非线性映射结果集合的步骤，包括：

获取非线性映射函数集合，将第一处理结果分别采用所述非线性映射函数集合中tanh函数和sigmoid函数进行非线性映射得到非线性映射结果集合。

5.根据权利要求2所述的方法，其特征在于，所述根据原始向量矩阵得到输入层节点序列，将输入层节点序列进行非线性映射得到第一隐层对应的隐层节点序列，将所述第一隐层作为当前处理隐层的步骤，包括：

获取补充文本特征样本点和对应的补充语音样本点，匹配加入所述原始向量矩阵得到补充向量矩阵，根据所述补充向量矩阵得到输入层节点序列，将输入层节点序列进行非线性映射得到第一隐层对应的隐层节点序列，将所述第一隐层作为当前处理隐层；进入所述获取所述当前处理隐层对应的当前隐层节点序列的步骤，得到第二预测语音样本点；

所述根据所述预测语音样本点与对应的原始语音样本点差距最小原则确定所述统计参数模型的模型参数，得到对应的目标统计参数模型的步骤包括：

根据所述第一预测语音样本点与对应的第一原始语音样本点、第二预测语音样本点与对应的第二原始语音样本点采用差距最小原则确定所述统计参数模型的模型参数，得到对应的目标统计参数模型。

6.一种语音合成方法，所述方法包括：

获取待转换文本信息；

对所述待转换文本信息进行处理得到对应的文本特征序列；

将所述初始化向量矩阵输入上述权利要求1-5中任意一项所述目标统计参数模型中，得到所述文本特征序列对应的预测语音样本点序列；

7.根据权利要求6所述的方法，其特征在于，所述对所述待转换文本信息进行处理得到对应的文本特征序列的步骤，包括：

对所述待转换文本信息中的段落进行语句切分、分词处理，得到第一文本特征序列；

对所述待转换文本信息进行分词和词性标注处理，得到第二文本特征序列；

将待转换文本信息进行韵律层级预测处理，并生成读音，生成读音过程中进行多音字、儿化音、轻声至少一种处理，得到第三文本特征序列；

根据所述第一文本特征序列、所述第二文本特征序列、所述第三文本特征序列生成对应的文本特征序列。

8.根据权利要求6所述的方法，其特征在于，所述将所述初始化向量矩阵输入上述权利要求1-5中任意一项中的所述目标统计参数模型中，得到所述文本特征序列对应的预测语音样本点序列的步骤，包括：

将所述初始化向量矩阵输入上述权利要求1-5中任意一项所述目标统计参数模型中，得到第一预测语音样本点；

将所述第一预测语音样本点作为当前预测样本点，从所述文本特征序列中获取与所述当前预测语音样本点对应的目标文本特征样本点匹配形成向量对，并累加至所述初始化向量矩阵中得到更新向量矩阵；

将所述更新向量矩阵输入所述目标统计参数模型中，得到第二预测语音样本点，将所述第二预测样本点作为当前预测样本点，重复进入所述从所述文本特征序列中获取与所述第一预测语音样本点对应的目标文本特征样本点匹配形成向量对的步骤，直到所述文本特征序列中的全部文本特征样本点存在对应的预测语音样本点，所述预测语音样本点组成预测语音样本点序列。

9.一种统计参数模型建立装置，其特征在于，所述装置包括：

样本点预测模块，用于将所述原始向量矩阵在隐层中进行非线性映射计算，输出对应的预测语音样本点；其中，所述统计参数模型中包括不同数目的隐层，当前隐层输出的隐层节点序列输入到当前隐层的下一隐层中进行非线性映射计算，直至在输出层得到原始向量矩阵对应的预测语音样本点；

10.根据权利要求9所述的装置，其特征在于，所述样本点预测模块包括：

隐层节点序列获取单元，用于根据原始向量矩阵得到输入层节点序列，将输入层节点序列进行非线性映射得到第一隐层对应的隐层节点序列，将第一隐层作为当前处理隐层；

样本点预测单元，用于获取所述当前处理隐层对应的当前隐层节点序列，根据当前处理隐层采样间隔对所述当前隐层节点序列进行采样和非线性映射得到下一层隐层节点序列，将所述当前处理隐层的下一层隐层作为当前处理隐层，重复进入样本点预测单元，直到处理隐层数到达最大隐层数得到第一预测语音样本点，其中当前处理应层的下一层隐层采样间隔为当前处理隐层采样间隔的倍数。

11.根据权利要求10所述的装置，其特征在于，所述样本点预测单元包括：

第一卷积单元，用于将所述当前隐层节点序列进行采样后进行第一线性卷积运算得到第一处理结果；

非线性映射单元，用于获取非线性映射函数集合，将第一处理结果分别采用所述非线性映射函数集合中的非线性映射函数进行非线性映射得到非线性映射结果集合；

第二卷积单元，用于将所述非线性映射结果集合中的各个非线性映射结果相加，再进行第二线性卷积运算得到下一层隐层节点序列。

12.根据权利要求11所述的装置，其特征在于，所述非线性映射单元还用于获取非线性映射函数集合，将第一处理结果分别采用所述非线性映射函数集合中tanh函数和sigmoid函数进行非线性映射得到非线性映射结果集合。

13.根据权利要求10所述的装置，其特征在于，所述隐层节点序列获取单元还用于获取补充文本特征样本点和对应的补充语音样本点，匹配加入所述原始向量矩阵得到补充向量矩阵，根据所述补充向量矩阵得到输入层节点序列，将输入层节点序列进行非线性映射得到第一隐层对应的隐层节点序列，将所述第一隐层作为当前处理隐层，进入样本点预测单元，以使样本点预测单元得到第二预测语音样本点；

所述模型建立模块还用于根据所述第一预测语音样本点与对应的第一原始语音样本点、第二预测语音样本点与对应的第二原始语音样本点采用差距最小原则确定所述统计参数模型的模型参数，得到对应的目标统计参数模型。

14.一种语音合成装置，其特征在于，所述装置包括：

文本获取模块，用于获取待转换文本信息；

预测样本点序列获取模块，用于将所述初始化向量矩阵输入上述权利要求9-13中任意一项所述的目标统计参数模型中，得到所述文本特征序列对应的预测语音样本点序列；

15.根据权利要求14所述的装置，其特征在于，文本处理模块包括：

第一文本处理单元，用于对所述待转换文本信息中的段落进行语句切分、分词处理，得到第一文本特征序列；

第二文本处理单元，用于对所述待转换文本信息进行分词和词性标注处理，得到第二文本特征序列；

第三文本处理单元，用于将待转换文本信息进行韵律层级预测处理，并生成读音，生成读音过程中进行多音字、儿化音、轻声至少一种处理，得到第三文本特征序列；

文本序列获取单元，用于根据所述第一文本特征序列、所述第二文本特征序列、所述第三文本特征序列生成对应的文本特征序列。

16.根据权利要求14所述的装置，其特征在于，所述预测样本点序列获取模块，包括：

预测样本点获取单元，用于将所述初始化向量矩阵输入上述权利要求9-13中任意一项所述目标统计参数模型中，得到第一预测语音样本点；

矩阵更新单元，用于将所述第一预测语音样本点作为当前预测样本点，从所述文本特征序列中获取与所述当前预测语音样本点对应的目标文本特征样本点匹配形成向量对，并累加至所述初始化向量矩阵中得到更新向量矩阵；

预测样本点序列获取单元，用于将所述更新向量矩阵输入所述目标统计参数模型中，得到第二预测语音样本点，将所述第二预测样本点作为当前预测样本点，进入矩阵更新单元，直到所述文本特征序列中的全部文本特征样本点存在对应的预测语音样本点，所述预测语音样本点组成预测语音样本点序列。

17.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

18.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。