CN111916049B

CN111916049B - 一种语音合成方法及装置

Info

Publication number: CN111916049B
Application number: CN202010682928.8A
Authority: CN
Inventors: 冯大航; 陈孝良
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2021-02-09
Anticipated expiration: 2040-07-15
Also published as: CN111916049A

Abstract

本申请公开了一种语音合成方法及装置。该方法在获取初始语音的初始语音点、相应初始语音点向量和预测时间段后，按照初始语音点的时间顺序，将初始语音点向量输入预先训练的语音合成网络，以使语音合成网络依次输出预测时间段内每个待测时刻的预测语音点向量；采用预设神经网络算法，对预测时间段内每个待测时刻的预测语音点向量进行运算，合成预测时间段的预测语音。该方法降低了语音预测过程中的计算量，提高了语音合成效率。

Description

一种语音合成方法及装置

技术领域

本申请涉及语音合成技术领域，尤其涉及一种语音合成方法及装置。

背景技术

语音合成目前主流技术是神经网络合模型，如Wavenet，Wavernn，Simplernn等，可以实现从文本到声音的转换，即语音合成。当Wavenet模型被应用到语音合成方面时，不论是英文还是中文普通话，人类专家在评价其自然度上，相比于传统的参数式或者拼接式系统，可以获得当前业内最好的效果。也就是说，Wavenet可以把文本信息，通过层层堆叠的因果卷积神经网络转换成通畅流利的语音作为输出。

Wavenet的网络结构为因果卷积网络，通常包括40层卷积神经网络(4个block，每个block 10层神经网络)。在wavenet网络中，神经元节点跨度为2，每个神经网络节点对前一层的2个神经元进行加权，卷积计算。层数越多，时域上的感知能力(或称“感受野”，“跨度”)越强，感知范围越大。这种由大跨度感受野堆叠的类似二叉树形状的卷积网络，称为空洞卷积Dilated convolutions模型。如wavenet网络，跨度dilation＝2，每个中间神经元接收前一层2个神经元的输出。当网络是10层时，感受野＝2^10＝1024。

然而，由于Wavenet每一个预测出的语音点都反馈给网络用于预测下一个语音点，即每次只能预测一个语音点，且对于每个语音点的输出，都要进行相同计算量的神经网络计算(权重计算，卷积计算和skip connect计算)，很费时。对于距离预测点较远的采样点(或称“关联性不大的采样点”)也要进行相同计算量的神经网络计算，导致预测速度较缓慢。

发明内容

本申请实施例提供一种语音合成方法及装置，解决了现有技术存在的上述问题，以提高语音合成效率。

第一方面，提供了一种语音合成方法，该方法可以包括：

获取初始语音的初始语音点、相应初始语音点向量和预测时间段；所述初始语音点是所述初始语音在每个时刻上的语音特征，所述相应初始语音点向量是所述语音特征对应的语音点数值的向量形式；

按照所述初始语音点的时间顺序，将所述初始语音点向量输入预先训练的语音合成网络，获取所述预测时间段内起始待测时刻的预测语音点向量；其中，所述语音合成网络包括至少两个网络层，每个网络层包括与所述预测时间段中待测时刻相距不同时长的至少一个网络组件、相应网络组件所占时长和相应网络组件参数；所述至少一个网络组件按照采集语音采样点的时间顺序依次排列；每个网络组件与所述待测时刻相距的时长与相应网络组件参数值呈正相关变化；

针对所述预测时间段内包括所述起始待测时刻的每个待测时刻，依次将所述每个待测时刻的下一个相邻待测时刻确定为新的待测时刻、将所述待测时刻的预测语音点向量确定为所述新的待测时刻的初始语音点向量，并输入至所述语音合成网络，依次获取所述预测时间段内每个待测时刻的预测语音点向量；

采用预设神经网络算法，对所述预测时间段内每个待测时刻的预测语音点向量进行运算，合成所述预测时间段的预测语音。

在一个可选的实现中，将所述初始语音点向量输入预先训练的语音合成网络后，所述语音合成网络执行以下步骤：

采用预设卷积算法和至少一个网络组件的网络组件参数，在网络输入层的相应网络组件中对相应初始语音点向量进行卷积运算，得到所述网络输入层的每个网络组件所占时长中最后时刻输出的中间语音点向量；

采用所述预设卷积算法和所述至少一个网络组件的网络组件参数，在网络中间层的相应网络组件中对相应中间语音点向量进行卷积运算，得到所述网络中间层的每个网络组件所占时长中最后时刻输出的中间语音点向量；

获取最高网络中间层的网络组件所占时长中最后时刻输出的当前语音点向量，并将所述当前语音点向量确定为所述起始待测时刻的预测语音点向量。

在一个可选的实现中，所述语音合成网络在获取最高网络中间层的网络组件所占时长中最后时刻输出的当前语音点向量之后，所述语音合成网络还执行以下步骤：

采用残差算法，对所述当前语音点向量和每个网络中间层的中间语音点的中间语音点向量进行运算，获取所述待测时刻的预测语音点向量；

或者，采用残差算法，对所述当前语音点向量和每个网络中间层中满足预设条件的中间语音点的中间语音点向量进行运算，获取所述待测时刻的预测语音点向量；其中，所述满足预设条件的中间语音点为所述网络中间层中权重最大的预设数量的中间语音点。

在一个可选的实现中，训练语音合成网络的步骤包括：

获取待训练语音合成网络、训练语音的训练语音点和相应训练语音点向量，所述待训练语音合成网络包括至少两个网络层和所述至少两个网络层对应的网络参数；

根据所述训练语音点的时间顺序，获取每个网络层中与目标时刻相距不同时长的至少一个网络组件、相应网络组件所占时长和相应网络组件参数；其中，所述至少一个网络组件按照所述训练语音点的时间顺序依次排列；每个网络组件与所述目标时刻相距的时长与相应网络组件参数值呈正相关变化；

采用预设卷积算法和网络组件参数，在网络输入层的相应网络组件中对相应训练语音点向量进行卷积运算，得到所述网络输入层中每个网络组件所占时长中最后时刻输出的中间语音点向量；

采用所述预设卷积算法和网络组件参数，在网络中间层的相应网络组件中对相应中间语音点向量进行卷积运算，得到所述网络中间层的每个网络组件所占时长中最后时刻输出的中间语音点向量；

获取最高网络中间层的网络组件所占时长中最后时刻输出的当前语音点向量，并将所述当前语音点确定为所述目标时刻的预测语音点；

采用预设损失算法，对所述目标时刻的预测语音点向量和目标时刻已知的语音点向量进行运算，得到所述训练语音点向量对应的损失值；

若根据所述损失值，检测出所述待训练语音合成网络中所述至少两个网络层对应的网络参数处于收敛状态，则获取训练出的语音合成网络。

在一个可选的实现中，获取最高网络中间层的网络组件所占时长中最后时刻输出的当前语音点向量之后，所述方法还包括：

采用残差算法，对所述当前语音点向量和除所述最高网络中间层外的网络中间层中满足预设条件的中间语音点的中间语音点向量进行运算，获取所述目标时刻的预测语音点向量。

在一个可选的实现中，获取训练出的语音合成网络之后，所述方法还包括：

获取至少一个验证语音的验证语音点向量；

若所述语音合成网络的数量为至少一个，且每个语音合成网络包括不同的网络组件和不同的网络组件参数，则根据每个验证语音的验证语音点向量，获取所述每个语音合成网络在预测时间段中每个待测时刻对应的相应验证语音的预测语音点向量；

根据预设神经网络算法，对所述每个待测时刻对应的相应验证语音的预测语音点向量进行运算，得到所述预测时间段中相应验证语音的预测语音；

获取所述每个语音合成网络输出的至少一个预测语音与相应验证语音的平均误差；

将最小平均误差对应的语音合成网络确定为目标语音合成网络。

在一个可选的实现中，所述网络组件参数值包括初始语音点的连接跨度和卷积尺寸。

第二方面，提供了一种语音合成装置，该装置可以包括：获取单元、输入单元和合成单元；

所述获取单元，用于获取初始语音的初始语音点、相应初始语音点向量和预测时间段；所述初始语音点是所述初始语音在每个时刻上的语音特征，所述相应初始语音点向量是所述语音特征对应的语音点数值的向量形式；

所述输入单元，用于按照所述初始语音点的时间顺序，将所述初始语音点向量输入预先训练的语音合成网络，获取所述预测时间段内起始待测时刻的预测语音点向量；其中，所述语音合成网络包括至少两个网络层，每个网络层包括与所述预测时间段中待测时刻相距不同时长的至少一个网络组件、相应网络组件所占时长和相应网络组件参数；所述至少一个网络组件按照采集语音采样点的时间顺序依次排列；每个网络组件与所述待测时刻相距的时长与相应网络组件参数值呈正相关变化；

所述获取单元，还用于针对所述预测时间段内包括所述起始待测时刻的每个待测时刻，依次将所述每个待测时刻的下一个相邻待测时刻确定为新的待测时刻、将所述待测时刻的预测语音点向量确定为所述新的待测时刻的初始语音点向量，并输入至所述语音合成网络，依次获取所述预测时间段内每个待测时刻的预测语音点向量；

所述合成单元，用于采用预设神经网络算法，对所述预测时间段内每个待测时刻的预测语音点向量进行运算，合成所述预测时间段的预测语音。

在一个可选的实现中，所述语音合成网络执行以下步骤：

采用残差算法，对所述当前语音点向量和每个网络中间层的中间语音点的中间语音点向量进行运算，获取所述待测时刻的预测语音点向量。

在一个可选的实现中，所述获取单元，还用于获取待训练语音合成网络、训练语音的训练语音点和相应训练语音点向量，所述待训练语音合成网络包括至少两个网络层和所述至少两个网络层对应的网络参数；

在一个可选的实现中，所述获取单元，还用于采用残差算法，对所述当前语音点向量和除所述最高网络中间层外的网络中间层中满足预设条件的中间语音点的中间语音点向量进行运算，获取所述目标时刻的预测语音点向量。

在一个可选的实现中，所述装置还包括确定单元；

所述获取单元，还用于获取至少一个验证语音的验证语音点向量；

所述确定单元，用于将最小平均误差对应的语音合成网络确定为目标语音合成网络。

第三方面，提供了一种电子设备，该电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面中任一所述的方法步骤。

第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一所述的方法步骤。

本发明实施例提供的语音合成方法在获取初始语音的初始语音点、相应初始语音点向量和预测时间段后，按照初始语音点的时间顺序，将初始语音点向量输入预先训练的语音合成网络；其中，语音合成网络包括至少两个网络层，每个网络层包括与预测时间段中待测时刻相距不同时长的至少一个网络组件、相应网络组件所占时长和相应网络组件参数；至少一个网络组件按照采集语音采样点的时间顺序依次排列；每个网络组件与待测时刻相距的时长与相应网络组件参数值呈正相关变化，以使语音合成网络根据每个网络层中所述至少一个网络组件的网络组件参数和初始语音点向量，获取预测时间段内起始待测时刻的预测语音点向量；并针对预测时间段内包括起始待测时刻的每个待测时刻，依次将每个待测时刻的下一个相邻待测时刻确定为新的待测时刻、将待测时刻的预测语音点向量确定为新的待测时刻的初始语音点向量，并输入至语音合成网络，依次获取预测时间段内每个待测时刻的预测语音点向量；采用预设神经网络算法，对预测时间段内每个待测时刻的预测语音点向量进行运算，合成预测时间段的预测语音。由于语音合成网络中至少一个网络组件的可配置性降低了语音预测过程中的计算量，从而提高了语音合成效率，另外通过语音点的残差连接提高了语音预测的准确性。

附图说明

图1为本发明实施例提供的一种语音合成方法的流程示意图；

图2为本发明实施例提供的一种语音合成网络的结构示意图；

图3为本发明实施例提供的一种语音合成装置的结构示意图；

图4为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，并不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明实施例提供的语音合成方法可以应用在服务器上，也可以应用在终端上。

服务器可以是应用服务器或云服务器；

终端可以是具有较强的计算能力的移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)等用户设备(User Equipment，UE)、手持设备、车载设备、可穿戴设备、计算设备或移动台(Mobile station，MS)、移动终端(MobileTerminal)等。

本申请提供的语音合成方法应用在语音合成网络中，该语音合成网络是基于卷积神经网络(Convolutional Neural Network，CNN)的采样点自回归模型。语音波形实际上是一个个语音点，即语音点的拼接。自回归模型(Autoregressive Model，AR)是最常见的一种平稳时间序列建模，指时间序列X(t)在t时刻的取值Xt与其前t-1个时刻的取值相关，根据一个序列的前t-1个点，可以预测第t个点的结果，因此可以用来预测语音中的语音点，即利用语音中前t-1个语音点来预测第t个语音点，当每个语音点被预测后，其会被传回语音合成网络当做下一时刻的输入来预测下一时刻的预测语音点。

图1为本发明实施例提供的一种语音合成方法的流程示意图。如图1所示，该方法可以包括：

步骤110、获取初始语音的初始语音点、相应初始语音点向量和预测时间段。

由于日常生活中的声音一般都在8kHz以下，根据奈奎斯特Nyquist采样定理，16kHz采样率足以使得采样出来的语音数据包含大量语音信息。16kHz意味着1s的时间内采样16k个语音点，这些语音点都是以幅度值存储，为了有效存储幅度值，需要将其量化为整数。对于16位的采样位数来说，每个语音点用16bit表示，可以将采样幅度值量化为最近的整数值，表示为-32768～32767之间的整数值。为了降低传输带宽，可以采用uLaw(μ律)算法对语音点进行压缩，将16bit的语音点转为8bit的语音点，可以表示为-128～127之间的整数值。语音点数值可以是二进制向量形式，即256维的语音点向量，也就是说，语音点的语音特征(如幅度值)对应的语音点向量是语音点数值的向量形式。

按照语音波形的时间顺序，对初始语音进行语音点提取，获取初始语音点和相应初始语音点向量，并确定以初始语音为起点的待预测语音所属的预测时间段。

例如，16kHz的采样率，时间段为0-t的初始语音对应K个语音点，以每个语音点用8bit表示为例，可以得到每个语音点的语音点向量，预测时间段的起始时刻为t+1时刻，如预测时间段可以为[t+1，t+2]。

步骤120、按照初始语音点的时间顺序，将初始语音点向量输入预先训练的语音合成网络，获取预测时间段内起始待测时刻的预测语音点向量。

在执行该步骤之前，需要训练语音合成网络，如下：

获取待训练语音合成网络、训练语音的训练语音点和相应训练语音点向量，待训练语音合成网络包括至少两个网络层，即网络输入层、至少一个网络中间层(或称“隐藏层”)和至少两个网络层对应的网络参数；

根据训练语音点的时间顺序，获取每个网络层中与目标时刻相距不同时长的至少一个网络组件、相应网络组件所占时长和相应网络组件参数；

其中，至少一个网络组件按照训练语音点的时间顺序依次排列；每个网络组件与目标时刻相距的时长与相应网络组件参数值呈正相关变化，即距离目标时刻时长越长，网络组件参数值越大；距离目标时刻时长越短，网络组件参数值越小。例如，时长与相应网络组件参数值可以呈正比例变化。

网络组件参数值可以包括语音点的连接跨度和卷积尺寸。连接跨度决定了需要进行连接训练语音点。

由于相邻的语音点具有连续性，故为了减少计算量，在大连接跨度中，可以不全部都连接，采用跳跃的形式。连接跨度越小，信息传递损失越小；卷积尺寸越小，信息损失越小。

例如，1个语音点的语音点向量可以用256维的向量表示为[1*256]，经过1维卷积，步长＝1，得到结果：

大卷积尺寸的情况下：[1*256]→[128]卷积＝[1*129]维的向量。

小卷积尺寸的情况下：[1*256]→[64]卷积＝[1*193]维的向量。

可见，大卷积尺寸，信息损失较大。

需要说明的是，网络组件的组件所占时长可以是预先设定的，也可以根据预设的语音点连接数确定。如，一个网络组件的连接跨度确定后，根据语音点连接数可以确定出该网络组件包含的语音点数，即所占时长。

如图2所示，语音合成网络包括网络输入层和两层网络中间层。图2中的每个圆圈代表一个语音点。相邻层之间的语音点是可以相连的，但是同层之间的语音点不相连。语音点间的一个箭头表示一次连接。每个连接都需要进行一个y＝w*X+b的卷积计算，其中，X为输入的语音点向量，w为该输入的语音点向量对应的网络中间层的权重，b为偏置项，y为中间语音点的中间语音点向量。若两个输入的语音点分别连接到一个中间语音点，且两个输入的语音点的语音点向量分别为X1和X2，相应输入的语音点的权重为w11和w12，则相应的中间语音点向量y＝(w11*X1+w12*X2)+b。

两个网络组件按照训练语音点的时间顺序依次排列，第一网络组件距离目标时刻的时长大于第二网络组件距离目标时刻的时长，故第一网络组件的网络组件参数大于第二网络组件的网络组件参数，即第二网络组件的连接跨度和卷积尺寸均大于第一网络组件的连接跨度和卷积尺寸，如图2中第二网络组件的连接跨度为3和卷积尺寸为[128]；第一网络组件的连接跨度为0和卷积尺寸为[64]。

其中，网络组件中的连接数可以自行设定，第一网络组件所占时长为[t，t-1]，第二网络组件所占时长为[t-2，t-6]。

之后，采用预设卷积算法和网络组件参数，在网络输入层的相应网络组件中对相应训练语音点向量进行卷积运算，得到网络输入层中每个网络组件所占时长中最后时刻输出的中间语音点向量，如图2中网络中间层1在t时刻的中间语音点向量和在t-2时刻的中间语音点向量；

采用预设卷积算法和网络组件参数，在网络中间层的相应网络组件中对相应中间语音点向量进行卷积运算，得到网络中间层中每个网络组件所占时长中最后时刻输出的中间语音点向量，如图2中网络中间层2在t时刻的中间语音点向量；

获取最高网络中间层中网络组件最后时刻输出的当前语音点向量，即图2中网络中间层2在t时刻的中间语音点向量；

之后，可以将当前语音点确定为目标时刻的预测语音点；

或者：

采用残差算法，对当前语音点向量和除最高网络中间层外的网络中间层中满足预设条件的中间语音点的中间语音点向量进行运算，获取目标时刻的预测语音点向量。

采用残差算法，对V3和V11、V12进行运算，获取目标时刻的预测语音点向量。

可选地，在网络中间层较多的情况下，网络整体的计算量也会提高，为了进一步降低计算量，可以采用残差算法，对当前语音点向量和除最高网络中间层外的网络中间层中满足预设条件的中间语音点的中间语音点向量进行运算，获取目标时刻的预测语音点向量。其中，满足预设条件的中间语音点为网络中间层中权重最大的预设数量的中间语音点。

由于权重最大中间语音点对应的中间语音点数据与目标时刻的预测语音存在关联影响性，故选取权重最大的预设数量的中间语音点的中间语音点数据可以在降低计算量的基础上，保证预测的准确性。

进一步的，采用预设损失算法，如CTC(Connectionist temporalclassification)损失函数，对目标时刻的预测语音点向量和目标时刻已知的语音点向量进行运算，得到训练语音点向量对应的损失值；

若根据损失值，检测出待训练语音合成网络中至少两个网络层对应的网络参数处于收敛状态，则获取训练出的语音合成网络。

若根据损失值，检测出待训练语音合成网络的网络参数处于非收敛状态，则根据损失值对应的梯度值，更新待训练语音合成网络的网络参数，并根据训练语音点和更新的网络参数，返回执行采用预设卷积算法和网络组件参数，在最低网络层的相应网络组件中对相应训练语音点进行卷积运算的步骤；

若更新的网络参数处于收敛状态或迭代次数达到预设次数，则获取训练出的语音合成网络，该训练出的语音合成网络的网络参数为上述更新的网络参数。

为了提高训练出的语音合成网络的预测准确性，可以训练出至少一个语音合成网络，并对至少一个语音合成网络进行准确性验证，筛选出最优的目标语音合成网络。

具体的，获取至少一个验证语音的验证语音点向量；

若语音合成网络的数量为至少一个，且每个语音合成网络包括不同的网络组件和不同的网络组件参数，则根据每个验证语音的验证语音点向量，获取每个语音合成网络在预测时间段中每个待测时刻对应的相应验证语音的预测语音点向量；

根据预设神经网络算法，对每个待测时刻对应的相应验证语音的预测语音点向量进行运算，得到预测时间段中相应验证语音的预测语音；

获取每个语音合成网络输出的至少一个预测语音与相应验证语音的平均误差；

回到步骤120，按照初始语音点的时间顺序，将获取的初始语音采数值输入预先训练的语音合成网络，即筛选出的目标语音合成网络。

目标语音合成网络根据每个网络层中至少一个网络组件的网络组件参数和初始语音点向量，获取预测时间段内起始待测时刻的预测语音点向量。

具体的，采用预设卷积算法和至少一个网络组件的网络组件参数，在网络输入层的相应网络组件中对相应初始语音点向量进行卷积运算，得到网络输入层中每个网络组件所占时长中最后时刻输出的中间语音点向量；

采用预设卷积算法和至少一个网络组件的网络组件参数，在网络中间层的相应网络组件中对相应中间语音点向量进行卷积运算，得到网络中间层中每个网络组件所占时长中最后时刻输出的中间语音点向量；

获取最高网络中间层的网络组件所占时长中最后时刻输出的当前语音点向量；

之后，可以将当前语音点向量直接确定为第一个待测时刻的预测语音点向量。

或者：

在目标语音合成网络的网络中间层较少的情况下，获取最高网络中间层的网络组件所占时长中最后时刻输出的当前语音点向量之后，目标语音合成网络可以采用残差算法，对输出的当前语音点向量和每个网络中间层中的中间语音点的中间语音点向量进行运算，获取待测时刻的预测语音点向量。

在目标语音合成网络的网络中间层较多的情况下，获取最高网络中间层的网络组件所占时长中最后时刻输出的当前语音点向量之后，目标语音合成网络可以采用残差算法，对输出的当前语音点向量和每个网络中间层中满足预设条件的中间语音点的中间语音点向量进行运算，获取待测时刻的预测语音点向量。其中，满足预设条件的中间语音点为网络中间层中权重最大的预设数量的中间语音点。

步骤130、针对预测时间段内包括起始待测时刻的每个待测时刻，依次将每个待测时刻的下一个相邻待测时刻确定为新的待测时刻、将待测时刻的预测语音点向量确定为新的待测时刻的初始语音点向量，并输入至语音合成网络，依次获取预测时间段内每个待测时刻的预测语音点向量。

将起始待测时刻的下一个相邻待测时刻确定为新的待测时刻、将起始待测时刻的预测语音点向量确定为新的待测时刻的初始语音点向量，并输入至语音合成网络，获取新的待测时刻的预测语音点向量；

以此类推，直到获取预测时间段内的每个待测时刻的预测语音点向量。

步骤140、采用预设神经网络算法，对预测时间段中每个待测时刻的预测语音点向量进行运算，得到预测时间段的预测语音。

采用预设神经网络算法，如DNN算法，对预测时间段中每个待测时刻的预测语音点向量进行运算，从而将预测时间段的预测语音点向量转换为相应的语音波形，即得到预测时间段的预测语音。

本发明实施例提供的语音合成方法在获取初始语音的初始语音点、相应初始语音点向量和预测时间段后，按照初始语音点的时间顺序，将初始语音点向量输入预先训练的语音合成网络，其包括至少两个网络层，每个网络层包括与预测时间段中待测时刻相距不同时长的至少一个网络组件、相应网络组件所占时长和相应网络组件参数；至少一个网络组件按照采集语音采样点的时间顺序依次排列；每个网络组件与待测时刻相距的时长与相应网络组件参数值呈正相关变化，以使语音合成网络根据每个网络层中至少一个网络组件的网络组件参数和初始语音点向量，获取预测时间段内起始待测时刻的预测语音点向量；针对预测时间段内包括起始待测时刻的每个待测时刻，依次将每个待测时刻的下一个相邻待测时刻确定为新的待测时刻、将待测时刻的预测语音点向量确定为新的待测时刻的初始语音点向量，并输入至语音合成网络，依次获取预测时间段内每个待测时刻的预测语音点向量；采用预设神经网络算法，对预测时间段内每个待测时刻的预测语音点向量进行运算，合成预测时间段的预测语音。由于语音合成网络中至少一个网络组件的可配置性降低了语音预测过程中的计算量，从而提高了语音合成效率，另外通过语音点的残差连接提高了语音预测的准确性。

与上述方法对应的，本发明实施例还提供一种语音合成装置，如图3所示，该语音合成装置包括：获取单元310、输入单元320和合成单元330；

获取单元310，用于获取初始语音的初始语音点、相应初始语音点向量和预测时间段；所述初始语音点是所述初始语音在每个时刻上的语音特征，所述相应初始语音点向量是所述语音特征对应的语音点数值的向量形式；

输入单元320，用于按照所述初始语音点的时间顺序，将所述初始语音点向量输入预先训练的语音合成网络，获取所述预测时间段内起始待测时刻的预测语音点向量；其中，所述语音合成网络包括至少两个网络层，每个网络层包括与所述预测时间段中待测时刻相距不同时长的至少一个网络组件、相应网络组件所占时长和相应网络组件参数；所述至少一个网络组件按照采集语音采样点的时间顺序依次排列；每个网络组件与所述待测时刻相距的时长与相应网络组件参数值呈正相关变化；

获取单元310，还用于针对所述预测时间段内包括所述起始待测时刻的每个待测时刻，依次将所述每个待测时刻的下一个相邻待测时刻确定为新的待测时刻、将所述待测时刻的预测语音点向量确定为所述新的待测时刻的初始语音点向量，并输入至所述语音合成网络，依次获取所述预测时间段内每个待测时刻的预测语音点向量；

合成单元330，用于采用预设神经网络算法，对所述预测时间段内每个待测时刻的预测语音点向量进行运算，合成所述预测时间段的预测语音。

在一个可选的实现中，所述语音合成网络执行以下步骤：

在一个可选的实现中，获取单元310，还用于获取待训练语音合成网络、训练语音的训练语音点和相应训练语音点向量，所述待训练语音合成网络包括至少两个网络层和所述至少两个网络层对应的网络参数；

在一个可选的实现中，获取单元310，还用于采用残差算法，对所述当前语音点向量和除所述最高网络中间层外的网络中间层中满足预设条件的中间语音点的中间语音点向量进行运算，获取所述目标时刻的预测语音点向量。

在一个可选的实现中，所述装置还包括确定单元340；

获取单元310，还用于获取至少一个验证语音的验证语音点向量；

确定单元340，用于将最小平均误差对应的语音合成网络确定为目标语音合成网络。

本发明上述实施例提供的语音合成装置的各功能单元的功能，可以通过上述各方法步骤来实现，因此，本发明实施例提供的语音合成装置中的各个单元的具体工作过程和有益效果，在此不复赘述。

本发明实施例还提供了一种电子设备，如图4所示，包括处理器410、通信接口420、存储器430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。

存储器430，用于存放计算机程序；

处理器410，用于执行存储器430上所存放的程序时，实现如下步骤：

在一个可选的实现中，训练语音合成网络的步骤包括：

获取至少一个验证语音的验证语音点向量；

上述提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

由于上述实施例中电子设备的各器件解决问题的实施方式以及有益效果可以参见图1所示的实施例中的各步骤来实现，因此，本发明实施例提供的电子设备的具体工作过程和有益效果，在此不复赘述。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的语音合成方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的语音合成方法。

本领域内的技术人员应明白，本申请实施例中的实施例可提供为方法、系统、或计算机程序产品。因此，本申请实施例中可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例中可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例中是参照根据本申请实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例中的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。

显然，本领域的技术人员可以对本申请实施例中实施例进行各种改动和变型而不脱离本申请实施例中实施例的精神和范围。这样，倘若本申请实施例中实施例的这些修改和变型属于本申请实施例中权利要求及其等同技术的范围之内，则本申请实施例中也意图包含这些改动和变型在内。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

按照所述初始语音点的时间顺序，将所述初始语音点向量输入预先训练的语音合成网络，获取所述预测时间段内起始待测时刻的预测语音点向量；其中，所述语音合成网络包括至少两个网络层，每个网络层包括与所述预测时间段中待测时刻相距不同时长的至少一个网络组件、相应网络组件所占时长和相应网络组件参数；所述至少一个网络组件按照采集语音采样点的时间顺序依次排列；每个网络组件与所述待测时刻相距的时长与相应网络组件参数值呈正相关变化；所述语音合成网络是基于待训练语音合成网络中每个网络层的至少一个网络组件的网络组件参数、训练语音的训练语音点和相应训练语音点向量，对所述待训练语音合成网络的至少两个网络层对应的网络参数进行训练得到的；

针对所述预测时间段内包括所述起始待测时刻的每个待测时刻，依次将所述每个待测时刻的下一个相邻待测时刻确定为新的待测时刻，将所述待测时刻的预测语音点向量确定为所述新的待测时刻的初始语音点向量，并输入至所述语音合成网络，依次获取所述预测时间段内每个待测时刻的预测语音点向量；

2.如权利要求1所述的方法，其特征在于，将所述初始语音点向量输入预先训练的语音合成网络后，所述语音合成网络执行以下步骤：

3.如权利要求2所述的方法，其特征在于，

所述语音合成网络在获取最高网络中间层的网络组件所占时长中最后时刻输出的当前语音点向量之后，所述语音合成网络还执行以下步骤：

或者，

采用残差算法，对所述当前语音点向量和每个网络中间层中满足预设条件的中间语音点向量进行运算，获取所述待测时刻的预测语音点向量；其中，所述满足预设条件的中间语音点为所述网络中间层中权重最大的预设数量的中间语音点。

4.如权利要求1所述的方法，其特征在于，训练所述语音合成网络的步骤包括：

5.如权利要求4所述的方法，其特征在于，获取最高网络中间层的网络组件所占时长中最后时刻输出的当前语音点向量之后，所述方法还包括：

6.如权利要求4所述的方法，其特征在于，获取训练出的语音合成网络之后，所述方法还包括：

获取至少一个验证语音的验证语音点向量；

7.如权利要求1-6任一项所述的方法，其特征在于，所述网络组件参数值包括初始语音点的连接跨度和卷积尺寸。

8.一种语音合成装置，其特征在于，所述装置包括：获取单元、输入单元和合成单元；

所述输入单元，用于按照所述初始语音点的时间顺序，将所述初始语音点向量输入预先训练的语音合成网络，获取所述预测时间段内起始待测时刻的预测语音点向量；其中，所述语音合成网络包括至少两个网络层，每个网络层包括与所述预测时间段中待测时刻相距不同时长的至少一个网络组件、相应网络组件所占时长和相应网络组件参数；所述至少一个网络组件按照采集语音采样点的时间顺序依次排列；每个网络组件与所述待测时刻相距的时长与相应网络组件参数值呈正相关变化；所述语音合成网络是基于待训练语音合成网络中每个网络层的至少一个网络组件的网络组件参数、训练语音的训练语音点和相应训练语音点向量，对所述待训练语音合成网络的至少两个网络层对应的网络参数进行训练得到的；

9.一种电子设备，其特征在于，所述电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存储的程序时，实现权利要求1-7任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。