CN111128114B

CN111128114B - 一种语音合成的方法及装置

Info

Publication number: CN111128114B
Application number: CN201911095106.3A
Authority: CN
Inventors: 晋博琛; 郑岩
Original assignee: Beijing Daniel Technology Development Co ltd
Current assignee: Beijing Daniel Technology Development Co ltd
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2022-04-22
Anticipated expiration: 2039-11-11
Also published as: CN111128114A

Abstract

本发明公开了一种语音合成的方法及装置，所述方法包括：获取预训练的字符向量矩阵；获取待训练的字符向量矩阵；将预训练的字符向量矩阵与待训练的字符向量矩阵相拼接；通过多层一维卷积层，对整体句子矩阵进行编码，获得编码矩阵；通过一层双向递归神经网络，对编码矩阵继续编码，获得再编码矩阵；将再编码矩阵通过一个全连接层进行发音长度预测，获得长度预测矩阵；再通过一个全连接层对长度预测矩阵进行重采样，获得重采样矩阵；将重采样矩阵通过多层一维卷积层进行解码，再通过一层双向递归神经网络进行再解码，得到再解码矩阵，将再解码矩阵映射到预设的位宽数值范围内，得到输出波形；本发明的优点在于：模型收敛快，稳定性较强。

Description

一种语音合成的方法及装置

技术领域

本发明涉及语音合成领域，更具体涉及一种语音合成的方法及装置。

背景技术

语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(Text ToSpeech，文语转换技术)隶属于语音合成，它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。采用世界领先的语音合成技术，研发出来的“语音合成助手”软件可以完美的完成语音合成工作。

现有的语音合成技术分为以下几种，如图1所示为波形拼接的方法实现语音合成，属于较早期的方式，效果欠佳，如图2为参数合成的方法实现语音合成，当前常用的方式，但效果有待进一步提高，由于训练过程是2阶段，较繁琐，且第二阶段声码器依靠参数进行波形重建，参数中有很多需要人工调整的地方，工作量很大且很难找到最优配置；两阶段神经网络实现语音合成，也是当前常用的方式，但效果有待进一步提高，由于训练过程是2阶段，较繁琐，且第一阶段通常使用注意力机制，模型收敛很慢，梅尔生成长度和停止位置预测不稳定，实际使用时会出现异常情况，稳定性不足；如图3所示为完全端到端波形生成神经网络实现语音合成，是最新的方式，但效果较参数合成的方法和两阶段神经网络的方法效果欠佳，内部也采用注意力机制，模型收敛很慢，波形生成长度和停止位置预测不稳定，实际使用时会出现异常情况，稳定性不足。

由于语音合成时，输入的是待合成的文本内容，输出的是音频波形，而文本长度和音频长度之间没有对应或换算关系，所以两阶段神经网络的方法和完全端到端波形生成神经网络实现语音合成中使用注意力机制进行序列到序列的预测，但模型收敛慢，预测稳定性不足，尤其是对于长句而言，全局注意力机制有效性不足。

发明内容

本发明所要解决的技术问题在于如何提供一种模型收敛较快，预测稳定性较强的语音合成方法及装置。

本发明通过以下技术手段实现解决上述技术问题的：一种语音合成的方法，所述方法包括：

通过预设数量的文本训练字符向量，获取预训练的字符向量矩阵；

通过字嵌入对输入文本进行编码，获取待训练的字符向量矩阵；

将预训练的字符向量矩阵与待训练的字符向量矩阵相拼接，获取整体句子矩阵；

通过多层一维卷积层，对整体句子矩阵进行编码，获得编码矩阵；

通过一层双向递归神经网络，对编码矩阵继续编码，获得再编码矩阵；

将再编码矩阵通过一个全连接层进行发音长度预测，获得长度预测矩阵；

再通过一个全连接层对长度预测矩阵进行重采样，获得重采样矩阵；

将重采样矩阵通过多层一维卷积层进行解码，再通过一层双向递归神经网络进行再解码，得到再解码矩阵，将再解码矩阵映射到预设的位宽数值范围内，得到输出波形。

本发明首先训练字符向量，得到预训练的字符向量矩阵，其次预测文本中每个字符的发音长度，从而得到文本与待合成波形间的映射关系，进而按照预测的发音长度等比例重采样得到与预测波形长度相近的重采样矩阵，整体通过多层一维卷积层和双向递归神经网络进行最终波形的预测，采用多层一维卷积层和神经网络，使得模型收敛快，稳定性强。

优选的，所述通过预设数量的文本训练字符向量，获取预训练的字符向量矩阵，包括：将长度为L的文本的每个字进行编号，上下文窗口大小均为a，将上下文的共2a个字符的字向量相加，然后再通过一个全连接层对这些字向量进行编码映射，得到预训练的字符向量矩阵V₀×L，V₀为预测的中心字符的字向量。

优选的，所述通过字嵌入对输入文本进行编码，获取待训练的字符向量矩阵，包括：将长度为L的输入文本的每个字符进行编号，然后按照编号将每个字符通过查表对应转换为固定长度V₁的向量，所有字符整体组成一个待训练的字符向量矩阵V₁×L。

优选的，所述将预训练的字符向量矩阵与待训练的字符向量矩阵相拼接，获取整体句子矩阵，包括：将预训练的字符向量矩阵V₀×L与待训练的字符向量矩阵V₁×L相拼接，得到整体句子矩阵(V₀+V₁)×L。

优选的，所述通过多层一维卷积层，对整体句子矩阵进行编码，获得编码矩阵，包括：将整体句子矩阵(V₀+V₁)×L中的V₀+V₁重命名为C_in，L重命名为L_in，通过卷积公式

对整体句子矩阵进行编码，获得编码矩阵C_out×L_out，其中，x(k)是第k个输入通道的值且x(k)＝C_in×L_in，k是输入通道的索引且0≤k＜C_in，y(C_outi)是第i个输出通道的值，C_in是输入通道的数量，C_out是输出通道的数量，i是输出通道的索引且0≤i＜C_out，bias是输出通道的偏置，bias(C_outi)是第i个输出通道的偏置，weight是输出通道的权重，weight(C_outi)是第i个输出通道的权重，

是互相关运算符。

优选的，所述通过一层双向递归神经网络，对编码矩阵继续编码，获得再编码矩阵，包括：将编码矩阵C_out×L_out重命名为矩阵X_in×T_in且C_out＝X_in，L_out＝T_in，通过一层双向递归神经网络

i_t＝σ(W_iix_t+b_ii+W_hih_(t-1)+b_hi)

f_t＝σ(W_ifx_t+b_if+W_hfh_(t-1)+b_hf)

g_t＝tanh(W_igx_t+b_ig+W_hgh_(t-1)+b_hg)

o_t＝σ(W_iox_t+b_io+W_hoh_(t-1)+b_ho)

c_t＝f_t*c_(t-1)+i_t*g_t

h_t＝o_t*tanh(c_t)

对矩阵X_in×T_in继续编码，获得再编码矩阵X_out×T_out；其中，x_t为t时刻的输入且t∈[0,T_in]，W_ii是当前时刻输入的输入门权重，b_ii是当前时刻输入的输入门偏置，W_hi是上一时刻输出的输入门权重，b_hi是上一时刻输出的输入门偏置；W_if是当前时刻输入的遗忘门权重，b_if是当前时刻输入的遗忘门偏置，W_hf是上一时刻输出的遗忘门权重，b_hf是上一时刻输出的遗忘门偏置；W_ig是当前时刻输入的细胞门权重，b_ig是当前时刻输入的细胞门偏置，W_hg是上一时刻输出的细胞门权重，b_hg是上一时刻输出的细胞门偏置；W_io是当前时刻输入的输出门权重，b_io是当前时刻输入的输出门偏置，W_ho是上一时刻输出的输出门权重，b_ho是上一时刻输出的输出门偏置；h_t是t时刻的隐状态，h_(t-1)是t-1时刻的隐状态，c_t是t时刻的细胞状态，i_t是t时刻输入门的输出，f_t是t时刻遗忘门的输出，g_t是t时刻细胞门的输出，o_t是t时刻输出门的输出。

优选的，所述将再编码矩阵通过一个全连接层进行发音长度预测，获得长度预测矩阵，包括：对再编码矩阵X_out×T_out通过全连接层L_t1＝round(W*x_t1+b)进行发音长度预测，x_t1是t1时刻的输入且t1∈[0,T_out]，W是全连接层的权重，b是全连接层的偏置，round是四舍五入取整函数，L_t1是t1时刻字符的预测发音长度，对所有时刻的字符预测发音长度以后，获得长度预测矩阵L₁×T_out，L₁是所有时刻的字符预测发音长度集合。

优选的，所述再通过一个全连接层对长度预测矩阵进行重采样，获得重采样矩阵，包括：根据每个时刻预测的发音长度，通过一个全连接层y_t2＝W_L*x_t2+b_L对长度预测矩阵L₁×T_out进行重采样，其中，x_t2是t2时刻的输入且t2∈[0,T_out]，W_L是长度为L_t1的全连接层权重参数，b_L是长度为L_t1的全连接层偏置参数，y_t2是重采样后t2时刻的输出，得到每个时刻的输出结果以后，将每个时刻的输出结果y₀,y₁,y₂...

进行拼接，获得重采样矩阵Y×T_out

本发明还提供一种语音合成的装置，所述装置包括：

预训练模块，用于通过预设数量的文本训练字符向量，获取预训练的字符向量矩阵；

待训练模块，用于通过字嵌入对输入文本进行编码，获取待训练的字符向量矩阵；

拼接模块，用于将预训练的字符向量矩阵与待训练的字符向量矩阵相拼接，获取整体句子矩阵；

编码模块，用于通过多层一维卷积层，对整体句子矩阵进行编码，获得编码矩阵；

再编码模块，用于通过一层双向递归神经网络，对编码矩阵继续编码，获得再编码矩阵；

长度预测模块，用于将再编码矩阵通过一个全连接层进行发音长度预测，获得长度预测矩阵；

重采样模块，用于再通过一个全连接层对长度预测矩阵进行重采样，获得重采样矩阵；

解码模块，用于将重采样矩阵通过多层一维卷积层进行解码，再通过一层双向递归神经网络进行再解码，得到再解码矩阵，将再解码矩阵映射到预设的位宽数值范围内，得到输出波形。

优选的，所述预训练模块，具体用于：将长度为L的文本的每个字进行编号，上下文窗口大小均为a，将上下文的共2a个字符的字向量相加，然后再通过一个全连接层对这些字向量进行编码映射，得到预训练的字符向量矩阵V₀×L，V₀为预测的中心字符的字向量。

优选的，所述待训练模块，具体用于：将长度为L的输入文本的每个字符进行编号，然后按照编号将每个字符通过查表对应转换为固定长度V₁的向量，所有字符整体组成一个待训练的字符向量矩阵V₁×L。

优选的，所述拼接模块，具体用于：将预训练的字符向量矩阵V₀×L与待训练的字符向量矩阵V₁×L相拼接，得到整体句子矩阵(V₀+V₁)×L。

优选的，所述编码模块，具体用于：将整体句子矩阵(V₀+V₁)×L中的V₀+V₁重命名为C_in，L重命名为L_in，通过卷积公式

是互相关运算符。

优选的，所述再编码模块，具体用于：将编码矩阵C_out×L_out重命名为矩阵X_in×T_in且C_out＝X_in，L_out＝T_in，通过一层双向递归神经网络

i_t＝σ(W_iix_t+b_ii+W_hih_(t-1)+b_hi)

f_t＝σ(W_ifx_t+b_if+W_hfh_(t-1)+b_hf)

g_t＝tanh(W_igx_t+b_ig+W_hgh_(t-1)+b_hg)

o_t＝σ(W_iox_t+b_io+W_hoh_(t-1)+b_ho)

c_t＝f_t*c_(t-1)+i_t*g_t

h_t＝o_t*tanh(c_t)

优选的，所述长度预测模块，具体用于：对再编码矩阵X_out×T_out通过全连接层L_t1＝round(W*x_t1+b)进行发音长度预测，x_t1是t1时刻的输入且t1∈[0,T_out]，W是全连接层的权重，b是全连接层的偏置，round是四舍五入取整函数，L_t1是t1时刻字符的预测发音长度，对所有时刻的字符预测发音长度以后，获得长度预测矩阵L₁×T_out，L₁是所有时刻的字符预测发音长度集合。

优选的，所述重采样模块，具体用于：根据每个时刻预测的发音长度，通过一个全连接层y_t2＝W_L*x_t2+b_L对长度预测矩阵L₁×T_out进行重采样，其中，x_t2是t2时刻的输入且t2∈[0,T_out]，W_L是长度为L_t1的全连接层权重参数，b_L是长度为L_t1的全连接层偏置参数，y_t2是重采样后t2时刻的输出，得到每个时刻的输出结果以后，将每个时刻的输出结果y₀,y₁,y₂...

进行拼接，获得重采样矩阵Y×T_out。

本发明的优点在于：

(1)本发明首先训练字符向量，得到预训练的字符向量矩阵，其次预测文本中每个字符的发音长度，从而得到文本与待合成波形间的映射关系，进而按照预测的发音长度等比例重采样得到与预测波形长度相近的重采样矩阵，整体通过多层一维卷积层和双向递归神经网络进行最终波形的预测，采用多层一维卷积层和神经网络，使得模型收敛快，稳定性强。

(2)通过大量文本预训练含有语义信息的字符向量，在输入待训练的字符向量的同时，合并入参数冻结的预训练的字符向量，从而整体句子矩阵包含必要的语义信息，提高语音合成的自然度。

附图说明

图1为波形拼接的方法实现语音合成的示意图；

图2为参数合成的方法实现语音合成的示意图；

图3为完全端到端波形生成神经网络实现语音合成的示意图；

图4为本发明实施例1所公开的一种语音合成的方法的流程示意图；

图5为本发明实施例2所公开的一种语音合成的装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图4所示，一种语音合成的方法，所述方法包括：

首先通过预设数量的文本训练字符向量，获取预训练的字符向量矩阵，具体过程为：将长度为L的文本的每个字进行编号，上下文窗口大小均为a，将上下文的共2a个字符的字向量相加，然后再通过一个全连接层对这些字向量进行编码映射，得到预训练的字符向量矩阵V₀×L，V₀为预测的中心字符的字向量。这里获取预训练的字符向量矩阵属于现有技术的CBOW(Continuous Bag-Of-Words，连续词袋模型)的方式，在此不做过多赘述。

然后，将长度为L的输入文本的每个字符进行编号，然后按照编号将每个字符通过查表对应转换为固定长度V₁的向量，所有字符整体组成一个待训练的字符向量矩阵V₁×L。其中，每个字符在向量表格中对应有一个固定长度的向量，所以待训练的字符向量矩阵只需要查表即可，且向量表格属于现有技术的表格，本领域技术人员很容易获知，在此不做赘述。

接着，将预训练的字符向量矩阵V₀×L与待训练的字符向量矩阵V₁×L相拼接，得到整体句子矩阵(V₀+V₁)×L，这一步骤的目的是，通过大量文本预训练含有语义信息的字符向量，在输入待训练的字符向量的同时，合并入参数冻结的预训练的字符向量，从而整体句子矩阵包含必要的语义信息，提高语音合成的自然度。

然后，通过多层一维卷积层，对整体句子矩阵进行编码，获得编码矩阵，具体过程为：将整体句子矩阵(V₀+V₁)×L中的V₀+V₁重命名为C_in，L重命名为L_in，通过卷积公式

是互相关运算符。

接着，通过一层双向递归神经网络，对编码矩阵继续编码，获得再编码矩阵，具体过程为：将编码矩阵C_out×L_out重命名为矩阵X_in×T_in且C_out＝X_in，L_out＝T_in，通过一层双向递归神经网络

i_t＝σ(W_iix_t+b_ii+W_hih_(t-1)+b_hi)

f_t＝σ(W_ifx_t+b_if+W_hfh_(t-1)+b_hf)

g_t＝tanh(W_igx_t+b_ig+W_hgh_(t-1)+b_hg)

o_t＝σ(W_iox_t+b_io+W_hoh_(t-1)+b_ho)

c_t＝f_t*c_(t-1)+i_t*g_t

h_t＝o_t*tanh(c_t)

紧接着，将再编码矩阵通过一个全连接层进行发音长度预测，获得长度预测矩阵，具体过程为：对再编码矩阵X_out×T_out通过全连接层L_t1＝round(W*x_t1+b)进行发音长度预测，x_t1是t1时刻的输入且t1∈[0,T_out]，W是全连接层的权重，b是全连接层的偏置，round是四舍五入取整函数，L_t1是t1时刻字符的预测发音长度，对所有时刻的字符预测发音长度以后，获得长度预测矩阵L₁×T_out，L₁是所有时刻的字符预测发音长度集合。

然后，再通过一个全连接层对长度预测矩阵进行重采样，获得重采样矩阵，具体过程为：根据每个时刻预测的发音长度，通过一个全连接层y_t2＝W_L*x_t2+b_L对长度预测矩阵L₁×T_out进行重采样，其中，x_t2是t2时刻的输入且t2∈[0,T_out]，W_L是长度为L_t1的全连接层权重参数，b_L是长度为L_t1的全连接层偏置参数，y_t2是重采样后t2时刻的输出，得到每个时刻的输出结果以后，将每个时刻的输出结果y₀,y₁,y₂...

进行拼接，获得重采样矩阵Y×T_out。

最后，将重采样矩阵通过多层一维卷积层进行解码，再通过一层双向递归神经网络进行再解码，得到再解码矩阵，将再解码矩阵映射到预设的位宽数值范围内，得到输出波形。其中解码过程与前文对整体句子矩阵进行编码的过程类似，公式也相同，只是这里输入不同，输入的是重采样矩阵，再解码的过程与前文对编码矩阵继续编码的过程类似，公式相同，只是这里输入不同，输入的是经过解码以后的结果值，所以在此对解码和再解码的过程不做过多描述。另外，本发明得到再解码矩阵以后，将再解码矩阵首先通过tanh函数映射到映射到-1至1的区间，再整体乘以系数32768，将再解码矩阵映射到-32768到32767的16位宽的数值范围内，得到最终输出波形。

需要说明的是，图4中编码器相当于本发明的编码和再编码的过程，解码器和声码器相当于本发明的解码和再解码的过程。

通过以上技术方案，本发明提供的一种语音合成方法，首先训练字符向量，得到预训练的字符向量矩阵，其次预测文本中每个字符的发音长度，从而得到文本与待合成波形间的映射关系，进而按照预测的发音长度等比例重采样得到与预测波形长度相近的重采样矩阵，整体通过多层一维卷积层和双向递归神经网络进行最终波形的预测，采用多层一维卷积层和神经网络，使得模型收敛快，稳定性强。

实施例2

如图5所示，与本发明实施例1相对应的，本发明实施例2还提供一种语音合成的装置，所述装置包括：

具体的，所述预训练模块，具体用于：将长度为L的文本的每个字进行编号，上下文窗口大小均为a，将上下文的共2a个字符的字向量相加，然后再通过一个全连接层对这些字向量进行编码映射，得到预训练的字符向量矩阵V₀×L，V₀为预测的中心字符的字向量。

具体的，所述待训练模块，具体用于：将长度为L的输入文本的每个字符进行编号，然后按照编号将每个字符通过查表对应转换为固定长度V₁的向量，所有字符整体组成一个待训练的字符向量矩阵V₁×L。

具体的，所述拼接模块，具体用于：将预训练的字符向量矩阵V₀×L与待训练的字符向量矩阵V₁×L相拼接，得到整体句子矩阵(V₀+V₁)×L。

具体的，所述编码模块，具体用于：将整体句子矩阵(V₀+V₁)×L中的V₀+V₁重命名为C_in，L重命名为L_in，通过卷积公式

是互相关运算符。

具体的，所述再编码模块，具体用于：将编码矩阵C_out×L_out重命名为矩阵X_in×T_in且C_out＝X_in，L_out＝T_in，通过一层双向递归神经网络

i_t＝σ(W_iix_t+b_ii+W_hih_(t-1)+b_hi)

f_t＝σ(W_ifx_t+b_if+W_hfh_(t-1)+b_hf)

g_t＝tanh(W_igx_t+b_ig+W_hgh_(t-1)+b_hg)

o_t＝σ(W_iox_t+b_io+W_hoh_(t-1)+b_ho)

c_t＝f_t*c_(t-1)+i_t*g_t

h_t＝o_t*tanh(c_t)

具体的，所述长度预测模块，具体用于：对再编码矩阵X_out×T_out通过全连接层L_t1＝round(W*x_t1+b)进行发音长度预测，x_t1是t1时刻的输入且t1∈[0,T_out]，W是全连接层的权重，b是全连接层的偏置，round是四舍五入取整函数，L_t1是t1时刻字符的预测发音长度，对所有时刻的字符预测发音长度以后，获得长度预测矩阵L₁×T_out，L₁是所有时刻的字符预测发音长度集合。

具体的，所述重采样模块，具体用于：根据每个时刻预测的发音长度，通过一个全连接层y_t2＝W_L*x_t2+b_L对长度预测矩阵L₁×T_out进行重采样，其中，x_t2是t2时刻的输入且t2∈[0,T_out]，W_L是长度为L_t1的全连接层权重参数，b_L是长度为L_t1的全连接层偏置参数，y_t2是重采样后t2时刻的输出，得到每个时刻的输出结果以后，将每个时刻的输出结果y₀,y₁,y₂...

进行拼接，获得重采样矩阵Y×T_out。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音合成的方法，其特征在于，所述方法包括：

通过预设数量的文本训练字符向量，获取预训练的字符向量矩阵；包括：将长度为L的文本的每个字进行编号，上下文窗口大小均为a，将上下文的共2a个字符的字向量相加，然后再通过一个全连接层对这些字向量进行编码映射，得到预训练的字符向量矩阵V₀×L，V₀为预测的中心字符的字向量；

通过字嵌入对输入文本进行编码，获取待训练的字符向量矩阵；包括：将长度为L的输入文本的每个字符进行编号，然后按照编号将每个字符通过查表对应转换为固定长度V₁的向量，所有字符整体组成一个待训练的字符向量矩阵V₁×L；

将预训练的字符向量矩阵与待训练的字符向量矩阵相拼接，获取整体句子矩阵；包括：将预训练的字符向量矩阵V₀×L与待训练的字符向量矩阵V₁×L相拼接，得到整体句子矩阵(V₀+V₁)×L；

通过多层一维卷积层，对整体句子矩阵进行编码，获得编码矩阵；包括：将整体句子矩阵(V₀+V₁)×L中的V₀+V₁重命名为C_in，L重命名为L_in，通过卷积公式

对整体句子矩阵进行编码，获得编码矩阵C_out×L_out，其中，x(k)是第k个输入通道的值且x(k)＝C_in×L_in，k是输入通道的索引且0≤k<C_in，y(C_outi)是第i个输出通道的值，C_in是输入通道的数量，C_out是输出通道的数量，i是输出通道的索引且0≤i<C_out，bias是输出通道的偏置，bias(C_outi)是第i个输出通道的偏置，weight是输出通道的权重，weight(C_outi)是第i个输出通道的权重，

是互相关运算符；

2.根据权利要求1所述的一种语音合成的方法，其特征在于，所述通过一层双向递归神经网络，对编码矩阵继续编码，获得再编码矩阵，包括：将编码矩阵C_out×L_out重命名为矩阵X_in×T_in且C_out＝X_in，L_out＝T_in，通过一层双向递归神经网络

i_t＝σ(W_iix_t+b_ii+W_hih_(t-1)+b_hi)

f_t＝σ(W_ifx_t+b_if+W_hfh_(t-1)+b_hf)

g_t＝tanh(W_igx_t+b_ig+W_hgh_(t-1)+b_hg)

o_t＝σ(W_iox_t+b_io+W_hoh_(t-1)+b_ho)

c_t＝f_t*c_(t-1)+i_t*g_t

h_t＝o_t*tanh(c_t)

3.根据权利要求2所述的一种语音合成的方法，其特征在于，所述将再编码矩阵通过一个全连接层进行发音长度预测，获得长度预测矩阵，包括：对再编码矩阵X_out×T_out通过全连接层L_t1＝round(W*x_t1+b)进行发音长度预测，x_t1是t1时刻的输入且t1∈[0,T_out]，W是全连接层的权重，b是全连接层的偏置，round是四舍五入取整函数，L_t1是t1时刻字符的预测发音长度，对所有时刻的字符预测发音长度以后，获得长度预测矩阵L₁×T_out，L₁是所有时刻的字符预测发音长度集合。

4.根据权利要求3所述的一种语音合成的方法，其特征在于，所述再通过一个全连接层对长度预测矩阵进行重采样，获得重采样矩阵，包括：根据每个时刻预测的发音长度，通过一个全连接层y_t2＝W_L*x_t2+b_L对长度预测矩阵L₁×T_out进行重采样，其中，x_t2是t2时刻的输入且t2∈[0,T_out]，W_L是长度为L_t1的全连接层权重参数，b_L是长度为L_t1的全连接层偏置参数，y_t2是重采样后t2时刻的输出，得到每个时刻的输出结果以后，将每个时刻的输出结果

进行拼接，获得重采样矩阵Y×T_out。

5.一种语音合成的装置，其特征在于，所述装置包括：

预训练模块，用于通过预设数量的文本训练字符向量，获取预训练的字符向量矩阵；具体用于：将长度为L的文本的每个字进行编号，上下文窗口大小均为a，将上下文的共2a个字符的字向量相加，然后再通过一个全连接层对这些字向量进行编码映射，得到预训练的字符向量矩阵V₀×L，V₀为预测的中心字符的字向量；

待训练模块，用于通过字嵌入对输入文本进行编码，获取待训练的字符向量矩阵；具体用于：将长度为L的输入文本的每个字符进行编号，然后按照编号将每个字符通过查表对应转换为固定长度V₁的向量，所有字符整体组成一个待训练的字符向量矩阵V₁×L；

拼接模块，用于将预训练的字符向量矩阵与待训练的字符向量矩阵相拼接，获取整体句子矩阵；具体用于：将预训练的字符向量矩阵V₀×L与待训练的字符向量矩阵V₁×L相拼接，得到整体句子矩阵(V₀+V₁)×L；

编码模块，用于通过多层一维卷积层，对整体句子矩阵进行编码，获得编码矩阵；包括：将整体句子矩阵(V₀+V₁)×L中的V₀+V₁重命名为C_in，L重命名为L_in，通过卷积公式

是互相关运算符；