CN114360490B

CN114360490B - 语音合成方法、装置、计算机设备和存储介质

Info

Publication number: CN114360490B
Application number: CN202210096027.XA
Authority: CN
Inventors: 张�雄
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2024-07-09
Anticipated expiration: 2042-01-26
Also published as: CN114360490A

Abstract

本申请涉及一种语音合成方法、装置、计算机设备和存储介质，涉及到人工智能和语音合成等技术领域，包括：从音频帧特征序列中按序地确定当前音频帧特征，并将当前音频帧特征输入到已训练的语音合成模型中进行处理，得到当前音频帧特征对应的语音合成数据；在当前记录的累积合成数据的基础上添加当前音频帧特征对应的语音合成数据，得到更新后的累积合成数据；基于更新后的累积合成数据确定语音片段；将音频帧特征序列中的下一音频帧特征确定为新的当前音频帧特征，返回将当前音频帧特征输入到已训练的语音合成模型中进行处理的步骤，直至得到各个音频帧特征对应的语音片段。采用本方法能够提高合成语音的效率。

Description

语音合成方法、装置、计算机设备和存储介质

技术领域

本申请涉及语音合成技术领域，特别是涉及一种语音合成方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的发展，出现了语音合成技术，语音合成技术用于合成语音，例如可以合成文本对应的语音。语音合成技术应用在很多场景中，例如可以应用于语音助手、车载导航等场景中。

目前，用于合成语音的方法有很多，然而采用目前的语音合成方法所合成的语音所消耗的时间较多，导致合成的语音的效率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高合成语音的效率的语音合成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

一方面，本申请提供了一种语音合成方法。所述方法包括：获取待进行语音合成的音频帧特征序列；从所述音频帧特征序列中按序地确定当前音频帧特征，并将所述当前音频帧特征输入到已训练的语音合成模型中进行处理，得到所述当前音频帧特征对应的语音合成数据；在当前记录的累积合成数据的基础上添加所述当前音频帧特征对应的语音合成数据，得到更新后的累积合成数据；所述当前记录的累积合成数据包括所述当前音频帧特征之前的至少部分音频帧特征对应的语音合成数据；基于所述更新后的累积合成数据，确定对应于所述当前音频帧特征的、且符合预设帧移长度的语音片段；将所述音频帧特征序列中的下一音频帧特征确定为新的当前音频帧特征，返回所述将所述当前音频帧特征输入到已训练的语音合成模型中进行处理以继续执行，直至得到所述音频帧特征序列中各个音频帧特征对应的语音片段；将所述音频帧特征序列中的每个音频帧特征对应的语音片段按序拼接，合成目标语音。

另一方面，本申请还提供了一种语音合成装置。所述装置包括：序列获取模块，用于获取待进行语音合成的音频帧特征序列；特征确定模块，用于从所述音频帧特征序列中按序地确定当前音频帧特征，并将所述当前音频帧特征输入到已训练的语音合成模型中进行处理，得到所述当前音频帧特征对应的语音合成数据；数据添加模块，用于在当前记录的累积合成数据的基础上添加所述当前音频帧特征对应的语音合成数据，得到更新后的累积合成数据；所述当前记录的累积合成数据包括所述当前音频帧特征之前的至少部分音频帧特征对应的语音合成数据；片段确定模块，用于基于所述更新后的累积合成数据，确定对应于所述当前音频帧特征的、且符合预设帧移长度的语音片段；返回模块，用于将所述音频帧特征序列中的下一音频帧特征确定为新的当前音频帧特征，返回所述将所述当前音频帧特征输入到已训练的语音合成模型中进行处理以继续执行，直至得到所述音频帧特征序列中各个音频帧特征对应的语音片段；拼接模块，用于将所述音频帧特征序列中的每个音频帧特征对应的语音片段按序拼接，合成目标语音。

在一些实施例中，所述序列获取模块还用于：获取待进行语音合成的目标文本对应的目标音频特征；对所述目标音频特征进行切分，得到待进行语音合成的多个音频帧特征序列；所述拼接模块还用于：对于每个所述音频帧特征序列，将所述音频帧特征序列中的每个音频帧特征对应的语音片段按序拼接，得到所述音频帧特征序列预测出的拼接片段；按照各个所述音频帧特征序列在所述目标音频特征中的排序，对各个所述音频帧特征序列预测出的拼接片段进行拼接，合成所述目标文本对应的目标语音。

在一些实施例中，所述特征确定模块还用于：获取每个所述音频帧特征序列对应的辅助音频特征；所述辅助音频特征包括至少一个辅助音频帧特征；每个辅助音频帧特征用于表征一个辅助音频帧的特征；将每个所述音频帧特征序列与相应的辅助音频特征进行拼接，得到多个拼接音频帧特征序列；针对每个所述拼接音频帧特征序列，从所述拼接音频帧特征序列中按序地确定当前音频帧特征。

在一些实施例中，所述序列获取模块还用于：确定所述辅助音频特征中包括的辅助音频帧特征的帧特征数量；根据所述预设帧移长度与所述帧特征数量的乘积，确定重叠长度；按照各个所述音频帧特征序列在所述目标音频特征中的排序以及所述重叠长度，对各个所述音频帧特征序列预测出的拼接片段进行拼接，以将在前的拼接片段中符合所述重叠长度的尾部数据与在后的拼接片段中符合所述重叠长度的头部数据进行融合，生成所述目标文本对应的目标语音。

在一些实施例中，所述特征确定模块还用于：获取所述当前音频帧特征的前向音频帧特征预测出的语音片段，得到前向语音片段；获取所述音频帧特征序列对应的当前参考语音片段，将所述前向语音片段拼接到当前参考语音片段之后，得到更新后的参考语音片段；从所述更新后的参考语音片段中选取预设帧长的尾部数据，得到参考音频帧，对所述参考音频帧进行音频特征的提取，得到参考音频帧特征；将所述当前音频帧特征与所述参考音频帧特征进行拼接，将拼接后的特征输入到已训练的语音合成模型中进行处理，得到所述当前音频帧特征对应的语音合成数据。

在一些实施例中，在所述从所述音频帧特征序列中按序地确定当前音频帧特征之前，所述装置还用于：获取所述音频帧特征序列对应的初始化的参考语音片段；对所述初始化的参考语音片段进行音频特征提取，得到所述初始化语音片段的音频提取特征；获取初始化音频特征，将所述音频提取特征与所述初始化音频特征进行拼接，并将拼接所得到的特征输入到所述语音合成模型中进行处理，得到初始化合成数据，并将所述初始化合成数据进行记录。

在一些实施例中，所述特征确定模块还用于：将所述当前音频帧特征输入到已训练的语音合成模型中进行第一卷积处理，得到所述当前音频帧特征对应的第一卷积数据；基于所述当前音频帧特征对应的第一卷积数据以及当前记录的累积卷积数据，生成所述当前音频帧特征对应的语音合成数据；所述当前记录的累积卷积数据，包括所述当前音频帧特征之前的至少部分音频帧特征对应的第一卷积数据。

在一些实施例中，所述特征确定模块还用于：将所述当前音频帧特征输入到已训练的语音合成模型中进行上采样处理，得到所述当前音频帧特征对应的上采样数据；在当前记录的累积上采样数据的基础上添加所述当前音频帧对应的上采样数据，得到更新后的累积上采样数据；所述当前记录的累积上采样数据，包括所述当前音频帧特征之前的至少部分音频帧特征对应的上采样数据；从所述更新后的累积上采样数据中选取待进行第一卷积处理的数据片段，得到第一数据片段；利用所述已训练的语音合成模型，对所述第一数据片段进行第一卷积处理，得到所述当前音频帧特征对应的第一卷积数据。

在一些实施例中，所述特征确定模块还用于：在所述当前记录的累积卷积数据的基础上添加所述当前音频帧特征对应的第一卷积数据，得到更新后的累积卷积数据；从所述更新后的累积卷积数据中选取待进行第二卷积处理的数据片段，得到第二数据片段；利用所述已训练的语音合成模型，对所述第二数据片段进行第二卷积处理，得到所述当前音频帧特征对应的第二卷积数据；将所述第二卷积数据与所述第二数据片段进行融合，得到所述当前音频帧特征对应的语音合成数据。

在一些实施例中，所述第二卷积数据的数据维度小于所述第二数据片段的数据维度；所述特征确定模块还用于：确定所述第二卷积数据对应的数据长度；从所述第二数据片段中选取符合所述数据长度的部分数据，得到第三数据片段；将所述第三数据片段与所述第二卷积数据进行融合，得到所述当前音频帧特征对应的语音合成数据。

在一些实施例中，所述数据添加模块还用于：将所述当前音频帧特征对应的语音合成数据拼接在当前记录的累积合成数据之后，得到更新后的累积合成数据；所述片段确定模块还用于：从所述更新后的累积合成数据中选取符合预设帧移长度的尾部数据，得到对应于所述当前音频帧特征的、且符合预设帧移长度的语音片段。

在一些实施例中，所述装置还包括模型训练模块，所述模型训练模块用于：将样本音频帧特征序列的首个样本音频帧特征确定为当前样本音频帧特征，将所述当前样本音频帧特征输入到待训练的语音合成模型中进行处理，得到所述当前样本音频帧特征对应的样本语音合成数据；在当前记录的样本累积合成数据的基础上添加所述当前样本音频帧特征对应的样本语音合成数据，得到更新后的样本累积合成数据；所述当前记录的样本累积合成数据，是由所述当前音频帧特征之前的至少部分音频帧特征对应的样本语音合成数据累积得到的；基于所述更新后的样本累积合成数据，确定对应于所述当前样本音频帧特征的、且符合所述预设帧移长度的预测语音片段；将样本音频帧特征序列中的下一样本音频帧特征确定为新的当前样本音频帧特征，返回将所述当前样本音频帧特征输入到待训练的语音合成模型中进行处理以继续执行，直到得到所述样本音频帧特征序列的各个样本音频帧特征对应的预测语音片段；根据所述样本音频帧特征序列的各个样本音频帧特征对应的预测语音片段，合成所述样本音频帧特征序列的预测语音；基于所述样本音频帧特征序列的标准语音与所述预测语音之间的差异信息，调整所述语音合成模型的模型参数，得到所述已训练的语音合成模型。

另一方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述语音合成方法中的步骤。

另一方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述语音合成方法中的步骤。

另一方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述语音合成方法中的步骤。

上述语音合成方法、装置、计算机设备、存储介质和计算机程序产品，获取待进行语音合成的音频帧特征序列，从音频帧特征序列中按序地确定当前音频帧特征，并将当前音频帧特征输入到已训练的语音合成模型中进行处理，得到当前音频帧特征对应的语音合成数据；在当前记录的累积合成数据的基础上添加当前音频帧特征对应的语音合成数据，得到更新后的累积合成数据，基于更新后的累积合成数据，确定对应于当前音频帧特征的、且符合预设帧移长度的语音片段，将音频帧特征序列中的下一音频帧特征确定为新的当前音频帧特征，返回将当前音频帧特征输入到已训练的语音合成模型中进行处理以继续执行，直到得到音频帧特征序列中各个音频帧特征对应的语音片段，将音频帧特征序列中的每个音频帧特征对应的语音片段按序拼接，合成目标语音。由于记录的数据可以直接使用，而不要重复的处理以得到记录的数据，从而提高了合成语音的效率。

附图说明

图1为一些实施例中语音合成方法的应用环境图；

图2为一些实施例中语音合成方法的流程示意图；

图3为一些实施例中对拼接片段进行拼接的原理图；

图4为一些实施例中生成语音片段的原理图；

图5为一些实施例中音频特征提取网络的结构图；

图6为一些实施例中语音合成模型的结构图；

图7为一些实施例中生成语音片段的原理图；

图8为一些实施例中生成语音片段的原理图；

图9为一些实施例中卷积网络的结构图；

图10A为一些实施例中训练语音合成模型的原理图；

图10B为一些实施例中生成预测语音的原理图；

图11为一些实施例中语音合成方法的流程示意图；

图12为一些实施例中语音合成装置的结构框图；

图13为一些实施例中计算机设备的内部结构图；

图14为一些实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的语音合成方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他服务器上。

具体地，终端102可以向服务器104发送语音合成请求，语音合成请求中可以携带目标文本，目标文本为待进行语音合成的文本，服务器104可以基于目标文本生成音频帧特征序列，服务器104可以获取待进行语音合成的音频帧特征序列，从音频帧特征序列中按序地确定当前音频帧特征，并将当前音频帧特征输入到已训练的语音合成模型中进行处理，得到当前音频帧特征对应的语音合成数据，在当前记录的累积合成数据的基础上添加当前音频帧特征对应的语音合成数据，得到更新后的累积合成数据，当前记录的累积合成数据包括当前音频帧特征之前的至少部分音频帧特征对应的语音合成数据，基于更新后的累积合成数据，确定对应于当前音频帧特征的、且符合预设帧移长度的语音片段，将音频帧特征序列中的下一音频帧特征确定为新的当前音频帧特征，返回将当前音频帧特征输入到已训练的语音合成模型中进行处理以继续执行，直至得到音频帧特征序列中各个音频帧特征对应的语音片段，将音频帧特征序列中的每个音频帧特征对应的语音片段按序拼接，合成目标文本对应的目标语音。服务器104可以将目标语音返回至终端102，终端102可以播放目标语音。例如，目标文本为“今天星期一”，则合成“今天星期一”对应的语音。

其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本申请提供的语音合成方法，可以应用于语音合成技术领域中，例如可以利用本申请提供的语音合成方法合成文本对应的语音。

本申请提供的语音合成方法可以是基于人工智能的，例如，本申请中的音频帧特征是利用人工智能的神经网络模型提取得到的。

其中，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的人工神经网络等技术，具体通过如下实施例进行说明：

在一个实施例中，如图2所示，提供了一种语音合成方法，该方法可以由服务器或终端执行，也可以由终端和服务器共同执行，本申请实施例中，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

步骤202，获取待进行语音合成的音频帧特征序列。

其中，音频帧特征用于表征语音中的一个音频帧的特征。音频帧是指语音波形中长度为帧长的数据序列，语音波形用于反映语音的波形，例如对于录制的语音，可以通过对录制的语音进行采样，得到该语音的语音波形，对该语音波形进行分帧，得到多个音频帧，帧长是指一个音频帧的长度，可以用采样点的个数表示帧长，例如，帧长对应256个采样点，则一个音频帧中包括256个数值。音频帧特征序列中是由多个音频帧特征排列成的序列，多个是指至少两个。音频帧特征可以是通过文本确定的，例如，可以获取文本中音素的特征，基于音素的特征确定音频帧特征。音频帧特征包括但不限于是梅尔谱特征或者对文本进行语义特征的提取所提取出的文本语义特征中的至少一个。音频帧特征序列可以是服务器中预先存储的，也可以是服务器响应于语音合成请求，基于语音合成请求中携带的目标文本生成的。步骤202中的音频帧特征序列对应的语音波形是未知的，是需要预测的。

具体地，终端可以展示语音合成界面，在语音合成界面中展示文本输入区域，文本输入区域用于获取待进行语音合成的文本，终端通过语音合成界面接收语音合成请求，响应于该语音合成请求，获取在文本输入区域中输入的目标文本，生成携带该目标文本的语音合成请求，向服务器发送该语音合成请求。服务器从该语音合成请求中提取出目标文本，基于该目标文本确定待进行语音合成的音频帧特征序列，服务器可以基于该音频帧特征序列合成该目标文本对应的目标语音。

步骤204，从音频帧特征序列中按序地确定当前音频帧特征，并将当前音频帧特征输入到已训练的语音合成模型中进行处理，得到当前音频帧特征对应的语音合成数据。

其中，当前音频帧特征为音频帧特征序列中的音频帧特征，当前音频帧特征可以是不断变化的，可以按照音频帧特征在音频帧特征序列中的排序，确定当前音频帧特征，例如，首先将排列在前的音频帧特征确定为当前音频帧特征，例如，首先将音频帧特征序列中的首个音频帧特征确定为当前音频帧特征，对当前音频帧特征处理完成后，将音频帧特征序列中排列在第二位的音频帧特征确定为当前音频帧特征。

语音合成模型是用于合成语音的模型，可以是神经网络模型，例如可以是基于神经网络模型构建的神经声码器(Neural vocoder)，神经声码器是端到端语音合成系统中的后端算法模块，是用于将声学特征转换为语音波形的模块。语音合成模型可以是基于TTS(Text-to-Speech，从文本到语音)计算的，TTS技术是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。

当前音频帧特征对应的语音合成数据，是指语音合成模型基于当前音频帧特征所合成的数据。

具体地，服务器可以将当前音频帧特征输入到已训练的语音合成模型中，生成当前音频帧特征对应的语音合成数据。语音合成模型中可以包括卷积层(ConvolutionalNeural Network，CNN)，服务器可以利用语音合成模型中的卷积层对当前音频帧特征进行卷积处理，生成当前音频帧特征对应的语音合成数据。

在一些实施例中，语音合成模型中还包括上采样层，服务器可以利用语音合成模型中的上采样层对当前音频帧特征进行上采样，根据上采样的结果中选取进行卷积的数据，将选取的进行卷积的数据输入到语音合成模型的卷积层中进行卷积处理，生成当前音频帧特征对应的语音合成数据。

在一些实施例中，在从音频帧特征序列中按序确定当前音频帧特征之前，还包括：获取目标音频帧特征序列对应的初始化音频特征，将初始化音频特征输入到语音合成模型中进行处理，得到初始化合成数据，并将初始化合成数据进行记录。当将目标音频帧特征序列中的首个音频帧特征作为当前音频帧特征时，服务器可以将初始化合成数据确定为当前记录的累积合成数据，将当前音频帧特征对应的语音合成数据添加在初始化合成数据中，得到更新后的累积合成数据。其中，初始化音频特征可以是设置的，例如可以是数值全为0的特征。初始化音频特征中包括的音频帧的数量可以与目标音频帧特征序列中包括的音频帧的数量一致，或者大于目标音频帧特征序列中包括的音频帧的数量。

在一些实施例中，服务器记录的累积合成数据的长度是固定的，服务器得到当前音频帧特征对应的语音合成数据后，确定该语音合成数据的数据长度，得到第一数据长度，将当前记录的累积合成数据的第一数据长度的头部数据删除，并将该语音合成数据添加到当前记录的累积合成数据的尾部，得到更新后的累积合成数据。从而使得服务器记录的累积合成数据的长度是固定的。

在一些实施例中，服务器可以利用已经预测出的语音片段预测还未预测出的语音片段，例如，当首个音频帧特征对应的语音片段已经预测出后，可以利用该语音片段预测第二位的音频帧特征对应的语音片段。

步骤206，在当前记录的累积合成数据的基础上添加当前音频帧特征对应的语音合成数据，得到更新后的累积合成数据；当前记录的累积合成数据包括当前音频帧特征之前的至少部分音频帧特征对应的语音合成数据。

其中，由于音频帧特征序列中的每个音频帧特征按序作为当前音频帧特征，因此，音频帧特征序列中的每个音频帧特征都会生成对应的语音合成数据，在当前音频帧特征为音频帧特征序列中的首个音频帧特征时，当前音频帧特征之前是没有音频帧特征的，这种情况下，当前记录的累积合成数据可以是根据预设的数据生成的，例如，可以将预设的数据输入到语音合成模型中进行处理，得到该预设的数据对应的语音合成数据，将该预设的数据对应的语音合成数据，确定为首个音频帧特征作为当前音频帧特征时的当前记录的累积合成数据。在当前音频帧特征为音频帧特征序列中的非首个音频帧特征时，当前记录的累积合成数据包括当前音频帧特征之前的至少部分音频帧特征对应的语音合成数据，至少部分可以为一个、多个或所有中的任意一个，例如，当前音频帧特征为音频帧特征序列中的排列在第三位的音频帧特征时，则当前记录的累积合成数据可以包括首个音频帧特征对应的语音合成数据、以及排列在第二位的音频帧特征对应的语音合成数据。

具体地，服务器可以将当前记录的累积合成数据与当前音频帧特征对应的语音合成数据进行拼接，得到更新后的累积合成数据，例如，服务器可以将当前音频帧特征对应的语音合成数据拼接在当前记录的累积合成数据之后，将拼接的结果确定为更新后的累积合成数据。或者，服务器可以将当前音频帧特征对应的语音合成数据拼接在当前记录的累积合成数据之前，将拼接的结果确定为更新后的累积合成数据。

步骤208，基于更新后的累积合成数据，确定对应于当前音频帧特征的、且符合预设帧移长度的语音片段。

其中，帧移长度是指相邻的音频帧之间的间隔，可以用采样点的个数表示，例如，第一个音频帧为语音波形片段中的第1个采样点到到200个采样点，第二个音频帧为语音片段波形中的第101个采样点到第300个采样点，由于101与1之间的间隔为100，故帧移长度为100。语音片段的长度为预设帧移长度，例如，预设帧移长度为100，则语音片段是包括100个数值的序列，语音片段也可以称为语音波形片段。预设帧移长度可以根据语音合成模型的模型结构确定，例如，当语音合成模型中包括上采样层时，预设帧移长度可以基于上采样层的采样倍数确定，预设帧移长度与上采样层的采样倍数成正相关关系。音频帧特征序列中的每个音频帧特征作为当前音频帧特征时，均会产生对应的语音片段。

正相关关系指的是：在其他条件不变的情况下，两个变量变动方向相同，一个变量由大到小变化时，另一个变量也由大到小变化。可以理解的是，这里的正相关关系是指变化的方向是一致的，但并不是要求当一个变量有一点变化，另一个变量就必须也变化。例如，可以设置当变量a为10至20时，变量b为100，当变量a为20至30时，变量b为120。这样，a与b的变化方向都是当a变大时，b也变大。但在a为10至20的范围内时，b可以是没有变化的。

具体地，对于当前音频帧特征，服务器可以从更新后的累积合成数据中选取预设帧移长度的数据，得到当前音频帧特征的语音片段，例如，可以从更新后的累积合成数据的尾部选择预设帧移长度的数据，作为当前音频帧特征的语音片段。

步骤210，将音频帧特征序列中的下一音频帧特征确定为新的当前音频帧特征，返回将当前音频帧特征输入到已训练的语音合成模型中进行处理以继续执行，直至得到音频帧特征序列中各个音频帧特征对应的语音片段。

其中，下一音频帧特征是指当前音频帧特征之后的一个音频帧特征，例如当前音频帧特征为音频帧特征序列中排列在第一位的音频帧特征(即首个音频帧特征)，则下一音频帧特征为排列在第二位的音频帧特征，从而排列在第二位的音频帧特征为新的当前音频帧特征。

具体地，服务器确定新的当前音频帧特征后，返回将当前音频帧特征输入到已训练的语音合成模型中进行处理，得到新的当前音频特征对应的语音合成数据的步骤，从而得到对应于该新的当前音频特征的、且符合预设帧移长度的语音片段。从而通过多次的迭代，生成了音频帧特征序列中的每个音频帧特征对应的语音片段，并且每个语音片段的长度为预设帧移长度。

在一些实施例中，服务器可以将音频帧特征序列中的下一音频帧特征确定为新的当前音频帧特征，并将更新后的累积合成数据确定为新的当前记录的累积合成数据，返回将当前音频帧特征输入到已训练的语音合成模型中进行处理以继续执行，直至得到音频帧特征序列中各个音频帧特征对应的语音片段。从而本次迭代得到的更新后的累积合成数据，为下一次迭代时的当前记录的累积合成数据。

步骤212，将音频帧特征序列中的每个音频帧特征对应的语音片段按序拼接，合成目标语音。

其中，目标语音为需要合成的语音。步骤202中的音频帧特征序列中，每个音频帧特征可以预测出预设帧移长度的语音片段，从而目标语音中包括音频帧特征序列中各个音频帧特征分别预测出的语音片段，并且，音频帧特征序列中的部分音频帧特征用于表征目标语音中的音频帧的特征，并且，相邻的音频帧特征所表征的音频帧之前的帧移长度为该预设帧移长度，例如，首个音频帧特征表征目标语音中的第一音频帧的特征，第二位的音频帧特征表征目标语音中的第二音频帧的特征，则第一音频帧与第二音频帧之间的帧移长度为该预设帧移长度。每个音频帧特征所表征的音频帧的帧长为预设帧长，音频帧特征预测出的语音片段为该音频帧特征所表征的音频帧中的前预设帧移长度的采样点，例如，预设帧移长度为100，预设帧长为500，即每个音频帧特征所表征的音频帧包括的采样点的个数为500，首个音频帧特征预测出的语音片段为第一音频帧中的前100个采样点，第二位的音频帧特征预测出的语音片段为第二音频帧中的前100个采样点，也是第一音频帧中的第101-200个采样点。从而将预测的各个语音片段拼接之后，最后一个音频帧特征所表征的500个采样点只预测出了前100个，故可以通过插值的方式，对最后一个音频帧特征所表征的500个采样点中的后400个采样点进行补充，从而得到目标语音，使得目标语音在时间长度与音频帧特征序列在时间长度上保持一致。

具体地，服务器可以按照音频帧特征在音频帧特征序列中的排序，对各个音频帧特征对应的语音片段进行拼接，合成目标语音。音频帧特征在音频帧特征序列的排序越靠前，则音频帧特征对应的语音片段在目标语音中的位置越靠前。

在一些实施例中，将音频帧特征序列中的每个音频帧特征对应的语音片段按序拼接，将拼接后的特征确定为拼接特征，基于拼接特征合成目标语音。具体地，音频帧特征序列可以有多个，对于每个音频帧特征序列，服务器可以利用上述步骤生成各个音频帧特征序列分别对应的拼接特征，将各个拼接特征进行拼接，从而合成目标语音。

上述语音合成方法中，获取待进行语音合成的音频帧特征序列，从音频帧特征序列中按序地确定当前音频帧特征，并将当前音频帧特征输入到已训练的语音合成模型中进行处理，得到当前音频帧特征对应的语音合成数据；在当前记录的累积合成数据的基础上添加当前音频帧特征对应的语音合成数据，得到更新后的累积合成数据，基于更新后的累积合成数据，确定对应于当前音频帧特征的、且符合预设帧移长度的语音片段，将音频帧特征序列中的下一音频帧特征确定为新的当前音频帧特征，返回将当前音频帧特征输入到已训练的语音合成模型中进行处理以继续执行，直到得到音频帧特征序列中各个音频帧特征对应的语音片段，将音频帧特征序列中的每个音频帧特征对应的语音片段按序拼接，合成目标语音。由于记录的数据可以直接使用，而不要重复的处理以得到记录的数据，从而提高了合成语音的效率。并且由于当前记录的累积合成数据包括当前音频帧特征之前的至少部分音频帧特征对应的语音合成数据，从而使得更新后的累积合成数据中不仅包括当前音频帧特征对应的语音合成数据，又可以包括当前音频帧特征之前的音频帧特征的语音合成数据，提高了基于更新后的累积合成数据得到的语音片段的准确度，从而提高了合成的目标语音的语音效果。

本申请提出的语音合成方法，可以应用于智能音箱、在线语音交互系统、智能语音助手、车载智能语音设备、同声传译等中，可以合成音质好、相似度高的语音，提高了人机交互效果。例如，在车载导航中，本申请提出的语音合成方法可以用于导航软件中语音合成系统中，提高合成语音的清晰度、音色相似度，减少合成的语音吐字不清晰或者发音不准的情况，提高语音的清晰度以及发音准确度。

本申请提出的语音合成方法，将生成的语音合成数据进行记录，在预测后面音频帧特征对应的语音片段时，可以直接使用前面的音频帧特征已经生成的语音合成数据，提高了语音合成的速度。而如果没有记录的话，如果要使用对前面的音频帧特征处理所的数据时，还需要重新的对前面的音频帧特征进行处理。故本申请的方法提高了语音合成的速度。

在一个实施例中，获取待进行语音合成的音频帧特征序列包括：获取待进行语音合成的目标文本对应的目标音频特征；对目标音频特征进行切分，得到待进行语音合成的多个音频帧特征序列；将音频帧特征序列中的每个音频帧特征对应的语音片段按序拼接，合成目标语音包括：对于每个音频帧特征序列，将音频帧特征序列中的每个音频帧特征对应的语音片段按序拼接，得到音频帧特征序列预测出的拼接片段；按照各个音频帧特征序列在目标音频特征中的排序，对各个音频帧特征序列预测出的拼接片段进行拼接，合成目标文本对应的目标语音。

其中，目标音频特征可以是利用神经网络生成的，目标音频特征可以是频谱特征，例如可以获取已训练的频谱特征提取网络，频谱特征提取网络用于基于文本生成频谱特征，可以将目标文本输入到频谱特征提取网络中进行频谱特征的提取，将提取出的特征确定为目标文本的目标音频特征。

目标音频特征包括多个音频帧特征，各个音频帧特征在目标音频特征中按照时间先后顺序排列，音频帧特征对应的时间越靠前，则音频帧特征在目标音频特征中的位置越靠前。目标音频特征中，一个音频帧特征用于表征目标语音中的一个音频帧的特征，音频帧特征对应的时间是指音频帧特征所表征的音频帧在目标语音中的播放时间。各个音频帧特征序列中包括的音频帧特征的数量可以相同，也可以不同。

具体地，服务器可以对目标音频特征进行均匀的切分，例如可以按照预设音频帧数量对目标音频特征进行切分，得到多个音频特征片段，切分得到的每个音频特征片段中包括预设音频帧数量的音频帧特征，例如，预设音频帧数量为10，则音频特征片段中包括10个音频帧特征。当然，服务器也可以对目标音频特征进行非均匀的切分，切分得到的每个音频特征片段所包括的音频帧特征的数量可以不同。服务器可以将每个音频特征片段分别确定为音频帧特征序列。

在一些实施例中，对于每个音频帧特征序列，服务器可以利用步骤204-步骤208，得到音频帧特征序列中的每个音频帧特征对应的语音片段。对于每个音频帧特征序列，服务器可以将音频帧特征序列中的每个音频帧特征对应的语音片段按序拼接，将拼接的结果确定为该音频帧特征序列预测出的拼接片段。服务器可以按照各个音频帧特征序列在目标音频特征中的排序(即位置)，对各个音频帧特征序列预测出的拼接片段进行拼接，合成目标文本对应的目标语音，目标音频特征中位置靠后的音频帧特征序列预测出的拼接片段，拼接于目标音频特征中位置靠前的音频帧特征序列预测出的拼接片段之后。

本实施例中，由于对目标音频特征进行切分，得到待进行语音合成的多个音频帧特征序列，从而可以并行的分别确定每个音频帧特征序列预测出的拼接片段，相比于将目标音频特征作为整体进行语音预测而言，并行的确定每个音频帧特征序列预测出的拼接片段的方法，提高了语音预测的效率。

在一个实施例中，从音频帧特征序列中按序地确定当前音频帧特征包括：获取每个音频帧特征序列对应的辅助音频特征；辅助音频特征包括至少一个辅助音频帧特征；每个辅助音频帧特征用于表征一个辅助音频帧的特征；将每个音频帧特征序列与相应的辅助音频特征进行拼接，得到多个拼接音频帧特征序列；针对每个拼接音频帧特征序列，从拼接音频帧特征序列中按序地确定当前音频帧特征。

其中，辅助音频帧可以是预设的音频帧，例如，辅助音频帧可以是数值全为0的音频帧。辅助音频帧特征用于表征辅助音频帧的特征，可以是基于辅助音频帧确定的，例如，当辅助音频帧为数值全为0的音频帧时，则辅助音频帧特征可以为数值全为0的特征。辅助音频特征中可以包括一个或多个辅助音频帧。每个音频帧特征序列分别对应有辅助音频特征，每个音频帧特征序列的辅助音频特征可以相同也可以不同。每个音频帧特征序列的辅助音频特征包括的辅助音频帧的数量可以相同也可以不同。

具体地，对于每个音频帧特征序列，服务器可以将该音频帧特征序列与该音频帧特征序列的辅助音频特征进行拼接，得到拼接音频帧特征序列，从而每个音频帧特征序列可以分别生成一个拼接音频帧特征序列。针对每个拼接音频帧特征序列，服务器可以从该拼接音频帧特征序列中按序地确定当前音频帧特征，并进入步骤204中的将当前音频帧特征输入到已训练的语音合成模型中进行处理，得到当前音频帧特征对应的语音合成数据，从而得到拼接音频帧特征序列中各个音频帧特征分别对应的预设帧移长度的语音片段。

在一些实施例中，对于每个拼接音频帧特征序列，得到该拼接音频帧特征序列中的各个音频帧特征分别对应的预设帧移长度的语音片段后，服务器可以拼接音频帧特征序列中的每个音频帧特征预测出的语音片段按序拼接，合成拼接片段。具体地，服务器可以按照音频帧特征在拼接音频帧特征序列中的排序，对各个音频帧特征预测出的语音片段进行拼接，合成拼接片段。

其中，由于拼接音频帧特征序列中不仅包括音频帧特征序列中的音频帧特征，还包括音频帧特征序列对应的辅助音频特征，因此，预测出的语音片段包括音频帧特征序列中的每个音频帧特征预测出的语音片段、以及辅助音频特征中的每个辅助音频帧特征预测出的语音片段，例如，音频帧特征序列中包括10个音频帧特征，辅助音频特征中包括5个辅助音频帧特征，则一共预测出15个语音片段，其中，有10个是由音频帧特征序列中的音频帧特征预测出的，有5个是由辅助音频特征中的辅助音频帧特征预测出的。

在一些实施例中，服务器可以按照音频帧特征序列在目标音频特征中的排序，对各个音频帧特征序列的拼接音频帧特征序列预测出的拼接片段进行有重叠的拼接，生成目标文本对应的目标语音，音频帧特征序列在目标音频特征中的位置越靠前，则音频帧特征序列的拼接音频帧特征序列预测出的拼接片段在拼接时的位置越靠前。其中，相邻的拼接片段之间的重叠数据的长度根据辅助音频特征中包括的辅助音频帧特征的数量确定，例如，重叠数据的长度可以与辅助音频特征中包括的辅助音频帧特征的数量以及预设帧移长度(即预测出的语音片段的长度)成正相关关系。由于拼接片段中包括了辅助音频特征中的各个辅助音频帧特征分别预测出的语音片段，而拼接片段中由音频帧特征序列中的音频帧特征预测出的语音片段才是需要的语义片段，故在将各个拼接片段进行拼接时，对各个拼接片段进行有重叠的拼接，从而将音频特征中的每个音频帧特征预测出的语音片段作为重叠的数据进行拼接，从而可以减少由于非重叠的拼接所造成的拼接处不平滑的情况，提高了拼接得到的目标语音的平滑度。

在一些实施例中，针对每个音频帧特征序列，服务器可以将辅助音频特征拼接在音频帧特征序列之前，得到拼接音频帧特征序列。或者，针对每个音频帧特征序列，服务器可以将辅助音频特征拼接在音频帧特征序列之后，得到拼接音频帧特征序列。

本实施例中，将每个音频帧特征序列与相应的辅助音频特征进行拼接，得到多个拼接音频帧特征序列，针对每个拼接音频帧特征序列，从拼接音频帧特征序列中按序地确定当前音频帧特征，从而使得预测出的语音片段中不仅包括音频帧特征序列中的各个音频帧特征预测出的语音片段，还包括了由辅助音频特征中的辅助音频帧特征预测出的语音片段，从而在将拼接片段进行拼接以合成目标文本的目标语音时，可以将片拼接片段之间进行有重叠的拼接，从而可以提高拼接片段拼接后的拼接处的平滑度，提高了合成的目标语音中的平滑度。

在一些实施例中，按照各个音频帧特征序列在目标音频特征中的排序，对各个音频帧特征序列预测出的拼接片段进行拼接，合成目标文本对应的目标语音包括：确定辅助音频特征中包括的辅助音频帧特征的帧特征数量；根据预设帧移长度与帧特征数量的乘积，确定重叠长度；按照各个音频帧特征序列在目标音频特征中的排序以及重叠长度，对各个音频帧特征序列预测出的拼接片段进行拼接，以将在前的拼接片段中符合重叠长度的尾部数据与在后的拼接片段中符合重叠长度的头部数据进行融合，生成目标文本对应的目标语音。

其中，帧特征数量是指辅助音频特征中包括的辅助音频帧特征的数量，例如，辅助音频特征中包括5个辅助音频帧特征，则帧特征数量为5。重叠长度与预设帧移长度以及帧特征数量成正相关关系。

在前的拼接片段是指由在前的音频帧特征序列对应的拼接音频帧特征序列预测出的拼接片段，在前的音频帧特征序列是指目标音频特征中排列在前的音频帧特征序列。

在后的拼接片段是指由在后的音频帧特征序列对应的拼接音频帧特征序列预测出的拼接片段，在后的音频帧特征序列是指目标音频特征中排列在后的音频帧特征序列。在前的音频帧特征序列与在后的音频帧特征序列是相对的概念，例如，目标音频特征切分得到3个音频帧特征序列，分别为音频帧特征序列1、音频帧特征序列2以及音频帧特征序列3，音频帧特征序列1为目标音频特征的头部，音频帧特征序列3为目标音频特征的尾部，音频帧特征序列2为目标音频特征的中间部分，则相较于音频帧特征序列2而言，音频帧特征序列1为在前的音频帧特征序列，音频帧特征序列2为在后的音频帧特征序列。

具体地，服务器可以将预设帧移长度与帧特征数量进行乘积运算，将运算的结果确定为重叠长度。按照各个音频帧特征序列在目标音频特征中的排序以及重叠长度，对各个音频帧特征序列预测出的拼接片段进行拼接，以将在前的拼接片段中符合重叠长度的尾部数据与在后的拼接片段中符合重叠长度的头部数据进行融合，生成目标文本对应的目标语音。

在一些实施例中，服务器可以按照各个音频帧特征序列在目标音频特征中的排序以及重叠长度，对各个音频帧特征序列预测出的拼接片段进行拼接，以将在前的拼接片段中符合重叠长度的尾部数据与在后的拼接片段中符合重叠长度的头部数据进行融合，生成目标文本对应的目标语音。如图3所示，目标音频特征切分得到音频帧特征序列1、音频帧特征序列2以及音频帧特征序列3，其中，F表示辅助音频帧特征，在这3个音频帧特征序列的头部添加辅助音频帧特征，得到拼接音频帧特征序列，利用拼接音频帧特征序列得到拼接片段1-3，再将拼接片段1-3有重叠的拼接，生成目标语音。从而，由于重叠长度为预设帧移长度与帧特征数量的乘积，而预设帧移长度为语音片段的长度，而帧特征数量为辅助音频帧特征的数量，故重叠长度为所有的辅助音频帧特征预测出的语音片段组成的长度，从而，拼接片段中符合重叠长度的头部数据实际上是所有的辅助音频帧特征预测出的语音片段组成的数据。

本实施例中，确定辅助音频特征中包括的辅助音频帧特征的帧特征数量，根据预设帧移长度与帧特征数量的乘积，确定重叠长度，按照各个音频帧特征序列在目标音频特征中的排序以及重叠长度，对各个音频帧特征序列预测出的拼接片段进行拼接，以将在前的拼接片段中符合重叠长度的尾部数据与在后的拼接片段中符合重叠长度的头部数据进行融合，生成目标文本对应的目标语音，从而利用辅助音频特征中的各个辅助音频帧特征预测出的语义片段实现了重叠拼接，减少了由于非重叠的叠加造成的拼接处不平滑的情况，提高了生成的目标语音的效果。

在一些实施例中，将当前音频帧特征输入到已训练的语音合成模型中进行处理，得到当前音频帧特征对应的语音合成数据包括：获取当前音频帧特征的前向音频帧特征预测出的语音片段，得到前向语音片段；获取音频帧特征序列对应的当前参考语音片段，将前向语音片段拼接到当前参考语音片段之后，得到更新后的参考语音片段；从更新后的参考语音片段中选取预设帧长的尾部数据，得到参考音频帧，对参考音频帧进行音频特征的提取，得到参考音频帧特征；将当前音频帧特征与参考音频帧特征进行拼接，将拼接后的特征输入到已训练的语音合成模型中进行处理，得到当前音频帧特征对应的语音合成数据。

其中，当前音频帧特征的前向音频帧特征是指音频帧特征序列中，与当前音频帧特征相邻并且排列在当前音频帧特征之前的音频帧特征。前向语音片段是指当前音频帧特征的前向音频帧特征预测出的语音片段。

由于当前音频帧特征是不断变化的，故当前参考语音片段也是不断变化的，更新后的参考语音片段也是不断变化的。例如，当当前音频帧特征为音频帧特征序列中的首个音频帧特征时，当前参考语音片段可以是初始化的参考语音片段，初始化的参考语音片段是预设的语音片段，初始化的参考语音片段的数据长度可以预设，初始化的参考语音片段例如可以是数值全为0的序列，由于首个音频帧特征是音频帧特征序列中排列在第一位的音频帧特征，此时，当前音频帧特征不存在前向音频帧特征，故在生成更新后的参考语音片段时，将预设语音片段拼接在初始化的参考语音片段(即当前参考语音片段)之后，作为更新后的参考语音片段。

参考音频帧特征表征参考音频帧的特征，可以是对参考音频帧进行音频特征的提取所得到的特征，例如可以将参考音频帧输入到音频特征提取网络中，提取得到参考音频帧特征。其中，音频特征提取网络用于提取参考音频帧中的特征。音频特征提取网络可以是已训练的神经网络。

当当前音频帧特征为音频帧特征序列中的非首个音频帧特征时，则当前参考语音片段为当当前音频帧特征的前向音频帧特征作为当当前音频帧特征时所产生的更新后的参考语音片段。以当前音频帧特征为音频帧特征序列中排列在第二位的音频帧特征为例，则当前参考语音片段为首个音频帧特征作为当当前音频帧特征产生的更新后的参考语音片段，即将预设语音片段拼接在初始化的参考语音片段之后的结果作为当前参考语音片段，并且服务器获取首个音频帧特征预测出的语音片段，得到前向语音片段，将前向语音片段拼接在当前参考语音片段之后，得到第二位的音频帧特征作为当前音频帧特征时所产生的更新后的参考语音片段。

如图4所示，第1帧代表首个音频帧特征，第2帧代表第二位的音频帧特征，第1段代表第1帧作为当前音频帧特征时的参考音频帧，第2段代表第2帧作为当前音频帧特征时的参考音频帧，输出1是第1帧预测出的语音片段，输出2是第2帧预测出的语音片段。A代表预设语音片段，B为输出1。当第1帧作为当前音频帧特征时，将初始化的参考语音片段确定为当前参考语音片段，在初始化的参考语音片段之后拼接A，得到更新后的参考语音片段，从更新后的参考语音片段的尾部选取预设帧长的数据，得到第1段，将第1段输入到音频特征提取网络中，提取得到参考音频帧特征，将参考音频帧特征与第1帧拼接后，输入到语音合成模型中，得到第1帧预测出的语音合成数据，基于语音合成数据以及当前记录的累积合成数据确定输出1，然后，将第2帧作为当前音频帧特征，将初始化的参考语音片段拼接A所得到的结果确定为当前参考语音片段，将输出1即B拼接当前参考语音片段之后，得到更新后的参考语音片段，从更新后的尾部选选预设帧长的数据，得到第2段，如图中第2段包括B，将第2段输入到音频特征提取网络中，提取得到参考音频帧特征，将参考音频帧特征与第2帧拼接后，输入到语音合成模型中，得到第2帧对应的语音合成数据，基于第2帧对应的语音合成数据以及当前记录的累积合成数据确定输出2。

预设帧长是指一个音频帧的长度，例如预设帧长为500。目标音频特征中的每个音频帧特征用于表征生成的目标语音中的一个帧长为预设帧长的音频帧的特征，并且各个音频帧之间的帧移长度为预设帧移长度。例如，生成的目标语音中分帧得到3个音频帧，分别为音频帧1、音频帧2和音频帧3，目标音频特征为[音频帧特征1，音频帧特征2，音频帧特征3]，并且，音频帧特征1表征音频帧1的特征，音频帧特征2表征音频帧2的特征，音频帧特征3表征音频帧3的特征，则音频帧1与音频帧2的帧移长度为预设帧移长度，音频帧2与音频帧3的帧移长度为预设帧移长度。

具体地，对于每个当前音频帧特征，服务器可以从更新后的参考语音片段中选取预设帧长的尾部数据，将获取的预设帧长的尾部数据确定为参考音频帧，对参考音频帧进行音频特征的提取，将提取出的特征确定为当前音频帧特征的参考音频帧特征，将当前音频帧特征的参考音频帧特征与当前音频帧特征进行拼接，将拼接后的特征输入到已训练的语音合成模型中进行处理，得到当前音频帧特征对应的语音合成数据。

在一些实施例中，音频特征提取网络是神经网络，包括多个卷积层。如图5所示，提供了一种音频特征提取网络。音频特征提取网络中包括3个卷积层，分别为第一卷积层、第二卷积层以及第三卷积层。其中，这3个卷积层的参数可以预设或根据需要设置，例如，第一卷积层的参数可以为：输入通道取值为1，输出通道数为256，卷积核的宽度为超参数，对应观察到了语音窗口长度(典型的，取值为512)，卷积核的步幅与帧移相等(典型的，取值为256)，填充参数置为0。第二个卷积层的参数可以为：卷积层输入通道为256，输出通道为256，卷积核的宽度和步幅都为1，填充置为0。第三个卷积层的参数可以为：卷积层输入通道为256，输出通道为64，卷积核的宽度和步幅都为1，填充置为0。图5中，音频特征提取网络的输入为语音片段(也可以称为语音波形片段)，输出为语音片段的特征。例如，语音波形片段为Y＝{y1,y2,…,yn}，其中，n表示语音波形的采样点个数，n＝f+(N-1)×h，f、h分别表示自回归编码器第一个卷积层的卷积核的宽度和stride(步长，等于预设帧移长度)，N表示语音波形片段包括的音频帧的帧数。语音波形片段中的采样点依次经过三个卷积层，输出得到语音片段的特征。本实施例中，条件编码器模块(即音频特征提取网络)采取的是由三层堆叠的CNN结构，但并不作为对音频特征提取网络的结构的限定，例如，音频特征提取网络可以是由RNN(Recurrent Neural Network，循环神经网络)或全连接层构成的网络。

本实施例中，获取当前音频帧特征的前向音频帧特征预测出的语音片段，得到前向语音片段，获取音频帧特征序列对应的当前参考语音片段，将前向语音片段拼接到当前参考语音片段之后，得到更新后的参考语音片段，从更新后的参考语音片段中选取预设帧长的尾部数据，得到参考音频帧，对参考音频帧进行音频特征的提取，得到参考音频帧特征，将当前音频帧特征与参考音频帧特征进行拼接，将拼接后的特征输入到已训练的语音合成模型中进行处理，得到当前音频帧特征对应的语音合成数据，从而在预测语音片段时使用到了已经预测出的语音片段，由于语音片段之间具有关联性，故利用前面已预测出的语音片段预测后面的语音片段，可以提高预测出的语音片段的准确性，从而提高了生成的目标语音的效果。

本实施例中，利用前向语音片段预测后面的语音片段，将前向语音片段作为音频帧特征的辅助条件，该条件提供的引导性偏执能够有效的提高合成的语音的音质，减少听感瑕疵，从而实现了一种自回归的效果，提高了生成的语音的效果。其中，自回归(auto-regressive，AR)是统计上一种处理时间序列的方法，用同一变数例如x的之前各期，亦即x₁至x_t-1来预测本期x_t的表现，并假设它们为一线性关系。由于这是从回归分析中的线性回归发展而来，只是不用x预测y，而是用x预测x(自己)，所以叫做自回归。由于实现了一种自回归的方法，故本申请中的音频特征提取网络也可以称为自回归编码器，由于音频特征提取网络提出的特征提供了一种辅助条件，故音频特征提取网络还可以称为条件编码器，音频特征提取网络输出的特征可以称为是自回归特征或者自回归条件特征。

在一些实施例中，在从音频帧特征序列中按序地确定当前音频帧特征之前，还包括：获取音频帧特征序列对应的初始化的参考语音片段；对初始化的参考语音片段进行音频特征提取，得到初始化语音片段的音频提取特征；获取初始化音频特征，将音频提取特征与初始化音频特征进行拼接，并将拼接所得到的特征输入到语音合成模型中进行处理，得到初始化合成数据，并将初始化合成数据进行记录。

其中，不同的目标音频帧特征序列对应的初始化的参考语音片段可以相同也可以不同。初始化的参考语音片段中的数值可以均为0。

具体地，对于每个目标音频帧特征序列，目标音频帧特征序列为音频帧特征序列或拼接音频帧特征序列中的任意一个。在预测目标音频帧特征序列中的每个音频帧特征对应的语音片段之前，服务器可以获取该目标音频帧特征序列对应的初始化的参考语音片段以及初始化音频特征，将初始化的参考语音片段进行特征提取，得到音频提取特征，将音频提取特征与初始化音频特征拼接，拼接后输入到语音合成模型中进行处理，得到初始化合成数据，并记录该初始化合成数据，例如，语音合成模型可以对初始化合成数据进行存储。如图4所示，将初始化的参考语音片段输入到音频特征提取网络中，提取得到音频提取特征，将音频提取特征与初始化音频特征拼接后输入到语音合成模型中，语音合成模型将处理所得到的初始化合成数据进行了存储。

在一些实施例中，当将目标音频帧特征序列中的首个音频帧特征为当前音频帧特征时，服务器可以将初始化合成数据确定为当前记录的累积合成数据，得到当前音频帧特征对应的语音合成数据后，将语音合成数据添加到初始化合成数据之后，生成更新后的累积合成数据。图4中语音合成模型中虽然写的是初始化合成数据，当并不表示语音合成模型中只记录初始化合成数据，记录的数据是不断更新的，例如记录更新后的累积合成数据。

本实施例中，获取音频帧特征序列对应的初始化的参考语音片段，对初始化的参考语音片段进行音频特征提取，得到初始化语音片段的音频提取特征，获取初始化音频特征，将音频提取特征与初始化音频特征进行拼接，并将拼接所得到的特征输入到语音合成模型中进行处理，得到初始化合成数据，并将初始化合成数据进行记录，从而生成了最初的合成数据，以使得在初始化合成数据的基础上进行语音合成数据的累积，不断的更新累积合成数据，使得所记忆的数据随着输入数据的不同而即时的更新，从而利用更新的数据预测输出数据，提高了记录的数据的准确度，从而提高了预测出的语音片段的准确度。

在一些实施例中，将当前音频帧特征输入到已训练的语音合成模型中进行处理，得到当前音频帧特征对应的语音合成数据包括：将当前音频帧特征输入到已训练的语音合成模型中进行第一卷积处理，得到当前音频帧特征对应的第一卷积数据；基于当前音频帧特征对应的第一卷积数据以及当前记录的累积卷积数据，生成当前音频帧特征对应的语音合成数据；当前记录的累积卷积数据，包括当前音频帧特征之前的至少部分音频帧特征对应的第一卷积数据。

具体地，语音合成模型中可以包括一个或多个网络层，例如可以包括4个网络层，每个网络层中可以包括第一卷积层，不同的网络层包括的第一卷积层可以相同也可以不同。以语音合成模型中仅包括一个网络层为例进行说明，服务器可以将当前音频帧特征输入到网络层中，利用网络层中的第一卷积层对当前音频帧特征进行第一卷积处理，得到当前音频帧特征对应的第一卷积数据。

在一些实施例中，如上，服务器可以利用第一音频特征生成初始化合成数据，其中，第一音频特征可以为初始化音频特征，也可以为初始化音频特征与音频提取特征拼接后所得到的特征。服务器将第一音频特征输入到语音合成模型中，利用网络层中的第一卷积层对第一音频特征进行卷积处理，将卷积处理的结果作为初始化卷积数据，记录初始化卷积数据，当目标音频帧特征序列中的首个音频帧特征作为当前音频帧特征时，将初始化卷积数据作为当前记录的累积卷积数据，得到当前音频帧特征对应的第一卷积数据后，将第一卷积数据拼接在初始化卷积数据之后，得到更新后的累积卷积数据，基于更新后的累积卷积数据，生成当前音频帧特征对应的语音合成数据。其中，得到首个音频帧特征对应的更新后的累积卷积数据后，将更新后的累积卷积数据确定为下一个第二位的音频帧特征所对应的当前记录的累积卷积数据。

在一些实施例中，服务器可以获取当前音频帧特征对应的第一卷积数据的数据长度，得到第一卷积数据长度，从当前记录的累积卷积数据头部的第一卷积数据长度的数据删除，并将第一卷积数据拼接在当前记录的累积卷积数据之后，得到更新后的累积卷积数据，从而保证所记录的累积卷积数据的长度是固定的。

在一些实施例中，本申请中涉及到的卷积层均采取非填充处理，从而使得语音合成模型中的每一层的输出结果都为有效的输出，最终输出的每个采样点(即语音片段中的数值)都来自相同时间分辨率的有效输入。

在一些实施例中，本申请中的卷积层的步长(stride)为1，从而使得连续两步之间的输入(输入到卷积层的数据)存在部分共享，卷积层采用非填充处理，从而使得卷积层的输出都为有效的输出。

本实施例中，将当前音频帧特征输入到已训练的语音合成模型中进行第一卷积处理，得到当前音频帧特征对应的第一卷积数据，基于当前音频帧特征对应的第一卷积数据以及当前记录的累积卷积数据，生成当前音频帧特征对应的语音合成数据，由于当前记录的累积卷积数据，包括当前音频帧特征之前的至少部分音频帧特征对应的第一卷积数据，从而在生成当前音频帧特征对应的语音合成数据时参考了当前音频帧特征之间的部分音频帧特征产生的第一卷积数据，从而提高了当前音频帧特征对应的语音合成数据的准确度，进一步的提高了合成的目标语音的效果。

在一些实施例中，将当前音频帧特征输入到已训练的语音合成模型中进行第一卷积处理，得到当前音频帧特征对应的第一卷积数据包括：将当前音频帧特征输入到已训练的语音合成模型中进行上采样处理，得到当前音频帧对应的上采样数据；在当前记录的累积上采样数据的基础上添加当前音频帧特征对应的上采样数据，得到更新后的累积上采样数据；当前记录的累积上采样数据，包括当前音频帧特征之前的至少部分音频帧特征对应的上采样数据；从更新后的累积上采样数据中选取待进行第一卷积处理的数据片段，得到第一数据片段；利用已训练的语音合成模型，对第一数据片段进行第一卷积处理，得到当前音频帧特征对应的第一卷积数据。

其中，语音合成模型的网络层中包括上采样网络，网络层中的第一卷积层可以是上采样网络中的卷积层，上采样网络中还可以包括上采样层，待进行第一卷积处理的数据即第一数据片段是指待输入到第一卷积层中的数据。上采样处理，可以采用双线性内插法或最邻近元法进行插值处理，也可以是采用反卷积处理。

具体地，服务器可以将当前音频帧特征输入到上采样层中进行上采样处理，将上采样处理的结果确定为当前音频帧特征对应的上采样数据，并记录上采样数据，将上采样数据拼接到当前记录的累积上采样数据之后，得到更新后的累积上采样数据，从更新后的累积上采样数据中选取需要输入到第一卷积层中的数据，得到第一数据片段，将第一数据片段输入到第一卷积层中进行第一卷积处理，得到当前音频帧特征对应的第一卷积数据。

在一些实施例中，服务器可以基于第一卷积层中的卷积核的宽度以及上采样层的采样倍数，确定第一数据片段的数据长度，即第一卷积层输出的数据的长度。网络层中的第一卷积层输出的数据的长度的计算公式为：(第一卷积层的卷积核的宽度-1)+累积上采样倍数。其中，累积上采样倍数是指本网络层中的采样层的采样倍数与本网络层之前的网络层中的采样层的采样倍数的乘积。如图6中，语音合成模型中包括4个网络层，每个网络层包括一个上采样网络以及一个多分辨残差网络。其中，上采样网络中包括一个上采样层(即上述的第一采样层)以及一个卷积层，不同网络层中的上采样层的采样倍数可以相同也可以不同。若网络层1中的采样层的采样倍数为2，网络层2中的采样层的采样倍数4，网络层3中的采样层的采样倍数为6，网络层4中的采样层的采样倍数8，则对于第一个网络层中的第一卷积层来说，累积上采样倍数等于2，对于第二个网络层中的第一卷积层来说，累积上采样倍数等于2*4，对于第三个网络层中的第一卷积层来说，累积上采样倍数等于2*4*6，对于第四个网络层中的第一卷积层来说，累积上采样倍数等于2*4*6*8。

本申请提供的语音合成方法中，预设帧移长度等于各个上采样层的采样倍数的乘积，例如，预设帧移长度＝2*4*6*8。本实施例中，语音合成模型采取了4个由上采样网络与卷积网络组成的网络层，但是不作为对语音合成模型的结构的限定，语音合成模型的结构可以是多种的，例如可以通过减少卷积网络中包括的并行子卷积网络的数量或者感受野长度减少内存的消耗，其中，感受野长度与初始化时所采用的初始化音频特征中包括的音频帧特征的数量成正相关关系，也就是说，可以调整初始化音频特征包括的音频帧特征的数量来减少对内存的消耗。语音合成模型的结构与不同卷积层的参数配置有一定的关联关系，当确定上采样参数配置后，需要设计卷积网络(例如多分辨残差网络)的填充方式来确定模型的memory的长度(即数据存储单元中存储的数据的长度)。需要说明的是，虽然本申请的方案中，在预测音频帧特征序列对应的语音片段时，每次选择一个音频帧特征(即当前音频帧特征)进行预测，但是，本方案中，并不对每次迭代是所选取的音频帧特征的数量进行限定，例如，每次可以选择2个音频帧特征，例如，可以一次性的选择首个音频帧特征以及第2位的音频帧特征作为需要预测语音片段的特征，并依次性的输出这2个音频帧分别对应的语音片段。当然，也可以每次选择大于2个音频帧特征，这里并不做限定。

在一些实施例中，服务器将当前音频帧特征与参考音频帧特征进行拼接，将拼接后的特征输入到上采样层中进行上采样处理，将上采样处理的结果确定为当前音频帧特征对应的上采样数据，并记录上采样数据。如图7所示，展示了生成第一卷积数据的原理图，上采样层的采样倍数为4，第一卷积层的卷积核的宽度为3，填充置为0(即padding＝0)，图中每个小矩形表示一个音频帧特征，输入到上采样层的是2个音频帧特征，一个为当前音频帧特征，一个为参考音频帧特征，经过上采样层后，由2帧变为8帧，经过第一卷积层后由8帧变为6帧。

在一些实施例中，上采样网络中，上采样层对应有第一数据存储单元，第一卷积层对应有第二数据存储单元，服务器可以将累积上采样数据存储在第一数据存储单元中，将累积卷积数据存储在第二数据存储单元中。具有第一数据存储单元的上采样层可以表示为Munsample，具有第二数据存储单元的第一卷积层可以表示为Mconv。其中，Munsample以及Mconv中的M为memory(存储)的缩写。如图8中，上采样网络中包括第一卷积层和上采样层，其中，M1表示当前记录的累积上采样数据，C1表示当前音频帧特征对应的上采样数据，将C1拼接在M1之后，得到更新后的累积上采样数据(记作M1C1)。M2表示当前记录的累积卷积数据，C2表示第一卷积数据，将C2拼接在M2之后，得到更新后的累积卷积数据。图8中，从M1C1的尾部获取第一数据片段，输入到第一卷积层中，得到第一卷积数据C2。存储M1C1的单元为第一数据存储单元，存储M2C2的单元为第二数据存储单元。图7和图8中的频谱序列指的是图4中的初始化音频特征。

在一些实施例中，服务器将第一音频特征输入到语音合成模型中，利用网络层中的上采样层对第一音频特征进行上采样处理，将上采样的结果作为初始化上采样数据，记录初始化上采样数据，当目标音频帧特征序列中的首个音频帧特征作为当前音频帧特征时，将初始化上采样数据作为当前记录的累积上采用数据，得到当前音频帧特征对应的上采样数据后，将上采样数据添加到初始化上采样数据之后，得到更新后的累积上采样数据。

其中，得到首个音频帧特征对应的更新后的累积上采样数据后，将更新后的累积上采样数据确定为下一个当前音频帧特征对应的当前记录的累积上采样数据，即将首个音频帧特征对应的上采样数据拼接到初始化上采样数据所得到的结果，确定为第二位的音频帧特征所对应的当前记录的累积上采样数据。

在一些实施例中，服务器可以获取当前音频帧特征对应的上采样数据的数据长度，得到上采样数据长度，从当前记录的累积上采样数据头部的上采样数据长度的数据删除，并将当前音频帧特征对应的上采样数据拼接在当前记录的累积上采样数据之后，得到更新后的累积上采样数据，从而保证所记录的累积上采样数据的长度是固定的。

本实施例中，将当前音频帧特征输入到已训练的语音合成模型中进行上采样处理，得到当前音频帧特征对应的上采样数据，在当前记录的累积上采样数据的基础上添加当前音频帧对应的上采样数据，得到更新后的累积上采样数据，从更新后的累积上采样数据中选取待进行第一卷积处理的数据片段，得到第一数据片段，利用已训练的语音合成模型，对第一数据片段进行第一卷积处理，得到当前音频帧特征对应的第一卷积数据，由于当前记录的累积上采样数据，包括当前音频帧特征之前的至少部分音频帧特征对应的上采样数据，从而利用上采样处理增大了感受野，使得上采样数据中包括了更多的特征，提高了特征的丰富度，从而提高了预测语音的效果。

在一些实施例中，基于当前音频帧特征对应的第一卷积数据以及当前记录的累积卷积数据，生成当前音频帧特征对应的语音合成数据包括：在当前记录的累积卷积数据的基础上添加当前音频帧特征对应的第一卷积数据，得到更新后的累积卷积数据，从更新后的累积卷积数据中选取待进行第二卷积处理的数据片段，得到第二数据片段，利用已训练的语音合成模型，对第二数据片段进行第二卷积处理，得到当前音频帧特征对应的第二卷积数据，将第二卷积数据与第二数据片段进行融合，得到当前音频帧特征对应的语音合成数据。

其中，语音合成模型的网络层中还可以包括卷积网络，卷积网络中包括一个或多个并行的子卷积网络，例如包括3个子卷积网络，每个子卷积网络的网络结构可以是相同的。子卷积网络中可以包括一个或多个卷积层，本申请中，一个卷积层包括一个卷积核。待进行第二卷积处理的数据片段是指待输入到卷积网络中的数据，即第二数据片段是指输入到卷积网络中的数据，输入到卷积网络中的数据分别输入到各个子卷积网络中进行卷积处理，例如，若卷积网络中包括3个子卷积网络，则将第二数据片段分别输入到这3个子卷积网络中进行卷积处理。每个子卷积网络对应有第三数据存储单元，具有第三数据存储单元的子卷积网络可以称为Mblock模块。如图9所示，展示了一种卷积网络的结构图，卷积网络中包括3个子卷积网络，分别为子卷积网络1、子卷积网络2和子卷积网络3，分别将第二数据片段输入到这3个子卷积网络中，将这3个子卷积网络输出的数据进行加和运算，得到卷积网络的输出数据。本申请中，一个卷积层包括一个卷积核。

具体地，服务器可以从更新后的累积卷积数据中确定需要输入到卷积网络中的数据的长度，得到第二数据长度，从更新后的累积卷积数据的尾部选取第二数据长度的数据，得到第二数据片段。其中，第二数据长度可以基于子卷积网络中的卷积核的宽度以及网络层中的上采样层的上采样倍数确定第二数据片段的数据长度，第二数据长度为上采样网络中的第一卷积层输出的数据的长度。对于每一层的网络层来说，该网络层中的卷积网络输出的数据的长度的计算公式为：(卷积网络的累积卷积核消融长度)+累积上采样倍数。其中，子卷积网络的累积卷积核消融长度是指子卷积网络中的各个卷积层的卷积核消融长度加和所得到的长度，卷积核消融长度等于卷积核的宽度减1，例如，若子卷积网络中一共包括2个卷积层，这2个卷积层的卷积核的宽度分别为5和7，则累积卷积核消融长度等于(5-1)+(7-1)＝10。本申请中所涉及到的卷积处理中卷积核都采用的非填充式。

在一些实施例中，子卷积网络输出的数据的长度根据网络层中的上采样层的采样倍数确定，例如对于每一层的网络层，该网络层中的子卷积网络输出的数据的长度等于该网络层对应的累积上采样倍数，如图6中，若网络层1中的采样层的采样倍数为2，网络层2中的采样层的采样倍数4，网络层3中的采样层的采样倍数为6，网络层4中的采样层的采样倍数8，则网络层2中的子卷积网络输出的数据的长度等于2*4，网络层4中的子卷积网络输出的数据的长度为2*4*6*8，即最后一层的网络层中子卷积网络输出数据的长度等于预设帧移长度，对于最后一层的网络层，各个子卷积网络输出的数据进行求和，将求和所得到的数据为卷积网络的输出，由于各个子卷积网络的输出数据的长度均为预设帧移长度，因此，最后一层网络层中的卷积网络输出的数据的长度也是预设帧移长度，由于最后一层网络层中的卷积网络输出的数据为预测出的语音片段，从而可以得到预设帧移长度的语音片段。

在一些实施例中，服务器可以将第二数据片段分别输入到各个子卷积网络中，对于每个子卷积网络，将第二数据片段输入到子卷积网络中进行卷积处理，得到当前音频帧对应的第二卷积数据，将第二卷积数据与第二数据片段进行融合，得到当前音频帧特征对应的语音合成数据。具体地，子卷积网络可以包括一个或多个两两级联的卷积层，例如包括3个两两级联的卷积层，两两级联的卷积层是指两个卷积层连接在一起，以卷积网络中包括3个两两级联的卷积层为例，如图7中所示，子卷积网络中包括3个两两级联的卷积层，图中重叠的三角形代表两两级联的卷积层，每个三角形代表一个卷积层。服务器可以将第二数据片段输入到第一个两两级联的卷积层中进行第二卷积处理，得到第二卷积数据，将第二卷积数据与第二数据片段进行融合，得到第一融合数据，再将第二卷积数据输入到第二个两两级联的卷积层中进行卷积处理，得到第三卷积数据，将第三卷积数据与第一融合数据进行融合，得到第二融合数据，再将第三卷积数据输入到第三个两两级联的卷积层中进行卷积处理，得到第四卷积数据，将第四卷积数据与第二融合数据进行融合，得到第三融合数据，将第三融合数据确定为当前音频帧特征对应的语音合成数据。由于卷积网络中可以包括多个子卷积网络，并且各个子卷积网络是并行的，故每个子卷积网络分别确定出了当前音频帧特征对应的语音合成数据。服务器可以将当前音频帧特征对应的语音合成数据添加到当前记录的累积子卷积数据，当前记录的累积子卷积数据包括当前音频帧特征之前的至少部分音频帧特征对应的语音合成数据(即第三融合数据)，也就是说，子卷积网络中存储的是累积合成数据(例如更新后的累积合成数据)，对于每个子卷积网络中存储的更新后的累积合成数据，服务器可以从更新后的累积合成数据的尾部选取预设帧移长度的数据，得到对应于当前音频帧特征的、且符合预设帧移长度的子语音片段，得到多个子语音片段，将各个子语音片段进行加和计算(即将对应位置的数值进行求和)，将加和计算的结果确定为对应于当前音频帧特征的、且符合预设帧移长度的语音片段。

在一些实施例中，在利用初始化的参考语音片段以及初始化音频特征进行初始化的过程中，子卷积网络对输入的数据进行处理后，会将处理的结果存储在第三数据存储单元中，存储在第三数据存储单元中的数据确定为初始化合成数据，当子卷积网络有多个时，则各个子卷积网络的第三数据存储单元中均会存储有对应的初始化合成数据。当前音频帧特征输入到语音合成模型中后，子卷积网络对应当前音频帧特征产生的第二数据片段进行处理，生成当前音频帧特征对应的语音合成数据，将当前音频帧特征对应的语音合成数据拼接到初始化合成数据之后，生成更新后的累积合成数据。如图8所示，第一次输入为初始化时输入到子卷积网络中的数据，M3为初始化合成数据，存储M3的单元为第三数据存储单元。第二次输入表示预测首个音频帧特征对应的语音片段时，输入到子卷积网络中的数据(即第二数据片段)，C3为子卷积网络输出的结果(即语音合成数据)，M4为更新后的累积合成数据，M4是将C3拼接在M3之后，并将M3中长度与C3的长度相同的头部数据裁剪后的数据。从M4的尾部选取预设帧移长度的数据，得到当前音频帧特征对应的子语音片段，很容易理解，当只有一个子卷积网络时，则子语音片段就是语音片段。在一些实施例中，子卷积网络处理过程可以看做为一个函数，这个函数可以表示为MBlock.forward函数。

本实施例中，在当前记录的累积卷积数据的基础上添加当前音频帧特征对应的第一卷积数据，得到更新后的累积卷积数据，从更新后的累积卷积数据中选取待进行第二卷积处理的数据片段，得到第二数据片段，利用已训练的语音合成模型，对第二数据片段进行第二卷积处理，得到当前音频帧特征对应的第二卷积数据，将第二卷积数据与第二数据片段进行融合，得到当前音频帧特征对应的语音合成数据，提高了语音合成数据的准确度。

本实施例中，由于语音合成模型中包括上采样层以及卷积层，从而使得语音合成模型中每次输出的数据对应的感受野较大，从而使得每层输出的数据能够观察到充分多的时序背景信息(包括当前音频帧特征之前的多个音频帧特征)，从而提高了预测出的语音的真实性。

在一些实施例中，第二卷积数据的数据维度小于第二数据片段的数据维度；将第二卷积数据与第二数据片段进行融合，得到当前音频帧特征对应的语音合成数据包括：确定第二卷积数据对应的数据长度；从第二数据片段中选取符合数据长度的部分数据，得到第三数据片段；将第三数据片段与第二卷积数据进行融合，得到当前音频帧特征对应的语音合成数据。

其中，第二卷积处理时是采用非填充的方式进行卷积的，从而使得卷积得到的数据均为有效的数据，避免了无效的数据的干扰。第三数据片段的数据长度与第二卷积数据的长度相同。

具体地，服务器可以计算第二卷积数据的数据长度，得到第三数据长度，从第二数据片段中选取第三数据长度的数据，得到第二数据片段，例如，可以从第二数据片段的头部、中间或尾部中的任意一处截取得到第三数据长度的数据，将截取的数据确定为第二数据片段。

本实施例中，由于第二卷积数据的数据维度小于第二数据片段的数据维度，即采用非填充的方式进行卷积的，从而使得卷积得到的数据均为有效的数据，从而将第三数据片段与第二卷积数据进行融合所得到的数据均是有效的数据，从而提高了语音合成数据的有效性。

在一个实施例中，在当前记录的累积合成数据的基础上添加当前音频帧特征对应的语音合成数据，得到更新后的累积合成数据包括：将当前音频帧特征对应的语音合成数据拼接在当前记录的累积合成数据之后，得到更新后的累积合成数据；基于更新后的累积合成数据，确定对应于当前音频帧特征的、且符合预设帧移长度的语音片段包括：从更新后的累积合成数据中选取符合预设帧移长度的尾部数据，得到对应于当前音频帧特征的、且符合预设帧移长度的语音片段。

具体地，对于当前音频帧特征，服务器将当前音频帧特征对应的语音合成数据拼接在当前记录的累积合成数据之后，将拼接的结果确定为更新后的累积合成数据，从更新后的累积合成数据中选取符合预设帧移长度的尾部数据，得到对应于当前音频帧特征的、且符合预设帧移长度的语音片段。

本实施例中，由于更新后的累积合成数据中，当前音频帧特征对应的语音合成数据位于当前记录的累积合成数据之后，从而更新后的累积合成数据的尾部数据中包括当前音频帧特征对应的语音合成数据，因此从更新后的累积合成数据中选取符合预设帧移长度的尾部数据，得到对应于当前音频帧特征的、且符合预设帧移长度的语音片段，提高了语音片段与当前音频帧特征的关联性，从而提高了语音片段的精确度。

在一个实施例中，已训练的语音合成模型通过以下步骤得到：将样本音频帧特征序列的首个样本音频帧特征确定为当前样本音频帧特征，将当前样本音频帧特征输入到待训练的语音合成模型中进行处理，得到当前样本音频帧特征对应的样本语音合成数据；在当前记录的样本累积合成数据的基础上添加当前样本音频帧特征对应的样本语音合成数据，得到更新后的样本累积合成数据；当前记录的样本累积合成数据，是由当前音频帧特征之前的至少部分音频帧特征对应的样本语音合成数据累积得到的；基于更新后的样本累积合成数据，确定对应于当前样本音频帧特征的、且符合预设帧移长度的预测语音片段；将样本音频帧特征序列中的下一样本音频帧特征确定为新的当前样本音频帧特征，返回将当前样本音频帧特征输入到待训练的语音合成模型中进行处理以继续执行，直到得到样本音频帧特征序列的各个样本音频帧特征对应的预测语音片段；根据样本音频帧特征序列的各个样本音频帧特征对应的预测语音片段，合成样本音频帧特征序列的预测语音；基于样本音频帧特征序列的标准语音与预测语音之间的差异信息，调整语音合成模型的模型参数，得到已训练的语音合成模型。

其中，样本音频帧特征序列是用于训练语音合成模型的训练数据。预测语音片段是训练阶段利用语音合成模型预测出的语音片段。标准语音是指样本音频帧特征序列对应的真实的语音，可以是通过录制得到的语音，样本音频帧特征序列中的音频帧特征可以是对标准语音中的音频帧进行特征提取所得到的。样本音频帧特征序列可以有多个。预测语音为假的语音(fake wav)，即不是通过采集或录制等生成的原始的语音，标准语音为真的语音(real wav)。预测语音片段的数据长度为预设帧移长度。

具体地，服务器得到预测语音后，计算预测语音与标准语音之间的差异信息，朝着差异信息减小的方向，调整语音合成模型的模型参数，迭代训练，当语音合成模型收敛时，得到已训练的语音合成模型。

在一些实施例中，服务器可以对语音合成模型进行对抗训练，得到已训练的语音合成模型。具体地，服务器将语音合成模型作为生成对抗网络中的生成器，获取待训练的判别器，基于语音合成模型以及判别器构成生成对抗网络。其中，生成对抗网络(GenerativeAdversarial Networks，GAN)一种无监督学习的深度生成模型，模型框架中包含生成器和判别器两个模块。

在一些实施例中，服务器可以将预测语音输入到判别器中，得到预测语音的第一判别结果，将标准语音输入到待训练的判别器中，得到标准语音的第二判别结果，利用第一判别结果以及第二判别结果得到损失值，基于损失值，对判别器以及语音合成模型进行对抗训练，从而得到已训练的判别器以及已训练的语音合成模型，如图10A中，将标准语音和预测语音输入到判别器中以进行对抗训练。其中，服务器可以基于第一判别基于以及第二判别结果生成交叉熵损失值L1，利用交叉熵损失值L1进行反向传播更新判别器中的参数，从而实现对判别器的训练，使得判别器将利用语音合成模型预测出的预测语音判别为假的概率朝着增大的方向调整，并使得判别器将标准语音判别为真的概率朝着增大的方向调整，从而对判别器进行训练。

在一些实施例中，对判别器进行训练后，获取样本音频帧特征序列对应的预测音频以及标准音频，将预测音频以及标准音频输入到训练过的判别器中进行判别，基于判别的结果确定特征匹配损失值L3，并得到判别器将预测音频判别为真实音频的概率，基于将预测音频判别为真实音频的概率生成对抗性损失值L2。服务器对预测语音进行频谱特征的提取，得到预测语音的第一频谱特征，对标准语音进行频谱特征的提取，得到标准语音的第二频谱特征，其中，频谱特征可以为梅尔频谱特征。计算第一频谱特征与第二频谱特征之间的差异，得到频谱特征差异信息，基于频谱特征差异信息确定频谱损失值L4，频谱特征差异信息与频谱损失值L4成正相关关系，朝着频谱特征差异信息减小的方向(即朝着L4较小的方向)调整语音合成模型的参数，使得语音合成模型预测出的预测语音的频谱特征与标准语音的频谱特征之间的差异越来越小，从而提高语音合成模型预测出的语音的真实性。服务器可以将L2、L3、L4进行加权计算，基于加权计算的结果对语音合成模型的模型参数进行调整，得到已训练的语音合成模型，例如，L2、L3、L4的权重可以根据需要设置或预设，例如L4的权重为45，L3的权重的2。在一些实施例中，模型训练的优化器为Adam，β₁＝0.8，β₂＝0.99，权重延时参数为λ＝0.01。

本实施例中，基于语音合成模型构建生成对抗网络，并且利用已经预测出的前面的语音数据辅助预测后面的语音数据(实现了自回归)，从而实现了一种基于自回归与Gan的神经声码器模型(声码器指的是语音合成模型)，联合输入自回归特征和频谱特征(即音频帧特征)两种条件信息，基于Gan的声码器合成语音波形。

在一些实施例中，服务器获取样本音频帧特征序列对应的样本辅助音频特征，将样本辅助音频特征拼接在样本音频帧特征序列之前，得到样本拼接音频帧特征序列，从样本拼接音频帧特征序列中确定当前音频帧特征。从而预测出样本拼接音频帧特征序列中各个音频帧特征分别对应的预测语音片段，将各个预测语音片段拼接得到拼接语音，从拼接语音的头部裁剪掉样本辅助音频特征预测出的数据，得到样本音频帧特征序列的预测语音，从而将样本音频帧特征序列模拟为从一个音频特征序列中分片出来的序列，使得训练好的语音合成模型可以适用于分片的场景，提高了语音合成模型的适用性。其中，分片的场景例如可以是上述的：对目标音频特征进行切分，得到多个音频帧特征序列。如图10B所示，展示了训练阶段中添加样本辅助音频特征以及裁剪输出结果的过程，首先对输入特征序列(输入特征序列例如为将样本音频帧特征序列)提前填充N帧特征(N帧特征例如为上述的样本辅助音频特征)，然后输入特征序列中的每个音频帧依次输入到模型中进行自回归的语音预测。最后得到的语音片段进行拼接后得到全部输出语音，然后对全部输出语音进行头部剪切，剪切长度为对应填充帧数乘上预设帧移长度，填充帧数指的是N帧特征中的帧数，即填充帧数为N。

在一些实施例中，在利用样本拼接音频帧特征序列中的各个音频帧特征预测语音之前，首先对记录的合成数据进行初始化，具体地，获取样本初始化语音片段，以及获取样本初始化音频特征，将样本初始化语音片段输入到条件编码器中进行特征提取，将提取的特征确定为样本初始化提取特征，将样本初始化提取特征与样本初始化音频特征进行拼接，将拼接后的特征输入到待训练的语音合成模型中进行处理，生成样本初始化合成数据，将样本初始化合成数据确定为当前记录的样本累积合成数据，然后，再将样本拼接音频帧特征序列中的各个音频帧特征依次输入到语音合成模型中进行处理，得到样本拼接音频帧特征序列中各个音频帧特征分别对应的预测语音片段。其中，样本初始化音频特征用于表征样本初始化语音片段的音频特征，例如可以是频谱特征。

在一些实施例中，服务器基于样本初始化语音片段得到当前样本参考语音片段(参考上述基于初始化的参考语音片段生成当前参考语音片段的步骤)，在预测当前样本音频帧特征对应的预测语音片段时，服务器可以获取当前样本音频帧特征之前的音频帧特征所预测出的预测语音片段，得到前向预测语音片段，将前向预测语音片段拼接在当前样本参考语音片段的尾部，得到更新后的样本参考语音片段，或者，服务器可以从标准语音中获取与前向预测语音片段在时间段上一致的语音片段，例如，前向预测语音片段对应的时间段为T1-T2，则从标准语音中获取T1-T2时间段对应的语音片段，将获取的该语音片段拼接在当前样本参考语音片段的尾部，得到更新后的样本参考语音片段，从更新后的样本参考语音片段中的尾部获取预设帧长的数据，得到样本参考音频帧，对样本参考音频帧进行特征提取，将提取出的特征与当前样本音频帧特征进行拼接，将拼接后的特征输入到语音合成模型中进行处理，得到当前样本音频帧特征对应的样本语音合成数据。从而实现了一种语音数据的自回归，提高了模型预测语音的准确度。

本方案解决了基于Gan的神经声码器合成语音存在瑕疵、不方便流式合成处理、以及合成速度慢的问题，提高了合成的语音的音质、可以用于进行流式合成处理、并且提高了合成语音的速度。实现了基于Gan的自回归语音合成神经声码器。通过使用条件编码器提取待合成语音前面的语音片段中的自回归条件特征，结合频谱特征提高合成语音音质和稳定性，本申请的基于Gan的自回归模型在网络参数较小时兼具gflops低、合成音质好与稳定性。其中，gflops为Giga Floating-point Operations Per Second的缩写，中文含义为：每秒千兆的浮点运算次数。本申请的基于Gan的自回归模型可以应用于离线模式下地图导航的语音合成系统。现有的声码器模型存在不方便进行流式推理的问题，例如不方便应用在需要进行流式处理的应用场景中，需要进行流式处理的应用场景例如为在线语音交互中。本申请提出的声码器模型，在进行第一阶段的初始化后，推理时输入一帧频谱特征和上一时刻预测的音频片段即可进行下一帧音频的预测，从而本申请提出的声码器模型天然的可以在帧率上进行流式推理，解决了基于Gan的声码器不方便进行流式推理的问题，可以应用于需要进行流式处理的应用场景中。并且，本申请提供的声码器模型，在流式推理时，采用的memory缓存机制，推理时，每个网络层只需要处理对应上采样倍数长度的有效帧输出，故相比与其他的Gan模型声码器，本申请提供的声码器模型的硬件资源利用更加友好。另外，相比与其他的Gan模型声码器，在同样的模型参数下，本申请提供的声码器模型合成的语音的音质(Mos)更好，同时对于不在训练集中的说话人也能合成更好的声音，具备更好的稳定性。

本申请还提供一种应用场景，该应用场景应用上述的语音合成方法。该应用场景为生成文本对应的语音的场景，具体地，如图11所示，该语音合成方法在该应用场景的应用如下：

步骤1102，终端向服务器发送语音合成请求，语音合成请求中携带目标文本。

步骤1104，服务器基于目标文本确定目标音频特征，将目标音频特征进行切分，得到多个音频帧特征序列。

步骤1106，对于每个音频帧特征序列，服务器获取音频帧特征序列对应的辅助音频特征，将辅助音频特征拼接在音频帧特征序列之前，得到拼接音频帧特征序列。

步骤1108，对于每个拼接音频帧特征序列，服务器获取该拼接音频帧特征序列对应的初始化的参考语音片段，对初始化的参考语音片段进行音频特征提取，得到初始化语音片段的音频提取特征，获取初始化音频特征，将音频提取特征与初始化音频特征进行拼接，并将拼接所得到的特征输入到语音合成模型中进行处理，得到初始化合成数据，并将初始化合成数据进行记录。

其中，语音合成模型可以为声码器，得到初始化合成数据的过程也可以称为初始化声码器memory(存储)的阶段。如图7和8中，语音合成模型中包括4个网络层，每个网络层包括一个上采样网络和一个多分辨率残差网络。本申请中，语音合成模型中的网络层的数量可以根据需要设置，并不限定为4，例如可以为1、2、3或5等中的任意一个，并且，每个网络层中包括的上采样网络的数量以及多分辨率残差网络的数量也不做限定，本申请中是以每个网络层包括一个上采样网络和一个多分辨率残差网络为例说明的。图中，得到第1段、第2段、第1帧、第2帧的过程参考上述得到第1段、第2段、第1帧、第2帧的步骤，这里不再赘述。在生成初始化合成数据的阶段中，输入到语音合成模型的数据依次经过4个网络层，完成对不同网络层中的上采样网络以及多分辨率残差网络的初始化。

步骤1110，将初始化合成数据确定为当前记录的累积合成数据，将拼接音频帧特征序列中的首个音频帧特征确定为当前音频帧特征，将初始化的参考语音片段确定为当前参考语音片段，将预设语音片段确定为前向语音片段。

步骤1112，将前向语音片段拼接到当前参考语音片段之后，得到更新后的参考语音片段，从更新后的参考语音片段中选取预设帧长的尾部数据，得到参考音频帧，对参考音频帧进行音频特征的提取，得到参考音频帧特征，将当前音频帧特征与参考音频帧特征进行拼接，得到拼接后的特征。

其中，步骤1112的过程实现了语音片段的自回归。

步骤1114，将拼接后的特征输入到已训练的语音合成模型进行处理，得到当前音频帧特征对应的语音合成数据，在当前记录的累积合成数据之后拼接当前音频帧特征对应的语音合成数据，得到更新后的累积合成数据。

步骤1116，从更新后的累积合成数据中选取符合预设帧移长度的尾部数据，得到对应于当前音频帧特征的、且数据长度为预设帧移长度的语音片段。

步骤1118，判断当前音频帧特征是否为拼接音频帧特征序列中的最后一位的音频帧特征，若否，则执行步骤1120，若是，则执行步骤1122。

步骤1120，将当前音频帧特征预测出的语音片段作为新的前向语音片段，将更新后的累积合成数据确定为新的当前记录的累积合成数据，将更新后的参考语音片段确定为新的当前参考语音片段，将拼接音频帧特征序列中，下一位的音频帧特征确定为新的当前音频帧特征，返回步骤1112的步骤。

步骤1122，对于每个拼接音频帧特征序列，将拼接音频帧特征序列中的每个音频帧特征对应的语音片段按序排列，合成拼接音频帧特征序列预测出的拼接片段。

步骤1124，按照各个拼接音频帧特征序列对应的音频帧特征序列在目标音频特征中的排序，对各个拼接音频帧特征序列预测出的拼接片段进行有重叠的拼接，合成目标文本对应的目标语音。

本实施例中，将前向语音片段拼接到当前参考语音片段之后，得到更新后的参考语音片段，从更新后的参考语音片段中选取预设帧长的尾部数据，得到参考音频帧，对参考音频帧进行音频特征的提取，得到参考音频帧特征，将当前音频帧特征与参考音频帧特征进行拼接，得到拼接后的特征，将拼接后的特征输入到已训练的语音合成模型进行处理，得到当前音频帧特征对应的语音合成数据，在当前记录的累积合成数据之后拼接当前音频帧特征对应的语音合成数据，得到更新后的累积合成数据，从更新后的累积合成数据中选取符合预设帧移长度的尾部数据，得到对应于当前音频帧特征的、且数据长度为预设帧移长度的语音片段，从而在模型中引入输出结果的memory(存储)，并保存上个时刻的输出，自回归推理时当前层只需要计算对应上采样倍数长度的有效输出部分即可，避免了每次推理需要计算累积感受野内的全部输入，减少了计算量。应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的语音合成方法的语音合成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个语音合成装置实施例中的具体限定可以参见上文中对于语音合成方法的限定，在此不再赘述。

在一个实施例中，如图12所示，提供了一种语音合成装置，包括：序列获取模块1202、特征确定模块1204、数据添加模块1206、片段确定模块1208、返回模块1210和拼接模块1212，其中：

序列获取模块1202，用于获取待进行语音合成的音频帧特征序列；

特征确定模块1204，用于从音频帧特征序列中按序地确定当前音频帧特征，并将当前音频帧特征输入到已训练的语音合成模型中进行处理，得到当前音频帧特征对应的语音合成数据；

数据添加模块1206，用于在当前记录的累积合成数据的基础上添加当前音频帧特征对应的语音合成数据，得到更新后的累积合成数据；当前记录的累积合成数据包括当前音频帧特征之前的至少部分音频帧特征对应的语音合成数据；

片段确定模块1208，用于基于更新后的累积合成数据，确定对应于当前音频帧特征的、且符合预设帧移长度的语音片段；

返回模块1210，用于将音频帧特征序列中的下一音频帧特征确定为新的当前音频帧特征，返回将当前音频帧特征输入到已训练的语音合成模型中进行处理以继续执行，直至得到音频帧特征序列中各个音频帧特征对应的语音片段；

拼接模块1212，用于将音频帧特征序列中的每个音频帧特征对应的语音片段按序拼接，合成目标语音。

在一些实施例中，序列获取模块还用于：获取待进行语音合成的目标文本对应的目标音频特征；对目标音频特征进行切分，得到待进行语音合成的多个音频帧特征序列；拼接模块还用于：对于每个音频帧特征序列，将音频帧特征序列中的每个音频帧特征对应的语音片段按序拼接，得到音频帧特征序列预测出的拼接片段；按照各个音频帧特征序列在目标音频特征中的排序，对各个音频帧特征序列预测出的拼接片段进行拼接，合成目标文本对应的目标语音。

在一些实施例中，特征确定模块还用于：获取每个音频帧特征序列对应的辅助音频特征；辅助音频特征包括至少一个辅助音频帧特征；每个辅助音频帧特征用于表征一个辅助音频帧的特征；将每个音频帧特征序列与相应的辅助音频特征进行拼接，得到多个拼接音频帧特征序列；针对每个拼接音频帧特征序列，从拼接音频帧特征序列中按序地确定当前音频帧特征。

在一些实施例中，序列获取模块还用于：确定辅助音频特征中包括的辅助音频帧特征的帧特征数量；根据预设帧移长度与帧特征数量的乘积，确定重叠长度；按照各个音频帧特征序列在目标音频特征中的排序以及重叠长度，对各个音频帧特征序列预测出的拼接片段进行拼接，以将在前的拼接片段中符合重叠长度的尾部数据与在后的拼接片段中符合重叠长度的头部数据进行融合，生成目标文本对应的目标语音。

在一些实施例中，特征确定模块还用于：获取当前音频帧特征的前向音频帧特征预测出的语音片段，得到前向语音片段；获取音频帧特征序列对应的当前参考语音片段，将前向语音片段拼接到当前参考语音片段之后，得到更新后的参考语音片段；从更新后的参考语音片段中选取预设帧长的尾部数据，得到参考音频帧，对参考音频帧进行音频特征的提取，得到参考音频帧特征；将当前音频帧特征与参考音频帧特征进行拼接，将拼接后的特征输入到已训练的语音合成模型中进行处理，得到当前音频帧特征对应的语音合成数据。

在一些实施例中，在从音频帧特征序列中按序地确定当前音频帧特征之前，装置还用于：获取音频帧特征序列对应的初始化的参考语音片段；对初始化的参考语音片段进行音频特征提取，得到初始化语音片段的音频提取特征；获取初始化音频特征，将音频提取特征与初始化音频特征进行拼接，并将拼接所得到的特征输入到语音合成模型中进行处理，得到初始化合成数据，并将初始化合成数据进行记录。

在一些实施例中，特征确定模块还用于：将当前音频帧特征输入到已训练的语音合成模型中进行第一卷积处理，得到当前音频帧特征对应的第一卷积数据；基于当前音频帧特征对应的第一卷积数据以及当前记录的累积卷积数据，生成当前音频帧特征对应的语音合成数据；当前记录的累积卷积数据，包括当前音频帧特征之前的至少部分音频帧特征对应的第一卷积数据。

在一些实施例中，特征确定模块还用于：将当前音频帧特征输入到已训练的语音合成模型中进行上采样处理，得到当前音频帧特征对应的上采样数据；在当前记录的累积上采样数据的基础上添加当前音频帧对应的上采样数据，得到更新后的累积上采样数据；当前记录的累积上采样数据，包括当前音频帧特征之前的至少部分音频帧特征对应的上采样数据；从更新后的累积上采样数据中选取待进行第一卷积处理的数据片段，得到第一数据片段；利用已训练的语音合成模型，对第一数据片段进行第一卷积处理，得到当前音频帧特征对应的第一卷积数据。

在一些实施例中，特征确定模块还用于：在当前记录的累积卷积数据的基础上添加当前音频帧特征对应的第一卷积数据，得到更新后的累积卷积数据；从更新后的累积卷积数据中选取待进行第二卷积处理的数据片段，得到第二数据片段；利用已训练的语音合成模型，对第二数据片段进行第二卷积处理，得到当前音频帧特征对应的第二卷积数据；将第二卷积数据与第二数据片段进行融合，得到当前音频帧特征对应的语音合成数据。

在一些实施例中，第二卷积数据的数据维度小于第二数据片段的数据维度；特征确定模块还用于：确定第二卷积数据对应的数据长度；从第二数据片段中选取符合数据长度的部分数据，得到第三数据片段；将第三数据片段与第二卷积数据进行融合，得到当前音频帧特征对应的语音合成数据。

在一些实施例中，数据添加模块还用于：将当前音频帧特征对应的语音合成数据拼接在当前记录的累积合成数据之后，得到更新后的累积合成数据；片段确定模块还用于：从更新后的累积合成数据中选取符合预设帧移长度的尾部数据，得到对应于当前音频帧特征的、且符合预设帧移长度的语音片段。

在一些实施例中，装置还包括模型训练模块，模型训练模块用于：将样本音频帧特征序列的首个样本音频帧特征确定为当前样本音频帧特征，将当前样本音频帧特征输入到待训练的语音合成模型中进行处理，得到当前样本音频帧特征对应的样本语音合成数据；在当前记录的样本累积合成数据的基础上添加当前样本音频帧特征对应的样本语音合成数据，得到更新后的样本累积合成数据；当前记录的样本累积合成数据，是由当前音频帧特征之前的至少部分音频帧特征对应的样本语音合成数据累积得到的；基于更新后的样本累积合成数据，确定对应于当前样本音频帧特征的、且符合预设帧移长度的预测语音片段；将样本音频帧特征序列中的下一样本音频帧特征确定为新的当前样本音频帧特征，返回将当前样本音频帧特征输入到待训练的语音合成模型中进行处理以继续执行，直到得到样本音频帧特征序列的各个样本音频帧特征对应的预测语音片段；根据样本音频帧特征序列的各个样本音频帧特征对应的预测语音片段，合成样本音频帧特征序列的预测语音；基于样本音频帧特征序列的标准语音与预测语音之间的差异信息，调整语音合成模型的模型参数，得到已训练的语音合成模型。

上述语音合成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图13所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音合成方法中所涉及到的数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音合成方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图14所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语音合成方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置，显示屏可以是液晶显示屏或电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图13和图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述语音合成方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述语音合成方法中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述语音合成方法中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

获取对目标音频特征进行切分得到的待进行语音合成的多个音频帧特征序列；

从所述音频帧特征序列中按序地确定当前音频帧特征，并将所述当前音频帧特征输入到已训练的语音合成模型中进行处理，得到所述当前音频帧特征对应的语音合成数据；

在当前记录的累积合成数据的基础上添加所述当前音频帧特征对应的语音合成数据，得到更新后的累积合成数据；所述当前记录的累积合成数据包括所述当前音频帧特征之前的至少部分音频帧特征对应的语音合成数据；

基于所述更新后的累积合成数据，确定对应于所述当前音频帧特征的、且符合预设帧移长度的语音片段；

将所述音频帧特征序列中的下一音频帧特征确定为新的当前音频帧特征，返回所述将所述当前音频帧特征输入到已训练的语音合成模型中进行处理以继续执行，直至得到所述音频帧特征序列中各个音频帧特征对应的语音片段；

对于每个所述音频帧特征序列，将所述音频帧特征序列中的每个音频帧特征对应的语音片段按序拼接，得到所述音频帧特征序列预测出的拼接片段；

按照各个所述音频帧特征序列在所述目标音频特征中的排序，对各个所述音频帧特征序列预测出的拼接片段进行拼接，合成目标语音。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取待进行语音合成的目标文本对应的所述目标音频特征；

所述按照各个所述音频帧特征序列在所述目标音频特征中的排序，对各个所述音频帧特征序列预测出的拼接片段进行拼接，合成目标语音包括：

按照各个所述音频帧特征序列在所述目标音频特征中的排序，对各个所述音频帧特征序列预测出的拼接片段进行拼接，合成所述目标文本对应的目标语音。

3.根据权利要求2所述的方法，其特征在于，所述从所述音频帧特征序列中按序地确定当前音频帧特征包括：

获取每个所述音频帧特征序列对应的辅助音频特征；所述辅助音频特征包括至少一个辅助音频帧特征；每个辅助音频帧特征用于表征一个辅助音频帧的特征；

将每个所述音频帧特征序列与相应的辅助音频特征进行拼接，得到多个拼接音频帧特征序列；

针对每个所述拼接音频帧特征序列，从所述拼接音频帧特征序列中按序地确定当前音频帧特征。

4.根据权利要求3所述的方法，其特征在于，所述按照各个所述音频帧特征序列在所述目标音频特征中的排序，对各个所述音频帧特征序列预测出的拼接片段进行拼接，合成所述目标文本对应的目标语音包括：

确定所述辅助音频特征中包括的辅助音频帧特征的帧特征数量；

根据所述预设帧移长度与所述帧特征数量的乘积，确定重叠长度；

按照各个所述音频帧特征序列在所述目标音频特征中的排序以及所述重叠长度，对各个所述音频帧特征序列预测出的拼接片段进行拼接，以将在前的拼接片段中符合所述重叠长度的尾部数据与在后的拼接片段中符合所述重叠长度的头部数据进行融合，生成所述目标文本对应的目标语音。

5.根据权利要求1所述的方法，其特征在于，所述将所述当前音频帧特征输入到已训练的语音合成模型中进行处理，得到所述当前音频帧特征对应的语音合成数据包括：

获取所述当前音频帧特征的前向音频帧特征预测出的语音片段，得到前向语音片段；

获取所述音频帧特征序列对应的当前参考语音片段，将所述前向语音片段拼接到当前参考语音片段之后，得到更新后的参考语音片段；

从所述更新后的参考语音片段中选取预设帧长的尾部数据，得到参考音频帧，对所述参考音频帧进行音频特征的提取，得到参考音频帧特征；

将所述当前音频帧特征与所述参考音频帧特征进行拼接，将拼接后的特征输入到已训练的语音合成模型中进行处理，得到所述当前音频帧特征对应的语音合成数据。

6.根据权利要求5所述的方法，其特征在于，在所述从所述音频帧特征序列中按序地确定当前音频帧特征之前，还包括：

获取所述音频帧特征序列对应的初始化的参考语音片段；

对所述初始化的参考语音片段进行音频特征提取，得到所述初始化的参考语音片段的音频提取特征；

获取初始化音频特征，将所述音频提取特征与所述初始化音频特征进行拼接，并将拼接所得到的特征输入到所述语音合成模型中进行处理，得到初始化合成数据，并将所述初始化合成数据进行记录。

7.根据权利要求1所述的方法，其特征在于，所述将所述当前音频帧特征输入到已训练的语音合成模型中进行处理，得到所述当前音频帧特征对应的语音合成数据包括：

将所述当前音频帧特征输入到已训练的语音合成模型中进行第一卷积处理，得到所述当前音频帧特征对应的第一卷积数据；

基于所述当前音频帧特征对应的第一卷积数据以及当前记录的累积卷积数据，生成所述当前音频帧特征对应的语音合成数据；所述当前记录的累积卷积数据，包括所述当前音频帧特征之前的至少部分音频帧特征对应的第一卷积数据。

8.根据权利要求7所述的方法，其特征在于，所述将所述当前音频帧特征输入到已训练的语音合成模型中进行第一卷积处理，得到所述当前音频帧特征对应的第一卷积数据包括：

将所述当前音频帧特征输入到已训练的语音合成模型中进行上采样处理，得到所述当前音频帧特征对应的上采样数据；

在当前记录的累积上采样数据的基础上添加所述当前音频帧特征对应的上采样数据，得到更新后的累积上采样数据；所述当前记录的累积上采样数据，包括所述当前音频帧特征之前的至少部分音频帧特征对应的上采样数据；

从所述更新后的累积上采样数据中选取待进行第一卷积处理的数据片段，得到第一数据片段；

利用所述已训练的语音合成模型，对所述第一数据片段进行第一卷积处理，得到所述当前音频帧特征对应的第一卷积数据。

9.根据权利要求7所述的方法，其特征在于，所述基于所述当前音频帧特征对应的第一卷积数据以及当前记录的累积卷积数据，生成所述当前音频帧特征对应的语音合成数据包括：

在所述当前记录的累积卷积数据的基础上添加所述当前音频帧特征对应的第一卷积数据，得到更新后的累积卷积数据；

从所述更新后的累积卷积数据中选取待进行第二卷积处理的数据片段，得到第二数据片段；

利用所述已训练的语音合成模型，对所述第二数据片段进行第二卷积处理，得到所述当前音频帧特征对应的第二卷积数据；

将所述第二卷积数据与所述第二数据片段进行融合，得到所述当前音频帧特征对应的语音合成数据。

10.根据权利要求9所述的方法，其特征在于，所述第二卷积数据的数据维度小于所述第二数据片段的数据维度；所述将所述第二卷积数据与所述第二数据片段进行融合，得到所述当前音频帧特征对应的语音合成数据包括：

确定所述第二卷积数据对应的数据长度；

从所述第二数据片段中选取符合所述数据长度的部分数据，得到第三数据片段；

将所述第三数据片段与所述第二卷积数据进行融合，得到所述当前音频帧特征对应的语音合成数据。

11.根据权利要求1所述的方法，其特征在于，所述在当前记录的累积合成数据的基础上添加所述当前音频帧特征对应的语音合成数据，得到更新后的累积合成数据包括：

将所述当前音频帧特征对应的语音合成数据拼接在当前记录的累积合成数据之后，得到更新后的累积合成数据；

所述基于所述更新后的累积合成数据，确定对应于所述当前音频帧特征的、且符合预设帧移长度的语音片段包括：

从所述更新后的累积合成数据中选取符合预设帧移长度的尾部数据，得到对应于所述当前音频帧特征的、且符合预设帧移长度的语音片段。

12.根据权利要求1至11中任一项所述的方法，其特征在于，所述已训练的语音合成模型通过以下步骤得到：

将样本音频帧特征序列的首个样本音频帧特征确定为当前样本音频帧特征，将所述当前样本音频帧特征输入到待训练的语音合成模型中进行处理，得到所述当前样本音频帧特征对应的样本语音合成数据；

在当前记录的样本累积合成数据的基础上添加所述当前样本音频帧特征对应的样本语音合成数据，得到更新后的样本累积合成数据；所述当前记录的样本累积合成数据，是由所述当前音频帧特征之前的至少部分音频帧特征对应的样本语音合成数据累积得到的；

基于所述更新后的样本累积合成数据，确定对应于所述当前样本音频帧特征的、且符合所述预设帧移长度的预测语音片段；

将样本音频帧特征序列中的下一样本音频帧特征确定为新的当前样本音频帧特征，返回将所述当前样本音频帧特征输入到待训练的语音合成模型中进行处理以继续执行，直到得到所述样本音频帧特征序列的各个样本音频帧特征对应的预测语音片段；

根据所述样本音频帧特征序列的各个样本音频帧特征对应的预测语音片段，合成所述样本音频帧特征序列的预测语音；

基于所述样本音频帧特征序列的标准语音与所述预测语音之间的差异信息，调整所述语音合成模型的模型参数，得到所述已训练的语音合成模型。

13.一种语音合成装置，其特征在于，所述装置包括：

序列获取模块，用于获取对目标音频特征进行切分得到的待进行语音合成的多个音频帧特征序列；

特征确定模块，用于从所述音频帧特征序列中按序地确定当前音频帧特征，并将所述当前音频帧特征输入到已训练的语音合成模型中进行处理，得到所述当前音频帧特征对应的语音合成数据；

数据添加模块，用于在当前记录的累积合成数据的基础上添加所述当前音频帧特征对应的语音合成数据，得到更新后的累积合成数据；所述当前记录的累积合成数据包括所述当前音频帧特征之前的至少部分音频帧特征对应的语音合成数据；

片段确定模块，用于基于所述更新后的累积合成数据，确定对应于所述当前音频帧特征的、且符合预设帧移长度的语音片段；

返回模块，用于将所述音频帧特征序列中的下一音频帧特征确定为新的当前音频帧特征，返回所述将所述当前音频帧特征输入到已训练的语音合成模型中进行处理以继续执行，直至得到所述音频帧特征序列中各个音频帧特征对应的语音片段；

拼接模块，用于对于每个所述音频帧特征序列，将所述音频帧特征序列中的每个音频帧特征对应的语音片段按序拼接，得到所述音频帧特征序列预测出的拼接片段；按照各个所述音频帧特征序列在所述目标音频特征中的排序，对各个所述音频帧特征序列预测出的拼接片段进行拼接，合成目标语音。

14.根据权利要求13所述的装置，其特征在于，所述装置还用于：

获取待进行语音合成的目标文本对应的所述目标音频特征；

所述拼接模块，还用于按照各个所述音频帧特征序列在所述目标音频特征中的排序，对各个所述音频帧特征序列预测出的拼接片段进行拼接，合成所述目标文本对应的目标语音。

15.根据权利要求14所述的装置，其特征在于，所述特征确定模块，还用于：

16.根据权利要求15所述的装置，其特征在于，所述拼接模块，还用于：

17.根据权利要求13所述的装置，其特征在于，所述特征确定模块，还用于：

18.根据权利要求17所述的装置，其特征在于，所述装置还用于：

获取所述音频帧特征序列对应的初始化的参考语音片段；

19.根据权利要求13所述的装置，其特征在于，所述特征确定模块，还用于：

20.根据权利要求19所述的装置，其特征在于，所述特征确定模块，还用于：

21.根据权利要求19所述的装置，其特征在于，所述特征确定模块，还用于：

22.根据权利要求21所述的装置，其特征在于，所述第二卷积数据的数据维度小于所述第二数据片段的数据维度；所述特征确定模块，还用于：

确定所述第二卷积数据对应的数据长度；

23.根据权利要求13所述的装置，其特征在于，所述数据添加模块，还用于：

所述片段确定模块，还用于从所述更新后的累积合成数据中选取符合预设帧移长度的尾部数据，得到对应于所述当前音频帧特征的、且符合预设帧移长度的语音片段。

24.根据权利要求13至23中任一项所述的装置，其特征在于，所述装置还用于：

25.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

26.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。

27.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。