CN114203151A

CN114203151A - 语音合成模型的训练的相关方法以及相关装置、设备

Info

Publication number: CN114203151A
Application number: CN202111272083.6A
Authority: CN
Inventors: 周阳
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-03-18

Abstract

本申请公开语音合成模型的训练的相关方法以及相关装置、设备。语音合成模型的训练方法包括：获取到样本音频及其特征信息，以及每一帧样本音频的标准特征谱；通过初始模型对样本音频的特征谱进行预测，得到每一帧样本音频的预测特征谱；依次将每相邻帧标准特征谱进行作差处理以及每相邻帧的预测特征谱进行作差处理，得到标准特征谱误差以及预测特征谱误差；利用标准特征谱误差以及预测特征谱误差对初始模型进行训练，得到语音合成模型。上述方案，通过作差处理后的特征谱误差对初始模型进行训练，使语音合成模型所预测的预测特征谱的变化趋势能够与标准特征谱的变化趋势具备一致性，从而提高语音合成模型的预测精度，进而提高语音合成的相似度。

Description

语音合成模型的训练的相关方法以及相关装置、设备

技术领域

本申请涉及语音合成的技术领域，特别是涉及语音合成模型的训练的相关方法以及相关装置、设备。

背景技术

随着电子信息处理技术的不断发展，语音作为人们获取信息的重要载体，已经被广泛应用于日常生活和工作中。涉及语音的应用场景中，通常会包括语音合成的处理，语音合成是指将指定的文本或音频，合成为符合需求的目标音频。

其中，语音克隆随着语音合成的广泛应用，其在某些特定场合收到越来越高的重视，例如AI智能呼叫系统、特定人物的声音合成等场合。

基于此，如何提高语音合成中语音克隆的效果，即提高语音合成相似度成为目前需要解决的技术问题。

发明内容

本申请提供了语音合成模型的训练的相关方法以及相关装置、设备，能够提高语音合成的相似度。

本申请提供了一种语音合成模型的训练方法，语音合成模型的训练方法，包括：获取到样本音频，并获取样本音频的特征信息，以及每一帧样本音频的标准特征谱；通过初始模型基于样本音频及其特征信息对样本音频的特征谱进行预测，得到每一帧样本音频的预测特征谱；依次将每一帧样本音频的标准特征谱与后一帧的标准特征谱进行作差处理，得到标准特征谱误差，以及每一帧样本音频的预测特征谱与后一帧的预测特征谱进行作差处理，得到预测特征谱误差；利用标准特征谱误差以及预测特征谱误差对初始模型进行训练，将训练完成的模型确定为语音合成模型。

其中，标准特征谱包括：标准梅尔谱和标准线性谱；预测特征谱包括：预测梅尔谱和预测线性谱；依次将每一帧样本音频的标准特征谱与后一帧的标准特征谱进行作差处理，得到标准特征谱误差，以及每一帧样本音频的预测特征谱与后一帧的预测特征谱进行作差处理，得到预测特征谱误差的步骤包括：依次将标准梅尔谱中每一帧的梅尔频率与后一帧的梅尔频率进行作差处理，得到各相邻帧的梅尔频率之间的标准梅尔谱误差；以及依次将预测梅尔谱中每一帧的与后一帧的梅尔频率进行作差处理，得到各相邻帧的梅尔频率之间的预测梅尔谱误差；以及依次将标准线性谱中每一帧的频率与后一帧的频率进行作差处理，得到各相邻帧的频率之间的标准线性谱误差；以及依次将预测线性谱中每一帧的频率与后一帧的频率进行作差处理，得到各相邻帧的频率之间的预测线性谱误差；利用标准特征谱误差以及预测特征谱误差对初始模型进行训练，将训练完成的模型确定为语音合成模型的步骤包括：响应于标准梅尔谱误差与预测梅尔谱误差之间的相似度和/或标准线性谱误差与预测线性谱误差之间的相似度满足预设要求，则训练完成，获取到语音合成模型。

其中，通过初始模型基于样本音频及其特征信息对样本音频的特征谱进行预测，得到每一帧样本音频的预测特征谱的步骤还包括：通过初始模型对预测梅尔谱进行卷积处理；基于卷积处理前后的预测梅尔谱进行残差处理，得到梅尔残差谱；依次将每一帧样本音频的标准特征谱与后一帧的标准特征谱进行作差处理，得到标准特征谱误差，以及每一帧样本音频的预测特征谱与后一帧的预测特征谱进行作差处理，得到预测特征谱误差的步骤还包括：依次将梅尔残差谱中每一帧的频率与后一帧的频率进行作差处理，得到各相邻帧的频率之间的预测残差谱误差；利用标准特征谱误差以及预测特征谱误差对初始模型进行训练，将训练完成的模型确定为语音合成模型的步骤还包括：响应于标准梅尔谱误差与预测梅尔谱误差之间的相似度和/或标准线性谱误差与预测线性谱误差之间的相似度和/或预测残差谱误差与标准梅尔谱误差之间的相似度满足预设要求，则获取到语音合成模型。

其中，获取到样本音频，并获取样本音频的特征信息，以及每一帧样本音频的标准特征谱的步骤包括：获取到样本音频，并获取样本音频的音素、韵律以及音高，将音素、韵律以及音高作为特征信息；对样本音频进行分帧加窗以及傅里叶变换，得到样本音频的标准线性谱；将标准线性谱输入到梅尔滤波器组中进行滤波处理，得到标准梅尔谱。

其中，语音合成模型的训练方法还包括：将样本音频的标准梅尔谱输入到深度学习网络中，利用深度学习网络提取出样本音频的音色特征矩阵；基于样本音频进行音频特征提取，得到样本音频的音频特征矩阵。

其中，初始模型包括相互级联的编码器、注意力网络以及解码器；通过初始模型基于样本音频及其特征信息对样本音频的特征谱进行预测，得到每一帧样本音频的预测特征谱的步骤包括：将样本音频的音素、韵律以及音高输入到初始模型中的编码器以及注意力网络中进行编码，得到编码数据；

其中，利用标准特征谱误差以及预测特征谱误差对初始模型进行训练，将训练完成的模型确定为语音合成模型的步骤还包括：基于标准特征谱与预测特征谱确定标准特征谱中各帧与预测特征谱中对应帧之间的均方误差；利用标准特征谱中各帧与预测特征谱中对应帧之间的均方误差对初始模型进行训练，将训练完成的模型确定为语音合成模型。

本申请还提供了一种语音合成方法，语音合成方法包括：获取到待合成对象以及目标对象的特征信息；将待合成对象以及目标对象的特征信息输入到语音合成模型中进行预测，得到语音合成模型合成的预测特征谱；通过语音合成模型基于预测特征谱输出合成语音；其中，语音合成模型是通过上述任一项的语音合成模型的训练方法训练得到的。

本申请还提供了一种语音合成模型的训练装置，语音合成模型的训练装置包括：获取模块，用于获取到样本音频，并获取样本音频的特征信息，以及每一帧样本音频的标准特征谱；预测模块，用于通过初始模型基于样本音频及其特征信息对样本音频的特征谱进行预测，得到每一帧样本音频的预测特征谱；计算模块，用于依次将每一帧样本音频的标准特征谱与后一帧的标准特征谱进行作差处理，得到标准特征谱误差，以及每一帧样本音频的预测特征谱与后一帧的预测特征谱进行作差处理，得到预测特征谱误差；训练模块，用于利用标准特征谱误差以及预测特征谱误差对初始模型进行训练，将训练完成的模型确定为语音合成模型。

本申请还提供了一种语音合成装置，语音合成装置，包括：获取模块，用于获取到待合成对象以及目标对象的特征信息；预测模块，用于将待合成对象以及目标对象的特征信息输入到语音合成模型中进行预测，得到语音合成模型合成的预测特征谱；输出模块，用于通过语音合成模型基于预测特征谱输出合成语音；其中，语音合成模型是通过上述任一项的语音合成模型的训练方法训练得到的。

本申请还提供了一种电子设备，包括相互耦接的存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述任意一语音合成模型的训练方法和语音合成方法。

本申请还提供了一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述任意一语音合成模型的训练方法和语音合成方法。

上述方案，本申请通过获取到每一帧样本音频的标准特征谱，再通过初始模型基于样本音频及其特征信息对样本音频的特征谱进行预测，得到每一帧样本音频的预测特征谱，依次计算得到标准特征谱误差，以及预测特征谱误差，最后利用标准特征谱误差以及预测特征谱误差对初始模型进行训练，将训练完成的模型确定为语音合成模型，能够基于预测特征谱中各相邻帧之间的预测特征谱误差与标准特征谱中各相邻帧之间的标准特征谱误差进行训练，从而使得训练完成后的语音合成模型所预测的预测特征谱的变化趋势能够与样本音频的标准特征谱的变化趋势具备一致性，从而提高语音合成模型的语音合成精度，提高语音合成的相似度。

附图说明

图1是本申请语音合成模型的训练方法一实施例的流程示意图；

图2是本申请语音合成模型的训练方法另一实施例的流程示意图；

图3是本申请语音合成方法一实施例的流程示意图；

图4是本申请语音合成的训练装置一实施例的框架示意图；

图5是本申请语音合成装置一实施例的框架示意图；

图6是本申请电子设备一实施例的框架示意图；

图7为本申请计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，可以存在三种关系，例如，A和/或B，可以：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般前后关联对象是一种“或”的关系。此外，本文中的“多”两个或者多于两个。

请参阅图1，图1是本申请语音合成模型的训练方法一实施例的流程示意图。

步骤S11：获取到样本音频，并获取样本音频的特征信息，以及每一帧样本音频的标准特征谱。

获取到样本音频，并基于样本音频获取到样本音频的特征信息以及每一帧样本音频的标准特征谱。

其中，样本音频的特征信息可以包括样本音频的音素、音高、音素时长、声强、韵律等特征信息中的一种或多种。标准特征谱可以包括样本音频的梅尔谱、线性谱、线性预测系数(LPC)、线性预测倒谱系数(LPCC)、离散小波变换(DWT)、感知线性预测(PLP)等特征谱中的一种或多种。其中，本实施例的特征谱可以包括反映样本音频的音色、韵律或其他需要进行还原的音频特征的相关特征谱，具体可以基于实际需求进行选择。例如：当所训练的语音合成模型需要还原待合成对象的音色时，此处训练过程中所选取的特征谱的种类可以至少包括梅尔谱。其中，合成语音的音色生成主要取决于梅尔谱及其相关特征。而当所训练的语音合成模型需要还原待合成对象的其他特征时，此处训练过程中所选取的特征谱的种类可以选取对应的特征谱。

在一个具体的应用场景中，可以通过人工或已对应预先训练好的深度学习模型基于样本音频获取到样本音频的特征信息。

在一个具体的应用场景中，可以通过已对应预先训练好的深度学习模型基于样本音频获取到每一帧样本音频的标准特征谱。在另一个具体的应用场景中，也可以通过Aubio工具、Essentia工具或Librosa工具等音频处理工具获取到每一帧样本音频的标准特征谱。具体的获取到每一帧样本音频的标准特征谱的方法在此不做限定。

步骤S12：通过初始模型基于样本音频及其特征信息对样本音频的特征谱进行预测，得到每一帧样本音频的预测特征谱。

获取到样本音频的特征信息后，将样本音频及其特征信息输入到初始模型中，通过初始模型基于样本音频及其特征信息对样本音频的特征谱进行预测，得到每一帧样本音频的预测特征谱。

其中，预测特征谱的类型与步骤S11中标准特征谱的类型相对应。

步骤S13：依次将每一帧样本音频的标准特征谱与后一帧的标准特征谱进行作差处理，得到标准特征谱误差，以及每一帧样本音频的预测特征谱与后一帧的预测特征谱进行作差处理，得到预测特征谱误差。

依次将每一帧样本音频的标准特征谱与后一帧的标准特征谱进行作差处理，得到标准特征谱误差。以及依次将每一帧样本音频的预测特征谱与后一帧的预测特征谱进行作差处理，得到预测特征谱误差。

在一个具体的应用场景中，假设样本音频的标准特征谱共有10帧：A1、A2、A3、A4、A5、A6、A7、A8、A9以及A10。则依次将每一帧样本音频的标准特征谱与后一帧的标准特征谱进行作差处理，得到标准特征谱误差则为：S_1-2、S_2-3、S_3-4、S_4-5、S_5-6、S_6-7、S_7-8、S_8-9、S_9-10。

在一个具体的应用场景中，假设样本音频的预测特征谱共有10帧：B1、B2、B3、B4、B5、B6、B7、B8、B9以及B10。则依次将每一帧样本音频的预测特征谱与后一帧的预测特征谱进行作差处理，得到预测特征谱误差则为：H_1-2、H_2-3、H_3-4、H_4-5、H_5-6、H_6-7、H_7-8、H_8-9、H_9-10。

步骤S14：利用标准特征谱误差以及预测特征谱误差对初始模型进行训练，将训练完成的模型确定为语音合成模型。

获取到样本音频的标准特征谱误差以及基于初始模型预测得到的预测特征谱误差后，利用标准特征谱误差以及预测特征谱误差对初始模型进行训练，将训练完成的模型确定为语音合成模型。

在一个具体的应用场景中，可以通过损失函数基于标准特征谱误差以及预测特征谱误差对初始模型进行训练，直至损失函数收敛，得到训练完成的语音合成模型。其中。损失函数可以包括交叉熵损失函数、绝对值损失函数、平方损失函数等，具体在此不做限定。

在一个具体的应用场景中，可以计算标准特征谱误差以及预测特征谱误差之间的相似度，响应于标准特征谱误差以及预测特征谱误差之间的相似度满足相似度阈值，则训练完成，得到训练完成的语音合成模型。

通过上述步骤，本实施例的语音合成模型的训练方法通过获取到每一帧样本音频的标准特征谱，再通过初始模型基于样本音频及其特征信息对样本音频的特征谱进行预测，得到每一帧样本音频的预测特征谱，依次计算得到标准特征谱误差，以及预测特征谱误差，最后利用标准特征谱误差以及预测特征谱误差对初始模型进行训练，将训练完成的模型确定为语音合成模型，能够基于预测特征谱中各相邻帧之间的预测特征谱误差与标准特征谱中各相邻帧之间的标准特征谱误差进行训练，从而使得训练完成后的语音合成模型所预测的预测特征谱的变化趋势能够与样本音频的标准特征谱的变化趋势具备一致性，从而提高语音合成模型的语音合成精度，提高语音合成的相似度。

请参阅图2，图2是本申请语音合成模型的训练方法另一实施例的流程示意图。

步骤S21：获取到样本音频，并获取样本音频的音素、韵律以及音高，将音素、韵律以及音高作为特征信息，对样本音频进行分帧加窗以及傅里叶变换，得到样本音频的标准线性谱，将标准线性谱输入到梅尔滤波器组中进行滤波处理，得到标准梅尔谱。

获取到样本音频，并获取到样本音频的音素、韵律以及音高。其中，音素(phone)是根据语音的自然属性划分出来的最小语音单位。音高(Pitch)是指各种音调高低不同的声音，即音的高度，音的基本特征的一种。音素时长即对应音素的发音时长。韵律包含了样本音频的平仄格式和押韵规则。

在一个具体的应用场景中，可以通过多名不同音色的录音员基于所需的音素、韵律以及音高的要求进行样本音频的录取。其中，样本音频可以涵盖大部分或全部的音高范围以及音素时长范围。再从样本音频中提取出样本音频所有的音素、韵律以及音高。

在一个具体的应用场景中，获取样本音频的音素、韵律以及音高时，可以通过将样本音频输入至已预先训练好的深度学习模型中进行预测，得到样本音频的音素、韵律以及音高。在另一个具体的应用场景中，获取样本音频的音素、韵律以及音高时，也可以基于样本音频对应的字典分析出样本音频的音素、基于国际标准音分析出样本音频的音高以及通过已预先训练好的深度学习模型对样本音频进行预测，得到样本音频的韵律。在另一个具体的应用场景中，获取样本音频的音素、韵律以及音高时，也可以接收人工对样本音频的分析，得到样本音频的音素、韵律以及音高。

其中，将样本音频的音素、韵律以及音高作为语音合成的基础能够丰富样本音频的特征，提高样本音频的特征精度，进而使得语音合成能够基于更加丰富的特征进行更加完善和准确的语音合成，进而提高语音合成的效果。

本步骤还对样本音频进行分帧加窗以及傅里叶变换，得到样本音频的标准线性谱，再将标准线性谱输入到梅尔滤波器组中进行滤波处理，得到标准梅尔谱。其中，傅里叶变换包括短时傅里叶变换(STFT)或其他傅里叶变换。具体地，对样本音频进行分帧加窗以及傅里叶变换后，可以得到样本音频的时频域信号，再基于样本音频的时频域信号生成样本音频的标准线性谱。

在一个具体的应用场景中，可以对样本音频进行分帧加窗以及傅里叶变换后，先得到样本音频的时频域信号，再取时频域信号的幅值，生成样本音频的标准线性谱，从而对标准线性谱中的特征进行一定的提炼，进而提高提取速度，然后将标准线性谱输入到梅尔滤波器组中进行滤波处理，得到标准梅尔谱。

步骤S22：将样本音频的标准梅尔谱输入到深度学习网络中，利用深度学习网络提取出样本音频的音色特征矩阵。基于样本音频进行音频特征提取，得到样本音频的音频特征矩阵。

将样本音频的标准梅尔谱输入到深度学习网络中，利用深度学习网络提取出样本音频的音色特征矩阵，以通过音色特征矩阵使模型学习到样本音频的音色。基于样本音频进行音频特征提取，得到样本音频的音频特征矩阵，以通过音频特征矩阵使模型学习到样本音频的韵律。

在一个具体的应用场景中，可以通过global style token(GST)对样本音频的韵律进行提取，得到样本音频的音频特征矩阵。在另一个具体的应用场景中，也可以通过reference_encoder或unsupervised variational autoencoder(VAE)对样本音频的韵律进行提取，得到样本音频的音频特征矩阵。

在一个具体的应用场景中，本步骤还可以将样本音频的标准梅尔谱输入到深度学习网络中，利用深度学习网络提取出样本音频的音色特征矩阵。最后将梅尔谱输入到深度学习网络中，以提取待合成音频的音色信息，从而利用深度学习网络提取出样本音频的音色特征矩阵。

其中，本步骤音色特征矩阵提取的深度学习网络还可以包括双向门控循环单元(gated recurrent unit，GRU)网络+全连接网络(Fully Connected Layers，FC)+贝叶斯网络(Bayesian network，BN)的组合网络、长短期记忆模型、卷积神经网络或循环神经网络等深度学习网络，具体的类型可以基于实际情况进行设置，在此不做限定。且本步骤的深度学习网络是预先基于梅尔谱进行音色特征矩阵的提取训练好了的可以进行应用的网络。

本实施例通过在解码的输入中添加基于真实的样本音频生产的音频特征矩阵，从而提高初始模型生成的预测特征谱的准确度和精度。

步骤S23：将样本音频的音素、韵律以及音高输入到初始模型中的编码器以及注意力网络中进行编码，得到编码数据，将编码数据、样本音频的音频特征矩阵和音色特征矩阵输入到初始模型中的解码器进行解码，得到预测特征谱。

获取了样本音频的音素、韵律以及音高后，将样本音频的音素、韵律以及音高输入到初始模型中的编码器以及注意力网络中进行编码，得到编码数据。

本实施例的初始模型采用的tacotron1模型为基础，并对其进行改进，具体地，本实施例的初始模型包括相互级联的编码器、注意力网络以及解码器。其中，由于对音素、韵律以及音高的特征提取并不需要考虑到上下文信息，因此本实施例去除了tacotron1模型中的双向GRU模块，以简化初始模型结构，减少无效模型作业，进而提高初始模型以及最终的语音合成模型的语音合成效率。

进一步地，本实施例将原tacotron1模型中的注意力机制Bahdanau Attention更换为基于位置的注意力机制(Location Based Attention)，也就是初始模型采用基于位置的注意力机制，其中，基于位置的注意力机制会忽略或减少语音数据中的静音，从而能够在语音合成中减少对静音的无效分析与消耗，从而提高语音合成的效率和质量，进一步地，初始模型还采用Forward Location Based Attention作为注意力机制，以进一步减少对静音的无效分析与消耗，从而提高语音合成的效率和质量。

在一个具体的应用场景中，初始模型还可以添加Stop Token网络，通过StopToken网络对解码后的数据进行断句，从而隔开整段合成语音，使其符合发音规则，进而提高语音合成的质量。

将样本音频的音素、韵律以及音高输入到初始模型中的编码器中进行编码，再将编码器的输出输入到注意力网络中进行处理，最后将注意力网络的输出作为编码数据。

得到编码数据后，将音频特征矩阵、音色特征矩阵以及编码数据输入到初始模型中的解码器进行解码，得到预测特征谱。从而在初始模型的解码过程中进行部分真实音频的信息嵌入，使得模型能够进一步学习到样本音频的韵律，从而提高初始模型的语音合成相似度，提高预测特征谱的准确性与可靠性。

其中，本实施例中的标准特征谱可以包括：标准梅尔谱和标准线性谱以及预测特征谱可以包括预测梅尔谱和预测线性谱。

步骤S24：依次将每一帧样本音频的标准特征谱与后一帧的标准特征谱进行作差处理，得到标准特征谱误差，以及每一帧样本音频的预测特征谱与后一帧的预测特征谱进行作差处理，得到预测特征谱误差。

由于本实施例的标准特征谱包括标准梅尔谱和标准线性谱，而预测特征谱包括预测梅尔谱和预测线性谱，则本步骤的具体计算为：

依次将标准梅尔谱中每一帧的梅尔频率与后一帧的梅尔频率进行作差处理，得到各相邻帧的梅尔频率之间的标准梅尔谱误差；以及依次将预测梅尔谱中每一帧的与后一帧的梅尔频率进行作差处理，得到各相邻帧的梅尔频率之间的预测梅尔谱误差。

以及依次将标准线性谱中每一帧的频率与后一帧的频率进行作差处理，得到各相邻帧的频率之间的标准线性谱误差；以及依次将预测线性谱中每一帧的频率与后一帧的频率进行作差处理，得到各相邻帧的频率之间的预测线性谱误差。

此时，本步骤获得了标准梅尔谱误差、预测梅尔谱误差、标准线性谱误差以及预测线性谱误差。

在一个具体的应用场景中，本步骤还可以将预测梅尔谱依次输入到初始模型中5层卷积层、tanh激活函数以及全连接层进行卷积处理，并将卷积处理后输出的数据与预测梅尔谱进行残差处理，从而得到梅尔残差谱。

得到梅尔残差谱后，本步骤的计算还可以进一步依次将梅尔残差谱中每一帧的频率与后一帧的频率进行作差处理，得到各相邻帧的频率之间的预测残差谱误差。从而增加误差对比数量，提高模型训练过程中的训练标签，进一步提高模型训练效果，提高最终得到的语音合成模型的语音合成相似度。

本步骤通过增加梅尔残差谱及其误差对比，从而在模型训练过程中进一步增加梅尔特征的训练，提高模型对音色的还原，进而提高合成模型的合成语音对音色的还原。

步骤S25：利用标准特征谱误差以及预测特征谱误差对初始模型进行训练，将训练完成的模型确定为语音合成模型。

利用标准特征谱误差以及预测特征谱误差对初始模型进行训练，将训练完成的模型确定为语音合成模型。

在一个具体的应用场景中，利用标准梅尔谱和标准线性谱以及预测梅尔谱和预测线性谱对初始模型进行训练，响应于标准梅尔谱误差与预测梅尔谱误差之间的相似度和/或标准线性谱误差与预测线性谱误差之间的相似度满足预设要求，则获取到语音合成模型。其中，本应用场景的预设要求可以包括相似度阈值或相似度范围，预设要求具体可以基于训练手段进行设置，当上述误差之间的相似度达到相似度阈值或满足相似度范围时，训练完成，获取到语音合成模型。

在一个具体的应用场景中，利用标准梅尔谱和标准线性谱以及预测梅尔谱和预测线性谱对初始模型进行训练，并通过ADAM优化器对标准梅尔谱误差与预测梅尔谱误差和/或标准线性谱误差与预测线性谱误差之间的差距进行优化，直至满足预设要求，则训练完成，得到语音合成模型。其中，此应用场景中的预设要求可以包括ADAM优化器的优化标准。

在一个具体的应用场景中，还可以利用标准梅尔谱、标准线性谱、预测梅尔谱、预测线性谱以及预测残差谱误差对初始模型进行训练，并响应于标准梅尔谱误差与预测梅尔谱误差之间的相似度和/或标准线性谱误差与预测线性谱误差之间的相似度和/或预测残差谱误差与标准梅尔谱误差之间的相似度满足预设要求，则获取到语音合成模型。预设要求可以包括相似度阈值或相似度范围，预设要求具体可以基于训练手段进行设置，当上述误差之间的相似度达到相似度阈值或满足相似度范围时，训练完成，获取到语音合成模型。

在一个具体的应用场景中，模型训练时，在通过标准特征谱误差以及预测特征谱误差对初始模型进行训练时，还可以进一步计算标准特征谱中各帧与预测特征谱中对应帧之间的均方误差，即标准梅尔谱与预测梅尔谱之间的均方误差以及标准线性谱以及预测线性谱之间的均方误差；并利用标准特征谱中各帧与预测特征谱中对应帧之间的均方误差对初始模型进行训练。也就是，本应用场景中既基于各特征谱误差之间的误差进行训练收敛还基于各特征谱自身之间的误差进行训练，从而细化训练要求，既使得模型能够预测样本音频的各特征频率还能预测整个样本音频的变化趋势，从而提高合成语音与样本音频之间的相似度。

由于本实施例的样本音频涵盖了大部分或全部的音高范围以及音素范围，因此，在训练完成，且获得语音合成模型后，语音合成模型只需要待合成对象少量的音素、韵律以及音高进行音色相同的语音合成甚至语音生成，且基于音色特征矩阵和音频特征矩阵的设置使得语音合成模型能够基于不同的样本音频学习到不同的音色信息，从而进一步还原出与各样本音频音色对应的合成语音，从而能够在语音合成模型的应用过程中基于待合成对象的音色实现不同音素、韵律以及音高的语音合成，并提高语音合成的相似度，实现语音克隆。

在一个具体的应用场景中，为防止模型出现过拟合现象，还可以对模型的部分进行正则化处理，例如：对模型的解码器和/或编码器进行正则化处理。

通过上述步骤，本实施例的语音合成模型的训练方法通过将样本音频的音素、韵律以及音高作为语音合成的特征信息能够丰富样本音频的特征，提高样本音频的特征精度，进而提高语音合成效果。本实施例分别提取样本音频的音频特征矩阵和音色特征矩阵，并将上述特征与编码数据一同作为解码器的输入进行解码，使得模型能够进一步学习到样本音频的韵律和音色从而提高初始模型的语音合成相似度，提高预测特征谱的准确性与可靠性。且，本实施例还基于标准梅尔谱误差与预测梅尔谱误差和/或标准线性谱误差与预测线性谱误差和/或预测残差谱误差与标准梅尔谱误差对初始模型进行训练，以及基于标准梅尔谱与预测梅尔谱之间的均方误差以及标准线性谱以及预测线性谱之间的均方误差等多重反应音色的特征谱之间的误差对初始模型进行训练，从而通过多层训练进一步提高初始模型的训练效果，提高语音合成模型的语音合成相似度。

请参阅图3，图3是本申请语音合成方法一实施例的流程示意图。

步骤S31：获取到待合成对象以及目标对象的特征信息。

获取到待合成对象，其中，待合成对象可以包括需要对其进行语音还原的待合成对象。

而目标对象可以包括文本或音频形式的对象，其特征信息中包括了音素、音高、音素时长、声强、韵律等信息。

获取到待合成对象以及目标对象的特征信息后，基于待合成对象利用目标对象的特征信息进行语音合成，从而可以通过改变目标对象的特征信息从而实现基于待合成对象进行的多种其他特征信息语音的合成。

在一个具体的应用场景中，可以基于待合成对象的音色利用目标对象的特征信息进行语音合成，从而可以通过改变目标对象的特征信息从而实现克隆了待合成对象的音色的情况下多种其他内容的语音的合成。

在另一个具体的应用场景中，也可以基于待合成对象的韵律利用目标对象的特征信息进行语音合成，从而可以通过改变目标对象的特征信息从而实现克隆了待合成对象的韵律的情况下多种其他内容的语音的合成。

步骤S32：将待合成对象以及目标对象的特征信息输入到语音合成模型中进行预测，得到语音合成模型合成的预测特征谱。

获取到待合成对象后，将待合成对象输入到语音合成模型中进行预测，得到语音合成模型合成的预测特征谱。

其中，本实施例的语音合成模型是通过上述任一实施例的语音合成模型的训练方法训练得到的语音合成模型。其基于标准特征谱误差以及预测特征谱误差进行训练，使得语音合成模型所预测的预测特征谱及其变化趋势能够还原待合成对象的特征并匹配目标对象的特征信息，从而提高最终输出的合成语音的精度和可靠性。

步骤S33：通过语音合成模型基于预测特征谱输出合成语音。

获取到预测特征谱后，通过语音合成模型基于预测特征谱输出合成语音，完成的待合成对象的语音合成。

通过上述步骤，本实施例的语音合成方法在获取到待合成对象以及目标对象的特征信息后，将目标对象的特征信息以及待合成对象输入到语音合成模型中进行预测，得到语音合成模型合成的预测特征谱，最后通过语音合成模型基于预测特征谱输出合成语音，由于本实施例的语音合成模型是通过上述任一实施例的语音合成模型的训练方法训练得到的语音合成模型，通过语音合成模型进行语音合成能够得到与待合成语音的标准特征谱具备一致性的预测特征谱，进而还原待合成对象的特征并匹配目标对象的特征信息，从而提高最终输出的合成语音与对待合成对象之间的精度和相似度，并实现了合成语音的特征信息与目标对象的匹配。

在其他实施例中，语音合成模型包括相互级联的编码器、注意力网络以及解码器。而将待合成对象以及目标对象的特征信息输入到语音合成模型中进行预测，得到语音合成模型合成的预测特征谱的步骤还可以通过语音合成模型的编码器、注意力网络对特征信息进行编码得到编码数据；将待合成对象的标准梅尔谱输入到深度学习网络中，利用深度学习网络提取出待合成对象的音色特征矩阵；基于待合成对象进行音频特征提取，得到样本音频的音频特征矩阵；通过语音合成模型的解码器基于特征信息、音色特征矩阵以及音频特征矩阵进行预测，得到语音合成模型合成的预测特征谱。其中，具体的音频特征矩阵和音色特征矩阵的获取方法，特征谱的类型等均与前述实施例相同，请参阅前文，在此不再赘述。

其中，上述步骤中通过已训练好的语音合成模型对目标对象的特征信息进行预测，还对待合成语音进行音频特征矩阵和音色特征矩阵的提取，从而将真实的待合成对象的音频信息和音色信息进行嵌入，进一步提高语音合成模型对待合成对象的音色和韵律的还原，进一步提高语音合成过程中对待合成对象音色的还原、克隆，进而提高语音合成的相似度。

请参阅图4，图4是本申请语音合成的训练装置一实施例的框架示意图。语音合成模型的训练装置40包括获取模块41、预测模块42、计算模块43以及训练模块44。获取模块41，用于获取到样本音频，并获取样本音频的特征信息，以及每一帧样本音频的标准特征谱；预测模块42用于通过初始模型基于样本音频及其特征信息对样本音频的特征谱进行预测，得到每一帧样本音频的预测特征谱；计算模块43，用于依次将每一帧样本音频的标准特征谱与后一帧的标准特征谱进行作差处理，得到标准特征谱误差，以及每一帧样本音频的预测特征谱与后一帧的预测特征谱进行作差处理，得到预测特征谱误差；训练模块44，用于利用标准特征谱误差以及预测特征谱误差对初始模型进行训练，将训练完成的模型确定为语音合成模型。

计算模块43还用于依次将标准梅尔谱中每一帧的梅尔频率与后一帧的梅尔频率进行作差处理，得到各相邻帧的梅尔频率之间的标准梅尔谱误差；以及依次将预测梅尔谱中每一帧的与后一帧的梅尔频率进行作差处理，得到各相邻帧的梅尔频率之间的预测梅尔谱误差；以及依次将标准线性谱中每一帧的频率与后一帧的频率进行作差处理，得到各相邻帧的频率之间的标准线性谱误差；以及依次将预测线性谱中每一帧的频率与后一帧的频率进行作差处理，得到各相邻帧的频率之间的预测线性谱误差。训练模块44还用于响应于标准梅尔谱误差与预测梅尔谱误差之间的相似度和/或标准线性谱误差与预测线性谱误差之间的相似度满足预设要求，则训练完成，获取到语音合成模型。

预测模块42还用于通过初始模型对预测梅尔谱进行卷积处理；基于卷积处理前后的预测梅尔谱进行残差处理，得到梅尔残差谱。计算模块43还用于依次将梅尔残差谱中每一帧的频率与后一帧的频率进行作差处理，得到各相邻帧的频率之间的预测残差谱误差。训练模块44还用于响应于标准梅尔谱误差与预测梅尔谱误差之间的相似度和/或标准线性谱误差与预测线性谱误差之间的相似度和/或预测残差谱误差与标准梅尔谱误差之间的相似度满足预设要求，则获取到语音合成模型。

获取模块41还用于获取到样本音频，并获取样本音频的音素、韵律以及音高，将音素、韵律以及音高作为特征信息；对样本音频进行分帧加窗以及傅里叶变换，得到样本音频的标准线性谱；将标准线性谱输入到梅尔滤波器组中进行滤波处理，得到标准梅尔谱。

获取模块41还用于将样本音频的标准梅尔谱输入到深度学习网络中，利用深度学习网络提取出样本音频的音色特征矩阵；基于样本音频进行音频特征提取，得到样本音频的音频特征矩阵。

预测模块42还用于将样本音频的音素、韵律以及音高输入到初始模型中的编码器以及注意力网络中进行编码，得到编码数据；将编码数据、样本音频的音频特征矩阵和音色特征矩阵输入到初始模型中的解码器进行解码，得到预测特征谱。

训练模块44还用于基于标准特征谱与预测特征谱确定标准特征谱中各帧与预测特征谱中对应帧之间的均方误差；利用标准特征谱中各帧与预测特征谱中对应帧之间的均方误差对初始模型进行训练，将训练完成的模型确定为语音合成模型。

上述方案，能够语音合成的相似度。

请参阅图5，图5是本申请语音合成装置一实施例的框架示意图。

语音合成装置50包括：获取模块51，用于获取到待合成对象以及目标对象的特征信息；预测模块52，用于将待合成对象以及目标对象的特征信息输入到语音合成模型中进行预测，得到语音合成模型合成的预测特征谱；输出模块53，用于通过语音合成模型基于预测特征谱输出合成语音；

其中，语音合成模型是通过上述任一实施例的语音合成模型的训练方法训练得到的。

预测模块52还用于通过语音合成模型的编码器、注意力网络对特征信息进行编码得到编码数据；将待合成对象的标准梅尔谱输入到深度学习网络中，利用深度学习网络提取出待合成对象的音色特征矩阵；基于待合成对象进行音频特征提取，得到样本音频的音频特征矩阵；通过语音合成模型的解码器基于特征信息、音色特征矩阵以及音频特征矩阵进行预测，得到语音合成模型合成的预测特征谱。

请参阅图6，图6是本申请电子设备一实施例的框架示意图。电子设备60包括相互耦接的存储器61和处理器62，处理器62用于执行存储器61中存储的程序指令，以实现上述任一实施例的语音合成模型的训练方法和语音合成方法的步骤。在一个具体的实施场景中，电子设备60可以包括但不限于：微型计算机、服务器，此外，电子设备60还可以包括笔记本电脑、平板电脑等移动设备，在此不做限定。

具体而言，处理器62用于控制其自身以及存储器61以实现上述任一语音合成模型的训练方法实施例的步骤。处理器62还可以称为CPU(Central Processing Unit，中央处理单元)。处理器62可能是一种集成电路芯片，具有信号的处理能力。处理器62还可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器62可以由集成电路芯片共同实现。

上述方案，能够语音合成的相似度。

请参阅图7，图7为本申请计算机可读存储介质一实施例的框架示意图。计算机可读存储介质70存储有能够被处理器运行的程序指令701，程序指令701用于实现上述任一实施例的语音合成模型的训练方法和语音合成方法的步骤。

上述方案，能够语音合成的相似度。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种语音合成模型的训练方法，其特征在于，所述语音合成模型的训练方法包括：

获取到样本音频，并获取所述样本音频的特征信息，以及每一帧所述样本音频的标准特征谱；

通过初始模型基于所述样本音频及其特征信息对所述样本音频的特征谱进行预测，得到每一帧样本音频的预测特征谱；

依次将每一帧所述样本音频的所述标准特征谱与后一帧的标准特征谱进行作差处理，得到标准特征谱误差，以及每一帧所述样本音频的预测特征谱与后一帧的预测特征谱进行作差处理，得到预测特征谱误差；

利用所述标准特征谱误差以及所述预测特征谱误差对所述初始模型进行训练，将训练完成的模型确定为所述语音合成模型。

2.根据权利要求1所述的语音合成模型的训练方法，其特征在于，所述标准特征谱包括：标准梅尔谱和标准线性谱；所述预测特征谱包括：预测梅尔谱和预测线性谱；

所述依次将每一帧所述样本音频的所述标准特征谱与后一帧的标准特征谱进行作差处理，得到标准特征谱误差，以及每一帧所述样本音频的预测特征谱与后一帧的预测特征谱进行作差处理，得到预测特征谱误差的步骤包括：

依次将所述标准梅尔谱中每一帧的梅尔频率与后一帧的梅尔频率进行作差处理，得到各相邻帧的梅尔频率之间的标准梅尔谱误差；以及依次将所述预测梅尔谱中每一帧的与后一帧的梅尔频率进行作差处理，得到各相邻帧的梅尔频率之间的预测梅尔谱误差；以及

依次将所述标准线性谱中每一帧的频率与后一帧的频率进行作差处理，得到各相邻帧的频率之间的标准线性谱误差；以及依次将所述预测线性谱中每一帧的频率与后一帧的频率进行作差处理，得到各相邻帧的频率之间的预测线性谱误差；

所述利用所述标准特征谱误差以及所述预测特征谱误差对所述初始模型进行训练，将训练完成的模型确定为所述语音合成模型的步骤包括：

响应于所述标准梅尔谱误差与所述预测梅尔谱误差之间的相似度和/或所述标准线性谱误差与预测线性谱误差之间的相似度满足预设要求，则训练完成，获取到所述语音合成模型。

3.根据权利要求2所述的语音合成模型的训练方法，其特征在于，所述通过初始模型基于所述样本音频及其特征信息对所述样本音频的特征谱进行预测，得到每一帧样本音频的预测特征谱的步骤还包括：

通过所述初始模型对所述预测梅尔谱进行卷积处理；

基于卷积处理前后的预测梅尔谱进行残差处理，得到梅尔残差谱；

所述依次将每一帧所述样本音频的所述标准特征谱与后一帧的标准特征谱进行作差处理，得到标准特征谱误差，以及每一帧所述样本音频的预测特征谱与后一帧的预测特征谱进行作差处理，得到预测特征谱误差的步骤还包括：

依次将所述梅尔残差谱中每一帧的频率与后一帧的频率进行作差处理，得到各相邻帧的频率之间的预测残差谱误差；

所述利用所述标准特征谱误差以及所述预测特征谱误差对所述初始模型进行训练，将训练完成的模型确定为所述语音合成模型的步骤还包括：

响应于所述标准梅尔谱误差与所述预测梅尔谱误差之间的相似度和/或所述标准线性谱误差与预测线性谱误差之间的相似度和/或所述预测残差谱误差与所述标准梅尔谱误差之间的相似度满足所述预设要求，则获取到所述语音合成模型。

4.根据权利要求2所述的语音合成模型的训练方法，其特征在于，所述获取到样本音频，并获取所述样本音频的特征信息，以及每一帧所述样本音频的标准特征谱的步骤包括：

获取到所述样本音频，并获取所述样本音频的音素、韵律以及音高，将所述音素、韵律以及音高作为所述特征信息；

对所述样本音频进行分帧加窗以及傅里叶变换，得到所述样本音频的标准线性谱；

将所述标准线性谱输入到梅尔滤波器组中进行滤波处理，得到所述标准梅尔谱。

5.根据权利要求4所述的语音合成模型的训练方法，其特征在于，所述语音合成模型的训练方法还包括：

将所述样本音频的标准梅尔谱输入到深度学习网络中，利用所述深度学习网络提取出所述样本音频的音色特征矩阵；

基于所述样本音频进行音频特征提取，得到所述样本音频的音频特征矩阵。

6.根据权利要求5所述的语音合成模型的训练方法，其特征在于，所述初始模型包括相互级联的编码器、注意力网络以及解码器；

所述通过初始模型基于所述样本音频及其特征信息对所述样本音频的特征谱进行预测，得到每一帧样本音频的预测特征谱的步骤包括：

将所述样本音频的音素、韵律以及音高输入到所述初始模型中的编码器以及注意力网络中进行编码，得到编码数据；

将所述编码数据、所述样本音频的音频特征矩阵和音色特征矩阵输入到所述初始模型中的解码器进行解码，得到所述预测特征谱。

7.根据权利要求1所述的语音合成模型的训练方法，其特征在于，所述利用所述标准特征谱误差以及所述预测特征谱误差对所述初始模型进行训练，将训练完成的模型确定为所述语音合成模型的步骤还包括：

基于所述标准特征谱与所述预测特征谱确定所述标准特征谱中各帧与所述预测特征谱中对应帧之间的均方误差；

利用标准特征谱中各帧与所述预测特征谱中对应帧之间的均方误差对所述初始模型进行训练，将训练完成的模型确定为所述语音合成模型。

8.一种语音合成方法，其特征在于，所述语音合成方法包括：

获取到待合成对象以及目标对象的特征信息；

将所述待合成对象以及所述目标对象的特征信息输入到语音合成模型中进行预测，得到所述语音合成模型合成的预测特征谱；

通过所述语音合成模型基于所述预测特征谱输出合成语音；

其中，所述语音合成模型是通过权利要求1-7任一项所述的语音合成模型的训练方法训练得到的。

9.根据权利要求8所述的语音合成方法，其特征在于，所述语音合成模型包括相互级联的编码器、注意力网络以及解码器；

所述将所述待合成对象以及所述目标对象的特征信息输入到语音合成模型中进行预测，得到所述语音合成模型合成的预测特征谱的步骤包括：

通过所述语音合成模型的编码器、注意力网络对所述特征信息进行编码得到编码数据；

将所述待合成对象的标准梅尔谱输入到深度学习网络中，利用所述深度学习网络提取出所述待合成对象的音色特征矩阵；

基于所述待合成对象进行音频特征提取，得到所述样本音频的音频特征矩阵；

通过所述语音合成模型的解码器基于所述特征信息、所述音色特征矩阵以及所述音频特征矩阵进行预测，得到所述语音合成模型合成的预测特征谱。

10.一种语音合成模型的训练装置，其特征在于，所述语音合成模型的训练装置包括：

获取模块，用于获取到样本音频，并获取所述样本音频的特征信息，以及每一帧所述样本音频的标准特征谱；

预测模块，用于通过初始模型基于所述样本音频及其特征信息对所述样本音频的特征谱进行预测，得到每一帧样本音频的预测特征谱；

计算模块，用于依次将每一帧所述样本音频的所述标准特征谱与后一帧的标准特征谱进行作差处理，得到标准特征谱误差，以及每一帧所述样本音频的预测特征谱与后一帧的预测特征谱进行作差处理，得到预测特征谱误差；

训练模块，用于利用所述标准特征谱误差以及所述预测特征谱误差对所述初始模型进行训练，将训练完成的模型确定为所述语音合成模型。

11.一种语音合成装置，其特征在于，所述语音合成装置包括：

获取模块，用于获取到待合成对象以及目标对象的特征信息；

预测模块，用于将所述待合成对象以及所述目标对象的特征信息输入到语音合成模型中进行预测，得到所述语音合成模型合成的预测特征谱；

输出模块，用于通过所述语音合成模型基于所述预测特征谱输出合成语音；

12.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现如权利要求1至7任一项的语音合成模型的训练方法或权利要求8至9任一项的语音合成方法。

13.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现如权利要求1至7任一项的语音合成模型的训练方法或权利要求8至9任一项的语音合成方法。