CN115985287A

CN115985287A - 语音合成方法、装置、设备及存储介质

Info

Publication number: CN115985287A
Application number: CN202211514748.4A
Authority: CN
Inventors: 薛鹤洋; 朱鹏程; 郭帅; 张晴; 毕梦霄; 吕唐杰; 范长杰; 胡志鹏
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-04-18

Abstract

本申请提供一种语音合成方法、装置、设备及存储介质，涉及语音合成技术领域。该方法包括：获取目标文本对应的梅尔语谱图；根据所述梅尔语谱图以及所述梅尔语谱图对应的随机相位谱，生成条件音频；采用预设声码器，根据所述条件音频和所述梅尔语谱图，生成所述目标文本对应的目标音频。相对于现有技术，避免了声码器生成的音频中存在伪影的问题。

Description

语音合成方法、装置、设备及存储介质

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种语音合成方法、装置、设备及存储介质。

背景技术

声码器(vocoder)是一种被广泛应用于语音合成，声音转换和语音翻译等领域的技术，其主要作用是将声学特征，例如梅尔语谱图(mel-spectrogram)

转换为最终的波形。基于神经网络的声码器被称为神经声码器。

随着神经网络的发展，神经声码器的生成质量得到了显著提升，首先是基于自回归模型(Autoregressive model，AR)的神经声码器，如基于自回归的神经声码器，但是由于这类声码器虽然具有较快的推理速度，但其需要大参数量的神经网络来进行训练，不适用于实际应用；因此，又提出了基于生成

式对抗网络(Generative Adversarial Networks，GAN)的神经声码器来解决上述问题，其不仅具有较快的推理速度，使用的网络参数量也相对较小，符合实际应用场景。

虽然这些基于GAN的神经声码器具有很多优点，但在实际应用中，它们的生成的音频中会存在多种类型的伪影(artifacts)，例如，频谱不连续，音高误差，电音等问题。

发明内容

本申请的目的在于，针对上述现有技术中的不足，提供一种语音合成方法、装置、设备及存储介质，以解决现有技术中声码器生成的音频中存在伪影的问题。

为实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请一实施例提供了一种语音合成方法，所述方法包括：

获取目标文本对应的梅尔语谱图；

根据所述梅尔语谱图以及所述梅尔语谱图对应的随机相位谱，生成条件音频；

采用预设声码器，根据所述条件音频和所述梅尔语谱图，生成所述目标文本对应的目标音频。

第二方面，本申请另一实施例提供了一种语音合成装置，所述装置包括：获取模块和生成模块，其中：

所述获取模块，用于获取目标文本对应的梅尔语谱图；

所述生成模块，用于根据所述梅尔语谱图以及所述梅尔语谱图对应的随机相位谱，生成条件音频；采用预设声码器，根据所述条件音频和所述梅尔语谱图，生成所述目标文本对应的目标音频。

第三方面，本申请另一实施例提供了一种语音合成设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当语音合成设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如上述第一方面任一所述方法的步骤。

第四方面，本申请另一实施例提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如上述第一方面任一所述方法的步骤。

本申请的有益效果是：采用本申请提供的语音合成方法，在获取目标文本对应的梅尔语谱图之后，还会根据梅尔语谱图和其对应的随机相位谱，生成条件音频，随后将条件音频和梅尔语谱图共同作为输入，输入至预设声码器中，其中，由于条件音频的生成无需引入额外的网络来预测，是随机生成的，并且在得到随机相位谱后，直接通过预设声码器就可以根据条件音频和梅尔语谱图生成目标文本对应的目标音频，这样的方式由于随机相位谱是根据梅尔语谱图获取的，因此根据随机相位谱和梅尔语谱图得到的条件音频不但可以提供准确的幅度信息还可以提供准确的相位信息，从而可以减少伪影，提高预设声码器生成目标音频的音频质量。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请一实施例提供的语音合成方法的流程示意图；

图2为本申请另一实施例提供的语音合成方法的流程示意图；

图3为本申请另一实施例提供的语音合成方法的流程示意图；

图4为本申请另一实施例提供的语音合成方法的流程示意图；

图5为本申请一实施例提供的语音合成装置的结构示意图；

图6为本申请另一实施例提供的语音合成装置的结构示意图；

图7为本申请一实施例提供的语音合成设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。

通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

另外，本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

为方便对本申请的理解，下述对本申请涉及的部分名词进行解释说明：

声码器(vocoder)：语音信号某种模型的语音分析合成系统，主要用于数字电话通信，特别是保密电话通信。在传输中只利用模型参数，在编译码时利用模型参数估计和语音合成技术的语音信号编译码器，一种对话音进行分析和合成的编、译码器，也称话音分析合成系统或话音频带压缩系统。它是压缩通信频带和进行保密通信的有力工具。

在神经同态声码器(Neural Homomorphic Vocoder，NHV)：NHV中包括一个神经网络控制源滤波器模型中的线性时变(linear time-varying，LTV)滤波器。与谐波加噪声模型类似，NHV分别生成谐波和噪声成分。谐波成分：包含发声的周期性振动，是用LTV滤波的脉冲序列来建模的。噪声成分：包括背景噪声、未发声的声音和发声的声音中的随机成分，用LTV过滤的噪声建模。

基于源滤波模型的统一的神经声码器框架(Unified Source-Filter GAN):一个被称为统一的源滤波GAN。在所提出的神经声码器中，该声码器将正弦信号作为额外的输入，依赖于音高(Pitch)的扩展卷积和频谱包络正则化损失已经被实现，以将整个网络分解为源网络和滤波网络。

RefineGAN:利用F0生成的语音模板作为除梅尔语谱图(Mel-spectrogram)之外的额外条件输入，来保证生成语音的音高正确性和质量。

现有技术中，为了提高推理速度，使用较小的网络参数数量，在语音合成过程中，声码器的选择上一般采用基于生成式对抗网络的声码器(GAN Vocoder)来进行音频的预测，基于GAN的神经声码器通常以梅尔幅度谱作为输入，但是在实际应用中，他们生成的音频会存在多种类型的伪影，例如频谱不连续，或音高存在误差或电音等问题。

为了提高生成的音频的质量，减少伪影的出现，研究者开始思考加入基频信息作为声码器的输入条件，以使得神经声码器作为源滤波器模型，来提升神经声码器的生成质量，减少伪影的出现。Neural Homomorphic Vocoder、Unified Source-Filter GAN、RefineGAN等是其中的典型代表。

虽然这些模型相对提升了基于GAN的神经声码器的质量，但同样也带来了新的问题，就是在语音合成任务中，声学模型通常只预测梅尔幅度谱，帧级的基频(F0)通常较难预测，存在一定误差，所以当引入存在误差的基频作为条件输入时，又会导致这些模型的质量下降，也即现有技术无法保证预测的基频的准确性，从而无法保证得到的音频的准确性，导致生成音频中存在伪影的问题。

语音合成一般是一个从目标文本转化为目标音频的过程，在该转换过程中，通常先将目标文本信息转化为声学特征信息，梅尔语谱图为其中的一种声学特征信息，可以在获取到目标文本信息对应的梅尔语谱图后，通过将一帧一帧的梅尔语谱图进行还原的方式，得到目标音频即为语音合成的步骤，其中，将梅尔语谱图进行还原的过程，即为声码器的工作过程，下述重点对将梅尔语谱图进行还原的过程进行详细的说明，采用本申请提供的语音合成方法还原得到的目标音频，其不但目标音频的准确性更好，并且不存在伪影的问题。

如下结合多个具体的应用示例，对本申请实施例所提供的一种语音合成方法进行解释说明。图1为本申请一实施例提供的一种语音合成方法的流程示意图，如图1所示，该方法包括：

S101：获取目标文本对应的梅尔语谱图。

在本申请的一个实施例中，获取梅尔语谱图的方式例如可以为：采用预设语音合成模型，根据说话人对应的目标文本，生成目标文本对应的梅尔语谱图。

在本申请的另一实施例中，获取梅尔语谱图的方式也可以为：采用预设语音合成模型，根据说话人对应的目标文本和情绪标签，生成说话人在情绪标签下，目标文本对应的梅尔语谱图，其中，应当理解，对于内容相同的目标文本在情绪标签不同时，其生成的梅尔语谱图可能不同，举例说明：例如对于内容相同的目标文本，在其情绪标签为开心，和其情绪标签为愤怒时，其分别对应的梅尔语谱图并不相同，这样的设置方式由于在生成目标文本对应的梅尔语谱图时具有情绪标签的指引，从而使得后续合成的目标音频可以更加具有感情色彩，且更具有表现力，例如对于情绪标签为开心时，其后续生成的目标音频可能更加活跃；当情绪标签为愤怒时，其后续生成的目标音频可能较为低沉且严肃，应当理解，上述实施例仅为示例性说明，具体获取梅尔语谱图的方式可以根据用户需要灵活调整，并不以上述实施例给出的为限。

在一些可能的实施例中，情绪标签的确定方式例如可以为用户预先输入的；或者，也可以为根据说话人对应的目标文本进行识别后确定的，举例说明：例如对于目标文本为“我真开心今天可以见到你”，其可能识别确定的情绪标签为开心；若目标文本为“你这样做真让我失望”，其可能识别确定的情绪标签为难过，应当理解，上述实施例仅为示例性说明，具体情绪标签的获取方式或确定方式可以根据用户需要灵活调整，并不以上述实施例给出的为限。

S102：根据梅尔语谱图以及梅尔语谱图对应的随机相位谱，生成条件音频。

在本申请的实施例中，条件音频中例如可以包括：音高信息、清浊音信息和目标说话人信息。

由于本申请中生成条件音频时并没有引入任何的网络预测，而是直接基于梅尔语谱图确定一个随机相位谱，并基于梅尔语谱图以及梅尔语谱图对应的随机相位谱直接生成的，因此，本申请中生成条件音频的复杂度低，效率高。

并且，在本申请的实施例中，生成的条件音频具有后续预测需要的音频关键信息，也即采用本申请实施例提供的方法生成的条件音频，其包括的信息与梅尔语谱图保持一致，不存在预测误差，从而可以提高后续预测的准确性。

S103：采用预设声码器，根据条件音频和梅尔语谱图，生成目标文本对应的目标音频。

在本申请的实施例中，预设声码器的选择例如可以为：基于生成式对抗网络的声码器(GAN Vocoder)，其中，例如可以为神经同态声码器(Neural Homomorphic Vocoder，NHV)、基于源滤波模型的统一的神经声码器框架(Unified Source-Filter GAN)、主流神经声码器HIFIGAN或RefineGAN等，应当理解，上述实施例仅为示例性说明，具体预设声码器的选择并不以上述实施例给出的为限，任何输入包括梅尔语谱图，且输入可以为多输入的声码器均可以采用本申请提供的方法，具体预设声码器的选择可以根据用户需要灵活调整，并不以上述实施例给出的为限。

其中，采用具有上述音高信息、清浊音信息和目标说话人信息的音频作为条件音频输入至预设声码器中，使得条件音频可以为预设声码器提供准确的基频信息、清浊音信息和说话人信息，从而可以使得预设声码器最终预测得到的目标音频的质量更高，减少伪影的出现。

采用本申请提供的语音合成方法，在获取目标文本对应的梅尔语谱图之后，还会根据梅尔语谱图和其对应的随机相位谱，生成条件音频，随后将条件音频和梅尔语谱图共同作为输入，输入至预设声码器中，其中，由于条件音频的生成无需引入额外的网络来预测，是随机生成的，并且在得到随机相位谱后，直接通过预设声码器就可以根据条件音频和梅尔语谱图生成目标文本对应的目标音频，这样的方式由于随机相位谱是根据梅尔语谱图获取的，因此根据随机相位谱和梅尔语谱图得到的条件音频不但可以提供准确的幅度信息还可以提供准确的相位信息，从而可以减少伪影，提高预设声码器生成目标音频的音频质量。

可选地，在上述实施例的基础上，本申请实施例还可提供一种语音合成方法，如下结合附图对上述方法的实现过程进行示例说明。图2为本申请另一实施例提供的一种语音合成方法的流程示意图，如图2所示，S102之前，该方法还可包括：

S111：将梅尔语谱图转换为线性幅度谱。

S112：根据线性幅度谱，生成随机相位谱。

在本申请的实施例中，生成随机相位谱的方式为，随机生成一个与线性幅度谱同分辨率的随机相位谱，该随机相位谱为主动生成的，其只需保证生成的随机相位谱的频率与上述线性幅度谱的频率相同即可，也即对于随机相位谱的幅度是为随机生成的，本申请中对于随机相位谱的幅度不进行任何限制。

在本申请的实施例中，生成随机相位谱的依据例如可以为：通过高斯分布随机生成的随机相位谱；或者，也可以为在高斯分布上随机进行均匀采样后得到的随机相位谱；应当理解，上述实施例仅为示例性说明，具体生成随机相位谱的方式可以根据用户需要灵活调整，并不以上述实施例给出的为限。

可选地，在上述实施例的基础上，本申请实施例还可提供一种语音合成方法，如下结合附图对上述方法中生成条件音频的实现过程进行示例说明。图3为本申请另一实施例提供的一种语音合成方法的流程示意图，如图3所示，S102可包括：

S121：根据线性幅度谱和随机相位谱，生成条件音频。

在本申请的实施例中，根据线性幅度谱，生成与线性幅度谱同分辨率的随机相位谱，也即生成一个相位随机，但分辨率与线性幅度谱同分辨率的相位谱。

在本申请的实施例中，生成条件音频的方式例如可以为：对线性幅度谱和随机相位谱进行傅里叶逆变换(inverse Fourier transform，IFT)，得到条件音频；也即，在本申请的实施例中，将线性幅度谱和随机相位谱共同作为傅里叶逆变换的输入，经过傅里叶逆变换对其进行还原后，输出得到的音频即为条件音频。

在本申请的一个实施例中，采用的傅里叶逆变换例如可以为短时傅里叶逆变换(inverse Short Time Fourier transform，ISTFT)，应当理解，上述实施例仅为示例性说明，具体傅里叶逆变换的选择可以根据用户需要灵活调整，并不以上述实施例给出的为限。

由于本申请生成条件音频时，条件音频的生成不依赖于任何预测网络或预测算法或是预测模型，而是直接将梅尔语谱图转换为线性幅度谱之后，随机生成的与线性幅度谱同分辨率且相位随机的随机相位谱，这种随机得到随机相位谱的方式，在得到随机相位谱时无需额外的运算或预测，只需直接生成并获得一个与线性幅度谱同分辨率的随机相位谱即可，在本申请的实施例中，对随机生成的随机相位谱的幅度没有任何要求。

随后，再根据随机相位谱和线性幅度谱生成条件音频，这样确定条件音频的方式非常便捷，并且在本申请的实施例中，根据生成的条件音频和梅尔语谱图可以直接确定幅度信息和相位信息。

这样得到的条件音频其虽然相位是随机的，但是其具有正确的音高信息、清浊音信息和说话人信息，也即这样得到的条件音频具有线性幅度谱和随机相位谱的所有信息，并且得到条件音频的过程也不涉及网络预测，其复杂度仅为两次矩阵乘法，消耗的时间非常短，也即采用本申请提供的方法，生成条件音频的效率很高；并且，在预测目标音频的过程中，本申请实施例将随机生成的条件音频作为预设声码器的一个输入，与梅尔语谱图共同输入至预设声码器中得到目标音频，还可以减少预设声码器在生成目标音频时伪影的出现，提高预设声码器最终得到的目标音频的音频质量。

图4为本申请另一实施例提供的一种语音合成方法的流程示意图，如图4所示，本申请提供的语音合成方法的完成流程如下所示：

随机相位谱(Random Phase spectrogram)和梅尔语谱图(Mel-spectrogram)共同作为傅里叶逆变换的输入，经过傅里叶逆变换后输出条件音频(Condition audio)。

其中，随机相位谱的生成过程为：首先将梅尔语谱图转换为线性幅度谱，随后根据线性幅度谱的分辨率，随机生成一个与线性幅度谱同分辨率且相位随机的随机相位谱，这样得到的随机相位谱具有正确的音高信息、清浊音信息和说话人信息，从而根据随机相位谱和线性幅度谱得到的条件音频中包括的信息与梅尔语谱图保持一致，因此在后续对目标音频的预测过程中，不会有预测误差的问题。

相对于现有技术，本申请提供的目标音频的预测方式不但不需要引入额外的网络预测，并且条件音频可以为后续语音预测提供准确的信息，从而提高后续语音预测的准确性，避免预测误差以及预测生成的音频中存在伪影的问题。

随后，本申请将条件音频和梅尔语谱图分别作为预设声码器的输入，输入至预设声码器中，预设声码器根据输入的条件音频和梅尔语谱图进行音频还原，还原后得到最终的目标文本对应的目标音频(Final audio)，由于本申请在得到目标音频的过程中，还引入了条件音频，条件音频中具有正确的音高信息、清浊音信息和说话人信息，因此相对于现有技术，本申请这样的处理方式得到的目标音频的准确度更加高。

在本申请的实施例中，以本申请中使用的预设声码器例如可以为目前的主流神经声码器HIFIGAN为例进行说明，由于本申请的实施例中，在确定目标文本对应的目标音频时，引入了条件音频作为新的条件特征，因此，为了处理该新的条件特征，本申请的预设声码器中也相应的加入了新的模块。

具体的，本申请中的预设声码器可以由一个生成器和多个判别器组成，其中，生成器与判别器是进行对抗训练后得到的。

在本申请的实施例中，本申请预设声码器中的生成器可以由两部分组成：其中，生成器中的一部分的结构例如可以为原始的HIFIGAN结构，在该HIFIGAN结构中，以梅尔语谱图为条件输入，先由一层的卷积层来将梅尔语谱图编码到隐层，然后将编码后的梅尔语谱图输入至生成器网络，生成器网络中的每一层先对特征进行上采样，然后使用基于残差块的模块对上采样完成的部分进行编码，然后输入给下一层，直到输出音频。其中残差块由几组相同卷积核大小和不同扩张系数大小的卷积层组成，不同组之间卷积层的输出进行残差链接，不同残差快的卷积核大小不同，扩张系数不同。在本申请的实施例中，音频输出前均使用了双曲正切激活函数Tanh将其数值范围限制到0-1内，此外，本申请还在不同扩张系数大小的相邻的卷积层之间通过设置激活函数Leaky Relu来调整负值的零梯度(zerogradients)问题，从而起到稳定预设声码器GAN Vocoder的训练的作用。

生成器中的另一部分以本申请提出的由梅尔语谱图和梅尔语谱图对应的随机相位谱生成的条件音频作为条件输入，该条件音频经过多个与上采样网络结构相同的下采样网络，每一层下采样网络的输出，都相应的与上采样网络的输出进行拼接，下采样网络与上采样网络是对称的形式，这样可以保证整个预设声码器GAN Vocoder的训练中，在每一级分辨率下，生成的特征都有该条件音频的指导，保证最终生成的目标音频在音高、UV和说话人信息上的准确性。

在本申请的实施例中，对于预设声码器中的损失函数包括生成器的损失函数和判别器的损失函数两部分，其中：

生成器部分的损失函数部分，是采用真实音频和预测音频的梅尔语谱图的均方误差(Mean Square Error，MSE)作为其损失函数。

判别器部分的损失函数，除了HIFIGAN原始的多尺度和多周期判别器，在本申请的实施例中，还额外加入了多频率判别器来判别生成音频在高频中的效果；具体的，该判别器先对输入的生成音频行傅里叶变换，将生成音频的特征转换到频域，然后对频域特征进行判别，以确定其在高频中的效果。也即在生成对抗网络(Generative AdversarialNetwork，GAN)的训练部分，本申请实施例中采用了最小二乘生成对抗网络(least SquaresGenerative Adversarial Networks，LSGAN)作为训练目标，并且加入了于多频率判别器(Feature matching)损失函数来提升训练的稳定性，这两个训练目标被广泛使用在GAN模型的训练中。

对于各损失函数的比例设置，在本申请的实施例中，例如对于多频率判别器损失函数(Feature matching loss)对应的比例系数可以为2，也即在原始判别器损失值的数值上乘2，而梅尔损失函数(Mel loss)对应的比例系数可以为45，也即在原始的梅尔损失函值的数值上乘45，最终将根据预设比例系数进行调整后的各损失函数来对预设声码器进行调整，这样的比例是可以让预设声码器平衡生成器损失函数和判别器损失函数之间的比例，从而起到稳定整个预设声码器训练过程的作用。

采用本申请提供的语音合成方法，由于在生成目标音频之前，首先根据梅尔语谱图转换得到的线性幅度谱，随机生成了一个与线性幅度谱同分辨率但相位随机的随机相位谱，并且利用傅里叶逆变换将该线性幅度谱和随机相位谱还原得到条件音频，随后再将条件音频和梅尔语谱图同时作为条件输入至预设声码器中，从而提高最终得到的目标音频的质量，本申请中提到的语音合成方法无论应用在哪种现有技术的GAN类神经解码器上，均可以提高最终得到的目标音频的音频质量，减少伪影的出现。

下述结合附图对本申请所提供的语音合成装置进行解释说明，该语音合成装置可执行上述图1-图4任一语音合成方法，其具体实现以及有益效果参照上述，如下不再赘述。

图5为本申请一实施例提供的语音合成装置的结构示意图，如图5所示，该装置包括：获取模块201和生成模块202，其中：

获取模块201，用于获取目标文本对应的梅尔语谱图；

生成模块202，用于根据梅尔语谱图以及梅尔语谱图对应的随机相位谱，生成条件音频；采用预设声码器，根据条件音频和梅尔语谱图，生成目标文本对应的目标音频。

可选地，在上述实施例的基础上，本申请实施例还可提供一种语音合成装置，如下结合附图对上述图5给出的装置的实现过程进行示例说明。图6为本申请另一实施例提供的语音合成装置的结构示意图，如图6所示，该装置还包括：转换模块203，用于将梅尔语谱图转换为线性幅度谱；

生成模块202，具体用于根据线性幅度谱，生成随机相位谱。

可选地，生成模块202，具体用于根据线性幅度谱和随机相位谱，生成条件音频。

可选地，生成模块202，具体用于对线性幅度谱和随机相位谱进行傅里叶逆变换，得到条件音频。

可选地，生成模块202，具体用于根据线性幅度谱，生成与线性幅度谱同分辨率的随机相位谱。

可选地，生成模块202，具体用于采用预设语音合成模型，根据目标文本生成目标文本对应的梅尔语谱图。

可选地，条件音频中包括：音高信息、清浊音信息和目标说话人信息。

上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

图7为本申请一实施例提供的语音合成设备的结构示意图，该语音合成设备可以集成于终端设备或者终端设备的芯片。

如图7所示，该语音合成设备包括：处理器501、总线502和存储介质503。

处理器501用于存储程序，处理器501调用存储介质503存储的程序，以执行上述图1-图4对应的方法实施例。具体实现方式和技术效果类似，这里不再赘述。

可选地，本申请还提供一种程序产品，例如存储介质，该存储介质上存储有计算机程序，包括程序，该程序在被处理器运行时执行上述方法对应的实施例。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

获取目标文本对应的梅尔语谱图；

2.如权利要求1所述的方法，其特征在于，所述根据所述梅尔语谱图以及所述梅尔语谱图对应的随机相位谱，生成条件音频之前，所述方法还包括：

将所述梅尔语谱图转换为线性幅度谱；

根据所述线性幅度谱，生成所述随机相位谱。

3.如权利要求2所述的方法，其特征在于，所述根据所述梅尔语谱图以及所述梅尔语谱图对应的随机相位谱，生成条件音频，包括：

根据所述线性幅度谱和所述随机相位谱，生成所述条件音频。

4.如权利要求3所述的方法，其特征在于，所述根据所述梅尔语谱图以及所述梅尔语谱图对应的随机相位谱，生成条件音频，包括：

对所述线性幅度谱和所述随机相位谱进行傅里叶逆变换，得到所述条件音频。

5.如权利要求2所述的方法，其特征在于，所述根据所述线性幅度谱，生成所述随机相位谱，包括：

根据所述线性幅度谱，生成与所述线性幅度谱同分辨率的随机相位谱。

6.如权利要求1所述的方法，其特征在于，所述获取目标文本对应的梅尔语谱图之前，所述方法还包括：

采用预设语音合成模型，根据目标文本生成所述目标文本对应的梅尔语谱图。

7.如权利要求1所述的方法，其特征在于，所述条件音频中包括：音高信息、清浊音信息和目标说话人信息。

8.一种语音合成装置，其特征在于，所述装置包括：获取模块和生成模块，其中：

所述获取模块，用于获取目标文本对应的梅尔语谱图；

9.一种语音合成设备，其特征在于，所述设备包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当所述语音合成设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行上述权利要求1-7任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述权利要求1-7任一项所述的方法。