CN111316352B

CN111316352B - 语音合成方法、装置、计算机设备和存储介质

Info

Publication number: CN111316352B
Application number: CN201980003188.6A
Authority: CN
Inventors: 黄东延; 盛乐园; 熊友军
Original assignee: Ubtech Robotics Corp
Current assignee: Ubtech Robotics Corp
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2023-10-10
Anticipated expiration: 2039-12-24
Also published as: US20220189454A1; US11763796B2; CN111316352A; WO2021127978A1

Abstract

本发明实施例公开了一种语音合成方法、装置、计算机设备和计算机可读存储介质，包括：获取待合成语音文本；根据所述待合成语音文本得到所述待合成语音文本对应的梅尔频谱；将所述梅尔频谱输入复数神经网络，得到所述待合成语音文本对应的复数频谱，所述复数频谱包括实部信息和虚部信息；根据所述复数频谱得到所述待合成语音文本对应的合成语音。通过本发明能够高效、简单的完成语音合成。

Description

语音合成方法、装置、计算机设备和存储介质

技术领域

本发明涉及语音合成技术领域，尤其涉及一种语音合成方法、装置、计算机设备和存储介质。

背景技术

语音合成技术是指根据待合成的语音文本得到合成的语音的过程。在语音合成的过程中，深度生成模型大大提高了合成的语音的质量，譬如，WaveNet，与传统的语音合成器相比，表现出了卓越的性能。

但是，WaveNet在语音合成的过程中，需要生成语音的采样点，并且，WaveNet是自回归模型，由于其自回归性质导致语音合成速度较慢，而且由于需要生成大量的语音采样点，再次导致语音合成速度变慢且过程繁杂。

发明内容

基于此，有必要针对上述问题，提出一种高效且简单的语音合成方法、装置、计算机设备和存储介质。

一种语音合成方法，所述方法包括：

获取待合成语音文本；

根据所述待合成语音文本得到所述待合成语音文本对应的梅尔频谱；

将所述梅尔频谱输入复数神经网络，得到所述待合成语音文本对应的复数频谱，所述复数频谱包括实部信息和虚部信息；

根据所述复数频谱得到所述待合成语音文本对应的合成语音。

在一个实施例中，所述根据所述复数频谱得到所述待合成语音文本对应的合成语音，包括：使用逆短时傅里叶变换对所述复数频谱进行处理，得到所述待合成语音文本对应的合成语音。

在一个实施例中，所述复数神经网络包括下采样网络和上采样网络，所述上采样网络包括实部反卷积核和虚部反卷积核；所述将所述梅尔频谱输入复数神经网络，得到所述待合成语音文本对应的复数频谱，包括：将所述梅尔频谱输入所述复数神经网络中的下采样网络，得到所述下采样网络输出的所述梅尔频谱对应的频谱特征；将所述梅尔频谱对应的频谱特征输入所述上采样网络；所述上采样网络中的实部反卷积核对所述梅尔频谱对应的频谱特征进行处理得到所述待合成语音文本对应的实部信息；所述上采样网络中的虚部反卷积核对所述梅尔频谱对应的频谱特征进行处理得到所述待合成语音文本对应的虚部信息。

在一个实施例中，在所述获取待合成语音文本之前，还包括：获取训练语音；根据所述训练语音得到所述训练语音对应的梅尔频谱；将所述训练语音对应的梅尔频谱输入所述复数神经网络，得到所述训练语音对应的第一实部信息和第一虚部信息；根据所述第一实部信息和所述第一虚部信息得到所述训练语音对应的合成语音；根据所述训练语音得到所述训练语音对应的第二实部信息和第二虚部信息；根据所述训练语音、所述训练语音对应的合成语音、所述第一实部信息、所述第一虚部信息、所述第二实部信息和所述第二虚部信息，得到网络损失参数，以便根据所述网络损失参数更新所述复数神经网络。

在一个实施例中，所述根据所述训练语音、所述训练语音对应的合成语音、所述第一实部信息、所述第一虚部信息、所述第二实部信息和所述第二虚部信息，得到网络损失参数，包括：根据所述训练语音和所述训练语音对应的合成语音得到第一损失参数；对所述第一实部信息和所述第一虚部信息进行采样操作，得到第一实部虚部集，所述第一实部虚部集中包括预设个数的维度不同的实部信息和虚部信息；对所述第二实部信息和所述第二虚部信息进行采样操作，得到第二实部虚部集，所述第二实部虚部集中包括预设个数的维度不同的实部信息和虚部信息；根据所述第一实部虚部集和所述第二实部虚部集得到第二损失参数；将所述第一损失参数和第二损失参数的和作为所述网络损失参数。

在一个实施例中，所述根据所述训练语音得到所述训练语音对应的梅尔频谱，包括：使用短时傅里叶变换对所述训练语音进行处理，得到所述训练语音对应的复数频谱；根据所述训练语音对应的复数频谱计算得到所述训练语音对应的幅度谱和相位谱；采用梅尔滤波器对所述训练语音对应的幅度谱进行滤波，得到所述训练语音对应的梅尔频谱。

一种语音合成装置，所述装置包括：

文本获取模块，用于获取待合成语音文本；

第一频谱模块，用于根据所述待合成语音文本得到所述待合成语音文本对应的梅尔频谱；

第二频谱模块，用于将所述梅尔频谱输入复数神经网络，得到所述待合成语音文本对应的复数频谱，所述复数频谱包括实部信息和虚部信息；

语音合成模块，用于根据所述复数频谱得到所述待合成语音文本对应的合成语音。

在一个实施例中，所述语音合成模块，包括：逆变换模块，用于使用逆短时傅里叶变换对所述复数频谱进行处理，得到所述待合成语音文本对应的合成语音。

在一个实施例中，所述复数神经网络包括下采样网络和上采样网络，所述上采样网络包括实部反卷积核和虚部反卷积核；所述第二频谱模块，包括：下采样模块，用于将所述梅尔频谱输入所述复数神经网络中的下采样网络，得到所述下采样网络输出的所述梅尔频谱对应的频谱特征；上采样输入模块，用于将所述梅尔频谱对应的频谱特征输入所述上采样网络；实部模块，用于所述上采样网络中的实部反卷积核对所述梅尔频谱对应的频谱特征进行处理得到所述待合成语音文本对应的实部信息；虚部模块，用于所述上采样网络中的虚部反卷积核对所述梅尔频谱对应的频谱特征进行处理得到所述待合成语音文本对应的虚部信息。

在一个实施例中，所述装置，还包括：训练语音获取模块，用于获取训练语音；训练语音梅尔模块，用于根据所述训练语音得到所述训练语音对应的梅尔频谱；训练语音输入模块，用于将所述训练语音对应的梅尔频谱输入所述复数神经网络，得到所述训练语音对应的第一实部信息和第一虚部信息；训练合成模块，用于根据所述第一实部信息和所述第一虚部信息得到所述训练语音对应的合成语音；训练语音频谱模块，用于根据所述训练语音得到所述训练语音对应的第二实部信息和第二虚部信息；网络更新模块，用于根据所述训练语音、所述训练语音对应的合成语音、所述第一实部信息、所述第一虚部信息、所述第二实部信息和所述第二虚部信息，得到网络损失参数，以便根据所述网络损失参数更新所述复数神经网络。

在一个实施例中，所述网络更新模块，包括：第一损失模块，用于根据所述训练语音和所述训练语音对应的合成语音得到第一损失参数；第一采样模块，用于对所述第一实部信息和所述第一虚部信息进行采样操作，得到第一实部虚部集，所述第一实部虚部集中包括预设个数的维度不同的实部信息和虚部信息；第二采样模块，用于对所述第二实部信息和所述第二虚部信息进行采样操作，得到第二实部虚部集，所述第二实部虚部集中包括预设个数的维度不同的实部信息和虚部信息；采样损失模块，用于根据所述第一实部虚部集和所述第二实部虚部集得到第二损失参数；损失求和模块，用于将所述第一损失参数和第二损失参数的和作为所述网络损失参数。

在一个实施例中，所述训练语音梅尔模块，包括：短时傅里叶模块，用于使用短时傅里叶变换对所述训练语音进行处理，得到所述训练语音对应的复数频谱；谱计算模块，用于根据所述训练语音对应的复数频谱计算得到所述训练语音对应的幅度谱和相位谱；梅尔滤波模块，用于采用梅尔滤波器对所述训练语音对应的幅度谱进行滤波，得到所述训练语音对应的梅尔频谱。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

获取待合成语音文本；

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

获取待合成语音文本；

上述语音合成方法、装置、计算机设备和计算机可读存储介质，首先获取待合成语音文本；然后根据所述待合成语音文本得到所述待合成语音文本对应的梅尔频谱；并且将所述梅尔频谱输入复数神经网络，得到所述待合成语音文本对应的复数频谱，所述复数频谱包括实部信息和虚部信息；最后根据所述复数频谱得到所述待合成语音文本对应的合成语音。可见，通过上述方式，由于是根据语音文本对应的梅尔频谱得到语音文本的复数频谱，复数频谱包含实部信息和虚部信息，该实部信息和虚部信息可以看做是两张图像，生成两张图像所需的像素点远小于生成语音所需的采样点，因此，相较于WaveNet自回归的方式具有更低的复杂度，并且具有更高的合成效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为一个实施例中语音合成方法的实现流程图；

图2为一个实施例中步骤106的实现流程图；

图3为一个实施例中语音合成方法的实现流程图；

图4为一个实施例中步骤304的实现流程图；

图5为一个实施例中步骤312的实现流程图；

图6为一个实施例中训练复数神经网络的示意图；

图7为一个实施例中语音合成装置的组成结构框图；

图8为一个实施例中第二频谱模块706的组成结构框图；

图9为一个实施例中语音合成装置的组成结构框图；

图10为一个实施例中计算机设备的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，在一个实施例中，提供了一种语音合成方法，本发明实施例所述的语音合成方法的执行主体为能够实现本发明实施例所述的语音合成方法的设备，该设备可以包括但不限于终端和服务器，其中，终端包括移动终端和台式终端，移动终端包括但不限于手机、平板电脑和笔记本电脑，台式终端包括但不限于台式电脑和车载电脑，服务器包括高性能计算机和高性能计算机集群。该语音合成方法，具体包括如下步骤：

步骤102，获取待合成语音文本。

其中，待合成语音文本，为待合成的语音对应的文本。在本发明实施例中，根据待合成语音文本合成语音，得到语音合成的目的。

步骤104，根据所述待合成语音文本得到所述待合成语音文本对应的梅尔频谱。

其中，梅尔频谱，为语音频谱的一种表现方式，普通的语音频谱是一张很大的频谱图，使用梅尔滤波器对语音频率进行滤波，从而得到相对较小的频谱图，该相对较小的频谱图即为梅尔频谱。

将所述待合成语音文本输入声谱网络，声谱网络包括编码器和解码器，其中，编码器用于根据待合成语音文本得到隐层特征，解码器用于根据待合成语音文本对应的隐层特征预测得到梅尔频谱。

具体的，编码器包括字符向量单元、卷积单元和双向LSTM单元，待合成语音文本被字符向量单元编码成固定维度(例如，512维)的字符向量；字符向量输入卷积单元(例如，3层卷积核)，卷积单元提取字符向量的上下文特征；将卷积单元提取的上下文特征输入双向LSTM单元，得到编码特征。解码器可以是一个自回归循环神经网络，解码器根据双向LSTM单元输出的编码特征预测梅尔频谱。

步骤106，将所述梅尔频谱输入复数神经网络，得到所述待合成语音文本对应的复数频谱，所述复数频谱包括实部信息和虚部信息。

其中，复数神经网络，以梅尔频谱作为输入，以复数频谱作为输出。在本发明实施例中，复数神经网络的网络结构包括U-net网络结构。

复数频谱的实部信息和虚部信息可以看做是两张图像，也就是说，将复数神经网络的输出看做是两张频谱图像。

步骤108，根据所述复数频谱得到所述待合成语音文本对应的合成语音。

根据待合成语音文本对应的复数频谱即可得到待合成语音文本对应的合成语音。需要说明的是，由于复数频谱包括实部信息和虚部信息，最终合成的语音是根据实部信息和虚部信息合成的，相较于只依据实部信息合成语音的方法，本发明实施例的方法合成的语音由于保留了更多的语音信息将更加的真实。

在一个实施例中，步骤108所述根据所述复数频谱得到所述待合成语音文本对应的合成语音，包括：使用逆短时傅里叶变换对所述复数频谱进行处理，得到所述待合成语音文本对应的合成语音。

语音本身是一维的时域信号，从该时域信号是很难看出语音的频率变化规律的。通过傅里叶可以将语音从时域变到频域，虽然此时可以看出语音的频率分布，但是缺丢失了时域信息，从该语音的频域分布也很难看出语音的时域信息。为了解决这个问题，很多时频分析方法应运而生，短时傅里叶变换就是很常用的时频域分析方法，逆短时傅里叶变换是短时傅里叶变换的逆过程。

具体的，短时傅里叶变换能够将语音从时域变到频域，逆短时傅里叶变换能够将频域的语音复原到时域。使用逆短时傅里叶变换(函数)将频域的语音复原到时域相较于使用自回归模型合成语音的方式更为简单。

上述语音合成方法，首先获取待合成语音文本；然后根据所述待合成语音文本得到所述待合成语音文本对应的梅尔频谱；并且将所述梅尔频谱输入复数神经网络，得到所述待合成语音文本对应的复数频谱，所述复数频谱包括实部信息和虚部信息；最后根据所述复数频谱得到所述待合成语音文本对应的合成语音。可见，通过上述方式，由于是根据语音文本对应的梅尔频谱得到语音文本的复数频谱，复数频谱包含实部信息和虚部信息，该实部信息和虚部信息可以看做是两张图像，生成两张图像所需的像素点远小于生成语音所需的采样点，因此，相较于WaveNet自回归的方式具有更低的复杂度，并且具有更高的合成效率。

在一个实施例中，所述复数神经网络包括下采样网络和上采样网络，所述上采样网络包括实部反卷积核和虚部反卷积核。如图2所示，步骤106所述将所述梅尔频谱输入复数神经网络，得到所述待合成语音文本对应的复数频谱，包括：

步骤106A，将所述梅尔频谱输入所述复数神经网络中的下采样网络，得到所述下采样网络输出的所述梅尔频谱对应的频谱特征。

其中，下采样网络包括多层，每层设置有卷积核，每层的卷积核用于对该层的输入进行特征提取，从而不断挖掘出更加深层次的特征，实现将大尺寸变换到小尺寸。将梅尔频谱输入下采样网络，经过多层的卷积核进行特征提取，得到所述梅尔频谱对应的频谱特征。

步骤106B，将所述梅尔频谱对应的频谱特征输入所述上采样网络。

在得到梅尔频谱对应的频谱特征之后，将得到的频谱特征输入复数神经网络中的上采样网络，以便上采样网络根据频谱特征得到复数频谱。

步骤106C，所述上采样网络中的实部反卷积核对所述梅尔频谱对应的频谱特征进行处理得到所述待合成语音文本对应的实部信息。

上采样网络中设置有反卷积核，反卷积核执行反卷积操作，反卷积就是转置卷积，实现将小尺寸变换到大尺寸。

步骤106D，所述上采样网络中的虚部反卷积核对所述梅尔频谱对应的频谱特征进行处理得到所述待合成语音文本对应的虚部信息。

在本发明实施例中，在上采样网络中设置两种反卷积核，具体的为实部反卷积核以及虚部反卷积核，通过设置实部反卷积核对频谱特征进行处理得到待合成语音文本对应的实部信息，通过设置虚部反卷积核对频谱特征进行处理得到待合成语音文本对应的虚部信息。

在一个实施例中，提供了待合成语音文本的训练方式，如图3所示，在步骤314所述获取待合成语音文本之前，还包括：

步骤302，获取训练语音。

其中，训练语音，为用于训练复数神经网络的语音。

步骤304，根据所述训练语音得到所述训练语音对应的梅尔频谱。

在本发明实施例中，复数神经网络以梅尔频谱作为输入，因此，需要首先得到训练语音对应的梅尔频谱，然后再使用得到的梅尔频谱对复数神经网络进行训练。

在一个实施例中，如图4所示，步骤304所述根据所述训练语音得到所述训练语音对应的梅尔频谱，包括：

步骤304A，使用短时傅里叶变换对所述训练语音进行处理，得到所述训练语音对应的复数频谱。

其中，短时傅里叶变换，指将时域信号变换到频域的函数变换，使用短时傅里叶变换对训练语音进行处理能够得到训练语音对应的复数频谱，训练语音对应复数频谱包括实部和虚部。

步骤304B，根据所述训练语音对应的复数频谱计算得到所述训练语音对应的幅度谱和相位谱。

获取复数频谱到幅度谱的计算公式，根据该计算公式计算得到训练语音对应的幅度谱；获取复数频谱到相位谱的计算公式，根据该计算公式计算得到训练语音对应的相位谱。

步骤304C，采用梅尔滤波器对所述训练语音对应的幅度谱进行滤波，得到所述训练语音对应的梅尔频谱。

采用梅尔滤波器对幅度谱进行降维(滤波)，即可得到梅尔频谱。

步骤306，将所述训练语音对应的梅尔频谱输入所述复数神经网络，得到所述训练语音对应的第一实部信息和第一虚部信息。

步骤308，根据所述第一实部信息和所述第一虚部信息得到所述训练语音对应的合成语音。

采用逆短时傅里叶变换对复数神经网络输出的训练语音对应的第一实部信息和第一虚部信息(即得到了训练语音对应的复数频谱)进行处理即可生成合成语音，后续将根据合成语音、训练语音等更新复数神经网络，以便通过不断更新复数神经网络，使得最终复数神经网络输出的第一实部信息和第一虚部信息更加接近真实语音的实部信息和虚部信息，提高最终合成的语音的质量。

步骤310，根据所述训练语音得到所述训练语音对应的第二实部信息和第二虚部信息。

采用短时傅里叶变换对训练语音进行处理，即可得到训练语音对应的第二实部信息和第二虚部信息(即复数频谱)。

步骤312，根据所述训练语音、所述训练语音对应的合成语音、所述第一实部信息、所述第一虚部信息、所述第二实部信息和所述第二虚部信息，得到网络损失参数，以便根据所述网络损失参数更新所述复数神经网络。

在一个实施例中，如图5所示，步骤312包括：

步骤312A，根据所述训练语音和所述训练语音对应的合成语音得到第一损失参数。

如图6所示，鉴别器将训练语音和合成语音进行比对，然后根据比对结果输出第一损失参数，具体的，训练语音和合成语音差别越大，则第一损失参数也越大；相反的，训练语音和合成语音差别越小，则第一损失参数也越小。

进一步的，鉴别器根据训练语音和合成语音输出第三损失参数，第三损失参数用于确定合成语音与训练语音的真假，若合成语音越真(和训练语音越接近)，则第三损失参数越小；若合成语音越假，则第三损失参数越大。然后对第三损失参数进行梯度下降，从而实现对鉴别器的更新。

相较于第三损失参数，第一损失参数进行的是更为细节的判断。

步骤312B，对所述第一实部信息和所述第一虚部信息进行采样操作，得到第一实部虚部集，所述第一实部虚部集中包括预设个数的维度不同的实部信息和虚部信息。

如图6所示，对复数神经网络输出的第一实部信息和第一虚部信息进行多次采样，每次采样得到维度更低的实部信息和虚部信息，然后再继续对该维度更低的实部信息和虚部信息进行采样，最终经过多次采样，得到预设个数的维度不同的实部信息和虚部信息。例如，采样前的尺寸是512×512，采样后的尺寸是256×256，再次采样后的尺寸为128×128。

步骤312C，对所述第二实部信息和所述第二虚部信息进行采样操作，得到第二实部虚部集，所述第二实部虚部集中包括预设个数的维度不同的实部信息和虚部信息。

同样的，对训练语音对应的第二实部信息和第二虚部信息进行多次采样，每次采样得到维度更低的实部信息和虚部信息，然后再继续对该维度更低的实部信息和虚部信息进行采样，最终经过多次采样，得到预设个数的维度不同的实部信息和虚部信息。在第二实部信息和第二虚部信息的采样过程中，每次的采样参数和第一实部信息以及第一虚部信息每次采样的采样参数保持一致。

步骤312D，根据所述第一实部虚部集和所述第二实部虚部集得到第二损失参数。

如图6所示，将第一实部虚部集中的第一实部信息和第一虚部信息与第二实部虚部集中相应的第二实部信息和第二虚部信息进行比较，得到损失子参数；将多个损失子参数相加，即可得到第二损失参数。

步骤312E，将所述第一损失参数和第二损失参数的和作为所述网络损失参数。

将第一损失参数和第二损失参数的和作为网络损失参数，以便根据所述网络损失参数更新所述复数神经网络，由于复数神经网络的更新同时考虑到了合成语音、训练语音以及复数神经网络输出的第一实部信息和第一虚部信息，能够提高网络更新速度，加速复数神经网络的训练，并且能够得到高质量的复数神经网络。

具体的，对网络损失参数进行梯度下降，从而实现对复数神经网络的更新。

如图7所示，在一个实施例中，提出了一种语音合成装置700，该装置700包括：

文本获取模块702，用于获取待合成语音文本。

第一频谱模块704，用于根据所述待合成语音文本得到所述待合成语音文本对应的梅尔频谱。

第二频谱模块706，用于将所述梅尔频谱输入复数神经网络，得到所述待合成语音文本对应的复数频谱，所述复数频谱包括实部信息和虚部信息。

语音合成模块708，用于根据所述复数频谱得到所述待合成语音文本对应的合成语音。

上述语音合成装置，首先获取待合成语音文本；然后根据所述待合成语音文本得到所述待合成语音文本对应的梅尔频谱；并且将所述梅尔频谱输入复数神经网络，得到所述待合成语音文本对应的复数频谱，所述复数频谱包括实部信息和虚部信息；最后根据所述复数频谱得到所述待合成语音文本对应的合成语音。可见，通过上述装置，由于是根据语音文本对应的梅尔频谱得到语音文本的复数频谱，复数频谱包含实部信息和虚部信息，该实部信息和虚部信息可以看做是两张图像，生成两张图像所需的像素点远小于生成语音所需的采样点，因此，相较于WaveNet自回归的方式具有更低的复杂度，并且具有更高的合成效率。

在一个实施例中，所述语音合成模块708，包括：逆变换模块，用于使用逆短时傅里叶变换对所述复数频谱进行处理，得到所述待合成语音文本对应的合成语音。

在一个实施例中，所述复数神经网络包括下采样网络和上采样网络，所述上采样网络包括实部反卷积核和虚部反卷积核；如图8所示，所述第二频谱模块706，包括：下采样模块7062，用于将所述梅尔频谱输入所述复数神经网络中的下采样网络，得到所述下采样网络输出的所述梅尔频谱对应的频谱特征；上采样输入模块7064，用于将所述梅尔频谱对应的频谱特征输入所述上采样网络；实部模块7066，用于所述上采样网络中的实部反卷积核对所述梅尔频谱对应的频谱特征进行处理得到所述待合成语音文本对应的实部信息；虚部模块7068，用于所述上采样网络中的虚部反卷积核对所述梅尔频谱对应的频谱特征进行处理得到所述待合成语音文本对应的虚部信息。

在一个实施例中，如图9所示，所述装置700，还包括：训练语音获取模块710，用于获取训练语音；训练语音梅尔模块712，用于根据所述训练语音得到所述训练语音对应的梅尔频谱；训练语音输入模块714，用于将所述训练语音对应的梅尔频谱输入所述复数神经网络，得到所述训练语音对应的第一实部信息和第一虚部信息；训练合成模块716，用于根据所述第一实部信息和所述第一虚部信息得到所述训练语音对应的合成语音；训练语音频谱模块718，用于根据所述训练语音得到所述训练语音对应的第二实部信息和第二虚部信息；网络更新模块720，用于根据所述训练语音、所述训练语音对应的合成语音、所述第一实部信息、所述第一虚部信息、所述第二实部信息和所述第二虚部信息，得到网络损失参数，以便根据所述网络损失参数更新所述复数神经网络。

图10示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是服务器和终端。如图10所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现语音合成方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行语音合成方法。本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的语音合成方法可以实现为一种计算机程序的形式，计算机程序可在如图10所示的计算机设备上运行。计算机设备的存储器中可存储组成语音合成装置的各个程序模板。比如，文本获取模块702，第一频谱模块704，第二频谱模块706，语音合成模块708。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如下步骤：

获取待合成语音文本；

在一个实施例中，所述计算机程序被处理器执行时，还用于：在所述获取待合成语音文本之前，获取训练语音；根据所述训练语音得到所述训练语音对应的梅尔频谱；将所述训练语音对应的梅尔频谱输入所述复数神经网络，得到所述训练语音对应的第一实部信息和第一虚部信息；根据所述第一实部信息和所述第一虚部信息得到所述训练语音对应的合成语音；根据所述训练语音得到所述训练语音对应的第二实部信息和第二虚部信息；根据所述训练语音、所述训练语音对应的合成语音、所述第一实部信息、所述第一虚部信息、所述第二实部信息和所述第二虚部信息，得到网络损失参数，以便根据所述网络损失参数更新所述复数神经网络。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如下步骤：

获取待合成语音文本；

需要说明的是，上述语音合成方法、语音合成装置、计算机设备及计算机可读存储介质属于一个总的发明构思，语音合成方法、语音合成装置、计算机设备及计算机可读存储介质实施例中的内容可相互适用。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

获取待合成语音文本；

根据所述复数频谱得到所述待合成语音文本对应的合成语音；

其中，在所述获取待合成语音文本之前，还包括：

获取训练语音；

根据所述训练语音得到所述训练语音对应的梅尔频谱；

将所述训练语音对应的梅尔频谱输入所述复数神经网络，得到所述训练语音对应的第一实部信息和第一虚部信息；

根据所述第一实部信息和所述第一虚部信息得到所述训练语音对应的合成语音；

根据所述训练语音得到所述训练语音对应的第二实部信息和第二虚部信息；

根据所述训练语音、所述训练语音对应的合成语音、所述第一实部信息、所述第一虚部信息、所述第二实部信息和所述第二虚部信息，得到网络损失参数，以便根据所述网络损失参数更新所述复数神经网络。

2.根据权利要求1所述的方法，其特征在于，所述根据所述复数频谱得到所述待合成语音文本对应的合成语音，包括：

使用逆短时傅里叶变换对所述复数频谱进行处理，得到所述待合成语音文本对应的合成语音。

3.根据权利要求1所述的方法，其特征在于，所述复数神经网络包括下采样网络和上采样网络，所述上采样网络包括实部反卷积核和虚部反卷积核；所述将所述梅尔频谱输入复数神经网络，得到所述待合成语音文本对应的复数频谱，包括：

将所述梅尔频谱输入所述复数神经网络中的下采样网络，得到所述下采样网络输出的所述梅尔频谱对应的频谱特征；

将所述梅尔频谱对应的频谱特征输入所述上采样网络；

所述上采样网络中的实部反卷积核对所述梅尔频谱对应的频谱特征进行处理得到所述待合成语音文本对应的实部信息；

所述上采样网络中的虚部反卷积核对所述梅尔频谱对应的频谱特征进行处理得到所述待合成语音文本对应的虚部信息。

4.根据权利要求1所述的方法，其特征在于，所述根据所述训练语音、所述训练语音对应的合成语音、所述第一实部信息、所述第一虚部信息、所述第二实部信息和所述第二虚部信息，得到网络损失参数，包括：

根据所述训练语音和所述训练语音对应的合成语音得到第一损失参数；

对所述第一实部信息和所述第一虚部信息进行采样操作，得到第一实部虚部集，所述第一实部虚部集中包括预设个数的维度不同的实部信息和虚部信息；

对所述第二实部信息和所述第二虚部信息进行采样操作，得到第二实部虚部集，所述第二实部虚部集中包括预设个数的维度不同的实部信息和虚部信息；

根据所述第一实部虚部集和所述第二实部虚部集得到第二损失参数；

将所述第一损失参数和第二损失参数的和作为所述网络损失参数。

5.根据权利要求1所述的方法，其特征在于，所述根据所述训练语音得到所述训练语音对应的梅尔频谱，包括：

使用短时傅里叶变换对所述训练语音进行处理，得到所述训练语音对应的复数频谱；

根据所述训练语音对应的复数频谱计算得到所述训练语音对应的幅度谱和相位谱；

采用梅尔滤波器对所述训练语音对应的幅度谱进行滤波，得到所述训练语音对应的梅尔频谱。

6.一种语音合成装置，其特征在于，所述装置包括：

文本获取模块，用于获取待合成语音文本；

语音合成模块，用于根据所述复数频谱得到所述待合成语音文本对应的合成语音；

其中，在所述获取待合成语音文本之前，装置还用于：获取训练语音；根据所述训练语音得到所述训练语音对应的梅尔频谱；将所述训练语音对应的梅尔频谱输入所述复数神经网络，得到所述训练语音对应的第一实部信息和第一虚部信息；根据所述第一实部信息和所述第一虚部信息得到所述训练语音对应的合成语音；根据所述训练语音得到所述训练语音对应的第二实部信息和第二虚部信息；根据所述训练语音、所述训练语音对应的合成语音、所述第一实部信息、所述第一虚部信息、所述第二实部信息和所述第二虚部信息，得到网络损失参数，以便根据所述网络损失参数更新所述复数神经网络。

7.根据权利要求6所述的装置，其特征在于，所述语音合成模块，包括：

逆变换模块，用于使用逆短时傅里叶变换对所述复数频谱进行处理，得到所述待合成语音文本对应的合成语音。

8.根据权利要求6所述的装置，其特征在于，所述复数神经网络包括下采样网络和上采样网络，所述上采样网络包括实部反卷积核和虚部反卷积核；所述第二频谱模块，包括：

下采样模块，用于将所述梅尔频谱输入所述复数神经网络中的下采样网络，得到所述下采样网络输出的所述梅尔频谱对应的频谱特征；

上采样输入模块，用于将所述梅尔频谱对应的频谱特征输入所述上采样网络；

实部模块，用于所述上采样网络中的实部反卷积核对所述梅尔频谱对应的频谱特征进行处理得到所述待合成语音文本对应的实部信息；

虚部模块，用于所述上采样网络中的虚部反卷积核对所述梅尔频谱对应的频谱特征进行处理得到所述待合成语音文本对应的虚部信息。

9.一种计算机设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述语音合成方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述语音合成方法的步骤。