CN114299912A

CN114299912A - 语音合成方法及相关装置、设备和存储介质

Info

Publication number: CN114299912A
Application number: CN202111646833.1A
Authority: CN
Inventors: 钟良; 胡亚军; 伍宏传; 江源
Original assignee: iFlytek Co Ltd
Current assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-08

Abstract

本申请公开了一种语音合成方法及相关装置、设备和存储介质，该方法包括：基于待合成文本，提取若干帧级声学特征；分别基于各帧级声学特征分别进行预测，得到各帧级声学特征分别对应的声学参数；基于激励参数、噪声参数和帧级声学特征对应的声学参数进行融合，得到帧级声学特征对应的频谱值；基于各帧级声学特征分别对应的频谱值，得到合成语音。上述方案，能够提高语音合成的效率和质量。

Description

语音合成方法及相关装置、设备和存储介质

技术领域

本申请涉及语音合成技术领域，特别是涉及一种语音合成方法及相关装置、设备和存储介质。

背景技术

语音合成是将文本转换成语音的方法，主要包括前端、声学模型以及声码器部分。声码器是一种将语音特征如频谱转换成语音的方法，是语音合成系统中重要的一环。近年来，随着技术的不断发展，高自然度和高音质的神经网络声码器也相继出现，但是这些声码器的计算量往往较大，合成速度不够理想。基于传统信号处理的声码器虽然合成速度快，但是音质不高。鉴于此，在确保语音合成的自然度和音质的前提下，如何实现高效的声码器是当下研究的重点。

发明内容

本申请主要解决的技术问题是提供一种语音合成方法及相关装置、设备和存储介质，能够提高语音合成的效率和质量。

为了解决上述技术问题，本申请第一方面提供了一种语音合成方法，包括：基于待合成文本，提取若干帧级声学特征；分别基于各帧级声学特征分别进行预测，得到各帧级声学特征分别对应的声学参数；基于激励参数、噪声参数和帧级声学特征对应的声学参数进行融合，得到帧级声学特征对应的频谱值；基于各帧级声学特征分别对应的频谱值，得到合成语音。

为了解决上述技术问题，本申请第二方面提供了一种语音合成装置，包括：帧级特征提取模块、声学参数预测模块、参数融合模块和声音合成模块；帧级特征提取模块用于基于待合成文本，提取若干帧级声学特征；声学参数预测模块用于分别基于各帧级声学特征分别进行预测，得到各帧级声学特征分别对应的声学参数；参数融合模块用于基于激励参数、噪声参数和帧级声学特征对应的声学参数进行融合，得到帧级声学特征对应的频谱值；声音合成模块用于基于各帧级声学特征分别对应的频谱值，得到合成语音。

为了解决上述技术问题，本申请第三方面提供了一种电子设备，包括相互耦接的存储器和处理器，存储器中存储有程序指令，处理器用于执行程序指令以实现上述第一方面中的语音合成方法。

为了解决上述技术问题，本申请第四方面提供了一种计算机可读存储介质，存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面中的语音合成方法。

上述方案，通过对提取到的若干帧级声学特征分别进行预测，得到各帧级声学特征分别对应的声学参数，即以帧为单位进行声学参数预测，相较于以采样点为单位进行的声学参数预测，运行速度快且运行次数少，从而减小了计算量，进而提高了语音合成的效率；另外，基于激励参数、噪声参数和帧级声学特征对应的声学参数进行融合，以得到帧级声学特征对应的频谱值，故帧级声学特征的频谱值融合了多参数，使得基于各帧级声学特征分别对应的频谱值得到的合成语音质量更高。

附图说明

图1是本申请提供的语音合成方法一实施例的流程示意图；

图2是本申请提供的声码器一实施例的结构示意图；

图3是本申请提供的声学参数的预测一实施例的流程示意图；

图4是本申请提供的参数预测网络一实施例的结构示意图；

图5是图1所示步骤S13一实施例的流程示意图；

图6是本申请提供的语音合成方法另一实施例的流程示意图；

图7是本申请提供的后滤波模块一实施例的结构示意图；

图8是本申请提供的联合训练一实施例的流程示意图；

图9是图8所示步骤S86一实施例的流程示意图；

图10是本申请提供的语音合成装置一实施例的框架示意图；

图11是本申请提供的电子设备一实施例的框架示意图；

图12是本申请提供的计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1，图1是本申请提供的语音合成方法一实施例的流程示意图。需要注意的是，若有实质上相同的结果，本实施例并不以图1所示的流程顺序为限。如图1所示，本实施例包括：

步骤S11：基于待合成文本，提取若干帧级声学特征。

本实施例的方法用于基于待合成文本得到合成语音，本文所述的待合成文本可以但不限于中文文本、英语文本、日语文本、法语文本、地方方言文本等。在其他实施方式中，待合成文本也可以是同时包括两种或者两种以上语言的文本，在此不做限定，可根据实际使用需要具体设置。

在一实施方式中，该待合成文本可以为任意需要合成为合成语音的文本，具体可以从本地存储或云端存储中获取得到。可以理解地，在其他实施方式中，也可通过图像采集设备对当前文本进行采集得到。

本实施方式中，基于待合成文本，能够提取若干帧级声学特征。在一具体实施方式中，利用已有的声学模型对待合成文本进行处理，从而生成对应待合成文本的若干帧级声学特征。可选地，声学模型包括但不限于FastSpeech(Fast，Robust and ControllableText to Speech)模型、Tacotron模型、Deep Voice模型、Transform模型等，在此不做具体限定。可以理解地，在其他具体实施方式中，根据待合成文本录制一段训练音频，具体可通过手机、录音棚内的麦克风等语音采集设备进行录制，对训练音频进行声学特征提取，以得到若干帧级声学特征。其中，对训练音频进行声学特征提取的算法在此不做限定，可根据实际使用需要具体设置。

在一实施方式中，基于待合成文本提取出的帧级声学特征的数量不做具体限定，可根据实际的待识别文本进行设置。可选地，帧级声学特征包括但不限于频谱、倒谱、基频、非周期信息等，在此不做具体限定。

步骤S12：分别基于各帧级声学特征分别进行预测，得到各帧级声学特征分别对应的声学参数。

本实施方式中，分别基于各帧级声学特征分别进行预测，得到各帧级声学特征分别对应的声学参数。在一实施方式中，声学参数包括复频域参数和非周期性参数，其中，复频域参数的虚部表示相位信息，复频域参数的实部表示幅度信息；非周期性参数表示周期性的谐波分量与非周期性的噪声分量之间的比值。可以理解地，在其他实施方式中，声学参数也可包括其他参数，在此不做具体限定。

在一具体实施方式中，声学参数为复频域参数和非周期性参数。具体地，如图2所示，图2是本申请提供的声码器一实施例的结构示意图，声码器包括复频域滤波器，复频域滤波器的功能就是对帧级声学特征进行预测处理，从而得到复频域参数；复频域滤波器的运行尺度是以帧为单位进行预测的，相较于以采样点为单位进行预测，运行尺度大且运行次数少；区别于幅度谱信息生成的频谱参数，复频域滤波器的输出为复频域参数，复频域参数为复数，不仅包括了幅度信息，也包括了相位信息；区别于复倒谱信息，生成的复频域参数灵活度更高。在一实施方式中，复频域滤波器功能的实现采用参数预测网络实现，即复频域参数是由参数预测网络预测得到的。可以理解地，在其他实施方式中，也可通过信号处理方法对各帧级声学特征进行处理，从而得到对应各帧级声学特征的相位信息和幅度信息；具体地，以相位信息为例，对各帧级声学特征进行处理，通过最小相位方法进行建模，以构建相位信息。

声码器还包括非周期性参数预测模块，非周期性参数预测模块的功能是对帧级声学特征进行预测处理，从而得到非周期性参数。其中，可利用参数预测网络动态生成，即非周期性参数由参数预测网络预测得到，能够更精准地预测谐波和噪声分量。

在一实施方式中，预测得到复频域参数的参数预测网络和预测得到非周期性参数的参数预测网络可以是同一参数预测网络，即利用该参数预测网络对各帧级声学特征分别进行预测，能够同时得到对应各帧级声学特征的复频域参数和非周期性参数，两者共用一个参数预测网络，大大减少了计算量。可以理解地，在其他实施方式中，预测得到复频域参数的参数预测网络和预测得到非周期性参数的参数预测网络也可以是不同的参数预测网络，可根据实际使用需要具体设置，在此不做限定。

步骤S13：基于激励参数、噪声参数和帧级声学特征对应的声学参数进行融合，得到帧级声学特征对应的频谱值。

本实施方式中，根据激励参数、噪声参数和帧级声学特征对应的声学参数进行融合，得到帧级声学特征对应的频谱值。也就是说，得到的帧级声学特征对应的频谱值是融合了激励参数、噪声参数和帧级声学特征对应的声学参数的。在一具体实施方式中，如图2所示，声码器包括融合模块，融合模块基于激励参数、噪声参数和帧级声学特征对应的声学参数进行融合，得到帧级声学特征对应的频谱值。

本公开实施例，基于发音原理来进行参数融合，具体来说，可以分别对构成语音的要件(如，浊音、清音)进行建模，清音可以包含语音中非周期性的噪声分量，示例性地，清音信号可表示为噪声激励、声道模型、辐射模型的卷积，具体表示如下：

x(t)＝n(t)*v(t)*r(t)

其中，x(t)表示清音信号模型；n(t)表示噪声模型；v(t)表示声道模型；r(t)表示辐射模型。

浊音可以包含语音中的周期性的谐波分量，浊音信号可表示为谐波激励、声门脉冲模型、声道模型和辐射模型的卷积，具体表示如下：

x(t)＝e(t)*g(t)*v(t)*r(t)

其中，x(t)表示浊音信号模型；e(t)表示激励信号模型；g(t)表示声门脉冲模型；v(t)表示声道模型；r(t)表示辐射模型。

因此，由于帧级声学特征对应的频谱值是基于激励参数、噪声参数和帧级声学特征对应的声学参数进行融合得到的，所以使得后续基于各帧级声学特征对应的频谱值得到的合成语音质量更高。

此外，请继续结合参阅图2，声码器还可以进一步包括激励模块，激励模块用于对激励参数进行优化。需要说明的是，激励参数可以包括但不限于对应基频不同谐波的正弦函数。也就是说，在融合之前，为了进一步提升语音合成质量，可以先对激励参数进行优化，以优化对应基频不同谐波。

步骤S14：基于各帧级声学特征分别对应的频谱值，得到合成语音。

本实施方式中，根据各帧级声学特征分别对应的频谱值，得到合成语音。在一实施方式中，将各帧级声学特征分别对应的频谱值进行帧同步叠加，从而得到合成语音。可以理解地，在其他实施方式中，也可通过对各帧级声学特征分别对应的频谱值进行其他处理，以得到合成语音，在此不做具体限定。

在一具体实施方式中，如图2所示，声码器包括融合模块，融合模块可以基于各帧级声学特征分别对应的频谱值，得到合成语音。示例性地，融合模块可以集成有PSOLA(Pitch Synchronous Overlap Add，基音同步叠加)算法，从而可以通过PSOLA算法处理各帧级声学特征分别对应的频谱值，得到合成语音。帧同步叠加的具体过程，可以参阅PSOLA算法的技术细节，在此不再赘述。

上述实施方式中，通过对提取到的若干帧级声学特征分别进行预测，得到各帧级声学特征分别对应的声学参数，即以帧为单位进行声学参数预测，相较于以采样点为单位进行的声学参数预测，运行速度快且运行次数少，从而减小了计算量，进而提高了语音合成的效率；另外，基于激励参数、噪声参数和帧级声学特征对应的声学参数进行融合，以得到帧级声学特征对应的频谱值，故帧级声学特征的频谱值融合了多参数，使得基于各帧级声学特征分别对应的频谱值得到的合成语音质量更高。

请参阅图3，图3是本申请提供的声学参数的预测一实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图3所示的流程顺序为限。如图3所示，本实施例中，声学参数包括复频域参数和非周期性参数，复频域参数和非周期性参数是基于同一参数预测网络预测得到，具体包括：

步骤S31：对帧级声学特征进行特征提取，得到用于预测复频域参数和非周期性参数的复用特征。

本实施方式中，对帧级声学特征进行特征提取，能够得到用于预测复频域参数和非周期性参数的复用特征。具体地，将帧级声学特征输入至参数预测网络，从而预测得到复频域参数和非周期性参数的复用特征。

在一具体实施方式中，如图4所示，图4是本申请提供的参数预测网络一实施例的结构示意图，参数预测网络采用多层卷积结构和激活函数搭建而成，参数预测网络包括特征提取子网络，特征提取子网络用于执行特征提取。具体地，将帧级声学特征输入至参数预测网络中的特征提取子网络，特征提取子网络对帧级声学特征进行特征提取，从而得到用于预测复频域参数和非周期性参数的复用特征。

步骤S32：基于复用特征进行第一预测，得到复频域参数，并基于复用特征进行第二预测，得到非周期性参数。

本实施方式中，基于对复用特征进行第一预测，从而得到复频域参数，同时基于对复用特征进行第二预测，从而得到非周期性参数。

在一具体实施方式中，如图4所示，参数预测网络还包括第一预测子网络和第二预测子网络，即参数预测网络包括特征提取子网络、第一预测子网络和第二预测子网络，第一预测子网络和第二预测子网络分别连接至特征提取子网络，第一预测子网络用于执行第一预测，第二预测子网络用于执行第二预测。具体地，将复用特征输入至参数预测网络中的第一预测子网络，第一预测子网络对复用特征进行第一预测，从而得到复频域参数，具体得到复频域参数的表示相位信息的虚部和表示幅度信息的实部；参数预测网络中的第二预测子网络对复用特征进行第二预测，从而得到非周期性参数。

请参阅图5，图5是图1所示步骤S13一实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图5所示的流程顺序为限。如图5所示，本实施例中，声学参数包括复频域参数和非周期性参数，并根据帧级声学特征是清音声学特征还是浊音声学特征来有选择性地选择激励参数还是噪声参数作为待融合参数，具体包括：

步骤S131：基于帧级声学特征的指示标识，选择激励参数或噪声参数，作为待融合参数。

本实施方式中，根据帧级声学特征的指示标识，选择激励参数或噪声参数，作为待融合参数。其中，指示标识表示用于表征帧级声学特征为清音声学特征或浊音声学特征。也就是说，会根据帧级声学特征是清音声学特征还是浊音声学特征来有选择性地选择激励参数还是噪声参数作为待融合参数。

在一实施方式中，在指示标识表示帧级声学特征为浊音声学特征的情况下，选择激励参数，作为待融合参数。

在一实施方式中，在指示标识表征帧级声学特征为清音声学特征的情况下，选择噪声参数，作为待融合参数。

步骤S132：基于待融合参数和帧级声学特征对应的声学参数进行融合，得到帧级声学特征对应的频谱值。

本实施方式中，根据待融合参数和帧级声学特征对应的声学参数进行融合，得到帧级声学特征对应的频谱值。在一具体实施方式中，声学参数包括复频域参数和非周期性参数，根据待融合参数和帧级声学特征对应的复频域参数和非周期性参数进行融合，得到帧级声学特征对应的频谱值，具体公式如下：

spg＝filter*e(t)*(1-AP)*uv+filter*n(t)*AP*(1-uv)

其中，spg表示帧级声学特征对应的频谱值；filter表示复频域参数；e(t)表示激励参数；AP表示非周期性参数；n(t)表示噪声参数。

在一实施方式中，在指示标识表征帧级声学特征为清音声学特征的情况下，将非周期性参数、复频域参数、待融合参数进行卷积，得到帧级声学特征对应的频谱值。具体地，在指示标识表征帧级声学特征为清音声学特征的情况下，uv的取值为0，会选择噪声参数作为待融合参数，即将非周期性参数、复频域参数和噪声参数进行卷积，得到帧级声学特征对应的频谱值。其对应的公式如下：

spg＝filter*n(t)*AP

在一具体实施方式中，n(t)为满足高斯噪声的白噪声，它的概率密度函数服从高斯分布，具体如下：

n(t)～N(0,1)

在一实施方式中，在指示标识表示帧级声学特征为浊音声学特征的情况下，将预设数值与非周期性参数的差值、复频域参数、待融合参数进行卷积，得到帧级声学特征对应的频谱值。具体地，在指示标识表征帧级声学特征为浊音声学特征的情况下，uv的取值为1，会选择激励参数作为待融合参数，即将预设数值与非周期性参数的差值、复频域参数和激励参数进行卷积，得到帧级声学特征对应的频谱值。其中，不对预设数值的大小进行限定，可根据实际使用需要具体设置。在一实施方式中，在非周期性参数在0-1的范围内，预设数值可以设置为1，具体公式如下：

spg＝filter*e*(1-AP)

在一实施方式中，将预设数值与非周期性参数的差值、复频域参数和激励参数进行卷积之前，还可对激励参数进行优化，即将预设数值与非周期性参数的差值、复频域参数和优化后的激励参数进行卷积，得到帧级声学特征对应的频谱值，以使得后续基于各帧级声学特征对应的频谱值得到的合成语音质量更高。

请参阅图6，图6是本申请提供的语音合成方法另一实施例的流程示意图。需要注意的是，若有实质上相同的结果，本实施例并不以图6所示的流程顺序为限。如图6所示，本实施例包括：

步骤S61：基于待合成文本，提取若干帧级声学特征。

步骤S61与步骤S11类似，在此不再赘述。

步骤S62：分别基于各帧级声学特征分别进行预测，得到各帧级声学特征分别对应的声学参数。

步骤S62与步骤S12类似，在此不再赘述。

步骤S63：基于激励参数、噪声参数和帧级声学特征对应的声学参数进行融合，得到帧级声学特征对应的频谱值。

步骤S63与步骤S13类似，在此不再赘述。

步骤S64：基于各帧级声学特征分别对应的频谱值，得到合成语音。

步骤S64与步骤S14类似，在此不再赘述。

步骤S65：对合成语音进行时域增强，得到优化语音。

本实施方式中，会对合成语音进行时域增强，从而得到优化语音，以获得更高音质的音频，使得合成语音更加贴近录音的真实水平。

在一具体实施方式中，如图2和图7所示，图7是本申请提供的后滤波模块一实施例的结构示意图，声码器还包括后滤波模块，后滤波模块采用残差卷积的结构，是基于多层卷积残差连接网络的，利用多层卷积残差连接网络能够加速对合成语音进行时域增强的处理，从而得到优化语音。

在一实施方式中，由于声码器设置有复频滤波器模块，所以该后滤波模块的参数量在很小的情况就可以实现高质量的声码器系统。在一实施方式中，后滤波模块具有可配置性，这种可配置的特性能够满足不同硬件的配置。具体地，对于低端硬件设备，可以不进行配置后滤波模块，对于高端硬件设备，可以配置后滤波模块。

在一实施方式中，声学参数由参数预测网络预测得到，优化语音由时域增强网络处理得到，而且参数预测网络和时域增强网络两者通过联合训练得到，两者联合训练能够使得训练更加自由，实现了对语音的频域和时域的同时控制，可以获取较高质量的语音合成效果。在一具体实施方式中，时域增强网络是基于残差网络设计的。

在一具体实施方式中，如图8所示，图8是本申请提供的联合训练一实施例的流程示意图，参数预测网络和时域增强网络的联合训练具体包括如下子步骤：

步骤S81：获取样本语音的若干样本帧级声学特征。

本实施方式中，获取样本语音的若干样本帧级声学特征。其中，样本语音包括但不限于中文样本语音、英文样本语音、日文样本语音等。在其他实施方式中，样本语音也可以是同时包括两种或者两种以上语言的语音，在此不做具体限定，可根据实际使用需要具体设置。其中，对样本语音进行声学特征提取的算法在此不做限定，可根据实际使用需要具体设置。示例性地，可以预先录制样本语音，并可以通过信号处理算法直接从样本语音中提取样本帧级声学特征；当然，也可以利用声学模型对输入文本生成对应的样本帧级声学特征，在此不做限定。此外，需要说明的是，与帧级声学特征类似地，样本帧级声学特征也可以包含但不限于如下特征信息：频谱、倒谱、基频、非周期信息等，在此不做限定。

在一实施方式中，样本语音具体可以从本地存储或云端存储中获取得到。可以理解地，在其他实施方式中，也可通过语音采集设备对说话人进行语音采集得到。

步骤S82：基于参数预测网络，分别对各样本帧级声学特征进行预测，得到各样本帧级声学特征对应的样本声学参数。

本实施方式中，基于参数预测网络，分别对各样本帧级声学特征进行预测，得到各样本帧级声学特征对应的样本声学参数。也就是说，利用参数预测网络分别对各样本帧级声学特征进行预测处理，能够得到各样本帧级声学特征对应的样本声学参数。

在一实施方式中，样本声学参数包括复频域参数和非周期性参数，其中，复频域参数的虚部表示相位信息，复频域参数的实部表示幅度信息；非周期性参数表示周期性的谐波分量与非周期性的噪声分量之间的比值。可以理解地，在其他实施方式中，样本声学参数也可包括其他参数，在此不做具体限定。

步骤S83：基于激励参数、噪声参数和样本帧级声学特征对应的样本声学参数进行融合，得到样本帧级声学特征对应的样本频谱值。

本实施方式中，根据激励参数、噪声参数和样本帧级声学特征对应的声学参数进行融合，得到样本帧级声学特征对应的样本频谱值。也就是说，得到的样本帧级声学特征对应的样本频谱值是融合了激励参数、噪声参数和样本帧级声学特征对应的声学参数的，以使得后续基于各样本帧级声学特征对应的样本频谱值得到的样本合成语音质量更高。

步骤S84：基于各样本帧级声学特征分别对应的样本频谱值，得到样本合成语音。

本实施方式中，根据各样本帧级声学特征分别对应的样本频谱值，得到样本合成语音。在一实施方式中，将各样本帧级声学特征分别对应的样本频谱值进行帧同步叠加，从而得到样本合成语音。可以理解地，在其他实施方式中，也可通过对各样本帧级声学特征分别对应的样本频谱值进行其他处理，以得到样本合成语音，在此不做具体限定。

步骤S85：基于时域增强网络，对样本合成语音进行时域增强，得到样本优化语音。

本实施方式中，基于时域增强网络，对样本合成语音进行时域增强，从而得到样本优化语音，以获得更高音质的音频，使得样本合成语音更加贴近录音的真实水平。也就是说，会利用时域增强网络对样本合成语音进行时域增强处理，以得到更好音质的样本优化语音。

步骤S86：基于样本合成语音、样本优化语音、样本声学参数三者分别与样本语音的梅尔谱差异，联合调整参数预测网络和时域增强网络两者的网络参数。

本实施方式中，根据样本合成语音、样本优化语音、样本声学参数三者分别与样本语音的梅尔谱差异，联合调整参数语音网络和时域增强网络两者的网络参数。也就是说，本实施方式中，从语音时频域多维度对参数预测网络和时域增强网络的网络参数进行调整，使得参数调整后的参数预测网络和时域增强网络效果更好，即使得后续基于待合成文本生成的合成语音质量更高。其中，联合调整参数预测网络和时域增强网络两者的网络参数具体公式如下：

L＝L_mel1+L_mel2+L_melf

其中，L_mel1表示样本合成语音与样本语音的梅尔谱损失值；L_mel2表示样本优化语音与样本语音的梅尔谱损失值；L_melf表示样本声学参数与样本语音的梅尔谱损失值。具体地，首先分别计算出样本语音的梅尔谱、样本合成语音的梅尔谱、样本优化语音的梅尔谱和样本声学参数的的梅尔谱；然后计算样本合成语音的梅尔谱和样本语音的梅尔谱之间的差异即L_mel1、样本优化语音的梅尔谱和样本语音的梅尔谱之间的差异即L_mel2、样本声学参数的梅尔谱和样本语音的梅尔谱之间的差异即L_melf。

在一实施方式中，在联合调整参数预测网络和时域增强网络两者的网络参数之前，分别对样本合成语音、样本优化语音进行真假鉴别，得到样本合成语音的第一概率和样本优化语音的第二概率。也就是说，在参数预测网络和时域增强网络的中间参数中引入了判别网络，实现了对中间过程中的时域值、频域值等参数的多维度判别；另外，通过在频域和时域等多维度的约束，降低参数预测网络和时域增强网络的学习难度，使得参数预测网络和时域增强网络能够达到更好结果。在一具体实施方式中，可分别利用第一判别器网络D1对样本合成语音进行真假鉴别，以得到样本合成语音的第一概率；可利用第二判别器网络D2对样本优化语音进行真假鉴别，以得到样本优化语音的第二概率；第一判别器网络D1和第二判别器网络D2均可以采用多分辨率的判别器，其中，不对分辨率进行限定，可根据实际使用需要具体设置。

其中，第一概率表示样本合成语音为真和/或为假的可能性，第二概率表示样本优化语音为真和/或为假的可能性。

在一具体实施方式中，如图9所示，图9是图8所示步骤S86一实施例的流程示意图，在得到样本合成语音为真和/或为假的第一概率和样本优化语音为真和/或假的第二概率后，联合调整参数预测网络和时域增强网络两者的网络参数具体包括如下子步骤：

步骤S861：基于样本合成语音、样本优化语音、样本声学参数三者分别与样本语音的梅尔谱差异，得到第一损失。

本实施方式中，根据样本合成语音、样本优化语音、样本声学参数三者分别与样本语音的梅尔谱差异，得到第一损失。具体公式如下：

L₁＝L_mel1+L_mel2+L_melf

其中，L₁表示第一损失；L_mel1表示样本合成语音与样本语音的梅尔谱损失值；L_mel2表示样本优化语音与样本语音的梅尔谱损失值；L_melf表示样本声学参数与样本语音的梅尔谱损失值。具体地，首先分别计算出样本语音的梅尔谱、样本合成语音的梅尔谱、样本优化语音的梅尔谱和样本声学参数的的梅尔谱；然后计算样本合成语音的梅尔谱和样本语音的梅尔谱之间的差异即L_mel1、样本优化语音的梅尔谱和样本语音的梅尔谱之间的差异即L_mel2、样本声学参数的梅尔谱和样本语音的梅尔谱之间的差异即L_melf；根据样本合成语音的梅尔谱和样本语音的梅尔谱之间的差异即L_mel1、样本优化语音的梅尔谱和样本语音的梅尔谱之间的差异即L_mel2和样本声学参数的梅尔谱和样本语音的梅尔谱之间的差异即L_melf，得到第一损失L₁。

步骤S862：基于样本合成语音的第一概率和样本优化语音的第二概率分别与预设概率之间的差异，得到第二损失。

本实施方式中，根据样本合成语音的第一概率和样本优化语音的第二概率分别与预设概率之间的差异，得到第二损失。其中，预设概率表示为真、为假的可能性相同。具体公式如下：

L₂＝L_gan(D₁)+L_gan(D₂)

其中，L₂表示第二损失；L_gan(D₁)表示样本合成语音的第一概率与预设概率的损失值；L_gan(D₂)表示样本优化语音的第二概率与预设概率的损失值。

步骤S863：基于第一损失和第二损失，联合调整参数预测网络和时域增强网络两者的网络参数。

本实施方式中，根据第一损失和第二损失，联合调整参数预测网络和时域增强网络两者的网络参数。通过在参数预测网络和时域增强网络的中间参数中引入了判别网络，实现了对中间过程中的时域值、频域值等参数的多维度判别；另外，通过在频域和时域等多维度的约束，降低参数预测网络和时域增强网络的学习难度，使得参数预测网络和时域增强网络能够达到更好结果。其中，联合调整参数预测网络和时域增强网络两者的网络参数具体公式如下：

L＝L₂+L₁＝L_gan(D₁)+L_gan(D₂)+L_mel1+L_mel2+L_melf

其中，L表示总损失；L₁表示第一损失；L₂表示第二损失；L_gan(D₁)表示样本合成语音的第一概率与预设概率的损失值；L_gan(D₂)表示样本优化语音的第二概率与预设概率的损失值；L_mel1表示样本合成语音与样本语音的梅尔谱损失值；L_mel2表示样本优化语音与样本语音的梅尔谱损失值；L_melf表示样本声学参数与样本语音的梅尔谱损失值。

请参阅图10，图10是本申请提供的语音合成装置一实施例的框架示意图。语音合成装置100包括帧级特征提取模块101、声学参数预测模块102、参数融合模块103和声音合成模块104；帧级特征提取模块101用于基于待合成文本，提取若干帧级声学特征；声学参数预测模块102用于分别基于各帧级声学特征分别进行预测，得到各帧级声学特征分别对应的声学参数；参数融合模块103用于基于激励参数、噪声参数和帧级声学特征对应的声学参数进行融合，得到帧级声学特征对应的频谱值；声音合成模块104用于基于各帧级声学特征分别对应的频谱值，得到合成语音。

其中，上述声学参数包括复频域参数和非周期性参数，且复频域参数和非周期性参数由参数预测网络预测得到；其中，复频域参数的实部表示幅度信息，复频域参数的虚部表示相位信息，非周期性参数表示周期性的谐波分量与非周期性的噪声分量之间的比值。

其中，语音合成装置100还包括预测模块105，预测模块105用于：对帧级声学特征进行特征提取，得到用于预测复频域参数和非周期性参数的复用特征；基于复用特征进行第一预测，得到复频域参数，并基于复用特征进行第二预测，得到非周期性参数。

其中，上述参数预测网络包括特征提取子网络、第一预测子网络和第二预测子网络，第一预测子网络和第二预测子网络分别连接至特征提取子网络，且特征提取子网络用于执行特征提取，第一预测子网络用于执行第一预测，第二预测子网络用于执行第二预测。

其中，参数融合模块103用于基于激励参数、噪声参数和帧级声学特征对应的声学参数进行融合，得到帧级声学特征对应的频谱值，具体包括：基于帧级声学特征的指示标识，选择激励参数或噪声参数，作为待融合参数；其中，指示标识表示用于表征帧级声学特征为清音声学特征或浊音声学特征；基于待融合参数和帧级声学特征对应的声学参数进行融合，得到帧级声学特征对应的频谱值。

其中，参数融合模块103用于基于帧级声学特征的指示标识，选择激励参数或噪声参数，作为待融合参数，具体包括：在指示标识表征帧级声学特征为清音声学特征的情况下，选择噪声参数，作为待融合参数；和/或，在指示标识表示帧级声学特征为浊音声学特征的情况下，选择激励参数，作为待融合参数。

其中，上述声学参数包括复频域参数和非周期性参数；参数融合模块103用于基于待融合参数和帧级声学特征对应的声学参数进行融合，得到帧级声学特征对应的频谱值，具体包括：在指示标识表征帧级声学特征为清音声学特征的情况下，将非周期性参数、复频域参数、待融合参数进行卷积，得到帧级声学特征对应的频谱值；和/或，在指示标识表示帧级声学特征为浊音声学特征的情况下，将预设数值与非周期性参数的差值、复频域参数、待融合参数进行卷积，得到帧级声学特征对应的频谱值。

其中，语音合成装置100还包括时域增强模块106，时域增强模块106用于在基于各帧级声学特征分别对应的频谱值，得到合成语音之后，具体包括：对合成语音进行时域增强，得到优化语音。

其中，上述声学参数由参数预测网络预测得到，优化语音由时域增强网络处理得到，且参数预测网络和时域增强网络两者通过联合训练得到。

其中，语音合成装置100还包括联合训练模块107，联合训练模块107用于联合训练的步骤包括：获取样本语音的若干样本帧级声学特征；基于参数预测网络，分别对各样本帧级声学特征进行预测，得到各样本帧级声学特征对应的样本声学参数；基于激励参数、噪声参数和样本帧级声学特征对应的样本声学参数进行融合，得到样本帧级声学特征对应的样本频谱值；基于各样本帧级声学特征分别对应的样本频谱值，得到样本合成语音；基于时域增强网络，对样本合成语音进行时域增强，得到样本优化语音；基于样本合成语音、样本优化语音、样本声学参数三者分别与样本语音的梅尔谱差异，联合调整参数预测网络和时域增强网络两者的网络参数。

其中，联合训练模块107用于在基于样本合成语音、样本优化语音、样本声学参数三者分别与样本语音的梅尔谱差异，联合调整参数预测网络和时域增强网络两者的网络参数之前，具体包括：分别对样本合成语音、样本优化语音进行真假鉴别，得到样本合成语音的第一概率和样本优化语音的第二概率；其中，第一概率表示样本合成语音为真和/或为假的可能性，第二概率表示样本优化语音为真和/或为假的可能性；联合训练模块107用于基于样本合成语音、样本优化语音、样本声学参数三者分别与样本语音的梅尔谱差异，联合调整参数预测网络和时域增强网络两者的网络参数，具体包括：基于样本合成语音、样本优化语音、样本声学参数三者分别与样本语音的梅尔谱差异，得到第一损失；以及，基于样本合成语音的第一概率和样本优化语音的第二概率分别与预设概率之间的差异，得到第二损失；其中，预设概率表示为真、为假的可能性相同；基于第一损失和第二损失，联合调整参数预测网络和时域增强网络两者的网络参数。

请参阅图11，图11是本申请提供的电子设备一实施例的框架示意图。电子设备110包括相互耦接的存储器111和处理器112，存储器111中存储有程序指令，处理器112用于执行程序指令以实现上述任一语音合成方法实施例中的步骤。具体地，电子设备110可以包括但不限于：台式计算机、笔记本电脑、服务器、手机、平板电脑等等，在此不做限定。

具体而言，处理器112用于控制其自身以及存储器111以实现上述任一语音合成方法实施例中的步骤。处理器112还可以称为CPU(Central Processing Unit，中央处理单元)。处理器112可能是一种集成电路芯片，具有信号的处理能力。处理器112还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器112可以由集成电路芯片共同实现。

请参阅图12，图12是本申请提供的计算机可读存储介质一实施例的框架示意图。计算机可读存储介质120存储有能够被处理器运行的程序指令121，程序指令121用于实现上述任一语音合成方法实施例中的步骤。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音合成方法，其特征在于，包括：

基于待合成文本，提取若干帧级声学特征；

分别基于各所述帧级声学特征分别进行预测，得到各所述帧级声学特征分别对应的声学参数；

基于激励参数、噪声参数和所述帧级声学特征对应的声学参数进行融合，得到所述帧级声学特征对应的频谱值；

基于各所述帧级声学特征分别对应的频谱值，得到合成语音。

2.根据权利要求1所述的方法，其特征在于，所述声学参数包括复频域参数和非周期性参数，且所述复频域参数和所述非周期性参数由参数预测网络预测得到；

其中，所述复频域参数的实部表示幅度信息，所述复频域参数的虚部表示相位信息，所述非周期性参数表示周期性的谐波分量与非周期性的噪声分量之间的比值。

3.根据权利要求2所述的方法，其特征在于，所述声学参数的预测步骤包括：

对所述帧级声学特征进行特征提取，得到用于预测所述复频域参数和所述非周期性参数的复用特征；

基于所述复用特征进行第一预测，得到所述复频域参数，并基于所述复用特征进行第二预测，得到所述非周期性参数。

4.根据权利要求3所述的方法，其特征在于，所述参数预测网络包括特征提取子网络、第一预测子网络和第二预测子网络，所述第一预测子网络和所述第二预测子网络分别连接至所述特征提取子网络，且所述特征提取子网络用于执行所述特征提取，所述第一预测子网络用于执行所述第一预测，所述第二预测子网络用于执行所述第二预测。

5.根据权利要求1所述的方法，其特征在于，所述基于激励参数、噪声参数和所述帧级声学特征对应的声学参数进行融合，得到所述帧级声学特征对应的频谱值，包括：

基于所述帧级声学特征的指示标识，选择所述激励参数或所述噪声参数，作为待融合参数；其中，所述指示标识表示用于表征所述帧级声学特征为清音声学特征或浊音声学特征；

基于所述待融合参数和所述帧级声学特征对应的声学参数进行融合，得到所述帧级声学特征对应的频谱值。

6.根据权利要求5所述的方法，其特征在于，所述基于所述帧级声学特征的指示标识，选择所述激励参数或所述噪声参数，作为待融合参数，包括：

在所述指示标识表征所述帧级声学特征为所述清音声学特征的情况下，选择所述噪声参数，作为所述待融合参数；

和/或，在所述指示标识表示所述帧级声学特征为所述浊音声学特征的情况下，选择所述激励参数，作为所述待融合参数。

7.根据权利要求5所述的方法，其特征在于，所述声学参数包括复频域参数和非周期性参数；所述基于所述待融合参数和所述帧级声学特征对应的声学参数进行融合，得到所述帧级声学特征对应的频谱值，包括：

在所述指示标识表征所述帧级声学特征为所述清音声学特征的情况下，将所述非周期性参数、所述复频域参数、所述待融合参数进行卷积，得到所述帧级声学特征对应的频谱值；

和/或，在所述指示标识表示所述帧级声学特征为所述浊音声学特征的情况下，将预设数值与所述非周期性参数的差值、所述复频域参数、所述待融合参数进行卷积，得到所述帧级声学特征对应的频谱值。

8.根据权利要求1所述的方法，其特征在于，在所述基于各所述帧级声学特征分别对应的频谱值，得到合成语音之后，所述方法还包括：

对所述合成语音进行时域增强，得到优化语音。

9.根据权利要求8所述的方法，其特征在于，所述声学参数由参数预测网络预测得到，所述优化语音由时域增强网络处理得到，且所述参数预测网络和所述时域增强网络两者通过联合训练得到。

10.根据权利要求9所述的方法，其特征在于，所述联合训练的步骤包括：

获取样本语音的若干样本帧级声学特征；

基于所述参数预测网络，分别对各所述样本帧级声学特征进行预测，得到各所述样本帧级声学特征对应的样本声学参数；

基于所述激励参数、所述噪声参数和所述样本帧级声学特征对应的样本声学参数进行融合，得到所述样本帧级声学特征对应的样本频谱值；

基于各所述样本帧级声学特征分别对应的样本频谱值，得到样本合成语音；

基于所述时域增强网络，对所述样本合成语音进行时域增强，得到样本优化语音；

基于所述样本合成语音、所述样本优化语音、所述样本声学参数三者分别与所述样本语音的梅尔谱差异，联合调整所述参数预测网络和所述时域增强网络两者的网络参数。

11.根据权利要求10所述的方法，其特征在于，在所述基于所述样本合成语音、所述样本优化语音、所述样本声学参数三者分别与所述样本语音的梅尔谱差异，联合调整所述参数预测网络和所述时域增强网络两者的网络参数之前，所述方法还包括：

分别对所述样本合成语音、所述样本优化语音进行真假鉴别，得到所述样本合成语音的第一概率和所述样本优化语音的第二概率；其中，所述第一概率表示样本合成语音为真和/或为假的可能性，所述第二概率表示所述样本优化语音为真和/或为假的可能性；

所述基于所述样本合成语音、所述样本优化语音、所述样本声学参数三者分别与所述样本语音的梅尔谱差异，联合调整所述参数预测网络和所述时域增强网络两者的网络参数，包括：

基于所述样本合成语音、所述样本优化语音、所述样本声学参数三者分别与所述样本语音的梅尔谱差异，得到第一损失；以及，

基于所述样本合成语音的第一概率和所述样本优化语音的第二概率分别与预设概率之间的差异，得到第二损失；其中，所述预设概率表示为真、为假的可能性相同；

基于所述第一损失和所述第二损失，联合调整所述参数预测网络和所述时域增强网络两者的网络参数。

12.一种语音合成装置，其特征在于，包括：

帧级特征提取模块，用于基于待合成文本，提取若干帧级声学特征；

声学参数预测模块，用于分别基于各所述帧级声学特征分别进行预测，得到各所述帧级声学特征分别对应的声学参数；

参数融合模块，用于基于激励参数、噪声参数和所述帧级声学特征对应的声学参数进行融合，得到所述帧级声学特征对应的频谱值；

声音合成模块，用于基于各所述帧级声学特征分别对应的频谱值，得到合成语音。

13.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1至11任一项所述的语音合成方法。

14.一种计算机可读存储介质，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至11任一项所述的语音合成方法。