CN113327573A

CN113327573A - 语音合成方法、装置、设备及存储介质

Info

Publication number: CN113327573A
Application number: CN202110593375.3A
Authority: CN
Inventors: 张旭龙; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2021-08-31

Abstract

本申请涉及数据处理技术领域，并公开了一种语音合成方法、装置、设备及存储介质，所述方法通过空间快速含糊网络模型对高采样的音频信号进行分析，得到第一梅尔频谱后，将所述第一梅尔频谱的频段划分为若干个频段，分别确定划分之后各个频段的第二梅尔频谱；将各个所述第二梅尔频谱分别输入所述空间快速含糊网络模型中进行识别，生成第三梅尔频谱；将各个所述第三梅尔频谱分别输入语音生成模型中进行分析，得到第一音频波形；将所述第一音频波形划分为若干个不同长度的第二音频波形，将各个所述第二音频波形分别输入所述语音生成模型中进行识别，得到语音合成信号。能够解决语音合成结果失真问题，提高语音生成的音质效果。

Description

语音合成方法、装置、设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种语音合成方法、装置、设备及存储介质。

背景技术

在语音合成技术中，为了保证合成语音的高保真效果，需要以人耳所能听到音频的两倍频进行采样。而人耳所能听到音频的两倍频通常为40KHz以上，在如此高的采样率下采集的音频由于具有宽频段以及较长的波形点，使得合成的语音无法更好的传意和富含感情，影响语音的音质效果。

发明内容

本申请提供了一种语音合成方法、装置、设备及存储介质，能够解决由于高采样率所带来的语音合成结果失真问题，提高语音生成的音质效果。

第一方面，本申请提供了一种语音合成方法，所述方法包括：

利用空间快速含糊网络模型对高采样的音频信号进行分析，得到第一梅尔频谱；

将所述第一梅尔频谱的频段划分为若干个频段，分别确定划分之后各个频段的第二梅尔频谱；

将各个所述第二梅尔频谱分别输入所述空间快速含糊网络模型中进行识别，生成第三梅尔频谱；

将各个所述第三梅尔频谱分别输入语音生成模型中进行分析，得到第一音频波形；

将所述第一音频波形划分为若干个不同长度的第二音频波形，将各个所述第二音频波形分别输入所述语音生成模型中进行识别，得到语音合成信号。

第二方面，本申请还提供了一种语音合成装置，包括：

第一得到模块，用于利用空间快速含糊网络模型对高采样的音频信号进行分析，得到第一梅尔频谱；

确定模块，用于将所述第一梅尔频谱的频段划分为若干个频段，分别确定划分之后各个频段的第二梅尔频谱；

生成模块，用于将各个所述第二梅尔频谱分别输入所述空间快速含糊网络模型中进行识别，生成第三梅尔频谱；

第二得到模块，用于将各个所述第三梅尔频谱分别输入语音生成模型中进行分析，得到第一音频波形；

第三得到模块，用于将所述第一音频波形划分为若干个不同长度的第二音频波形，将各个所述第二音频波形分别输入所述语音生成模型中进行识别，得到语音合成信号。

第三方面，本申请还提供了一种语音合成设备，包括：

存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如上第一方面所述的语音合成方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如上第一方面所述的语音合成方法的步骤。

本申请公开了一种语音合成方法、装置、设备及存储介质，首先，通过空间快速含糊网络模型对高采样的音频信号进行分析，得到第一梅尔频谱后，将所述第一梅尔频谱的频段划分为若干个频段，分别确定划分之后各个频段的第二梅尔频谱；然后，将各个所述第二梅尔频谱分别输入所述空间快速含糊网络模型中进行识别，生成第三梅尔频谱；再将各个所述第三梅尔频谱分别输入语音生成模型中进行分析，得到第一音频波形；最后将所述第一音频波形划分为若干个不同长度的第二音频波形，将各个所述第二音频波形分别输入所述语音生成模型中进行识别，得到语音合成信号。能够解决由于高采样率所带来的语音合成结果失真问题，提高语音生成的音质效果。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的语音合成方法的实现流程图；

图2是本申请实施例提供的语音合成装置的结构示意图；

图3是本申请实施例提供的语音合成设备的结构示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本申请的实施例提供了一种语音合成方法、装置、设备及存储介质。本申请实施例提供的语言合成方法可首先，通过空间快速含糊网络模型对高采样的音频信号进行分析，得到第一梅尔频谱后，将所述第一梅尔频谱的频段划分为若干个频段，分别确定划分之后各个频段的第二梅尔频谱；然后，将各个所述第二梅尔频谱分别输入所述空间快速含糊网络模型中进行识别，生成第三梅尔频谱；再将各个所述第三梅尔频谱分别输入语音生成模型中进行分析，得到第一音频波形；最后将所述第一音频波形划分为若干个不同长度的第二音频波形，将各个所述第二音频波形分别输入所述语音生成模型中进行识别，得到语音合成信号。能够解决由于高采样率所带来的语音合成结果失真问题，提高语音生成的音质效果。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图1，图1是本申请一实施例提供的语音合成方法的示意流程图。该语音合成方法可以由服务器或者终端实现，所述服务器可以是单个服务器或者服务器集群。所述终端可以是手持终端、笔记本电脑、可穿戴设备或者机器人等。

如图1所示，图1是本申请一实施例提供的语音合成方法的实现流程图。具体包括：步骤S101至步骤S105。详述如下：

S101，利用空间快速含糊网络模型对高采样的音频信号进行分析，得到第一梅尔频谱。

其中，所述空间快速含糊网络模型包括前馈网络、时间预测器和长度调节器；示例性地，前馈网络，包括注意力机制T和1D卷积网络结构。具体地，前馈网络堆叠多个傅里叶块以用于音素到梅尔频谱的转换，其中有若干个傅里叶块位于音素侧，而若干个傅里叶块位于梅尔频谱侧；在前馈网络进行高采样的音频信号分析过程中，有一个长度调节器，弥合音素长度和梅尔谱序列之间的长度差距。

此外，每个傅里叶块均包含一个自注意机制和1D卷积网络。自注意力机制由多个注意力组成，以提取交叉位置处的信息。与普通注意力机制中的2层密集网络不同，在本实施例中的注意力机制为具有ReLU激活功能的2层1D卷积网络，用于将相邻的隐藏状态在字符/音素和声谱图中更紧密相关语音任务的顺序。

在一实施例中个，时间预测器，用于做音素(phoneme)持续时间预测，音素持续时间预测对于长度调节器很重要。示例性地，时间预测器由具有ReLU激活功能的2层1D卷积网络组成，每个网络都紧跟着归一化层和drop层，以及一个额外的线性层以输出标量。

此外，时间预测器可以堆叠在音素侧的傅里叶块的顶部，并与空间快速含糊网络模型一起进行训练，以预测每个音素的梅尔频谱的长度，并具有均方误差(MSE)损失。

其中，长度调节器，用于解决前馈网络中音素长度和梅尔频谱序列之间的长度不匹配问题，以及控制语音速度和部分韵律。一个音素序列的长度通常小于梅尔频谱序列的长度，并且每个音素对应于几个梅尔频谱。其中，将与音素相对应的梅尔频谱的长度称为音素持续时间。基于音素持续时间d，长度调节器将音素序列的隐藏状态扩展d倍，然后隐藏状态的总长度等于梅尔频谱的长度。将音素序列的隐藏状态表示为Hpho＝[h1，h2，…，hn]，其中n是序列的长度。将音素持续时间序列表示为D＝[d1，d2，…，dn]，其中∑n i＝1di＝m，m是梅尔频谱序列的长度。

示例性地，所述利用空间快速含糊网络模型对高采样的音频信号进行分析，得到第一梅尔频谱，可以包括：基于所述前馈网络的注意力机制对所述高采样的音频信号进行音素频谱图序列预测，基于所述时间预测器对所述高采样的音频信号进行音素持续时间预测，基于所述长度调节器对预测的音素频谱图序列的长度和预测的音素持续时间的长度分别进行调节，得到所述第一梅尔频谱。

S102，将所述第一梅尔频谱的频段划分为若干个频段，分别确定划分之后各个频段的第二梅尔频谱。

具体地，可以以任意预设的频段长度对所述第一梅尔频谱的频段进行划分，得到若干个频段各自对应的第二梅尔频谱。可以理解地，各个所述第二梅尔频谱按照首位顺序连接起来可形成所述第一梅尔频谱。

S103，将各个所述第二梅尔频谱分别输入所述空间快速含糊网络模型中进行识别，生成第三梅尔频谱。

其中，所述空间快速含糊网络模型还包括若干个第一对抗网络；所述将各个所述第二梅尔频谱分别输入所述空间快速含糊网络模型中进行识别，生成第三梅尔频谱，包括：

将各个所述第二梅尔频谱分别输入所述空间快速含糊网络模型中，在所述空间快速含糊网络模型中分别为各个所述第二梅尔频谱分配各自对应的第一对抗网络；

基于各个所述第一对抗网络，分别对各个所述第二梅尔频谱进行识别，生成第三梅尔频谱。

示例性地，所述第一对抗网络包括第一生成器和第一辨别器；

所述基于各个所述第一对抗网络，分别对各个所述第二梅尔频谱进行识别，生成第三梅尔频谱，包括：针对任意所述第一对抗网络，基于该第一对抗网络的第一生成器拟合输入该第一对抗网络的所述第二梅尔频谱，基于该第一对抗网络的第一辨别器，对拟合的第二梅尔顿谱进行识别，若识别结果为真，则确定拟合后的第二梅尔频谱为当前第一对抗网络生成的第三梅尔频谱。

S104，将各个所述第三梅尔频谱分别输入语音生成模型中进行分析，得到第一音频波形。

其中，所述语音生成模型为基于流的生成网络模型。其中，基于流的生成网络模型，能够基于梅尔频谱生成高质量的语音。具体地，基于流的生成网络模型可以称为WaveGlow，因为它结合了Glow和WaveNet的想法。WaveGlow为易于实施，使用单个网络进行训练，使用似然损失函数进行训练得到的模型。可以以超过500kHz的频率合成语音：比实时速度快25倍以上。

在一实施例中，WaveGlow包括若干个放射耦合层和可逆卷积层。具体地，每个放射耦合层可以使整个WaveGlow网络保留可逆性，在每个放射耦合层上将梅尔顿频谱通过门控进行非线性激活，而各个可逆卷积层分别设置在放射耦合层之前，用于将各个放射耦合层对梅尔顿频谱分析之后得到的信息混合，得到音频信号输出。在本实施例中，得到的音频信号为第一音频波形。

示例性地，所述将各个所述第三梅尔频谱输入语音生成模型中进行分析，得到第一音频波形，包括：将各个所述第三梅尔频谱输入基于流的生成网络模型，在基于流的生成网络模型中分析以所述第三梅尔频谱为条件的音频样本的分布；根据以所述第三梅尔频谱为条件的音频样本的分布进行音频采样，得到所述第一音频波形。

S105，将所述第一音频波形划分为若干个不同长度的第二音频波形，将各个所述第二音频波形分别输入所述语音生成模型中进行识别，得到语音合成信号。

其中，所述语音生成模型还包括若干个第二对抗网络；所述将各个所述第二音频波形分别输入所述语音生成模型中进行识别，得到语音合成信号，包括：

将各个所述第二音频波形分别输入所述语音生成模型中，在所述语音生成模型中分别为各个所述第二音频波形分配各自对应的第二对抗网络；

基于各个所述第二对抗网络分别对各个所述第二音频波形进行识别，得到所述语音合成信号。

在一实施例中，所述第二对抗网络包括第二生成器和第二辨别器；

所述基于各个所述第二对抗网络分别对各个所述第二音频波形进行识别，得到所述语音合成信号，包括：针对任意所述第二对抗网络，基于该第二对抗网络的第二生成器拟合输入该第二对抗网络的所述第二音频波形，基于该第二对抗网络的第二辨别器，对拟合的第二音频波形进行识别，若识别结果为真，则确定拟合后的第二音频波形对应的语音信号为当前第二对抗网络生成的语音合成信号。

通过上述分析可知，本实施例提供的语音合成方法，首先，通过空间快速含糊网络模型对高采样的音频信号进行分析，得到第一梅尔频谱后，将所述第一梅尔频谱的频段划分为若干个频段，分别确定划分之后各个频段的第二梅尔频谱；然后，将各个所述第二梅尔频谱分别输入所述空间快速含糊网络模型中进行识别，生成第三梅尔频谱；再将各个所述第三梅尔频谱分别输入语音生成模型中进行分析，得到第一音频波形；最后将所述第一音频波形划分为若干个不同长度的第二音频波形，将各个所述第二音频波形分别输入所述语音生成模型中进行识别，得到语音合成信号。能够解决由于高采样率所带来的语音合成结果失真问题，提高语音生成的音质效果。

请参阅图2，图2是本申请实施例提供的语音合成装置的结构示意图。该语音合成装置用于执行图1实施例所示的语音合成方法的步骤。该语音合成装置可以是单个服务器或服务器集群，或者该语言合成装置可以是终端，该终端可以是手持终端、笔记本电脑、可穿戴设备或者机器人等。

如图2所示，语音合成装置200包括：

第一得到模块201，用于利用空间快速含糊网络模型对高采样的音频信号进行分析，得到第一梅尔频谱；

确定模块202，用于将所述第一梅尔频谱的频段划分为若干个频段，分别确定划分之后各个频段的第二梅尔频谱；

生成模块203，用于将各个所述第二梅尔频谱分别输入所述空间快速含糊网络模型中进行识别，生成第三梅尔频谱；

第二得到模块204，用于将各个所述第三梅尔频谱分别输入语音生成模型中进行分析，得到第一音频波形；

第三得到模块205，用于将所述第一音频波形划分为若干个不同长度的第二音频波形，将各个所述第二音频波形分别输入所述语音生成模型中进行识别，得到语音合成信号。

在一实施例中，所述空间快速含糊网络模型包括若干个第一对抗网络；所述生成模块203，包括：

第一分配单元，用于将各个所述第二梅尔频谱分别输入所述空间快速含糊网络模型中，在所述空间快速含糊网络模型中分别为各个所述第二梅尔频谱分配各自对应的第一对抗网络；

第一生成单元，用于基于各个所述第一对抗网络，分别对各个所述第二梅尔频谱进行识别，生成第三梅尔频谱。

在一实施例中，所述空间快速含糊网络模型还包括前馈网络、时间预测器和长度调节器；所述第一得到模块201，具体用于：

基于所述前馈网络的注意力机制对所述高采样的音频信号进行音素频谱图序列预测，基于所述时间预测器对所述高采样的音频信号进行音素持续时间预测，基于所述长度调节器对预测的音素频谱图序列的长度和预测的音素持续时间的长度分别进行调节，得到所述第一梅尔频谱。

在一实施例中，所述第一对抗网络包括第一生成器和第一辨别器；

所述生成单元，具体用于：

针对任意所述第一对抗网络，基于该第一对抗网络的第一生成器拟合输入该第一对抗网络的所述第二梅尔频谱，基于该第一对抗网络的第一辨别器，对拟合的第二梅尔顿谱进行识别，若识别结果为真，则确定拟合后的第二梅尔频谱为当前第一对抗网络生成的第三梅尔频谱。

在一实施例中，所述语音生成模型为基于流的生成网络模型，所述第二得到模块204，包括：

分析单元，用于将各个所述第三梅尔频谱输入基于流的生成网络模型，在基于流的生成网络模型中分析以所述第三梅尔频谱为条件的音频样本的分布；

第一得到单元，用于根据以所述第三梅尔频谱为条件的音频样本的分布进行音频采样，得到所述第一音频波形。

在一实施例中，所述语音生成模型包括若干个第二对抗网络；所述第三得到模块205，包括：

第二分配单元，用于将各个所述第二音频波形分别输入所述语音生成模型中，在所述语音生成模型中分别为各个所述第二音频波形分配各自对应的第二对抗网络；

第二得到单元，用于基于各个所述第二对抗网络分别对各个所述第二音频波形进行识别，得到所述语音合成信号。

所述第二得到单元，具体用于：

针对任意所述第二对抗网络，基于该第二对抗网络的第二生成器拟合输入该第二对抗网络的所述第二音频波形，基于该第二对抗网络的第二辨别器，对拟合的第二音频波形进行识别，若识别结果为真，则确定拟合后的第二音频波形对应的语音信号为当前第二对抗网络生成的语音合成信号。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的语音合成装置和各模块的具体工作过程，可以参考图1实施例所述的语音合成方法实施例中的对应过程，在此不再赘述。

上述的语音合成方法可以实现为一种计算机程序的形式，该计算机程序可以在如图2所示的装置上运行。

请参阅图3，图3是本申请实施例提供的语音合成设备的结构示意性框图。该语音合成设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种语音合成方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种语音合成方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的终端的限定，具体的终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

在一实施例中，所述空间快速含糊网络模型包括若干个第一对抗网络；所述将各个所述第二梅尔频谱分别输入所述空间快速含糊网络模型中进行识别，生成第三梅尔频谱，包括：

在一实施例中，所述空间快速含糊网络模型还包括前馈网络、时间预测器和长度调节器；所述利用空间快速含糊网络模型对高采样的音频信号进行分析，得到第一梅尔频谱，包括：

所述基于各个所述第一对抗网络，分别对各个所述第二梅尔频谱进行识别，生成第三梅尔频谱，包括：

在一实施例中，所述语音生成模型为基于流的生成网络模型，所述将各个所述第三梅尔频谱输入语音生成模型中进行分析，得到第一音频波形，包括：

将各个所述第三梅尔频谱输入基于流的生成网络模型，在基于流的生成网络模型中分析以所述第三梅尔频谱为条件的音频样本的分布；

根据以所述第三梅尔频谱为条件的音频样本的分布进行音频采样，得到所述第一音频波形。

在一实施例中，所述语音生成模型包括若干个第二对抗网络；所述将各个所述第二音频波形分别输入所述语音生成模型中进行识别，得到语音合成信号，包括：

所述基于各个所述第二对抗网络分别对各个所述第二音频波形进行识别，得到所述语音合成信号，包括：

本申请的实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现本申请图1实施例提供的语音合成方法的步骤。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的语音合成方法，其特征在于，所述空间快速含糊网络模型包括若干个第一对抗网络；所述将各个所述第二梅尔频谱分别输入所述空间快速含糊网络模型中进行识别，生成第三梅尔频谱，包括：

3.根据权利要求2所述的语音合成方法，其特征在于，所述空间快速含糊网络模型还包括前馈网络、时间预测器和长度调节器；所述利用空间快速含糊网络模型对高采样的音频信号进行分析，得到第一梅尔频谱，包括：

4.根据权利要求2所述的语音合成方法，其特征在于，所述第一对抗网络包括第一生成器和第一辨别器；

5.根据权利要求1至4任一项所述的语音合成方法，其特征在于，所述语音生成模型为基于流的生成网络模型，所述将各个所述第三梅尔频谱输入语音生成模型中进行分析，得到第一音频波形，包括：

6.根据权利要求5所述的语音合成方法，其特征在于，所述语音生成模型包括若干个第二对抗网络；所述将各个所述第二音频波形分别输入所述语音生成模型中进行识别，得到语音合成信号，包括：

7.根据权利要求6所述的语音合成方法，其特征在于，所述第二对抗网络包括第二生成器和第二辨别器；

8.一种语音合成装置，其特征在于，包括：

9.一种语音合成设备，其特征在于，包括：

存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至7中任一项所述的语音合成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的语音合成方法的步骤。