CN112712812B

CN112712812B - 音频信号生成方法、装置、设备以及存储介质

Info

Publication number: CN112712812B
Application number: CN202011553463.2A
Authority: CN
Inventors: 张斌
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2024-04-26
Anticipated expiration: 2040-12-24
Also published as: CN112712812A

Abstract

本申请公开了一种音频信号生成方法、装置、设备以及存储介质，该方法包括：获取多媒体数据的音频频谱特征，多媒体数据包括语音信息、文本信息或者图片信息中的一种或多种；将音频频谱特征输入至音频声码器，音频声码器是通过对生成式对抗网络GAN进行训练得到的；通过音频声码器对音频频谱特征进行重建处理，得到音频频谱特征对应的目标音频信号。本发明实施例提出通过训练GAN网络来构建音频声码器，可确保经过该音频声码器生成的目标音频信号音质还原真实度高，生成目标音频信号过程中处理速度快。

Description

音频信号生成方法、装置、设备以及存储介质

技术领域

本发明涉及人工智能领域，具体涉及音频信号生成方法、装置、设备以及存储介质。

背景技术

音频声码器是指从语音信号的声学特征恢复成波形的模型，这里特指通过音频频谱特征重建时域音频信号的模型，是人工智能(Artificial Intelligence，AI)领域中的语音技术例如语音合成技术(Text To Speech，TTS)的重要实现部分。目前，常用的声码器主要有Griffin-Lim声码器和WORLD声码器，利用Griffin-Lim声码器生成的时域音频信号音质还原真实度低，机器感非常强，利用WORLD声码器生成的时域音频信号音质较Griffin-Lim有一定提升，但音质还原真实度仍然低，且生成时域音频信号过程中处理速度慢。

发明内容

本发明实施例提供一种音频信号生成方法、装置、设备以及存储介质，可确保生成的目标音频信号音质还原真实度高，生成目标音频信号过程中处理速度快。

第一方面，本发明实施例提供了一种音频信号生成方法，所述音频信号生成方法包括：

获取基于多媒体数据得到的音频频谱特征，所述音频频谱特征对应多帧音频的频谱特征；

将所述音频频谱特征输入至音频声码器，所述音频声码器是通过对生成式对抗网络GAN进行训练得到的；

通过所述音频声码器对所述音频频谱特征进行重建处理，得到所述音频频谱特征对应的目标音频信号，所述目标音频信号的音频帧数与所述音频频谱特征对应的音频帧数相同。

第二方面，本发明实施例提供了一种音频信号生成装置，其特征在于，包括:

获取单元，用于获取基于多媒体数据得到的音频频谱特征，所述音频频谱特征对应多帧音频的频谱特征；

输入单元，用于将所述音频频谱特征输入至音频声码器，所述音频声码器是通过对生成式对抗网络GAN进行训练得到的；

处理单元，用于通过所述音频声码器对所述音频频谱特征进行重建处理，得到所述音频频谱特征对应的目标音频信号，所述目标音频信号的音频帧数与所述音频频谱特征对应的音频帧数相同。

第三方面，本发明实施例提供了一种音频信号生成设备，其特征在于，包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行上述第一方面所述的音频信号生成方法。

第四方面，本发明实施例提供了一种计算机存储介质，其特征在于，所述计算机存储介质中存储有计算机程序指令，所述计算机程序指令被处理器执行时，用于执行上述第一方面所述的音频信号生成方法。

第五方面，本发明实施例提供了一种计算机程序产品或计算机程序，所述计算机程序产品或所述计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中；音频信号生成设备的处理器从所述计算机可读存储介质中读取所述计算机指令，所述处理器执行所述计算机指令，所述计算机指令被处理器执行时，用于执行上述音频信号生成方法。

本发明实施例中，音频声码器是通过对生成式对抗网络(GenerativeAdversarial Networks，GAN)进行训练得到的，GAN包括生成器与判别器，通过生成器与判别器不断相互学习迭代从而生成与真实样本接近的分布，基于此，对GAN进行训练得到的音频声码器能够实现高质量的音频信号的生成，即所生成的目标音频信号音质还原度高。另外本方案将多帧的音频频谱特征同时输入音频声码器进行整体预测后输出多帧的目标音频信号，目标音频信号的帧数与音频频谱特征的帧数相同，这是一种端到端的音频信号生成技术，相比现有技术使用一帧音频的频谱特征的各个采样点进行逐点预测生成音频信号的方式，处理速度更快。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种应用场景示意图；

图2是本发明实施例提供的一种音频信号生成方法的流程示意图；

图3是本发明实施例提供的一种音频声码器的结构示意图；

图4是本发明实施例提供的另一种音频信号生成方法的示意图；

图5是本发明实施例提供的另一种音频信号生成方法的流程示意图；

图6是本发明实施例提供的一种原始音频信号的转换示意图；

图7a是本发明实施例提供的一种具体的生成器的结构示意图；

图7b是本发明实施例提供的一种残差模块的结构示意图；

图8a是本发明实施例提供的一种判别器的结构示意图；

图8b是本发明实施例提供的一种判别模块的结构示意图；

图9是本发明实施例提供的一种音频信号生成装置的结构示意图；

图10是本发明实施例提供的一种音频信号生成设备的结构示意图。

具体实施方式

下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

音频声码器是指从语音信号的声学特征恢复成时域波形的模型，这里特指通过音频频谱特征重建时域音频信号的模型。音频声码器在人工智能领域中与语音相关的多个领域都有大量应用，如语音合成技术(Text To Speech，TTS)、音色转换和AI音乐生成等。TTS即将书面语言转换为人类语音，TTS系统可用于人机接口、视障人士可访问系统、媒体和娱乐应用中；音色转换实现将一种的音色转换成多种其他人音色，可用于娱乐、导航，媒体等领域；AI音乐生成使用AI前沿技术自动生成丰富动听的语音。例如在如图1所示的TTS系统中，先经过前端模块对纯文本进行分析处理得到语言学规格书，然后把语言学规格书送入后端模块中经过声学模型映射得到音频特征，该音频特征包括音频频谱特征或其他声学特征；最后经过音频声码器对该音频特征进行处理生成语音信号。

目前，音频声码器主要包括Griffin-Lim声码器和WORLD声码器，其中，Griffin-Lim声码器通过Griffin-Lim算法在仅知道已知幅度谱的情况下重建音频信号，即该算法先随机初始化一个相位谱；再用相位谱和已知的幅度谱经过短时傅里叶逆变换(ISTFT)合成新的音频信号；然后把合成的新的音频信号做短时傅里叶变换(STFT)，得到新的幅度谱和新的相位谱；然后丢弃新的幅度谱，用新的相位谱和已知的幅度谱合成新的音频信号，如此重复。采用该方法的Griffin-Lim声码器生成的音频信号音质还原真实度低，机器感非常强，人工痕迹明显；WORLD声码器通过获取基频、频谱包络和非周期信号参数这三个音频信号相关的参数来重建音频，WORLD声码器生成音频信号音质较Griffin-Lim有一定提升，但音质还原真实度仍然低，且生成音频信号过程中处理速度慢。

基于上述问题，本发明实施例提供了一种音频信号生成方法，音频信号生成设备通过音频声码器对获取到的音频频谱特征进行重建处理，得到音频频谱特征对应的目标音频信号，其中，音频声码器是通过对GAN进行训练得到的。基于该方法生成的目标音频信号音质还原真实度高，且可以保证在生成目标音频信号过程中处理速度快。

如图2所示，为本发明实施例提供的一种音频信号生成方法的流程示意图，该方法可以应用于音频信号生成设备。图2所示的音频信号生成方法可包括如下步骤：

S201、获取基于多媒体数据得到的音频频谱特征。

其中，所述音频频谱特征对应多帧音频的频谱特征。

其中，所述多媒体数据可以包括语音信息、文本信息或者图片信息中的一种或多种。需要说明的是，多媒体数据与前端的业务场景对应，在不同业务场景中多媒体数据的类型可能不同。不论何种形式的多媒体数据，为了实现目标音频信号的转换均需要对多媒体数据进行处理以得到音频频谱特征。本申请提供的音频信号生成方法中，并不限定多媒体数据的类型，也不限定如何基于多媒体数据得到音频频谱特征，而是重点解决如何将音频频谱特征转换为目标音频信号的问题。因此，应用该方法的音频信号生成设备可以对接各种业务场景的处理模块，在处理模块得到音频频谱特征后，音频信号生成设备均可以转换为目标音频信号返回业务场景的处理模块。可见，本申请提供的技术方案应用范围较广。

在一个实施例中，所述音频频谱特征可以是从语音信息、文本信息或者图片信息中提取或者转换得到的。例如在语音合成业务场景中，在如图1所示的TTS系统中，可以将纯文本的文本信息经过前端模块分析处理得到语言学规格书，然后把语言学规格书送入后端模块中经过声学模型映射，从而得到音频频谱特征，该音频频谱特征即是从文本信息中提取得到的。再如为图片配音业务场景中，可以通过先提取图片信息中存在的文本信息，再将文本信息转换得到音频频谱特征。又如音色转换业务场景中，该音频频谱特征也可以是用户输入的语音信息，从该语音信息中提取音频频谱特征。以上业务场景仅仅是示例说明，本申请并不做具体限定。

在一个实施例中，所述音频频谱特征可以包括梅尔对数幅度谱(Log Mel频谱)、短时傅里叶变换(short-time Fourier transform，STFT)特征或梅尔谱(Mel-Spectrogram)特征。

S202、将音频频谱特征输入至音频声码器。

其中，所述音频声码器是通过对生成式对抗网络GAN进行训练得到的。具体的，训练包括生成器G和判别器D的GAN，并基于训练好的生成器的优化参数构建音频声码器，具体的训练过程将在之后的实施例中展开具体介绍。

在一个实施例中，音频信号生成设备可以将音频频谱特征进行分段，具体的，可以将梅尔对数幅度谱进行分段，得到多个单元梅尔对数幅度谱，各个所述单元梅尔对数幅度谱的长度大于预设长度；然后将各个所述单元梅尔对数幅度谱输入至所述生成器。具体的，所述预设长度大于等于一帧，具体长度可以根据实际的应用场景进行设置。

S203、通过音频声码器对音频频谱特征进行重建处理，得到音频频谱特征对应的目标音频信号。

具体的，音频声码器对音频频谱特征进行重建处理直接得到目标音频信号，不生成目标音频信号对应的中间形态，即声谱图，目标音频信号的音频帧数与音频频谱特征对应的音频帧数相同。

在一个实施例中，音频声码器包括第一卷积层、M个反卷积层以及第二卷积层，M为正整数。具体的，音频信号生成设备通过所述第一卷积层对所述音频频谱特征进行卷积生成第一中间信号，并将所述第一中间信号发送至所述M个反卷积层；通过所述M个反卷积层中的第一个反卷积层对所述第一中间信号进行上采样，生成采样信号；通过第L个反卷积层对第L-1个反卷积层生成的采样信号进行上采样，生成采样信号，对L执行加一操作，直至得到第M个反卷积层生成的采样信号，并将所述第M个反卷积层生成的采样信号作为所述第二中间信号，2≤L≤M；将所述第二中间信号发送至所述第二卷积层，并通过所述第二卷积层对所述第二中间信号进行卷积生成所述目标音频信号。

在一个实施例中，所述音频声码器还包括M个残差模块，所述M个残差模块和所述M个反卷积层一一对应。具体的，音频信号生成设备通过不同的残差模块对所述残差模块对应的反卷积层生成的采样信号进行残差处理，得到残差处理后的采样信号，即对每一个反卷积层输出的采样信号都通过残差模块进行残差处理；并将通过所述第M个反卷积层对应的残差模块得到的残差处理后的采样信号作为所述第二中间信号并发送至第二卷积层。

其中，该M个反卷积层以一定的上采样倍数进行上采样，每个反卷积层的上采样倍数可以不同，该M个反卷积层也可以是不同种类的反卷积层。

示例性的，如图3所示，为本发明实施例提供的一种音频声码器的结构示意图。图3所示的音频声码器包括第一卷积层、M个反卷积层、M个残差模块以及第二卷积层，例如反卷积层的上采样倍数可以是A倍也可以是B倍或其他的上采样倍数。

示例性的，在进行音色转换时，音频信号生成设备可以从用户A输入的语音信号中提取到用户A的语音信号对应的音频频谱特征，再将该音频频谱特征输入至音频声码器中，即可以生成与用户A的音色不同的语音信号，此处的音频声码器是用多人的语音信号数据训练得到的。

本发明实施例中，音频信号生成设备获取多媒体数据的音频频谱特征；然后将音频频谱特征输入至音频声码器，其中，音频声码器是通过对生成式对抗网络GAN进行训练得到的；通过音频声码器对音频频谱特征进行重建处理，得到音频频谱特征对应的目标音频信号。由于音频声码器是通过对GAN进行训练得到的，通过GAN的生成器与判别器不断相互学习迭代从而生成与真实样本接近的分布，基于此，对GAN进行训练得到的音频声码器能够实现高质量的音频信号的生成，即所生成的目标音频信号音质还原度高。另外本方案将多帧的音频频谱特征同时输入音频声码器进行整体预测后输出多帧的目标音频信号，目标音频信号的帧数与音频频谱特征的帧数相同，这是一种端到端的音频信号生成技术，相比现有技术使用一帧音频的频谱特征的各个采样点进行逐点预测生成音频信号的方式，处理速度更快。

基于上述音频信号生成方法实施例，本发明实施例提供了另一种音频信号生成方法。该方法通过训练包括生成器G和判别器D的GAN，并基于训练好的生成器的优化参数构建音频声码器，通过音频声码器对音频频谱特征进行重建处理，得到音频频谱特征对应的目标音频信号。如图4所示，用于GAN训练的原始音频信号x_t，f经过变换得到原始音频信号的原始音频频谱特征，再将原始音频频谱特征输入至生成器中进行重建处理得到原始音频频谱特征对应的重建音频信号y_t，f，再将原始音频信号x_t，f和重建音频信号y_t，f输入至判别器进行判别得到判别结果，该判别结果包括特征图(Feature Maps)D(x_t，f)和D(y_t，f)以及判别真伪结果output，再基于判别结果确定损失函数，并根据损失函数对GAN进行训练以得到生成器的优化参数，基于优化参数，构建音频声码器；通过音频声码器对音频频谱特征进行重建处理，得到音频频谱特征对应的目标音频信号。

如图5所示，为本发明实施例提供的另一种音频信号生成方法的流程示意图。图5所示的音频信号生成方法可由音频信号生成设备执行。图5所示的音频信号生成方法可包括如下步骤：

S501、构建GAN，GAN包括生成器和判别器。

S502、将原始音频信号的原始音频频谱特征输入至生成器。

具体的，原始音频信号是用于训练该GAN的训练集中的任意音频信号。

在一个实施例中，原始音频信号可以是不同人的语音信号，用不同人的语音信号进行训练，能够训练得到支持多话语人(multi-speaker)的生成器，基于该训练好的生成器的优化参数构建的音频声码器对数据集外的语音生成同样适用，支持未见人音色。

在一个实施例中，原始音频信号的原始音频频谱特征可以包括原始音频信号对应的梅尔对数幅度谱、短时傅里叶变换特征或梅尔谱特征。

举例来说，假设原始音频信号为x_t，f，则音频信号生成设备将原始音频信号转换得到梅尔对数幅度谱可以如图6所示：

将原始音频信号x_t，f进行STFT得到STFT频谱(X_t，f)，再将X_t，f取模得到STFT幅度谱(|X_t，f|)，将计算得到的梅尔权值矩阵(mel_weight_matrix)与|X_t，f|进行矩阵相乘得到Mel频谱(X_mel)，对X_mel执行取对数运算得到梅尔对数幅度谱(X_{log_mel})。示例性的，将原始音频信号x_t，f进行STFT变换得到X_t，f过程中，可以取相关参数：固定片段长度为8192个采样点，窗长为2048，帧移为256；计算梅尔权值矩阵时可以取相关参数：Mel频谱的频点个数为160、采样率为44100、帧长最小为0、帧长最大为22050。

其中，上述提及的相关参数仅为该变换过程中的部分参数而非全部参数，该部分参数为本发明实施例所提供的参数示例而非唯一可选参数，能实现由原始音频信号x_t，f转换得到适用于本发明实施例所提供的音频信号生成方法的梅尔对数幅度谱X_{log_mel}的参数都应该包含在本发明实施例的保护范围内。

在一个实施例中，音频信号生成设备可以将原始音频频谱特征进行分段，具体的，可以将梅尔对数幅度谱进行分段，得到多个单元梅尔对数幅度谱，各个所述单元梅尔对数幅度谱的长度大于预设长度；然后将各个所述单元梅尔对数幅度谱输入至所述生成器。具体的，所述预设长度大于等于一帧，具体长度可以根据实际的应用场景进行设置。

S503、通过生成器对原始音频频谱特征进行重建处理得到原始音频频谱特征对应的重建音频信号。

具体的，生成器对原始音频频谱特征进行重建处理直接得到重建音频信号，不生成重建音频信号对应的中间形态，即声谱图，重建音频信号的音频帧数与原始音频频谱特征对应的原始音频信号帧数相同。

在一个实施例中，生成器包括第一卷积层、M个反卷积层以及第二卷积层，M为正整数。具体的，音频信号生成设备通过所述第一卷积层对所述原始音频频谱特征进行卷积生成第一中间信号，并将所述第一中间信号发送至所述M个反卷积层；通过所述M个反卷积层中的第一个反卷积层对所述第一中间信号进行上采样，生成采样信号；通过第L个反卷积层对第L-1个反卷积层生成的采样信号进行上采样，生成采样信号，对L执行加一操作，直至得到第M个反卷积层生成的采样信号，并将所述第M个反卷积层生成的采样信号作为所述第二中间信号，2≤L≤M；将所述第二中间信号发送至所述第二卷积层，并通过所述第二卷积层对所述第二中间信号进行卷积生成所述重建音频信号。

在一个实施例中，所述生成器还包括M个残差模块，所述M个残差模块和所述M个反卷积层一一对应。具体的，音频信号生成设备通过不同的残差模块对所述残差模块对应的反卷积层生成的采样信号进行残差处理，得到残差处理后的采样信号，即对每一个反卷积层输出的采样信号都通过残差模块进行残差处理；并将通过所述第M个反卷积层对应的残差模块得到的残差处理后的采样信号作为所述第二中间信号并发送至第二卷积层。

其中，残差模块可以包括空洞卷积层。使用残差模块可以解决由于网络不断加深带来的梯度消散的问题，即由于卷积层以及反卷积层数目过多带来的网络退化问题；并且由于空洞卷积层的感受野随网络层数的增加呈指数增加，所以能够有效地增加每个输出时间步长的感应野，能够很好的解决不同时间尺度上存在的短期和长期依赖性问题，进而可以使生成器训练效果更好。

示例性的，本发明实施例提供了一种具体的生成器的结构示意图。如图7a所示，第一卷积层为Conv 1D，可以通过设置两个进行8倍上采样的反卷积层以及两个进行2倍上采样的反卷积层来对第一卷积层生成的第一中间信号实现256倍的上采样，并将每个反卷积层输出的采样信号都通过残差模块进行残差处理，将得到的最后一个残差处理后的采样信号通过第二卷积层生成重建音频信号，其中第二卷积层为Conv 1D，并且由于音频的通道(channel)为1，所以将第二卷积层的channel设置为1。其中，通过堆叠的反卷积层进行总共256倍的上采样是因为在进行原始音频信号到梅尔对数幅度谱转换时，设置了帧移为256，由此得到的梅尔谱的时间分辨率比原始音频信号的分辨率低256倍。其中，该256倍的上采样是此方法下的参数示例并非唯一可选参数，和帧移的数值相同且适用于本发明实施例提供的方法进行音频信号生成的相关参数都应该包含在本发明实施例的保护范围内。

如图7b所示，为本发明实施例提供的一种残差模块的结构示意图。其中，残差模块中的每一个卷积层均采用Conv1D，激活函数均采用LeakRelu函数。其中，如图所示的残差模块中涉及的相关参数(例如卷积核尺寸k以及dilation参数)的具体取值为本发明实施例所提供的参数示例而非唯一可选参数，能基于本发明实施例提供的音频信号生成方法实现残差处理的相关参数都应该包含在本发明实施例的保护范围内。

在一个实施例中，生成器对原始音频频谱特征进行重建处理得到重建音频信号过程中的反卷积层的卷积核尺寸和卷积核滑动步长之间的比值为预设数值，示例性的，预设数值可以为预先设定的数值或者经验值，例如2或者3等等，研发人员可根据不同场景对预设数值进行不同的设置。当反卷积层的卷积核尺寸和卷积核滑动步长之间的比值为预设数值时，可以使生成的重建音频信号减少非自然音质的出现。

在一个实施例中，生成器对原始音频频谱特征进行重建处理得到重建音频信号过程中可以采用权值归一化(Weight Normalization)策略，采用权值归一化策略不会限制判别器的空间，也不会对激活进行归一化。

在一个实施例中，与传统的GAN要求在生成器输入随机噪声信号，并根据随机噪声得到生成器重建音频信号所不同，本发明实施例中的生成器是根据确定的原始音频频谱特征直接生成重建音频信号，所以生成器不需要输入随机噪声。

S504、通过生成器将重建音频信号发送至判别器。

S505、通过判别器分别对重建音频信号和原始音频信号进行判别，得到判别结果。

在一个实施例中，为了提高对重建音频信号判别的准确性，本方法采用了多尺度的判别器，即不仅可以对原始音频信号和重建音频信号进行判别，还可以对原始音频信号以及重建音频信号进行降频处理后再判别；其中，对原始音频信号以及重建音频信号进行降频处理后再判别是为了捕获原始音频信号以及重建音频信号中的高频结构，并且具有较少的参数。

具体实现中，判别器包括N个子判别器，其中N大于等于2，且N为正整数；通过第一个子判别器对重建音频信号和原始音频信号进行判别，得到第一个判别结果；通过第K个子判别器对第K-1个子判别器中待判别的重建音频信号进行降频处理得到降频后的重建音频信号，对所述第K-1个子判别器中待判别的原始音频信号进行降频处理得到降频后的原始音频信号，并对所述降频后的重建音频信号和降频后的原始音频信号进行判别，得到第K个判别结果，对L执行加1操作，直至得到第N个判别结果，2≤K≤N。其中，所述判别结果可以包括特征图以及判别真伪结果，该判别真伪结果表征该判别器判别重建音频信号判断为原始音频信号的真伪，例如判别真伪结果为“1”，则表示判别器判别重建音频信号为真，即重建音频信号与原始音频信号一致，重建音频信号是准确的；又如判别真伪结果为“0”，则表示判别器判别重建音频信号为伪，即重建音频信号与原始音频信号不相同，重建音频信号是不准确的。

进一步的，每个子判别器可以包括降频模块和判别模块，其中降频模块实现对原始音频信号和重建音频信号的降频处理，判别模块实现对原频率或者降频后的原始音频信号和重建音频信号的判别。其中，判别模块具有相同的结构，可以由多个卷积层组成，其中每个卷积层都会输出一个特征图。例如，每个判别模块有T个卷积层，则每个判别模块可输出T个特征图。

在一个实施例中，降频模块可以采用平均池化(Avg pooling)的方式。

如图8a所示，为本发明实施例提供的一种判别器的结构示意图。该判别器包括3个子判别器，分别为子判别器810、子判别器820以及子判别器830；其中第一个子判别器810用于实现对重建音频信号和原始音频信号的判别，所以第一个子判别器810不包括降频模块；第二个子判别器820以及第三个子判别器830均用于对原始音频信号以及重建音频信号进行降频处理后再进行判别，所以子判别器820以及子判别器830均包括降频模块以及判别模块；具体的，子判别器810包括判别模块811，子判别器820包括降频模块821以及判别模块822，子判别器830包括降频模块831以及判别模块831。其中，降频模块821以及降频模块831结构相同，均以卷积核滑动步长为2、卷积核尺寸为4运行以实现2倍的降频处理。具体的，假设原始音频信号为x_t，f，经过生成器重建处理得到的重建音频信号为y_t，f，音频信号生成设备把原始音频信号x_t，f和重建音频信号y_t，f送入子判别器810中，经过判别模块811进行判别，得到判别结果，包括特征图D₁(x_t，f)和D₁(y_t，f)以及判别真伪结果output；把原始音频信号x_t，f和重建音频信号y_t，f送入子判别器820中，经过降频模块821降频2倍，得到降频2倍后的原始音频信号和降频2倍后的重建音频信号，降频2倍后的原始音频信号和降频2倍后的重建音频信号经过判别模块822进行判别，得到判别结果，包括特征图D₂(x_t，f)和D₂(y_t，f)以及判别真伪结果output；把降频2倍后的原始音频信号和降频2倍后的重建音频信号送入子判别器830中，经过降频模块831降频2倍，得到共计降频4倍后的原始音频信号和降频4倍后的重建音频信号，降频4倍后的原始音频信号和降频4倍后的重建音频信号经过判别模块832进行判别，得到判别结果，包括特征图D₃(x_t，f)和D₃(y_t，f)以及判别真伪结果output。其中，子判别器的个数和判别模块的卷积层的层数是可以根据实际应用场景进行设置的，并不局限于该实例所提供的具体参数。

如图8b所示，为本发明实施例提供的一种判别模块的结构示意图。其中判别模块包括7个卷积层，每一个卷积层均采用ConvlD，激活函数均采用LeakRelu函数，每个卷积层都会输出一个特征图。其中，如图所示的判别模块中涉及的相关参数(例如卷积核尺寸k以及卷积核滑动步长stride)的具体取值为本发明实施例所提供的参数示例而非唯一可选参数，能基于本发明实施例提供的音频信号生成方法实现判别处理的相关参数都应该包含在本发明实施例的保护范围内。

S506、基于判别结果确定损失函数，并根据损失函数对GAN进行训练，得到生成器的优化参数。

在一个实施例中，损失函数包括生成器损失函数以及判别器损失函数，所述生成器损失函数包括生成器初始损失函数以及特征匹配损失函数。

其中，生成器损失函数为：

生成器初始损失函数使用铰链损失函数，具体为：

特征匹配损失函数为：

假设判别器包括的判别模块包括T个卷积层，则判别器损失函数为：

其中，x_t，f为所述原始音频信号，y_t，f为所述重建音频信号，N为子判别器的个数，D_k为第k个子判别器的特征图，为第k个子判别器的判别模块中第i个卷积层的特征图，N_i为第i个卷积层的特征图中所含元素的个数，T为第k个子判别器的判别模块中卷积层的个数，γ为超参数，一般为20。

在根据损失函数对GAN进行训练的过程中，音频信号生成设备朝着减小损失函数的方向对GAN进行训练，使用生成器损失函数对生成器的优化参数进行优化，使用判别器损失函数对判别器的优化参数进行优化。具体的，通常固定判别器的优化参数，更新生成器的优化参数，然后再固定生成器的优化参数，更新判别器的优化参数，如此交替迭代训练。在整个训练的过程中，生成器和判别器都尽可能优化各自的优化参数，从而形成竞争对抗，直到彼此达到动态平衡状态。此时，生成器生成的重建音频信号与原始音频信号几乎没有差别，判别器无法再对该生成器生成的重建音频信号判断出真假，此时便保留生成器的优化参数。并且，由于在生成器初始损失函数的基础上引入了特征匹配损失函数，所以在利用损失函数优化GAN时，可以使判别器生成的关于原始音频信号与重建音频信号之间的特征图的距离最小，即能够实现重建音频信号与原始音频信号之间的差距最小，进而能使得重建音频信号的音质还原真实度更高、训练效果更好。

在一个实施例中，所述优化参数可以为GAN的权值参数。

在一个实施例中，可以使用梯度下降法对GAN进行优化。

S507、基于优化参数，构建音频声码器。

具体的，所述音频声码器为采用上述方法得到的生成器的优化参数构建的生成器，音频声码器与GAN的生成器结构相同。

S508、获取基于多媒体数据得到的音频频谱特征。

S509、将音频频谱特征输入至音频声码器。

S510、通过音频声码器对音频频谱特征进行重建处理，得到音频频谱特征对应的目标音频信号。

步骤S508-S510与步骤S201-S203相同，在此不做赘述。

本发明实施例中，音频信号生成设备通过训练包括生成器和判别器的GAN，并基于训练好的生成器的优化参数构建音频声码器，通过音频声码器对音频频谱特征进行重建处理，得到音频频谱特征对应的目标音频信号。在构建生成器时，引入了带有空洞卷积的残差模块，可以解决由于网络不断加深带来的梯度消散的问题，即由于卷积层以及反卷积层数目过多带来的网络退化问题；并且由于空洞卷积层的感受野随网络层数的增加呈指数增加，所以能够有效地增加每个输出时间步长的感应野，能够很好的解决不同时间尺度上存在的短期和长期依赖性问题，进而可以使生成器的训练效果更好；在构建判别器时采用了多尺度的判别器(即不仅对原频率的原始音频信号和重建音频信号进行判别，也对降频后的原始音频信号和重建音频信号进行判别)，能够提高判别器判别的准确性；采用损失函数训练GAN时，在生成器初始损失函数的基础上引入了特征匹配损失函数，能够使得训练好的重建音频信号无限接近于原始音频信号。由此得到的音频声码器，生成的目标音频信号的音质还原真实度高；并且，本方案将多帧的音频频谱特征同时输入音频声码器进行整体预测后输出多帧的目标音频信号，目标音频信号的帧数与音频频谱特征的帧数相同，这是一种端到端的音频信号生成技术，相比现有技术使用一帧音频的频谱特征的各个采样点进行逐点预测生成音频信号的方式，处理速度更快；再者，因为用于训练的原始音频信号可以是不同人的语音信号，所以能够训练得到支持多话语人的生成器，并基于该生成器的优化参数构建音频声码器，该音频声码器对数据集外的语音生成同样适用，支持未见人音色，泛化能力强。

基于上述音频信号生成方法实施例，本发明实施例提供了一种音频信号生成装置。参见图9，为本发明实施例提供的一种音频信号生成装置的结构示意图，该装置具体包括获取单元901，输入单元902以及处理单元903。图9所示的音频信号生成装置可运行如下单元：

获取单元901，用于获取基于多媒体数据得到的音频频谱特征，所述音频频谱特征对应多帧音频的频谱特征；

输入单元902，用于将所述音频频谱特征输入至音频声码器，所述音频声码器是通过对生成式对抗网络GAN进行训练得到的；

处理单元903，用于通过所述音频声码器对所述音频频谱特征进行重建处理，得到所述音频频谱特征对应的目标音频信号，所述目标音频信号的音频帧数与所述音频频谱特征对应的音频帧数相同。

在一个实施例中，所述音频声码器包括第一卷积层、M个反卷积层以及第二卷积层，M为正整数；所述处理单元903在通过所述音频声码器对所述音频频谱特征进行重建处理，得到所述音频频谱特征对应的目标音频信号时，具体执行如下操作：

通过所述第一卷积层对所述音频频谱特征进行卷积生成第一中间信号，并将所述第一中间信号发送至所述M个反卷积层；

通过所述M个反卷积层中的第一个反卷积层对所述第一中间信号进行上采样，生成采样信号；

通过第L个反卷积层对第L-1个反卷积层生成的采样信号进行上采样，生成采样信号，对L执行加一操作，直至得到第M个反卷积层生成的采样信号，并将所述第M个反卷积层生成的采样信号作为所述第二中间信号，2≤L≤M；

将所述第二中间信号发送至所述第二卷积层，并通过所述第二卷积层对所述第二中间信号进行卷积生成所述目标音频信号。

在一个实施例中，所述音频声码器还包括M个残差模块，所述M个残差模块和所述M个反卷积层一一对应；所述处理单元903，还用于：

通过不同的残差模块对所述残差模块对应的反卷积层生成的采样信号进行残差处理，得到残差处理后的采样信号；

将通过所述第M个反卷积层对应的残差模块得到的残差处理后的采样信号作为所述第二中间信号。

在一个实施例中，所述反卷积层的卷积核尺寸和卷积核滑动步长之间的比值为预设数值。

在一个实施例中，所述音频频谱特征包括梅尔对数幅度谱；

在所述输入单元902将所述音频频谱特征输入至音频声码器之前，所述获取单元901还用于：

对所述梅尔对数幅度谱进行分段，得到多个单元梅尔对数幅度谱，各个所述单元梅尔对数幅度谱的长度大于预设长度；

所述输入单元902在将所述音频频谱特征输入至音频声码器时，具体执行如下操作：

将各个所述单元梅尔对数幅度谱输入至所述音频声码器。

在一个实施例中，在所述获取单元901获取基于多媒体数据得到的音频频谱特征之前，

所述处理单元903，还用于构建GAN，所述GAN包括生成器和判别器；

所述输入单元902，还用于将原始音频信号的原始音频频谱特征输入至所述生成器；

所述处理单元903，还用于通过所述生成器对所述原始音频频谱特征进行重建处理得到所述原始音频频谱特征对应的重建音频信号，通过所述生成器将所述重建音频信号发送至所述判别器，通过所述判别器分别对所述重建音频信号和所述原始音频信号进行判别，得到判别结果；

所述处理单元903，还用于基于所述判别结果确定损失函数，并根据所述损失函数对所述GAN进行训练，得到所述生成器的优化参数；

所述处理单元903，还用于基于所述优化参数，构建所述音频声码器。

在一个实施例中，所述判别器包括N个子判别器，其中N大于等于2，且N为正整数；

所述处理单元903在通过判别器分别对所述重建音频信号和所述原始音频信号进行判别，得到判别结果时，具体执行如下操作：

通过第一个子判别器对重建音频信号和原始音频信号进行判别，得到第一个判别结果；

通过第K个子判别器对第K-1个子判别器中待判别的重建音频信号进行降频处理得到降频后的重建音频信号，对所述第K-1个子判别器中待判别的原始音频信号进行降频处理得到降频后的原始音频信号，并对所述降频后的重建音频信号和降频后的原始音频信号进行判别，得到第K个判别结果，对L执行加1操作，直至得到第N个判别结果，2≤K≤N。

在一个实施例中，所述损失函数包括生成器损失函数以及判别器损失函数，所述生成器损失函数包括生成器初始损失函数以及特征匹配损失函数，所述子判别器包括判别模块，所述判别模块包括T个卷积层，所述判别结果包括特征图；

所述生成器损失函数为：

其中，所述生成器初始损失函数为：

所述特征匹配损失函数为：

所述判别器损失函数为：

其中，x_t，f为所述原始音频信号，y_t，f为所述重建音频信号，N为所述子判别器的个数，D_k为第k个子判别器的特征图，为第k个子判别器的判别模块中第i个卷积层的特征图，N_i为第i个卷积层的特征图中所含元素的个数，γ为超参数。

根据本发明的一个实施例，图2和图5所示的音频信号生成方法所涉及各个步骤可以是由图9所示的音频信号生成装置中的各个单元来执行的。例如，图2所示的步骤S201可由图9所示的音频信号生成装置中的获取单元901来执行，步骤S202可由图9所示的音频信号生成装置中的输入单元902来执行，步骤S203可由图9所示的音频信号生成装置中的处理单元903来执行；再如，图5所示的步骤S501以及S503-S507可由图9所示的音频信号生成装置中的处理单元903来执行，步骤S502以及S509可由图9所示的音频信号生成装置中的输入单元902来执行，步骤S508可由图9所示的音频信号生成装置中的获取单元901来执行。

根据本发明的另一个实施例，图9所示的音频信号生成装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本发明的其它实施例中，基于逻辑功能划分的音频信号生成装置可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本发明的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2以及图5所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图9中所示的音频信号生成装置，以及来实现本发明实施例音频信号生成方法。所述计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于上述计算设备中，并在其中运行。

本发明实施例中，处理单元903通过训练包括生成器和判别器的GAN，并基于训练好的生成器的优化参数构建音频声码器，通过音频声码器对音频频谱特征进行重建处理，得到音频频谱特征对应的目标音频信号。处理单元903在构建生成器时，引入了带有空洞卷积的残差模块，可以解决由于网络不断加深带来的梯度消散的问题，即由于卷积层以及反卷积层数目过多带来的网络退化问题；并且由于空洞卷积层的感受野随网络层数的增加呈指数增加，所以能够有效地增加每个输出时间步长的感应野，能够很好的解决不同时间尺度上存在的短期和长期依赖性问题，进而可以使生成器的训练效果更好；在构建判别器时采用了多尺度的判别器(即不仅对原频率的原始音频信号和重建音频信号进行判别，也对降频后的原始音频信号和重建音频信号进行判别)，能够提高判别器判别的准确性；采用损失函数训练GAN时，在生成器初始损失函数的基础上引入了特征匹配损失函数，能够使得训练好的重建音频信号无限接近于原始音频信号。由此得到的音频声码器，生成的目标音频信号的音质还原真实度高；并且，本方案将多帧的音频频谱特征同时输入音频声码器进行整体预测后输出多帧的目标音频信号，目标音频信号的帧数与音频频谱特征的帧数相同，这是一种端到端的音频信号生成技术，相比现有技术使用一帧音频的频谱特征的各个采样点进行逐点预测生成音频信号的方式，处理速度更快；再者，因为用于训练的原始音频信号可以是不同人的语音信号，所以能够训练得到支持多话语人的生成器，并基于该生成器的优化参数构建音频声码器，该音频声码器对数据集外的语音生成同样适用，支持未见人音色，泛化能力强。

基于上述的方法实施例以及装置实施例，本发明实施例还提供了一种音频信号生成设备。参见图10，为本发明实施例提供的音频信号生成设备的结构示意图。如图10所示的音频信号生成设备可至少包括处理器1001、输入接口1002、输出接口1003以及计算机存储介质1004。其中，处理器1001、输入接口1002、输出接口1003以及计算机存储介质1004可通过总线或其他方式连接。

计算机存储介质1004可以存储在节点设备的存储器中，所述计算机存储介质1004用于存储计算机程序，所述计算机程序包括程序指令，所述处理器1001用于执行所述计算机存储介质1004存储的程序指令。处理器1001(或称CPU(Central Processing Unit，中央处理器))是智能终端的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现上述界面更新方法流程或相应功能。

本发明实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是智能终端中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括终端中的内置存储介质，当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器1001加载并执行的一条或多条的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机存储介质。

在一个实施例中，可由处理器1001加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关图2以及图5所述的音频信号生成方法实施例中的方法的相应步骤，具体实现中，计算机存储介质中的一条或多条指令由处理器1001加载并执行如下步骤：

在一个实施例中，所述音频声码器包括第一卷积层、M个反卷积层以及第二卷积层，M为正整数；所述处理器1001在通过所述音频声码器对所述音频频谱特征进行重建处理，得到所述音频频谱特征对应的目标音频信号时，具体执行如下操作：

在一个实施例中，所述音频声码器还包括M个残差模块，所述M个残差模块和所述M个反卷积层一一对应；所述处理器1001，还用于：

在一个实施例中，所述音频频谱特征包括梅尔对数幅度谱；

所述处理器1001在将所述音频频谱特征输入至音频声码器之前，还用于：

所述处理器1001在将所述音频频谱特征输入至音频声码器时，具体执行如下操作：

将各个所述单元梅尔对数幅度谱输入至所述音频声码器。

在一个实施例中，所述处理器1001在获取基于多媒体数据得到的音频频谱特征之前，还用于：

构建GAN，所述GAN包括生成器和判别器；

将原始音频信号的原始音频频谱特征输入至所述生成器；

通过所述生成器对所述原始音频频谱特征进行重建处理得到所述原始音频频谱特征对应的重建音频信号，通过所述生成器将所述重建音频信号发送至所述判别器，通过所述判别器分别对所述重建音频信号和所述原始音频信号进行判别，得到判别结果；

基于所述判别结果确定损失函数，并根据所述损失函数对所述GAN进行训练，得到所述生成器的优化参数；

基于所述优化参数，构建所述音频声码器。

所述处理器1001在通过判别器分别对所述重建音频信号和所述原始音频信号进行判别，得到判别结果时，具体执行如下操作：

所述生成器损失函数为：

其中，所述生成器初始损失函数为：

所述特征匹配损失函数为：

所述判别器损失函数为：

根据本申请的一个方面，本发明实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。处理器1001从计算机可读存储介质读取该计算机指令，处理器1001执行该计算机指令，使得音频信号生成设备执行图2以及图5所示的音频信号生成方法。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖范围。

Claims

1.一种音频信号生成方法，其特征在于，包括：

构建生成式对抗网络GAN，所述GAN包括生成器和判别器；所述判别器包括N个子判别器，其中N大于等于2，且N为正整数；

将原始音频信号的原始音频频谱特征输入至所述生成器，通过所述生成器对所述原始音频频谱特征进行重建处理得到所述原始音频频谱特征对应的重建音频信号，所述生成器将所述重建音频信号发送至所述判别器；

通过第一个子判别器对重建音频信号和原始音频信号进行判别，得到第一个判别结果；通过第K个子判别器对第K-1个子判别器中待判别的重建音频信号进行降频处理得到降频后的重建音频信号，对所述第K-1个子判别器中待判别的原始音频信号进行降频处理得到降频后的原始音频信号，并对降频后的重建音频信号和降频后的原始音频信号进行判别，得到第K个判别结果，对K执行加1操作，直至得到第N个判别结果，2≤K≤N；

基于判别结果确定损失函数，并根据所述损失函数对所述GAN进行训练，得到所述生成器的优化参数；基于所述优化参数，构建音频声码器；

将所述音频频谱特征输入至所述音频声码器；

2.如权利要求1所述的方法，其特征在于，所述音频声码器包括第一卷积层、M个反卷积层以及第二卷积层，M为正整数；

所述通过所述音频声码器对所述音频频谱特征进行重建处理，得到所述音频频谱特征对应的目标音频信号，包括：

通过所述M个反卷积层中的第一个反卷积层对所述第一中间信号进行上采样，生成采样信号；通过第L个反卷积层对第L-1个反卷积层生成的采样信号进行上采样，生成采样信号，对L执行加一操作，直至得到第M个反卷积层生成的采样信号，并将所述第M个反卷积层生成的采样信号作为第二中间信号，2≤L≤M；

3.如权利要求2所述的方法，其特征在于，所述音频声码器还包括M个残差模块，所述M个残差模块和所述M个反卷积层一一对应；

所述方法还包括：

通过不同的残差模块对残差模块对应的反卷积层生成的采样信号进行残差处理，得到残差处理后的采样信号；

4.如权利要求2-3任一项所述的方法，其特征在于，反卷积层的卷积核尺寸和卷积核滑动步长之间的比值为预设数值。

5.如权利要求1所述的方法，其特征在于，所述音频频谱特征包括梅尔对数幅度谱；

所述将所述音频频谱特征输入至所述音频声码器之前，还包括：

所述将所述音频频谱特征输入至所述音频声码器，包括：

将各个所述单元梅尔对数幅度谱输入至所述音频声码器。

6.如权利要求1所述的方法，其特征在于，所述损失函数包括生成器损失函数以及判别器损失函数，所述生成器损失函数包括生成器初始损失函数以及特征匹配损失函数，子判别器包括判别模块，判别模块包括T个卷积层，判别结果包括特征图；

所述生成器损失函数为：

其中，所述生成器初始损失函数为：

所述特征匹配损失函数为：

所述判别器损失函数为：

其中，x_t,f为所述原始音频信号，y_t,f为所述重建音频信号，N为子判别器的个数，D_k为第k个子判别器的特征图，为第k个子判别器的判别模块中第i个卷积层的特征图，N_i为第i个卷积层的特征图中所含元素的个数，γ为超参数。

7.一种音频信号生成装置，其特征在于，包括：

处理单元，用于构建生成式对抗网络GAN，所述GAN包括生成器和判别器；所述判别器包括N个子判别器，其中N大于等于2，且N为正整数；

输入单元，用于将原始音频信号的原始音频频谱特征输入至所述生成器，所述处理单元，还用于通过所述生成器对所述原始音频频谱特征进行重建处理得到所述原始音频频谱特征对应的重建音频信号，所述生成器将所述重建音频信号发送至所述判别器；

所述处理单元，还用于通过第一个子判别器对重建音频信号和原始音频信号进行判别，得到第一个判别结果；通过第K个子判别器对第K-1个子判别器中待判别的重建音频信号进行降频处理得到降频后的重建音频信号，对所述第K-1个子判别器中待判别的原始音频信号进行降频处理得到降频后的原始音频信号，并对降频后的重建音频信号和降频后的原始音频信号进行判别，得到第K个判别结果，对K执行加1操作，直至得到第N个判别结果，2≤K≤N；

所述处理单元，还用于基于判别结果确定损失函数，并根据所述损失函数对所述GAN进行训练，得到所述生成器的优化参数；基于所述优化参数，构建音频声码器；

所述输入单元，还用于将所述音频频谱特征输入至所述音频声码器；

所述处理单元，还用于通过所述音频声码器对所述音频频谱特征进行重建处理，得到所述音频频谱特征对应的目标音频信号，所述目标音频信号的音频帧数与所述音频频谱特征对应的音频帧数相同。

8.一种音频信号生成设备，其特征在于，包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-6任一项所述的方法。

9.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有计算机程序指令，所述计算机程序指令被处理器执行时，用于执行如权利要求1-6任一项所述的方法。