CN114299969A

CN114299969A - 音频合成方法、装置、设备及介质

Info

Publication number: CN114299969A
Application number: CN202110954697.6A
Authority: CN
Inventors: 施力轩; 翁俊武; 王珏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2022-04-08

Abstract

本申请公开了一种音频合成方法、装置、设备及介质，涉及机器学习领域。该方法包括：获取风格参考音频的风格频谱相位图和内容参考音频的内容频谱相位图；对风格频谱相位图进行编码得到风格编码，对内容频谱相位图进行编码得到内容编码；根据风格编码和所述内容编码，得到合成音频的输出频谱相位图；根据输出频谱相位图合成所述合成音频，合成音频的风格是以风格参考音频为参考的，合成音频的内容是以内容参考音频为参考的。本申请会根据风格参考音频和内容参考音频的频谱相位图来合成音频，合成音频的效果较好。

Description

音频合成方法、装置、设备及介质

技术领域

本申请涉及机器学习领域，特别涉及一种音频合成方法、装置、设备及介质。

背景技术

音频合成是指将两段或两段以上音频通过技术手段合成为一段音频。

相关技术会使用音频合成模型，将几段待合成的音频输入到音频合成模型中，由音频合成模型输出合成音频。

当待合成的音频的时长较短时，使用相关技术难以得到较好的合成音频。

发明内容

本申请实施例提供了一种音频合成方法、装置、设备及介质，该方法会根据风格音频和内容音频的频谱信息得到合成音频，合成效果较好。所述技术方案如下：

根据本申请的一个方面，提供了一种音频合成方法，该方法包括：

获取风格参考音频的风格频谱相位图和内容参考音频的内容频谱相位图；

对所述风格频谱相位图进行编码得到风格编码，对所述内容频谱相位图进行编码得到内容编码；

根据所述风格编码和所述内容编码，得到合成音频的输出频谱相位图；

根据所述输出频谱相位图合成所述合成音频，所述合成音频的风格是以所述风格参考音频为参考的，所述合成音频的内容是以所述内容参考音频为参考的。

根据本申请的另一个方面，提供了一种音频合成装置，该装置包括：

获取模块，用于获取风格参考音频的风格频谱相位图和内容参考音频的内容频谱相位图；

编码模块，用于对所述风格频谱相位图进行编码得到风格编码，对所述内容频谱相位图进行编码得到内容编码；

合成模块，用于根据所述风格编码和所述内容编码，得到合成音频的输出频谱相位图；

所述合成模块，还用于根据所述输出频谱相位图合成所述合成音频，所述合成音频的风格是以所述风格参考音频为参考的，所述合成音频的内容是以所述内容参考音频为参考的。

在本申请的一个可选设计中，所述合成模块，还用于将所述风格编码投影到权重空间，得到自适应权重；根据所述自适应权重，对所述内容编码进行二维卷积和上采样，得到所述合成音频的所述输出频谱相位图。

在本申请的一个可选设计中，所述合成模块，还用于将所述内容编码作为特征图进行二维卷积，得到内容特征图；将所述自适应权重作为权重，自适应归一化所述内容特征图，得到归一化后的内容特征图；上采样所述归一化后的内容特征图，得到所述合成音频的所述输出频谱相位图。

在本申请的一个可选设计中，所述计算机设备包括生成网络，所述生成网络包括卷积网络层、自适应归一化网络层和上采样网络层；所述合成模块，还用于调用所述卷积网络层，将所述内容编码作为特征图进行二维卷积，得到内容特征图；调用所述自适应归一化网络层，将所述自适应权重作为权重，自适应归一化所述内容特征图，得到所述归一化后的内容特征图；调用所述上采样网络层，上采样所述归一化后的内容特征图，得到所述合成音频的所述输出频谱相位图。

在本申请的一个可选设计中，所述合成模块，还用于合并所述风格编码和所述内容编码，得到潜码向量；将所述潜码向量作为特征图进行二维卷积，得到内容特征图；归一化所述内容特征图，得到归一化后的内容特征图；上采样所述归一化后的内容特征图，得到所述合成音频的所述输出频谱相位图。

在本申请的一个可选设计中，所述计算机设备包括生成网络，所述生成网络包括卷积网络层、归一化网络层和上采样网络层；所述合成模块，还用于调用所述卷积网络层，将所述潜码向量作为特征图进行二维卷积，得到内容特征图；调用所述归一化网络层，归一化所述内容特征图，得到所述归一化后的内容特征图；调用所述上采样网络层，上采样所述归一化后的内容特征图，得到所述合成音频的所述输出频谱相位图。

在本申请的一个可选设计中，所述计算机设备包括编码网络，所述编码网络包括风格编码子网络和内容编码子网络；所述编码模块，还用于调用所述风格编码子网络，对所述风格频谱相位图进行二维卷积和下采样，得到所述风格编码；调用所述内容编码子网络，对所述内容频谱相位图进行二维卷积和下采样得到所述内容编码。

根据本申请的一个方面，提供了一种音频合成模型的训练方法，该方法包括：

获取训练数据集，所述训练数据集包括样本音频的样本频谱相位图；

调用所述编码网络，对样本风格频谱相位图进行编码得到样本风格编码，对样本内容频谱相位图进行编码得到样本内容编码；

调用所述生成网络，根据所述样本风格编码和所述样本内容编码，得到样本合成音频的样本输出频谱相位图，所述样本合成音频的风格是以样本风格参考音频为参考的，所述样本合成音频的内容是以样本内容参考音频为参考的；

调用所述判别网络，根据所述样本输出频谱相位图和样本频谱相位图，得到生成图像判别结果、真实样本判别结果、生成图像分类结果和真实样本分类结果；

根据所述生成图像判别结果、所述真实样本判别结果、所述生成图像分类结果和所述真实样本分类结果，对所述音频合成模型进行训练。

根据本申请的一个方面，提供了一种音频合成模型的训练装置，音频合成模型包括编码网络、生成网络和判别网络，该装置包括：

样本获取模块，用于获取训练数据集，所述训练数据集包括样本音频的样本频谱相位图；

样本编码模块，用于调用所述编码网络，对样本风格频谱相位图进行编码得到样本风格编码，对样本内容频谱相位图进行编码得到样本内容编码；

样本合成模块，用于调用所述生成网络，根据所述样本风格编码和所述样本内容编码，得到样本合成音频的样本输出频谱相位图，所述样本合成音频的风格是以样本风格参考音频为参考的，所述样本合成音频的内容是以样本内容参考音频为参考的；

判别模块，用于调用所述判别网络，根据所述样本输出频谱相位图和样本频谱相位图，得到生成图像判别结果、真实样本判别结果、生成图像分类结果和真实样本分类结果；

训练模块，用于根据所述生成图像判别结果、所述真实样本判别结果、所述生成图像分类结果和所述真实样本分类结果，对所述音频合成模型进行训练。

在本申请的一个可选设计中，所述训练模块，还用于根据所述生成图像判别结果和所述真实样本判别结果，计算得到对抗损失，所述对抗损失用于表示所述生成网络和所述判别网络进行对抗所产生的损失；根据所述对抗损失，对所述生成网络进行训练。

在本申请的一个可选设计中，所述训练模块，还用于获取生成图像分类特征和真实样本分类特征；根据所述生成图像分类结果、所述真实样本分类结果、所述生成图像分类特征和所述真实样本分类特征，计算得到内容损失，所述内容损失用于表示样本输出频谱相位图在音频内容上的损失；根据所述内容损失，对所述判别网络进行训练。

在本申请的一个可选设计中，所述训练模块，还用于根据所述样本风格编码和所述样本输出频谱相位图的风格编码，得到风格损失，所述风格损失用于表示样本输出频谱相位图在音频风格上的损失；根据所述风格损失，对所述编码网络进行训练。

根据本申请的另一方面，提供了一种计算机设备，该计算机设备包括：处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上方面所述的音频合成方法，或，如上面所述的音频合成模型的训练方法。

根据本申请的另一方面，提供了一种计算机存储介质，计算机可读存储介质中存储有至少一条程序代码，程序代码由处理器加载并执行以实现如上方面所述的音频合成方法，或，如上面所述的音频合成模型的训练方法。

根据本申请的另一方面，提供了一种计算机程序产品或计算机程序，上述计算机程序产品或计算机程序包括计算机指令，上述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从上述计算机可读存储介质读取上述计算机指令，上述处理器执行上述计算机指令，使得上述计算机设备执行如上方面所述的音频合成方法，或，如上面所述的音频合成模型的训练方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

在获取风格参考音频的风格频谱相位图和内容参考音频的内容频谱相位图后，通过风格频谱相位图和内容频谱相位图来实现音频合成，频谱相位图既包括音频的频谱信息，又包括音频的波形信息，在合成音频时，即使是数据集以外的音频或者音频的时长较短，也能够通过频谱信息得到合成音频，且合成音频既具有风格参考音频的风格，又具有内容参考音频的内容。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的计算机系统的结构示意图；

图2是本申请一个示例性实施例提供的音频合成方法的流程示意图；

图3是本申请一个示例性实施例提供的音频合成模型的结构示意图；

图4是本申请一个示例性实施例提供的编码器模块的结构示意图；

图5是本申请一个示例性实施例提供的生成器模块的结构示意图；

图6是本申请一个示例性实施例提供的判别器模块的结构示意图；

图7是本申请一个示例性实施例提供的音频合成方法的流程示意图；

图8是本申请一个示例性实施例提供的音频合成方法的流程示意图；

图9是本申请一个示例性实施例提供的音频合成模型的训练方法的流程示意图；

图10是本申请一个示例性实施例提供的音频合成方法的流程示意图；

图11是本申请一个示例性实施例提供的输出频谱相位图；

图12是本申请一个示例性实施例提供的输出频谱相位图；

图13是本申请一个示例性实施例提供的音频合成装置的结构示意图；

图14是本申请一个示例性实施例提供的音频合成模型的训练装置的结构示意图；

图15是本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例中涉及的名词进行介绍：

人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

音频自编码器：用于实现输入的音频样本的自编码方法。其中，自编码器(AutoEncoder，AE)是一种人工神经网络，自编码器的目的是对输入数据学习出一种降维的表示，可以在无监督学习中实现数据的编码。基于自编码与概率图模型结合的表示学习方法被广泛地用于数据的生成模型当中。音频信号在时域和频域上具有相关性，因此自编码器方法也可以适用于音频。

音频合成技术：音频可以通过减法合成、添加合成和频率调制合成等方法合成音频。音频可以由滤波器、振荡器和效果器等组件调节。合成音频通常使用MIDI(MusicalInstrument Digital Interface，乐器数字接口)格式进行输入，使用音频合成器进行播放。随着技术的发展，多种基于人工神经网络直接合成声音信号的技术被提出，在音频合成领域中实现较好的合成效果。

内容参考信息：在训练生成网络时，输入一定的标签(label)信息作为条件，指导音频的生成。音频的内容信息由输入的内容参考信息进行定义，内容参考信息包括音高(pitch)，力度(velocity)，质量(quality)等可量化评估的参数。

风格参考信息：表示未纳入音频内容标签的其他相关信息，例如，乐器种类或乐器的音色信息。

音频频谱相位图的神经风格迁移(Neural Style Transfer)：神经风格迁移是一种优化技术，可以通过深度神经网络实现对象风格的迁移。例如：将两个图像(一个内容图像和一个风格参考图像)混合在一起，使输出的图像看起来接近内容图像，但是使用的是风格参考图像的风格。神经风格迁移技术使用生成式对抗网络进行对象的生成，在包括图像、时序动作、文本、草图绘画等领域都有相关的应用。在本申请实施例中，在音频频谱相位图中应用了神经风格迁移技术，当内容音频频谱相位图和风格参考音频频谱相位图同时输入到风格迁移网络后，输出的音频迁移结果听起来接近于内容参考音频，但其风格接近于风格参考音频。

生成式对抗网络：生成式对抗网络是一种通过让两个神经网络相互博弈的方式进行学习的深度学习模型。生成对抗网络由一个生成网络与一个判别网络组成。生成网络从潜码空间(latent space)中随机选取样本作为输入，其输出结果需要尽量模仿训练集中的真实样本。判别网络的输入则为真实样本或生成网络的输出，其目的是将生成网络的输出从真实样本中尽可能分辨出来。而生成网络则要尽可能地欺骗判别网络。两个网络相互对抗、不断调整参数，最终目的是使判别网络无法判断生成网络的输出结果是否真实。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

图1示出了本申请一个示例性实施例提供的计算机系统的结构示意图。计算机系统100包括：终端120和服务器140。

终端120上运行有与音频合成相关的应用程序。该应用程序可以是app(application，应用程序)中的小程序，也可以是专门的应用程序，也可以是网页客户端。示例性的，用户在终端120上进行与音频合成有关的操作，例如，用户将音频1和音频2合成为音频3。终端120是智能手机、平板电脑、电子书阅读器、MP3播放器、MP4播放器、膝上型便携计算机和台式计算机中的至少一种。

终端120通过无线网络或有线网络与服务器140相连。

服务器140可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器140用于为音频合成的应用程序提供后台服务，并将音频合成的结果发送到终端120上。可选地，服务器140承担主要计算工作，终端120承担次要计算工作；或者，服务器140承担次要计算工作，终端120承担主要计算工作；或者，服务器140和终端120两者采用分布式计算架构进行协同计算。

图2示出了本申请一个示例性实施例提供的音频合成方法的流程示意图。该方法可由图1所示的终端120或服务器140或其他计算机设备执行，该方法包括以下步骤：

步骤202：获取风格参考音频的风格频谱相位图和内容参考音频的内容频谱相位图。

风格参考音频用于提供风格参考信息，示例性的，风格参考信息包括音色、种类中的至少一种。风格频谱相位图是风格参考音频的频谱相位图(也可以被为相位频谱图)。相位频谱图将音频的频率与能量的关系用频谱表示。

内容参考音频用于提供内容参考信息，示例性的，内容参考信息包括音高、力度、质量中的至少一种。内容频谱相位图是内容参考音频的频谱相位图。

可选地，通过傅里叶变换获取风格参考音频的风格频谱相位图。

可选地，通过傅里叶变换获取内容参考音频的内容频谱相位图。

可选地，风格频谱相位图和内容频谱相位图。

示例性的，风格参考音频和内容参考音频包括贝斯音频(Bass)，黄铜管音频(Brass)，长笛类音频(Flute)，吉他音频(Guitar)，键盘音频(Keyboard)，木琴音频(Mallet)，管风琴音频(Organ)，簧片类音频(Reed)，弦类音频(String)，合成类音频(SynthLead)，人声类音频(Vocal)中的至少一种。

步骤204：对风格频谱相位图进行编码得到风格编码，对内容频谱相位图进行编码得到内容编码。

风格编码是风格参考音频中风格参考信息的编码。可选地，调用编码器模型，对风格频谱相位图进行编码得到风格编码。

内容编码是内容参考音频中内容参考信息的编码。可选地，调用编码器模型，对内容频谱相位图进行编码得到内容编码。

步骤206：根据风格编码和内容编码，得到合成音频的输出频谱相位图。

在本申请实施例中，调用生成式对抗网络中的生成网络，根据风格编码和内容编码，得到合成音频的输出频谱相位图。

可选地，在风格编码中添加显式噪声，根据添加显式噪声后的风格编码和内容编码，得到合成音频的输出频谱相位图。

在本申请的一个实现方式中，通过自适应归一化输入方式得到合成音频的输出频谱相位图。可选地，将风格编码投影到权重空间，得到自适应权重；根据自适应权重，对内容编码进行二维卷积和上采样，得到合成音频的输出频谱相位图。

在本申请的一个实现方式中，通过直接输入的归一化输入方式得到合成音频的输出频谱相位图。可选地，合并风格编码和内容编码，得到潜码向量；对潜码向量进行二维卷积和上采样，得到合成音频的输出频谱相位图。

合成音频是合成风格参考音频和内容参考音频得到的音频。合成音频的风格是以风格参考音频为参考的，合成音频的内容是以内容参考音频为参考的。示例性的，风格参考音频是一段钢琴音频，内容参考音频是一段人声，音频内容是“今天是晴天”，则合成音频是以钢琴为风格，音频内容是“今天是晴天”。

步骤208：根据输出频谱相位图合成合成音频，合成音频的风格是以风格参考音频为参考的，合成音频的内容是以内容参考音频为参考的。

可选地，解调输出频谱相位图，获得合成音频。

综上所述，本实施例在获取风格参考音频的风格频谱相位图和内容参考音频的内容频谱相位图后，通过风格频谱相位图和内容频谱相位图来实现音频合成，频谱相位图既包括音频的频谱信息，又包括音频的波形信息，在合成音频时，即使是数据集以外的音频或者音频的时长较短，也能够通过频谱信息得到合成音频，且合成音频既具有风格参考音频的风格，又具有内容参考音频的内容。

图3示出了本申请一个示例性实施例提供的音频合成模型的结构示意图。该音频合成模型包括编码网络31、生成网络32和判别网络33。

编码网络31用于根据输入的频谱相位图生成编码。编码网络31包括风格编码子网络301和内容编码子网络302。其中，风格编码子网络301用于对风格频谱相位图进行编码得到风格编码，风格编码子网络301的输入是风格参考音频的风格频谱相位图x^s，输出是风格编码z_s。内容编码子网络302用于对内容频谱相位图进行编码得到内容编码，内容编码子网络302的输入是内容频谱相位图x^c，输出是内容编码z_c。风格编码子网络301包括a个级联的风格编码器模块，a为正整数，内容编码子网络301包括b个级联的内容编码器模块，b为正整数。可选地，a和b相同，或者，a和b不同。示例性的，如图4所示，a＝b＝6。示例性的，风格编码器模块和内容编码器模块采用相同结构的编码器模块，编码器模块的示意图如图3所示，编码器模块包括级联的卷积网络层、层归一化网络层、LReLU(LeakyRectified Linear Unit，漏整流线性单元)网络层和下采样网络层。其中，卷积网络层用于进行二维卷积，卷积核的大小为3×3。示例性的，表1示出了风格编码器模块的网络结构和参数表格，表2示出了内容编码器模块的网络结构和参数表格，如下所示：

表1风格编码器模块的网络结构和参数表格

表2内容编码器模块的网络结构和参数表格

生成网络32用于根据编码生成合成音频的频谱相位图。生成网络32的输入是风格编码z_s和内容编码z_c，输出是输出频谱相位图

可选地，为增加生成网络的鲁棒性，在输入风格编码z_s时，添加显式噪声δ，得到的风格编码为[z_s+δ]。生成网络32包括c个生成器模块，c为正整数，示例性的，如图3所示，c＝2。示例性的，上述生成器模块的示意图如图5所示，编码器模块包括级联的卷积网络层、层归一化网络层、AdaIN(Adapt InstanceNormalization，自适应归一化输入方式)网络层和下采样网络层。其中，卷积网络层用于进行二维卷积，卷积核的大小为3×3。示例性的，自适应归一化网络层的操作方法如下所示：

其中，

表示第i个生成器模块输出的归一化后的内容特征图，w表示自适应权重，γ表示目标权重，β表示目标偏置，i表示生成网络中的不同生成器模块。

需要说明的是，生成网络32的输入有两种输入方式，第一种输入方式是自适应归一化输入方式，将内容编码z_c直接输入到生成网络32的第一个生成器模块中，将风格编码z_s映射为自适应权重w后，输入到每一个生成器模块中的自适应归一化网络层中。

第二种输入方式是直接输入方式，将风格编码z_s、内容编码z_c和显式噪声δ合并为潜码向量z＝[z_s+δ,z_c]，将潜码向量直接输入到生成网络32的第一个生成器模块中。此时，由于生成器模块中的自适应归一化网络层没有自适应权重的输入，自适应归一化网络层会退化为IN(Instance Normalization，归一化)层。

示例性的，表3示出了生成器模块的网络结构和参数表格，如下所示：

表3生成器模块的网络结构和参数表格

判别网络33用于判别合成音频的频谱相位图是否是真实样本，需要说明的是，判别网络33用于音频合成模型的训练阶段，在训练完成后，不需要使用判别网络33。判别网络33包括d个级联的判别器模块，d为正整数，每一个判别器模块又包括内容分类器和判别分类器。判别网络33的输入是输出频谱相位图

和样本数据集中的样本音频，输出为生成图像判别结果

真实样本判别结果

生成图像分类结果

和真实样本分类结果

具体地，内容分类器输出生成图像分类结果

和真实样本分类结果

判别分类器输出生成图像判别结果

和真实样本判别结果

示例性的，内容分类器和判别分类器采用相同的模型结构，如图6所示，内容分类器和判别分类器都包括级联的卷积网络层、层归一化网络层、LReLU(LeakyRectified Linear Unit，漏整流线性单元)网络层和下采样网络层。其中，卷积网络层用于进行二维卷积，卷积核的大小为3×3。

示例性的，表4示出了判别器模块的网络结构和参数表格，如下所示：

表4判别器模块的网络结构和参数表格

在接下来的实施例中，风格编码和内容编码通过自适应归一化输入方式输入到生成网络中。由于该输入方式在归一化时引入了自适应权重，能够较为合理地分配权重，取得较好的归一化结果，从而获取效果较好的输出频谱相位图，进而得到效果较好的合成音频。

图7示出了本申请一个示例性实施例提供的音频合成方法的流程示意图。该方法可由图1所示的终端120或服务器140或其他计算机设备执行，该方法包括以下步骤：

步骤701：获取风格参考音频的风格频谱相位图和内容参考音频的内容频谱相位图。

步骤702：对风格频谱相位图进行编码得到风格编码，对内容频谱相位图进行编码得到内容编码。

可选地，调用音频合成模型中的编码网络，对风格频谱相位图进行编码得到风格编码，对内容频谱相位图进行编码得到内容编码；其中，计算机设备包括编码网络，编码网络包括风格编码子网络和内容编码子网络。示例性的，调用风格编码子网络，对风格频谱相位图进行二维卷积和下采样，得到风格编码。示例性的，调用内容编码子网络，对内容频谱相位图进行二维卷积和下采样得到内容编码。

步骤703：将风格编码投影到权重空间，得到自适应权重。

权重空间指由自适应权重构成的矩阵向量空间。

可选地，通过全连接层，将风格编码投影到权重空间，得到自适应权重。

可选地，在风格编码中添加显式噪声，将添加显式噪声后的风格编码投影到权重空间，得到自适应权重。

示例性的，将风格编码记为

则通过函数f:

将风格编码投影到权重空间

中，得到的自适应权重

步骤704：将内容编码作为特征图进行二维卷积，得到内容特征图。

内容特征图用于表示内容参考音频的音频内容的特征图。

可选地，调用生成网络中的卷积网络层，将内容编码作为特征图进行二维卷积，得到内容特征图。

示例性的，使用3×3的卷积核，将内容编码作为特征图进行二维卷积，得到内容特征图。

步骤705：将自适应权重作为权重，自适应归一化内容特征图，得到归一化后的内容特征图。

归一化后的内容特征图包括风格参考音频的音频风格。

可选地，调用生成网络中的自适应归一化网络层，将自适应权重作为权重，自适应归一化内容特征图，得到归一化后的内容特征图。

示例性的，自适应归一化网络层的操作方法如下所示：

其中，

步骤706：上采样归一化后的内容特征图，得到合成音频的输出频谱相位图。

可选地，调用生成网络中的上采样网络层，上采样归一化后的内容特征图，得到合成音频的输出频谱相位图。

步骤707：根据输出频谱相位图合成合成音频。

可选地，解调输出频谱相位图，获得合成音频。

而且，通过风格编码和内容编码通过自适应归一化输入方式输入到生成网络中，使得合成音频的输出频谱相位图更加贴近实际，输出频谱相位图效果较好，进而得到效果较好的合成音频。

在接下来的实施例中，风格编码和内容编码通过直接输入方式直接输入到生成网络中。由于该输入方式在归一化时不需要计算自适应权重，因此计算速度较快，还能取得较好的归一化结果，从而获取效果较好的输出频谱相位图，进而得到效果较好的合成音频。

图8示出了本申请一个示例性实施例提供的音频合成方法的流程示意图。该方法可由图1所示的终端120或服务器140或其他计算机设备执行，该方法包括以下步骤：

步骤801：获取风格参考音频的风格频谱相位图和内容参考音频的内容频谱相位图。

步骤802：对风格频谱相位图进行编码得到风格编码，对内容频谱相位图进行编码得到内容编码。

步骤803：合并风格编码和内容编码，得到潜码向量。

示例性的，将风格编码z_s和内容编码z_c合并为潜码向量z＝[z_s+δ，z_c]，其中，δ表示加入显式噪声以增加生成网络的鲁棒性。

步骤804：将潜码向量作为特征图进行二维卷积，得到内容特征图。

可选地，调用生成网络中的卷积网络层，将潜码向量作为特征图进行二维卷积，得到内容特征图。

步骤805：归一化内容特征图，得到归一化后的内容特征图。

可选地，调用生成网络中的自适应归一化网络层，归一化内容特征图，得到归一化后的内容特征图。

步骤806：上采样归一化后的内容特征图，得到合成音频的输出频谱相位图。

步骤807：根据输出频谱相位图合成合成音频。

可选地，解调输出频谱相位图，获得合成音频。

而且，通过风格编码和内容编码通过直接输入方式输入到生成网络中，使得合成音频的输出频谱相位图更加贴近实际，输出频谱相位图效果较好，进而得到效果较好的合成音，且计算速度较快频。

图9示出了本申请一个示例性实施例提供的音频合成模型的训练方法的流程示意图。音频合成模型包括编码网络、生成网络和判别网络，该方法可由图1所示的终端120或服务器140或其他计算机设备执行，该方法包括以下步骤：

步骤902：获取训练数据集。

训练数据集包括样本音频的样本频谱相位图。

步骤904：调用编码网络，对样本风格频谱相位图进行编码得到样本风格编码，对样本内容频谱相位图进行编码得到样本内容编码。

样本风格编码是样本风格参考音频中风格参考信息的编码。

样本内容编码是样本内容参考音频中内容参考信息的编码。

步骤906：调用生成网络，根据样本风格编码和样本内容编码，得到样本合成音频的样本输出频谱相位图。

样本合成音频的风格是以样本风格参考音频为参考的，样本合成音频的内容是以样本内容参考音频为参考的。

步骤908：调用判别网络，根据样本输出频谱相位图和样本频谱相位图，得到生成图像判别结果、真实样本判别结果、生成图像分类结果和真实样本分类结果。

生成图像判别结果指判别样本输出频谱相位图是否是真实音频的频谱相位图的结果。示例性的，当生成图像判别结果是1时，样本输出频谱相位图是真实音频的频谱相位图；当生成图像判别结果是1时，样本输出频谱相位图是合成音频的频谱相位图。

真实样本判别结果指判别样本频谱相位图是否是真实音频的频谱相位图的结果。示例性的，当真实样本判别结果是1时，样本频谱相位图是真实音频的频谱相位图；当真实样本判别结果是1时，样本频谱相位图是合成音频的频谱相位图。

生成图像分类结果用于表示样本输出频谱相位图的音频内容的分类结果。

真实样本分类结果用于表示样本频谱相位图的音频内容的分类结果。

步骤910：根据生成图像判别结果、真实样本判别结果、生成图像分类结果和真实样本分类结果，对音频合成模型进行训练。

在本实施例中，音频合成模型的损失由三个部分组成，分别是保证生成效果的对抗损失(adversarial loss)、保证音频内容一致的内容损失(content loss)和保证音频风格一致的风格损失(style loss)。整个音频合成模型额训练过程可以定义为一个min-max(最小值-最大值)任务：

其中，

表示生成图像判别结果和真实样本判别结果，

表示生成图像分类结果和真实样本分类结果，

表示生成网络，

表示编码网络。

表示对抗损失，

表示内容损失，

表示风格损失，λ_con是生成网络的网络参数，λ_st是编码网络的网络参数。

1、根据对抗损失对音频合成模型进行训练；

可选地，根据生成图像判别结果和真实样本判别结果，计算得到对抗损失，对抗损失用于表示生成网络和判别网络进行对抗所产生的损失；根据对抗损失，对生成网络进行训练。

示例性的，对抗损失表示为：

其中，

表示生成网络，

表示编码网络，

表示真实样本判别结果，

表示生成图像判别结果，x表示样本频谱相位图，

表示样本输出频谱相位图，xc表示样本内容频谱相位图，xs表示样本风格频谱相位图，

表示样本内容编码，

表示样本风格编码，δ表示显式噪声。

2、根据内容损失对音频合成模型进行训练；

可选地，获取生成图像分类特征和真实样本分类特征；根据生成图像分类结果、真实样本分类结果、生成图像分类特征和真实样本分类特征，计算得到内容损失，内容损失用于表示样本输出频谱相位图在音频内容上的损失；根据内容损失，对判别网络进行训练。

其中，生成图像分类特征用于表示样本输出频谱相位图在音频内容分类上的特征；真实样本分类特征用于表示样本频谱相位图在音频内容分类上的特征。可选地，生成图像分类特征是判别网络最后一层全连接层输入的特征。可选地，真实样本分类特征是判别网络是判别网络最后一层全连接层输入的特征。

示例性的，内容损失表示为：

其中，x^c表示样本内容频谱相位图，x^s表示样本风格频谱相位图，

表示判别网络中的内容分类器，

表示样本输出频谱相位图，l_c为x^c的内容标记，表示x^c的内容类别，

表示判别网络中的内容分类器输出的内容类别与内容频谱相位图的内容类别一致的概率，

表示真实样本分类特征，

表示生成图像分类特征。

3、根据风格损失对音频合成模型进行训练；

可选地，根据样本风格编码和样本输出频谱相位图的风格编码，得到风格损失，风格损失用于表示样本输出频谱相位图在音频风格上的损失；根据风格损失，对编码网络进行训练。

在本实施例中，还需要考虑到当x^s＝x^c，即在风格编码和内容编码来自同一个音频样本时，需要对风格损失和内容损失同时进行约束，生成的样本输出频谱相位图应与原音频保持一致。

示例性的，风格损失表示为：

表示样本输出频谱相位图，

表示样本风格编码，

表示

的风格编码，λ_reco表示用于约束风格损失和内容损失的参数。

综上所述，本实施例通过生成式对抗网络的结构来对生成网络进行训练，由于在训练过程中，判别网络也会对生成网络进行训练，加强了生成网络的能力，使得生成网络可以保证生成音色足够逼真，因此可以实现少量样本输入下的音频合成，故训练得到的音频合成模型能够根据数据集以外的音频或者时长较短的音频合成得到合成音频。

图10示出了本申请的一个示例性实施例提供的音频合成方法的流程示意图。该方法可由图1所示的终端120或服务器140或其他计算机设备执行，该方法包括以下步骤：

步骤1001：获取风格参考音频和内容参考音频。

风格参考音频和内容参考音频是两段不同的音频。可选地，风格参考音频和内容参考音频的。

步骤1002：根据风格参考音频和内容参考音频，获取风格参考音频的风格频谱相位图和内容参考音频的内容频谱相位图。

可选地，风格频谱相位图和内容频谱相位图。

步骤1003：对风格频谱相位图进行编码得到风格编码，对内容频谱相位图进行编码得到内容编码。

步骤1004：根据风格编码和内容编码，得到合成音频的输出频谱相位图。

合成音频的风格是以风格参考音频为参考的，合成音频的内容是以内容参考音频为参考的。

步骤1005：根据输出频谱相位图合成合成音频。

可选地，解调输出频谱相位图，获得合成音频。

示例性的，图11和图12示出了本申请的一个实施例提供的输出频谱相位图。其中，音频合成模型的训练数据集为NSynth(Neural Synthesizer，神经合成器)单音高乐器音频的训练数据集，评估数据集为NSynth测试数据集和URMP(University of RochesterMulti-modal music Performance，罗切斯特大学多模态音乐表演)测试数据集。

如图11所示，当音频合成模型的输入是真实乐器音频1101和音高内容编码1102时，得到的输出是输出频谱相位图1103，将输出频谱相位图1103与真实乐器频谱相位图1104进行比较，可以从图11中直观地看出，两者在频谱相位图中的频谱分布较为接近，因此，输出频谱相位图1103与真实乐器频谱相位图1104的风格参考信息相差较小，实现了较好的音频频谱相位图的神经风格迁移。如图12所示，当内容编码1201是“音高：60”，风格参考音频1202是音频合成模型的训练数据集中未出现过的音频(在训练音频合成模型的过程中，音频合成模型未见过URMP测试数据集)时，音频合成模型会输出合成音频1203，因此，可以从图2所示的频谱相位图中明显地看出，合成音频1203和风格参考音频1202在频谱相位图上的频谱分布较为接近，实现了较好的音频频谱相位图的神经风格迁移，即使输入音频是训练数据集中未出现过的音频，音频合成模型也能较好地完成音频合成任务。

示例性的，本申请还从不同角度对合成音频进行评估，分别是内容(音高，Pitch)生成效果、音色(乐器种类，Timbre)生成效果和网络输出效果三个角度进行评估。

1、内容生成效果的评估结果；

本申请选择输入音频的音高作为内容编码向量进行分析，分别对比了IS分数(Inception Score，初始分数)，PA(Pitch Accuracy，音高分类准确性)，PE(PitchEntropy，音高分类熵)和FID(Frechet Inception Distance，弗雷切特起始距离)。

IS分数是一种用来评估生成式对抗网络(GAN)的生成效果的通用指标，生成的样本输入到一个训练好的Inception分类器(辅助分类器)中。IS分数被定义为图像的条件输出概率与其边缘分布之间的平均KL散度(Kullback-Leibler Divergence，也被称为相对熵)。对于生成样本不能够准确分类的生成模型和只能生成少数类的模型，都会有较低的IS分数。在这项任务中，本申请选择使用自行训练的音高和音色分类网络，网络结构为Inception形式，通过这种方法可以针对音高生成效果和音色生成效果计算生成模型的IS值(分别表示为ISP和IST，ISP对应音高生成效果，IST对应音色生成效果)。本申请使用了以不同种类的乐器作为音色标签训练的Inception网络进行音色生成效果的度量。值得注意的是，即使同一类型下的乐器之间，音色的差异依然非常大，甚至有的时候会大于类型之间的差异(比如弦乐下的某些乐器在演奏时音色会更接近于吉他类型)。因此音色分类任务的inception网络的分类能力较低，相对于基音分类器，各种分数也会相应降低。

PA和PE可以由基音分类器(即音高的分类判别器)计算而来。本申请分别计算了基音分类器对生成实例的准确率(PA)及其输出分布的熵(PE)。针对音色，本申请也计算了音色分类器的准确率(TA)和分布熵(TE)。为了与同类工作的评估方法保持一致，本申请在这里使用了基于Inception网络结构训练的分类网络

进行分类。

其中，N表示样本对的总数量，即

l_c为生成的频谱相位图像

所使用的内容参考样本x^c的基音音高标注(即内容标注)。我们使用交叉熵的方式计算熵值，我们选CE代表交叉熵(Cross Entropy,CE)，其定义为

x^c表示样本内容频谱相位图，x^s表示样本风格频谱相位图，δ表示显式噪声，

表示生成网络，

表示编码网络。

FID距离可以提供一种基于多元高斯拟合的2-Wasserstein(或Frechet)距离的GAN生成效果评价指标。从训练的分类器中提取特征，并证明该特征与真实数据的分类特征分布一致。与IS一样，我们使用基音分类器/音色分类器特征而不是Inception特征，分别表示为FIDP和FIDT。

具体的评估结果请参考表5。

表5内容生成效果评估表格(括号外表示均值结果，括号内表示标准差)

Origin_test表示从测试数据集中获得的输入音频。AdaIN_test_coarse表示按照乐器大类别(Coarse Split)对测试数据集进行划分得到音频，对该音频采用自适应归一化输入方式得到的合成音频。AdaIN_test_fine表示按照细分类乐器(Fine Split)对测试数据集进行划分得到音频，对该音频采用自适应归一化输入方式得到的合成音频。Direct_test表示从测试数据集中得到，对该音频采用直接输入方式得到的合成音频。origin_train表示从训练数据集中获得的输入音频。AdaIN_train_coarse表示按照乐器大类别对训练数据集进行划分得到音频，对该音频采用自适应归一化输入方式得到的合成音频。AdaIN_train_fine表示表示按照细分类乐器(Fine Split)对训练数据集进行划分得到音频，对该音频采用自适应归一化输入方式得到的合成音频。Direct_train表示从训练数据集中得到，对该音频采用直接输入方式得到的合成音频。

2、音色生成效果的评估结果；

在音色生成效果评估过程中，本申请也训练了一个基于乐器类型的Inception音色分类器。除了计算上述提到的音色分类的IS分数IS_T，音色分类准确性TA(TimbralAccuracy)，音色分类熵TE(Timbral Entropy)和音色分类特征距离FID_T以外，还提出了针对音色的重建L1距离(Reconstruction L1 Distance，RLD)、重建特征距离(Reconstruction Feature Distance，RFD)、迁移L1距离(Transfer L1Distance，TLD)和迁移特征距离(Transfer Feature Distance，TFD)四项评估指标。

IS_T分数表示使用音色分类器作为分类网络计算得到的IS分数，这里本申请将乐器的类型作为音色分类的依据。

TA和TE分别表示使用音色分类器计算得到的分类准确度和分类熵值。我们在这里使用了基于Inception网络结构训练的分类网络

进行分类。

其中，N表示x^s,x^c排列组合的总数，即

l_s为生成的频谱相位图像

所使用的风格参考样本x^s的音色标注(即风格标注)。CE代表交叉熵(Cross Entropy,CE)，其定义为

表示生成网络，

表示编码网络。

FID_T距离表示使用音色分类器计算得到的FID距离。

重建L1距离和重建特征距离可以度量当迁移网络使用原始参数进行重建时的重建能力。本申请将重建结果与原始输入的相似性作为距离指标进行度量。由于重建结果和原始输入都是频谱相位图，本申请选取了频谱相位图在像素级别上的L1距离作为重建L1距离(RLD)的指标：

本申请选取了音色分类网络最后一层特征层的L1距离作为重建特征距离(RFD)指标。

其中，M表示总样本数量，M＝|X|，

表示音色分类网络最后一层的特征。x^s表示样本风格频谱相位图。

表示输出频谱相位图。

迁移L1距离和迁移特征距离可以度量迁移生成的样本是否能够反映风格参考样本包含的风格信息。由于乐器在不同基音音高下的发声方式有一定的差别，因此真实乐器本身在不同音高下的音色就有一定的差异，本申请希望度量生成网络是否能够学习到这种差异性。因此，本申请在修改内容编码值的时候，对应查询了数据集中同一乐器是否存在对应的音高样本，如果存在的话，本申请将该样本作为标准样本，将迁移输出后的样本作为度量样本，分别记录了两个样本的像素级L1距离作为迁移L1距离(TLD)的指标，该指标针对特定乐器进行评估，是乐器音色的函数：

本申请同时记录了两个样本在音色分类网络最后一层特征层的L1距离作为迁移特征距离(TFD)指标。

其中，M_s表示对应音色s的样本的数量，M_S＝|f_S|。F_S表示与x^s的演奏乐器相同的音频样本的集合，

函数f_s(·)返回输入音频相位图像的音色标记。x^c表示样本内容频谱相位图。

表示输出频谱相位图。本申请使用TLD(s)以及TFD(s)的均值和方差反映生成网络对于所有乐器音频整体的音色迁移能力。

具体的评估结果请参考表6和表7。

表6音色生成效果评估表格1(括号外表示均值结果，括号内表示标准差)

	IST(+)	TA(+)	TE(-)	FIDT(-)
					origin_test	1.40(0.30)	99.90(0.01)	0.01(0.00)	0
AdaIN_test_coarse	3.00(0.35)	8.58(23.94)	0.47(0.62)	13.43
					AdaIN_test_fine	3.09(0.71)	28.29(40.18)	0.33(0.46)	6.99
Direct_test	2.22(0.54)	5.13(15.16)	0.54(0.63)	8.26
					origin_train	3.94(0.92)	99.91(0.04)	0.01(0.00)	6.63
AdaIN_train_coarse	2.89(0.31)	23.26(38.43)	0.53(0.66)	13.73
					AdaIN_train_fine	2.60(0.69)	29.52(43.86)	0.30(0.53)	6.80
Direct_train	1.89(0.36)	22.86(38.07)	0.36(0.61)	6.90

表7音色生成效果评估表格2(括号外表示均值结果，括号内表示标准差)

3、网络输出效果的评估结果；

对于音高生成的评估结果，我们发现在FID距离和音高分类指标上，Direct方式有着更好的表现，然而在能表征特征距离的IS分数方面，自适应归一化输入方式有着更好的表现。这意味着使用Direct方式进行音色输入时，生成结果在基音音高的表现上更为准确，自适应归一化输入方式进行音色的输入时，生成结果在音高分类特征上的还原效果更接近训练数据集。

对于音高生成的评估结果，我们发现在IS分数和音高分类指标上和能表征特征距离的FID距离方面，自适应归一化输入方式都有着更好的表现。这意味着自适应归一化输入方式进行音色的输入时，生成结果在基音音高的表现上更为准确，且生成结果在音高分类特征上的还原效果更接近训练数据集。使用未见过的乐器类型进行编码生成时(CoarseSplit)，在各项指标上存在一定的下降情况。

对于音色生成的评估结果，我们发现在四项指标上，自适应归一化输入方式都有着更好的表现。这意味着使用自适应归一化输入方式进行音色的输入时，生成结果在音色分类特征上的还原效果更接近训练数据集。此外，使用未见过的乐器类型进行编码生成时(Coarse Split)，在各项指标上存在一定的下降情况。

对于音色重建距离的评估结果，自适应归一化输入方式进行音色的输入时，在重建L1距离和迁移特征距指标上优于Direct方式，可以证明自适应归一化输入方式在乐器音色特征还原任务方面有一定的优势。此外，使用未见过的乐器类型进行编码生成时(CoarseSplit)，在指标上的下降幅度都不明显。

下面为本申请的装置实施例，对于装置实施例中未详细描述的细节，可以结合参考上述方法实施例中相应的记载，本文不再赘述。

图13示出了本申请的一个示例性实施例提供的音频合成装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分，该装置1300包括：

获取模块1301，用于获取风格参考音频的风格频谱相位图和内容参考音频的内容频谱相位图；

编码模块1302，用于对所述风格频谱相位图进行编码得到风格编码，对所述内容频谱相位图进行编码得到内容编码；

合成模块1303，用于根据所述风格编码和所述内容编码，得到合成音频的输出频谱相位图；

所述合成模块1303，还用于根据所述输出频谱相位图合成所述合成音频，所述合成音频的风格是以所述风格参考音频为参考的，所述合成音频的内容是以所述内容参考音频为参考的。

在本申请的一个可选设计中，所述合成模块1303，还用于将所述风格编码投影到权重空间，得到自适应权重；根据所述自适应权重，对所述内容编码进行二维卷积和上采样，得到所述合成音频的所述输出频谱相位图。

在本申请的一个可选设计中，所述合成模块1303，还用于将所述内容编码作为特征图进行二维卷积，得到内容特征图；将所述自适应权重作为权重，自适应归一化所述内容特征图，得到归一化后的内容特征图；上采样所述归一化后的内容特征图，得到所述合成音频的所述输出频谱相位图。

在本申请的一个可选设计中，所述计算机设备包括生成网络，所述生成网络包括卷积网络层、自适应归一化网络层和上采样网络层；所述合成模块1303，还用于调用所述卷积网络层，将所述内容编码作为特征图进行二维卷积，得到内容特征图；调用所述自适应归一化网络层，将所述自适应权重作为权重，自适应归一化所述内容特征图，得到所述归一化后的内容特征图；调用所述上采样网络层，上采样所述归一化后的内容特征图，得到所述合成音频的所述输出频谱相位图。

在本申请的一个可选设计中，所述合成模块1303，还用于合并所述风格编码和所述内容编码，得到潜码向量；将所述潜码向量作为特征图进行二维卷积，得到内容特征图；归一化所述内容特征图，得到归一化后的内容特征图；上采样所述归一化后的内容特征图，得到所述合成音频的所述输出频谱相位图。

在本申请的一个可选设计中，所述计算机设备包括生成网络，所述生成网络包括卷积网络层、归一化网络层和上采样网络层；所述合成模块1303，还用于调用所述卷积网络层，将所述潜码向量作为特征图进行二维卷积，得到内容特征图；调用所述归一化网络层，归一化所述内容特征图，得到所述归一化后的内容特征图；调用所述上采样网络层，上采样所述归一化后的内容特征图，得到所述合成音频的所述输出频谱相位图。

在本申请的一个可选设计中，所述计算机设备包括编码网络，所述编码网络包括风格编码子网络和内容编码子网络；所述编码模块1302，还用于调用所述风格编码子网络，对所述风格频谱相位图进行二维卷积和下采样，得到所述风格编码；调用所述内容编码子网络，对所述内容频谱相位图进行二维卷积和下采样得到所述内容编码。

图14示出了本申请的一个示例性实施例提供的音频合成模型的训练装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分，该装置1400包括：

样本获取模块1401，用于获取训练数据集，所述训练数据集包括样本音频的样本频谱相位图；

样本编码模块1402，用于调用所述编码网络，对样本风格频谱相位图进行编码得到样本风格编码，对样本内容频谱相位图进行编码得到样本内容编码；

样本合成模块1403，用于调用所述生成网络，根据所述样本风格编码和所述样本内容编码，得到样本合成音频的样本输出频谱相位图，所述样本合成音频的风格是以样本风格参考音频为参考的，所述样本合成音频的内容是以样本内容参考音频为参考的；

判别模块1404，用于调用所述判别网络，根据所述样本输出频谱相位图和样本频谱相位图，得到生成图像判别结果、真实样本判别结果、生成图像分类结果和真实样本分类结果；

训练模块1405，用于根据所述生成图像判别结果、所述真实样本判别结果、所述生成图像分类结果和所述真实样本分类结果，对所述音频合成模型进行训练。

在本申请的一个可选设计中，所述训练模块1405，还用于根据所述生成图像判别结果和所述真实样本判别结果，计算得到对抗损失，所述对抗损失用于表示所述生成网络和所述判别网络进行对抗所产生的损失；根据所述对抗损失，对所述生成网络进行训练。

在本申请的一个可选设计中，所述训练模块1405，还用于获取生成图像分类特征和真实样本分类特征；根据所述生成图像分类结果、所述真实样本分类结果、所述生成图像分类特征和所述真实样本分类特征，计算得到内容损失，所述内容损失用于表示样本输出频谱相位图在音频内容上的损失；根据所述内容损失，对所述判别网络进行训练。

在本申请的一个可选设计中，所述训练模块1405，还用于根据所述样本风格编码和所述样本输出频谱相位图的风格编码，得到风格损失，所述风格损失用于表示样本输出频谱相位图在音频风格上的损失；根据所述风格损失，对所述编码网络进行训练。

图15是根据一示例性实施例示出的一种计算机设备的结构示意图。所述计算机设备1500包括中央处理单元(Central Processing Unit，CPU)1501、包括随机存取存储器(Random Access Memory，RAM)1502和只读存储器(Read-Only Memory，ROM)1503的系统存储器1504，以及连接系统存储器1504和中央处理单元1501的系统总线1505。所述计算机设备1500还包括帮助计算机设备内的各个器件之间传输信息的基本输入/输出系统(Input/Output，I/O系统)1506，和用于存储操作系统1513、应用程序1514和其他程序模块1515的大容量存储设备1507。

所述基本输入/输出系统1506包括有用于显示信息的显示器1508和用于用户输入信息的诸如鼠标、键盘之类的输入设备1509。其中所述显示器1508和输入设备1509都通过连接到系统总线1505的输入输出控制器1510连接到中央处理单元1501。所述基本输入/输出系统1506还可以包括输入输出控制器1510以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1510还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1507通过连接到系统总线1505的大容量存储控制器(未示出)连接到中央处理单元1501。所述大容量存储设备1507及其相关联的计算机设备可读介质为计算机设备1500提供非易失性存储。也就是说，所述大容量存储设备1507可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory，CD-ROM)驱动器之类的计算机设备可读介质(未示出)。

不失一般性，所述计算机设备可读介质可以包括计算机设备存储介质和通信介质。计算机设备存储介质包括以用于存储诸如计算机设备可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机设备存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable ReadOnly Memory，EPROM)、带电可擦可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory，EEPROM)，CD-ROM、数字视频光盘(Digital Video Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机设备存储介质不局限于上述几种。上述的系统存储器1504和大容量存储设备1507可以统称为存储器。

根据本公开的各种实施例，所述计算机设备1500还可以通过诸如因特网等网络连接到网络上的远程计算机设备运行。也即计算机设备1500可以通过连接在所述系统总线1505上的网络接口单元1512连接到网络1511，或者说，也可以使用网络接口单元1512来连接到其他类型的网络或远程计算机设备系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理器1501通过执行该一个或一个以上程序来实现上述音频合成方法，或音频合成模型的训练方法的全部或者部分步骤。

在示例性实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述各个方法实施例提供的音频合成方法，或音频合成模型的训练方法。

本申请还提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述方法实施例提供的音频合成方法，或音频合成模型的训练方法。

可选地，本申请还提供了一种包含指令的计算机程序产品，当其在计算机设备上运行时，使得计算机设备执行上述各方面所述的音频合成方法，或音频合成模型的训练方法。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频合成方法，其特征在于，应用于计算机设备中，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述风格编码和所述内容编码，得到合成音频的输出频谱相位图，包括：

将所述风格编码投影到权重空间，得到自适应权重；

根据所述自适应权重，对所述内容编码进行二维卷积和上采样，得到所述合成音频的所述输出频谱相位图。

3.根据权利要求2所述的方法，其特征在于，所述根据所述自适应权重，对所述内容编码进行二维卷积和上采样，得到所述合成音频的所述输出频谱相位图，包括：

将所述内容编码作为特征图进行二维卷积，得到内容特征图；

将所述自适应权重作为权重，自适应归一化所述内容特征图，得到归一化后的内容特征图；

上采样所述归一化后的内容特征图，得到所述合成音频的所述输出频谱相位图。

4.根据权利要求3所述的方法，其特征在于，所述计算机设备包括生成网络，所述生成网络包括卷积网络层、自适应归一化网络层和上采样网络层；

所述将所述内容编码作为特征图进行二维卷积，得到内容特征图，包括：

调用所述卷积网络层，将所述内容编码作为特征图进行二维卷积，得到内容特征图；

所述将所述自适应权重作为权重，自适应归一化所述内容特征图，得到归一化后的内容特征图，包括：

调用所述自适应归一化网络层，将所述自适应权重作为权重，自适应归一化所述内容特征图，得到所述归一化后的内容特征图；

所述上采样所述归一化后的内容特征图，得到所述合成音频的所述输出频谱相位图，包括：

调用所述上采样网络层，上采样所述归一化后的内容特征图，得到所述合成音频的所述输出频谱相位图。

5.根据权利要求1所述的方法，其特征在于，所述根据所述风格编码和所述内容编码，得到合成音频的输出频谱相位图，包括：

合并所述风格编码和所述内容编码，得到潜码向量；

将所述潜码向量作为特征图进行二维卷积，得到内容特征图；

归一化所述内容特征图，得到归一化后的内容特征图；

6.根据权利要求5所述的方法，其特征在于，所述计算机设备包括生成网络，所述生成网络包括卷积网络层、归一化网络层和上采样网络层；

所述将所述潜码向量作为特征图进行二维卷积，得到内容特征图，包括：

调用所述卷积网络层，将所述潜码向量作为特征图进行二维卷积，得到内容特征图；

所述归一化所述内容特征图，得到归一化后的内容特征图，包括：

调用所述归一化网络层，归一化所述内容特征图，得到所述归一化后的内容特征图；

7.根据权利要求1至6任一所述的方法，其特征在于，所述计算机设备包括编码网络，所述编码网络包括风格编码子网络和内容编码子网络；

所述对所述风格频谱相位图进行编码得到风格编码，对所述内容频谱相位图进行编码得到内容编码，包括：

调用所述风格编码子网络，对所述风格频谱相位图进行二维卷积和下采样，得到所述风格编码；

调用所述内容编码子网络，对所述内容频谱相位图进行二维卷积和下采样得到所述内容编码。

8.一种音频合成模型的训练方法，其特征在于，所述音频合成模型包括编码网络、生成网络和判别网络，所述方法包括：

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

根据所述生成图像判别结果和所述真实样本判别结果，计算得到对抗损失，所述对抗损失用于表示所述生成网络和所述判别网络进行对抗所产生的损失；

根据所述对抗损失，对所述生成网络进行训练。

10.根据权利要求8所述的方法，其特征在于，所述方法还包括：

获取生成图像分类特征和真实样本分类特征；

根据所述生成图像分类结果、所述真实样本分类结果、所述生成图像分类特征和所述真实样本分类特征，计算得到内容损失，所述内容损失用于表示样本输出频谱相位图在音频内容上的损失；

根据所述内容损失，对所述判别网络进行训练。

11.根据权利要8所述的方法，其特征在于，所述方法还包括：

根据所述样本风格编码和所述样本输出频谱相位图的风格编码，得到风格损失，所述风格损失用于表示样本输出频谱相位图在音频风格上的损失；

根据所述风格损失，对所述编码网络进行训练。

12.一种音频合成装置，其特征在于，所述装置包括：

13.一种音频合成模型的训练装置，其特征在于，所述音频合成模型包括编码网络、生成网络和判别网络，所述装置包括：

14.一种计算机设备，其特征在于，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7中任一项所述的音频合成方法，或，如权利要求8至11中任一项所述的音频合成模型的训练方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如权利要求1至7中任一项所述的音频合成方法，或，如权利要求8至11中任一项所述的音频合成模型的训练方法。