CN112562728A

CN112562728A - 生成对抗网络训练方法、音频风格迁移方法及装置

Info

Publication number: CN112562728A
Application number: CN202011270010.9A
Authority: CN
Inventors: 陈江; 胡正伦
Original assignee: Bigo Technology Pte Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2021-03-26
Anticipated expiration: 2040-11-13
Also published as: CN112562728B

Abstract

本发明实施例公开一种生成对抗网络训练方法、音频风格迁移方法及装置，训练方法包括：获取内容音频数据和风格音频数据；将风格音频数据输入说话人向量提取模型得到说话人向量；获取内容音频数据的原始频谱参数和原始梅尔倒谱参数；基于说话人向量、原始频谱参数以及原始梅尔倒谱参数训练生成对抗网络，生成对抗网络的生成器用于输入说话人向量、原始频谱参数以及原始梅尔倒谱参数后生成目标频谱参数和目标梅尔倒谱参数，目标频谱参数和目标梅尔倒谱参数用于合成具有风格音频数据的音频风格的目标音频数据。在使用生成器对原说话人的音频数据进行风格迁移时，可以提取任意说话人的说话人向量输入到生成器中，实现了集合外音频风格迁移。

Description

生成对抗网络训练方法、音频风格迁移方法及装置

技术领域

本发明实施例涉及音频处理技术领域，尤其涉及一种生成对抗网络训练方法、音频风格迁移方法及装置。

背景技术

音频风格迁移是多媒体技术领域的一项重要技术，广泛用于内容生产，电影制作，娱乐视频中。音频风格迁移指的是给定一段来自说话人S1的音频数据R1和另一个说话人S2的音频数据R2，将音频数据R1转换为音频数据R2的声音的过程，转换后的音频数据的内容为音频数据R1的内容，声音特色为说话人S2的声音特色。

目前音频风格迁移技术中，基于对抗生成网络的多对多音频风格迁移通常需要预先生成一个多目标说话人的风格集合，然后基于one-hot向量来确定目标说话人在风格集合中的风格，从而将该风格迁移到原说话人的音频数据中，当用户选择的说话人的风格不在风格集合中时，需要重新训练模型将用户选择的说话人的风格存储在风格集合中才能实现音频风格迁移，即目前基于对抗生成网络的音频风格迁移技术只能实现集合内的音频风格迁移，无法实现集合外音频风格迁移。

发明内容

本发明实施例提供一种生成对抗网络训练方法、音频风格迁移方法、装置、电子设备和存储介质，以解决现有音频风格迁移无法实现集合外音频风格迁移的问题。

第一方面，本发明实施例提供了一种生成对抗网络训练方法，包括：

获取内容音频数据和风格音频数据；

将所述风格音频数据输入预先训练好的说话人向量提取模型中，得到所述风格音频数据的说话人向量；

获取所述内容音频数据的原始频谱参数和原始梅尔倒谱参数；

基于所述说话人向量、所述原始频谱参数以及所述原始梅尔倒谱参数训练生成对抗网络，所述生成对抗网络包括生成器，所述生成器用于输入所述说话人向量、所述原始频谱参数以及所述原始梅尔倒谱参数后生成目标频谱参数和目标梅尔倒谱参数，所述目标频谱参数和目标梅尔倒谱参数用于合成目标音频数据，所述目标音频数据的内容为所述内容音频数据的内容，所述目标音频数据的风格为所述风格音频数据的风格。

第二方面，本发明实施例提供了一种音频风格迁移方法，包括：

获取原说话人的音频数据和目标说话人的音频数据；

提取所述原说话人的音频数据的原始频谱参数和原始梅尔倒谱参数；

将所述目标说话人的音频数据输入预先训练好的说话人向量提取模型中，得到所述目标说话人的说话人向量；

将所述原始频谱参数、所述原始梅尔倒谱参数以及所述说话人向量输入训练好的生成对抗网络的生成器中，得到目标频谱参数和目标梅尔倒谱参数；

基于所述目标频谱参数和目标梅尔倒谱参数合成所述原说话人的目标音频数据，所述目标音频数据的音频内容为所述原说话人的音频数据的内容，所述目标音频数据的音频风格为所述目标说话人的音频数据的音频风格；

其中，所述生成对抗网络通过本发明第一方面所述的生成对抗网络训练方法所训练。

第三方面，本发明实施例提供了一种生成对抗网络训练装置，包括：

音频数据获取模块，用于获取内容音频数据和风格音频数据；

说话人向量提取模块，用于将所述风格音频数据输入预先训练好的说话人向量提取模型中，得到所述风格音频数据的说话人向量；

参数获取模块，用于获取所述内容音频数据的原始频谱参数和原始梅尔倒谱参数；

生成对抗网络训练模块，用于基于所述说话人向量、所述原始频谱参数以及所述原始梅尔倒谱参数训练生成对抗网络，所述生成对抗网络包括生成器，所述生成器用于输入所述说话人向量、所述原始频谱参数以及所述原始梅尔倒谱参数后生成目标频谱参数和目标梅尔倒谱参数，所述目标频谱参数和目标梅尔倒谱参数用于合成目标音频数据，所述目标音频数据的内容为所述内容音频数据的内容，所述目标音频数据的风格为所述风格音频数据的风格。

第四方面，本发明实施例提供了一种音频风格迁移装置，包括：

原说话人和目标说话人音频数据获取模块，用于获取原说话人的音频数据和目标说话人的音频数据；

原说话人音频参数提取模块，用于提取所述原说话人的音频数据的原始频谱参数和原始梅尔倒谱参数；

说话人向量提取模块，用于将所述目标说话人的音频数据输入预先训练好的说话人向量提取模型中，得到所述目标说话人的说话人向量；

风格迁移模块，用于将所述原始频谱参数、所述原始梅尔倒谱参数以及所述说话人向量输入训练好的生成对抗网络的生成器中，得到目标频谱参数和目标梅尔倒谱参数；

目标音频数据合成模块，用于基于所述目标频谱参数和目标梅尔倒谱参数合成所述原说话人的目标音频数据，所述目标音频数据的音频内容为所述原说话人的音频数据的内容，所述目标音频数据的音频风格为所述目标说话人的音频数据的音频风格；

第五方面，本发明实施例提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明所述的生成对抗网络训练方法，和/或，音频风格迁移方法。

第六方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明所述的生成对抗网络训练方法，和/或，音频风格迁移方法。

本发明实施例在获取内容音频数据和风格音频数据后，提取风格音频数据的说话人向量，以及获取内容音频数据的原始频谱参数和原始梅尔倒谱参数，采用说话人向量、原始频谱参数以及原始梅尔倒谱参数训练生成对抗网络，生成对抗网络的生成器用于输入说话人向量、原始频谱参数以及原始梅尔倒谱参数后生成目标频谱参数和目标梅尔倒谱参数，目标频谱参数和目标梅尔倒谱参数用于合成目标音频数据，目标音频数据的内容为内容音频数据的内容，目标音频数据的风格为风格音频数据的风格，生成器可以学习到将风格音频数据的风格迁移到目标频谱参数和目标梅尔倒谱参数中的能力，在使用该生成器对原说话人的音频数据进行音频风格迁移时，可以提取任意说话人的说话人向量输入到生成器中，实现了集合外音频风格迁移。

附图说明

图1是本发明实施例一提供的一种生成对抗网络训练方法的步骤流程图；

图2是本发明实施例二提供的一种生成对抗网络训练方法的步骤流程图；

图3是本发明实施例中生成器和判别器的示意图；

图4是本发明实施例三提供的一种音频风格迁移方法的步骤流程图；

图5是本发明实施例四提供的一种生成对抗网络训练装置的结构框图；

图6是本发明实施例五提供的一种音频风格迁移装置的结构框图；

图7是本发明实施例六提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合。

实施例一

图1为本发明实施例一提供的一种生成对抗网络训练方法的步骤流程图，本发明实施例可适用于训练生成对抗网络，以通过训练好的生成对抗网络的生成器对音频数据进行风格迁移的情况，该方法可以由本发明实施例的生成对抗网络训练装置来执行，该生成对抗网络训练装置可以由硬件或软件来实现，并集成在本发明实施例所提供的电子设备中，具体地，如图1所示，本发明实施例的生成对抗网络训练方法可以包括如下步骤：

S101、获取内容音频数据和风格音频数据。

在本发明实施例中，训练数据包括内容音频数据和风格音频数据，其中，内容音频数据可以是提供音频的语义内容的音频数据，风格音频数据可以是提供音频风格的音频数据，音频风格可以是音频数据中说话人的声音特色的表示。

在实际应用中，训练生成对抗网络时，可以获取大量的音频数据，然后随机选择部分音频数据作为内容音频数据，另一部分作为风格音频数据。

S102、将所述风格音频数据输入预先训练好的说话人向量提取模型中，得到所述风格音频数据的说话人向量。

对于风格音频数据，可以从风格音频数据中提取音频风格的表示，本发明实施例提取风格音频数据的说话人向量作为风格音频数据的音频风格表示。在一个可选实施例中，可以预先训练说话人向量提取模型，该说话人向量提取模型在输入一个风格音频数据后，可以提取该风格音频数据的说话人向量来表示音频风格。在一个示例中，说话人向量模型可以是多头注意力机制模型，该多头注意力机制模型经训练后，当输入一个新的风格音频数据时，可以将该风格音频数据的说话人映射到集合内已有的、与风格音频数据的说话人最相似的说话人，从而获得该最相似的说话人的说话人向量作为风格音频数据的说话人的说话人向量，例如，可以先提取风格音频数据的频谱参数，然后将频谱参数输入预先训练好的说话人向量提取模型中提取风格音频数据的说话人向量。

当然，在实际应用中，说话人向量模型还可以是其他模型，如CNN、RNN等神经网络模型，这些模型在输入风格音频数据的频谱参数后可以直接生成说话人向量。

S103、获取所述内容音频数据的原始频谱参数和原始梅尔倒谱参数。

具体地，可以对内容音频数据进行频谱分析，获得内容音频数据的原始频谱参数和原始梅尔倒谱参数，可选地，可以先对内容音频数据进行预加重、分帧和加窗，然后对分帧得到的每个音频帧进行快速傅里叶变换得到每个音频帧的频谱，将多个音频帧的频谱连接起来得到内容音频数据的频谱，频谱参数可以是频谱上的频率、幅度值、幅度均值等。在频谱的基础上，可以通过梅尔滤波器对频谱进行滤波得到梅尔频谱，然后对梅尔频谱进行倒谱分析得到梅尔倒谱系数作为原始梅尔倒谱参数。

S104、基于所述说话人向量、所述原始频谱参数以及所述原始梅尔倒谱参数训练生成对抗网络，所述生成对抗网络包括生成器，所述生成器用于输入所述说话人向量、所述原始频谱参数以及所述原始梅尔倒谱参数后生成目标频谱参数和目标梅尔倒谱参数，所述目标频谱参数和目标梅尔倒谱参数用于合成目标音频数据，所述目标音频数据的内容为所述内容音频数据的内容，所述目标音频数据的风格为所述风格音频数据的风格。

本发明实施例中，生成对抗网络(Generative Adversarial Networks，GANs)包括生成器(Generator)和判别器(Discriminator)，生成器用于输入原始频谱参数、原始梅尔倒谱参数以及风格音频数据的说话人向量后生成目标频谱参数和目标梅尔倒谱参数，判别器用于判别目标频谱参数和目标梅尔倒谱参数是生成器生成的概率。在本发明实施例中，生成器和判别器可以是神经网络，则可以在初始化生成对抗网络的生成器和判别器的网络参数后，将原始梅尔倒谱参数、原始频谱参数以及风格音频数据的说话人向量输入生成器中，得到目标频谱参数和目标梅尔倒谱参数，然后将目标频谱参数、目标梅尔倒谱参数、原始梅尔倒谱参数以及原始梅尔倒谱参数输入判别器中，并计算生成器的生成总损失值和计算判别器的判别总损失值，通过生成总损失值来反向传播调整生成器的网络参数，以及通过判别总损失值来反向传播调整判别器的网络参数，从而达到训练对抗生成网络的目的。

训练好对抗生成网络，在生成器中输入内容音频数据的原始频谱参数和梅尔倒谱参数以及风格音频数据的说话人向量，得到目标频谱参数和目标梅尔倒谱参数，通过目标频谱参数和目标梅尔倒谱参数可以合成目标音频数据，该目标音频数据的内容为内容音频数据的内容，音频风格为风格音频数据的风格，从而实现了音频的风格迁移。

实施例二

图2为本发明实施例二提供的一种生成对抗网络训练方法的步骤流程图，本发明实施例在前述实施例一的基础上进行优化，具体地，如图2所示，本发明实施例的生成对抗网络训练方法可以包括如下步骤：

S201、获取内容音频数据和风格音频数据。

S202、将所述风格音频数据输入预先训练好的说话人向量提取模型中，得到所述风格音频数据的说话人向量。

S203、获取所述内容音频数据的原始频谱参数和原始梅尔倒谱参数。

步骤S201-S203可参考实施例一中S101-S103，在此不再详述。

S204、将所述内容音频数据的原始频谱参数输入所述第一编码器得到频谱特征，以及将所述内容音频数据的原始梅尔倒谱参数输入所述第二编码器得到梅尔倒谱特征。

如图3所示，本发明实施例的生成对抗网络包括第一编码器、第一生成器、第二编码器以及第二生成器，其中，第一编码器的输出层与第一生成器的输入层连接，第二编码器的输出层与第二生成器的输入层连接。

在训练对抗生成网络时，可以将内容音频数据的原始频谱参数输入第一编码器得到编码后的频谱特征，将内容音频数据的原始梅尔倒谱参数输入第二编码器得到编码后的梅尔倒谱特征，其中，第一编码器和第二编码器可以是预先训练好的各种神经网络。

S205、将所述频谱特征和所述说话人向量输入所述第一生成器得到目标频谱参数，以及将所述梅尔倒谱特征和所述说话人向量输入所述第二生成器得到目标梅尔倒谱参数。

如图3所示，可以将风格音频数据的说话人向量以及第一编码器输出的频谱特征输入第一生成器中得到目标频谱参数，将风格音频数据的说话人向量以及第二编码器输出的梅尔倒谱特征输入第二生成器中得到目标梅尔倒谱参数，使得说话人向量中表达的音频风格迁入到目标频谱参数和目标梅尔倒谱参数中，具体如下公式表达：

上述公式中，x_SP为原始频谱参数，x_MCC为原始梅尔倒谱参数，E_SP()为第一编码器，E_MCC()为第二编码器，

为频谱特征，

为梅尔倒谱特征，SPK_EMB为风格音频数据的说话人向量，G_SP()为第一生成器，G_MCc()为第二生成器，

为目标频谱参数，

为目标梅尔倒谱参数，使用目标频谱参数和目标梅尔倒谱参数合成目标音频数据后，目标音频数据的内容为内容音频数据的内容，风格为风格音频数据的风格。

S206、基于所述目标频谱参数、所述目标梅尔倒谱参数以及所述说话人向量计算所述生成器的生成总损失值。

在本发明的可选实施例中S206可以包括以下子步骤：

S2061、将所述梅尔倒谱特征和所述说话人向量输入所述第一生成器得到第一附加参数，以及将所述频谱特征和所述说话人向量输入第二生成器得到第二附加参数。

具体地，如图3所示，本发明实施例的第一编码器的输出层还与第二生成器的输入层连接，第二编码器的输出层还与第一生成器的输入层连接，可以将第二编码器输出的梅尔倒谱特征和风格音频数据的说话人向量输入第一生成器得到第一附加参数，将第一编码器输出的频谱特征和风格音频数据的说话人向量输入第二生成器得到第二附加参数，具体如下公式所示：

上述公式中，

为第一附加参数，

为第二附加参数。

S2062、采用所述目标频谱参数、所述目标梅尔倒谱参数以及所述说话人向量计算所述生成器的第一生成损失值。

可选地，计算目标频谱参数和说话人向量的损失得到频谱损失值，计算目标梅尔倒谱参数和说话人向量的损失得到梅尔倒谱损失值，对频谱损失值和梅尔倒谱损失值求和得到第一生成损失值，具体如下公式：

上述公式中，L_in为第一生成损失值，L_recon()计算目标频谱参数

和说话人向量SPK_EMB、目标梅尔倒谱参数

和说话人向量SPK_EMB的损失函数，其中，L_recon()可以是计算两个参数的相似度的函数，如计算目标频谱参数

和说话人向量SPK_EMB、目标梅尔倒谱参数

和说话人向量SPK_EMB中音频风格的相似度。

S2063、采用所述第一附加参数、所述第二附加参数以及所述说话人向量计算所述生成器的第二生成损失值。

可选地，可以计算第一附加参数和说话人向量的损失得到第一附加损失值，计算第二附加参数和说话人向量的损失得到第二附加损失值，对第一附加损失值和第二附加损失值求和得到第二生成损失值，具体如下公式所示：

上述公式中，L_cross为第二生成损失值，L_recon()为计算第一附加参数

和说话人向量SPK_EMB、第二附加参数

和说话人向量SPK_EMB的损失函数。

S2064、采用所述原始频谱参数和所述原始梅尔倒谱参数计算第三生成损失值。

可选地，可以分别计算原始频谱参数的高斯分布KL散度和原始梅尔倒谱参数的高斯分布KL散度，计算原始频谱参数的高斯分布KL散度和原始梅尔倒谱参数的高斯分布KL散度的和值作为第三生成损失值，具体如下公式：

L_kld＝L_lat(x_SP)+L_lat(x_MCC)

上述公式中L_kld为第三生成损失值，L_lat()为高斯KL散度计算函数。

S2065、计算所述频谱特征和所述梅尔倒谱特征的相似度作为第四生成损失值。

具体地，可以通过以下公式计算频谱特征和梅尔倒谱特征的相似度：

其中L_sim为相似度，||.||为取范数。

S2066、对所述第一生成损失值、所述第二生成损失值、第三生成损失值以及所述第四生成损失值求和得到生成总损失值。

即：

L_cdvae＝L_in+L_kld+L_cross+L_sim

L_cdvae为生成总损失值，本发明实施例的生成总损失值包括多个损失值，通过该第一生成损失值，可以使得目标频谱参数

和说话人向量SPK_EMB、目标梅尔倒谱参数

和说话人向量SPK_EMB的音频风格更为接近，通过目标梅尔倒谱参数

和目标频谱参数

合成目标音频数据后，目标音频数据的音频风格与风格音频数据的音频风格更为接近，通过第二损失值、第三损失值和第四损失值，可以保证风格迁移的前提下，又能保证目标音频数据中说话人的内容保持不变。

S207、判断所述生成总损失值是否小于预设的第一阈值。

在一个示例中，可以根据所需网络精度设置第一阈值，并判断每轮迭代训练后所计算得到的生成总损失值是否小于该第一阈值，若是，说明第一生成器和第二生成器的精度已经达到要求，执行S208，否则，执行S209。

当然，在实际应用中，也可以不计算生成总损失值，而在训练的迭代次数达到预设次数时停止训练第一生成器和第二生成器。

S208、结束对所述生成器进行训练。

具体地，结束训练第一生成器和第二生成器，并保存第一生成器和第二生成器的网络参数。

S209、根据所述生成总损失值调整所述第一生成器和所述第二生成器的网络参数。

具体地，可根据生成总损失值计算梯度，对第一生成器和第二生成器反向传播来对网络参数梯度下降，得到第一生成器和的人生成器的新的网络参数，然后返回S2061继续对第一生成器和第二生成器训练，直到到达结束训练的条件。

S210、将所述原始频谱参数和所述目标频谱参数输入所述第一判别器来训练所述第一判别器，以及将所述原始梅尔倒谱参数和所述目标梅尔倒谱参数输入所述第二判别器来训练所述第二判别器。

在本发明的可选实施例中S210可以包括如下子步骤：

S2101、将所述原始频谱参数和所述目标频谱参数输入所述第一判别器，得到所述原始频谱参数为所述第一生成器所生成的频谱参数的第一概率，以及所述目标频谱参数为所述第一生成器所生成的频谱参数的第二概率。

如图3所示，本发明实施例的对抗生成网络还包括第一判别器和第二判别器，其中，第一判别器用于判别输入的频谱参数是第一生成器所生成的概率，则可以将原始频谱参数和目标频谱参数输入第一判别器，得到原始频谱参数为第一生成器所生成的频谱参数的第一概率，以及目标频谱参数为第一生成器所生成的频谱参数的第二概率。

S2102、将所述原始梅尔倒谱参数和所述目标梅尔倒谱参数输入所述第二判别器，得到所述原始梅尔倒谱参数为所述第二生成器所生成的梅尔倒谱参数的第三概率，以及所述目标梅尔倒谱参数为所述第二生成器所生成的梅尔倒谱参数的第四概率。

在本发明实施例中，第二判别器用于判别输入的梅尔倒谱参数是第二生成器所生成的概率，可以将原始梅尔倒谱参数和目标梅尔倒谱参数输入第一判别器，得到原始梅尔倒谱参数为第二生成器所生成的梅尔倒谱参数的第三概率，以及目标梅尔倒谱参数为第二生成器所生成的梅尔倒谱参数的第四概率。

S2103、采用所述第一概率、所述第二概率、所述第三概率以及所述第四概率计算判别损失值和带惩罚梯度的损失值。

具体地，可以将第一概率和第二概率代入预设的判别损失函数中计算第一判别器的判别损失值，以及将第三概率和第四概率代入预设的判别损失函数中计算第二判别器的判别损失值，计算第一判别器的判别损失值和第二判别器的判别损失值的和值作为判别损失值，将第一概率和第二概率代入预设的带惩罚梯度的判别损失函数中计算第一判别器的带惩罚梯度的判别损失值，以及将第三概率和第四概率代入预设的带惩罚梯度的判别损失函数中计算第二判别器的带惩罚梯度的判别损失值，计算第一判别器的带惩罚梯度的判别损失值和第二判别器的带惩罚梯度的判别损失值的和值作为带惩罚梯度的损失值，具体如下公式：

上述公式中，Px_SP为第一判别器判别原始频谱参数x_SP为第一生成器生成的第一概率，

为第一判别器判别目标频谱参数

为第一生成器生成的第二概率，Px_mcc为第二判别器判别原始梅尔倒谱参数x_mcc为第二生成器生成的第三概率，

为第二判别器判别目标梅尔倒谱参数

为第二生成器生成的第四概率，L()为判别损失函数，L_gp()为带惩罚梯度的判别损失函数。

S2104、计算所述判别损失值和所述带惩罚梯度的损失值的和值得到判别总损失值。

即：

L_wgan＝L_d+αL_d-gp

上述公式中，L_wgan为判别总损失值，α为常系数。

S2105、在所述判别总损失值小于预设的第二阈值时，停止训练所述第一判别器和所述第二判别器。

具体地，当判别总损失值小于预设的第二阈值，第一判别器和第二判别器停止训练。

需要说明的是，在训练对抗生成网络时，生成器(第一生成器和第二生成器)和判别器(第一判别器和第二判别器)交替迭代训练，可以在生成总损失值和判别总损失值都小于预设值时停止训练该对抗生成网络。

本发明实施例的生成对抗网络中，生成器包括第一生成器和第二生成器，判别器包括第一判别器和第二判别器，在获取内容音频数据和风格音频数据后，提取风格音频数据的说话人向量，以及获取内容音频数据的原始频谱参数和原始梅尔倒谱参数，将原始频谱参数输入第一编码器得到频谱特征，以及将原始梅尔倒谱参数输入第二编码器得到梅尔倒谱特征，将频谱特征和说话人向量输入第一生成器得到目标频谱参数，以及将梅尔倒谱特征和说话人向量输入第二生成器得到目标梅尔倒谱参数，并计算生成总损失值来调整第一生成器和第二生成器的网络参数，以及采用原始频谱参数和目标频谱参数来训练所述第一判别器，以及采用原始梅尔倒谱参数和目标梅尔倒谱参数来训练第二判别器。在训练完成后，在生成器中输入内容音频数据的原始频谱参数和原始梅尔倒谱参数来生成目标频谱参数和目标梅尔倒谱参数，目标频谱参数和目标梅尔倒谱参数用于合成目标音频数据，目标音频数据的内容为内容音频数据的内容，目标音频数据的风格为风格音频数据的风格，生成器可以学习到将风格音频数据的风格迁移到目标频谱参数和目标梅尔倒谱参数中的能力，在使用该生成器对原说话人的音频数据进行音频风格迁移时，可以提取任意说话人的说话人向量输入到生成器中，实现了集合外音频风格迁移。

实施例三

图4为本发明实施例三提供的一种音频风格迁移方法的步骤流程图，本发明实施例可适用于改变音频数据的音频风格的情况，该方法可以由本发明实施例的音频风格迁移装置来执行，该音频风格迁移装置可以由硬件或软件来实现，并集成在本发明实施例所提供的电子设备中，具体地，如图4所示，本发明实施例的音频风格迁移方法可以包括如下步骤：

S401、获取原说话人的音频数据和目标说话人的音频数据。

在本发明实施例的一个可选实施例中，原说话人的音频数据可以是用户上传的音频数据，目标说话人的音频数据可以是用户上传音频数据之前或者之后选择的某个人的音频数据。在一个示例中，在短视频平台、直播平台或者其他多媒体应用平台上，用户录得用户本身的音频数据作为原始音频数据，然后用户下载某个用户的音频数据，或者从影片上截取一段音频数据作为目标说话人的音频数据。当用户在客户端确定原始说话人的音频数据和目标说话人的音频数据后，客户端获得原说话人的音频数据和目标说话人的音频数据，又或者用户在客户端将原说话人的音频数据和目标说话人的音频数据上传后，服务器获取到原说话人的音频数据和目标说话人的音频数据。

S402、提取所述原说话人的音频数据的原始频谱参数和原始梅尔倒谱参数。

可选地，可以先对原始说话人的音频数据的信号进行预加重、分帧和加窗，然后对分帧得到的每个音频帧进行快速傅里叶变换得到每个音频帧的频谱，将多个音频帧的频谱连接起来得到音频数据的频谱，原始频谱参数可以是频谱上的频率、幅度值、幅度均值等。在频谱的基础上，可以通过梅尔滤波器对频谱进行滤波得到梅尔频谱，然后对梅尔频谱进行倒谱分析得到梅尔倒谱系数作为原始梅尔倒谱参数。

S403、将所述目标说话人的音频数据输入预先训练好的说话人向量提取模型中，得到所述目标说话人的说话人向量。

本发明实施例提取目标说话人的音频数据的说话人向量作为音频风格表示。在一个可选实施例中，可以预先训练说话人向量提取模型，该说话人向量提取模型在输入一个音频数据后，可以提取该音频数据的说话人向量来表示音频风格。在一个示例中，说话人向量模型可以是多头注意力机制模型，该多头注意力机制模型经训练后，当输入目标说话人的音频数据后，可以将该音频数据的说话人向量映射到已有的、与该目标说话人最相似的说话人，从而获得输入的音频数据的说话人向量，例如，可以先提取目标说话人的音频数据的频谱参数，然后将频谱参数输入预先训练好的说话人向量提取模型中提取目标说话人的音频数据的说话人向量。

S404、将所述原始频谱参数、所述原始梅尔倒谱参数以及所述说话人向量输入训练好的生成对抗网络的生成器中，得到目标频谱参数和目标梅尔倒谱参数。

可选地，本发明实施例的生成对抗网络可以通过实施例一或实施例二所提供的生成对抗网络训练方法所训练，当原始频谱参数、原始梅尔倒谱参数以及说话人向量输入生成对抗网络的生成器后，生成器生成目标频谱参数和目标梅尔倒谱参数中，由于说话人向量表示了目标说话人的音频数据的音频风格，经过生成器后，该音频风格注入到目标频谱参数和原始梅尔倒谱参数。

S405、基于所述目标频谱参数和目标梅尔倒谱参数合成所述原说话人的目标音频数据，所述目标音频数据的音频内容为所述原说话人的音频数据的内容，所述目标音频数据的音频风格为所述目标说话人的音频数据的音频风格。

由于生成器将目标说话人的音频风格注入到目标频谱参数和原始梅尔倒谱参数，当采用目标频谱参数和目标梅尔倒谱参数合成目标音频数据后，该目标音频数据的内容为原说话人所说的内容，音频风格为目标说话人的说话风格，从而实现了音频的风格迁移。

本发明实施例获取原说话人的音频数据和目标说话人的音频数据后，提取原说话人的音频数据的原始频谱参数和原始梅尔倒谱参数，将目标说话人的音频数据输入预先训练好的说话人向量提取模型中，得到目标说话人的说话人向量，然后将原始频谱参数、原始梅尔倒谱参数以及说话人向量输入训练好的生成对抗网络的生成器中，得到目标频谱参数和目标梅尔倒谱参数，基于目标频谱参数和目标梅尔倒谱参数合成原说话人的目标音频数据，实现在使用生成器对原说话人的音频数据进行音频风格迁移时，可以提取任意说话人的说话人向量输入到生成器中，实现了集合外音频风格迁移。

实施例四

图5是本发明实施例四提供的一种生成对抗网络训练装置的结构框图，如图5所示，本发明实施例的生成对抗网络训练装置具体可以包括如下模块：

音频数据获取模块501，用于获取内容音频数据和风格音频数据；

说话人向量提取模块502，用于将所述风格音频数据输入预先训练好的说话人向量提取模型中，得到所述风格音频数据的说话人向量；

参数获取模块503，用于获取所述内容音频数据的原始频谱参数和原始梅尔倒谱参数；

生成对抗网络训练模块504，用于基于所述说话人向量、所述原始频谱参数以及所述原始梅尔倒谱参数训练生成对抗网络，所述生成对抗网络包括生成器，所述生成器用于输入所述说话人向量、所述原始频谱参数以及所述原始梅尔倒谱参数后生成目标频谱参数和目标梅尔倒谱参数，所述目标频谱参数和目标梅尔倒谱参数用于合成目标音频数据，所述目标音频数据的内容为所述内容音频数据的内容，所述目标音频数据的风格为所述风格音频数据的风格。

本发明实施例所提供的生成对抗网络训练装置可执行本发明实施例一、实施例二所提供的生成对抗网络训练方法，具备执行方法相应的功能模块和有益效果。

实施例五

图6是本发明实施例五提供的一种音频风格迁移装置的结构框图，如图6所示，本发明实施例的音频风格迁移装置具体可以包括如下模块：

原说话人和目标说话人音频数据获取模块601，用于获取原说话人的音频数据和目标说话人的音频数据；

原说话人音频参数提取模块602，用于提取所述原说话人的音频数据的原始频谱参数和原始梅尔倒谱参数；

说话人向量提取模块603，用于将所述目标说话人的音频数据输入预先训练好的说话人向量提取模型中，得到所述目标说话人的说话人向量；

风格迁移模块604，用于将所述原始频谱参数、所述原始梅尔倒谱参数以及所述说话人向量输入训练好的生成对抗网络的生成器中，得到目标频谱参数和目标梅尔倒谱参数；

目标音频数据合成模块605，用于基于所述目标频谱参数和目标梅尔倒谱参数合成所述原说话人的目标音频数据，所述目标音频数据的音频内容为所述原说话人的音频数据的内容，所述目标音频数据的音频风格为所述目标说话人的音频数据的音频风格；

其中，所述生成对抗网络通过实施例一或实施例二所述的生成对抗网络训练方法所训练。

本发明实施例所提供的音频风格迁移装置可执行本发明实施例三所提供的音频风格迁移方法，具备执行方法相应的功能模块和有益效果。

实施例六

参照图7，示出了本发明一个示例中的一种电子设备的结构示意图。如图7所示，该电子设备具体可以包括：处理器701、存储装置702、具有触摸功能的显示屏703、输入装置704、输出装置705以及通信装置706。该设备中处理器701的数量可以是一个或者多个，图7中以一个处理器701为例。该设备的处理器701、存储装置702、显示屏703、输入装置704、输出装置705以及通信装置706可以通过总线或者其他方式连接，图7中以通过总线连接为例。所述设备用于执行如本发明任一实施例提供的生成对抗网络训练方法，和/或，音频风格迁移方法。

本发明实施例还提供一种计算机可读存储介质，所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上述方法实施例所述的生成对抗网络训练方法，和/或，音频风格迁移方法。

需要说明的是，对于装置、电子设备、存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变换、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种生成对抗网络训练方法，其特征在于，包括：

获取内容音频数据和风格音频数据；

2.根据权利要求1所述的生成对抗网络训练方法，其特征在于，所述将所述风格音频数据输入预先训练好的说话人向量提取模型中，得到所述风格音频数据的说话人向量，包括：

提取所述风格音频数据的频谱参数；

将所述频谱参数输入预先训练好的说话人向量提取模型中提取所述风格音频数据的说话人向量。

3.根据权利要求1所述的生成对抗网络训练方法，其特征在于，所述生成对抗网络包括第一编码器、第一生成器、第二编码器以及第二生成器，所述基于所述说话人向量、所述原始频谱参数以及所述原始梅尔倒谱参数训练生成对抗网络，包括：

将所述内容音频数据的原始频谱参数输入所述第一编码器得到频谱特征，以及将所述内容音频数据的原始梅尔倒谱参数输入所述第二编码器得到梅尔倒谱特征；

将所述频谱特征和所述说话人向量输入所述第一生成器得到目标频谱参数，以及将所述梅尔倒谱特征和所述说话人向量输入所述第二生成器得到目标梅尔倒谱参数；

基于所述目标频谱参数、所述目标梅尔倒谱参数以及所述说话人向量计算所述生成器的生成总损失值；

判断所述生成总损失值是否小于预设的第一阈值；

若是，结束对所述生成器进行训练；

若否，根据所述生成总损失值调整所述第一生成器和所述第二生成器的网络参数，返回将所述内容音频数据的原始频谱参数输入所述第一编码器得到频谱特征，以及将所述内容音频数据的原始梅尔倒谱参数输入所述第二编码器得到梅尔倒谱特征的步骤。

4.根据权利要求3所述的生成对抗网络训练方法，其特征在于，所述基于所述目标频谱参数、所述目标梅尔倒谱参数以及所述说话人向量计算所述生成器的生成总损失值，包括：

将所述梅尔倒谱特征和所述说话人向量输入所述第一生成器得到第一附加参数，以及将所述频谱特征和所述说话人向量输入所述第二生成器得到第二附加参数；

采用所述目标频谱参数、所述目标梅尔倒谱参数以及所述说话人向量计算所述生成器的第一生成损失值；

采用所述第一附加参数、所述第二附加参数以及所述说话人向量计算所述生成器的第二生成损失值；

采用所述原始频谱参数和所述原始梅尔倒谱参数计算第三生成损失值；

计算所述频谱特征和所述梅尔倒谱特征的相似度作为第四生成损失值；

对所述第一生成损失值、所述第二生成损失值、第三生成损失值以及所述第四生成损失值求和得到生成总损失值。

5.根据权利要求4所述的生成对抗网络训练方法，其特征在于，所述采用所述目标频谱参数、所述目标梅尔倒谱参数以及所述说话人向量计算所述生成器的第一生成损失值，包括：

计算所述目标频谱参数和所述说话人向量的损失得到频谱损失值；

计算所述目标梅尔倒谱参数和所述说话人向量的损失得到梅尔倒谱损失值；

对所述频谱损失值和所述梅尔倒谱损失值求和得到第一生成损失值。

6.根据权利要求4所述的生成对抗网络训练方法，其特征在于，所述采用所述第一附加参数、所述第二附加参数以及所述说话人向量计算所述生成器的第二生成损失值，包括：

计算所述第一附加参数和所述说话人向量的损失得到第一附加损失值；

计算所述第二附加参数和所述说话人向量的损失得到第二附加损失值；

对所述第一附加损失值和所述第二附加损失值求和得到第二生成损失值。

7.根据权利要求4所述的生成对抗网络训练方法，其特征在于，所述采用所述原始频谱参数和所述原始梅尔倒谱参数计算第三生成损失值，包括：

分别计算所述原始频谱参数的高斯分布KL散度和所述原始梅尔倒谱参数的高斯分布KL散度；

计算所述原始频谱参数的高斯分布KL散度和所述原始梅尔倒谱参数的高斯分布KL散度的和值作为第三生成损失值。

8.根据权利要求3-7任一项所述的生成对抗网络训练方法，其特征在于，所述生成对抗网络还包括第一判别器和第二判别器，所述基于所述说话人向量、所述原始频谱参数以及所述原始梅尔倒谱参数训练生成对抗网络，还包括：

将所述原始频谱参数和所述目标频谱参数输入所述第一判别器来训练所述第一判别器，以及将所述原始梅尔倒谱参数和所述目标梅尔倒谱参数输入所述第二判别器来训练所述第二判别器。

9.根据权利要求8所述的生成对抗网络训练方法，其特征在于，所述将所述原始频谱参数和所述目标频谱参数输入所述第一判别器来训练所述第一判别器，以及将所述原始梅尔倒谱参数和所述目标梅尔倒谱参数输入所述第二判别器来训练所述第二判别器，包括：

将所述原始频谱参数和所述目标频谱参数输入所述第一判别器，得到所述原始频谱参数为所述第一生成器所生成的频谱参数的第一概率，以及所述目标频谱参数为所述第一生成器所生成的频谱参数的第二概率；

将所述原始梅尔倒谱参数和所述目标梅尔倒谱参数输入所述第二判别器，得到所述原始梅尔倒谱参数为所述第二生成器所生成的梅尔倒谱参数的第三概率，以及所述目标梅尔倒谱参数为所述第二生成器所生成的梅尔倒谱参数的第四概率；

采用所述第一概率、所述第二概率、所述第三概率以及所述第四概率计算判别损失值和带惩罚梯度的损失值；

计算所述判别损失值和所述带惩罚梯度的损失值的和值得到判别总损失值；

在所述判别总损失值小于预设的第二阈值时，停止训练所述第一判别器和所述第二判别器。

10.根据权利要求9所述的生成对抗网络训练方法，其特征在于，所述采用所述第一概率、所述第二概率、所述第三概率以及所述第四概率计算判别损失值和带惩罚梯度的损失值，包括：

将所述第一概率和所述第二概率代入预设的判别损失函数中计算所述第一判别器的判别损失值，以及将所述第三概率和所述第四概率代入预设的判别损失函数中计算所述第二判别器的判别损失值；

计算所述第一判别器的判别损失值和所述第二判别器的判别损失值的和值作为判别损失值；

将所述第一概率和所述第二概率代入预设的带惩罚梯度的判别损失函数中计算所述第一判别器的带惩罚梯度的判别损失值，以及将所述第三概率和所述第四概率代入预设的带惩罚梯度的判别损失函数中计算所述第二判别器的带惩罚梯度的判别损失值；

计算所述第一判别器的带惩罚梯度的判别损失值和所述第二判别器的带惩罚梯度的判别损失值的和值作为带惩罚梯度的损失值。

11.一种音频风格迁移方法，其特征在于，包括：

获取原说话人的音频数据和目标说话人的音频数据；

其中，所述生成对抗网络通过权利要求1-10任一项所述的生成对抗网络训练方法所训练。

12.一种生成对抗网络训练装置，其特征在于，包括：

13.一种音频风格迁移装置，其特征在于，包括：

14.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-10中任一项所述的生成对抗网络训练方法，和/或，权利要求11所述的音频风格迁移方法。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-10中任一项所述的生成对抗网络训练方法，和/或，权利要求11所述的音频风格迁移方法。