CN112951253A

CN112951253A - 一种基于Cycle-GAN的音频风格转换方法及系统

Info

Publication number: CN112951253A
Application number: CN201911160905.4A
Authority: CN
Inventors: 谢裕麟; 贾奎; 曾锦权; 麦泺欣
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-11-24
Filing date: 2019-11-24
Publication date: 2021-06-11

Abstract

本发明公开了一种基于Cycle‑GAN的音频风格转换方法及系统，所述方法包括以下步骤：S1、通过CQT转换计算音频的CQT频谱；S2、利用Cycle‑GAN模型的非时域表达音色转换，得到对应目标领域风格的音频，从而实现音频风格迁移；S3、获得目标风格音频。该系统包括前向生成网络、逆向生成网络、两种风格的判别网络以及服务响应云平台，其中，前向生成网络，用于将输入音频转换为特定目标风格的音频；逆向生成网络，用于将目标风格的音频转换为原来风格的音频；网络响应云平台，用于传输和响应用户请求的输入数据等。本发明将生成对抗网络应用于音频风格转换，并且保持相应的语义信息，具有广阔的应用前景。

Description

一种基于Cycle-GAN的音频风格转换方法及系统

技术领域

本发明涉及用深度学习技术来处理音频信息的技术领域，具体涉及一种基于Cycle-GAN的音频风格转换方法及系统。

背景技术

由于计算机技术的发展和互联网的普及，大量的数据在人们的日常生活中产生，而正是由于这些大数据的存在，助力了人工智能算法来高强度地训练和准确地预测。另一方面，硬件技术的飞速发展使得计算能力得到很大的提升，这也在另一方面促使了人工智能算法的繁荣。目前为止，一些用于实现人工智能的超越人类能力的方法已经被实现，比如Alpha Go围棋算法。其中一种实现人工智能的方法就是神经网络。

如上所述，近年来神经网络的发展让很多研究人员看到其在艺术创作方面的潜质，这些神经网络能够模仿人类创作出一些符合人类审美标准的艺术作品，其中的一些生成模型如变分自编码器(VAE)和对抗生成网络(GAN)正在被广泛地应用于图片和视频的风格迁移(Style Transfer)任务中，不仅给大众带来了娱乐，更加揭示了深度学习方法创作和辅助创作艺术作品的可能。而音乐作为听觉的艺术，同样可以通过深度学习方法得到创作或者二次创作。

这里所说的音乐创作指的是通过训练一个神经网络，运行该程序后可以自动地生成出一段符合人听觉习惯和审美的音乐，具体的生成效果可以由训练过程的各种因素进行控制。而这里的二次创作指的是大家可以对于一段已经存在的音乐，通过神经网络的自动化加工，生成出一段在内容等方面具有延续性且某些特质发生改变的音乐，此过程即完成了对一段存在的音乐进行二次创作。

发明内容

本发明的目的是为了解决使用深度学习技术进行音频生成的问题，提供一种基于Cycle-GAN的音频风格转换方法。

本发明至少通过如下技术方案之一实现。

一种基于Cycle-GAN的音频风格转换方法，所述方法包括以下步骤：

S1、通过CQT转换(ConstantQtransform，CQT)，获取音频的CQT频谱；

S2、利用Cycle-GAN模型对音频的CQT频谱进行风格迁移，得到对应目标领域音色的音频的CQT频谱，从而实现音频CQT频谱的转换；

S3、预训练WaveNet模型，通过使用预训练的WaveNet生成器，将步骤S2得到的CQT频谱进行相位的推断，实现从CQT频谱到时域音频的变换，最终实现音频音色的转换，获得目标风格音频。

进一步的，步骤S1获取音频的CQT频谱具体如下：

将音频的频率值ω_k按以下模式进行几何分布：

其中k∈{1,2,3,…k_max}表示的是滤波器个数，b是一个决定不同频带之间几何分散的常数，ω₀代表初始频率，k_max表示滤波器个数上限，为了使得不同频率的滤波器相邻接，第k个滤波器的带宽Δ_k：

式(1)和式(2)得到不变的频率，计算分辨率比值Q，也称为质量因素：

使用常数Q变换即CQT变换，根据时域的波形获得CQT频谱；

对于CQT变换中的相关参数，使用16ms的帧跳跃，w₀取为32.70Hz，对应于键盘中最低的C音的频率，b取48，k_max设置为336，γ在0和1之间，在完成CQT转换后，对所得结果取对数幅度作为一张抛弃相位信息的图片。

进一步的，步骤S2的Cycle-GAN模型包括两个生成式对抗网络(GAN,GenerativeAdversarial Networks)、生成器G、生成器F、判别器D_X和判别器D_Y；

利用Cycle-GAN模型对音频的CQT频谱进行风格迁移，迁移过程如下：生成器G将X域的图片x转换为Y域的风格，而生成器F将Y域的图片y转换为X域的风格，生成器G和生成器F应该是互逆的，具体的，X域的图片

经过生成器G转换为图片

之后，图片

通过生成器F转换为图片

同样地，Y域的图片

经过生成器F转换为图片

之后，图片

通过生成器G转换为图片

即：

F(G(x))＝X；G(F(y))＝Y (4)

为了使重构图片F(G(x))与原图X一致，重构图片G(F(y))与原图Y一致，为此采用L1损失或者L2损失，实现这一个Cycle Consistency(循环一致性)，使用一个CycleConsistency Loss(循环一致性损失)：

同时训练两个GAN：生成器G用于将X域的图片转换成Y域风格的图片

判别器D_Y则分辨

的真假，生成器F将Y域的图片转换成X域风格的图片

判别器D_X则判别

的真假，这里的两个生成网络被两个GAN结构共享，同时各自还有一个判别网络，判别器和生成器损失函数如下所示：

Cycle-GAN模型的损失函数：

L(G,F,D_X,D_Y)＝L_GAN(G,D_Y,X,Y)+L_GAN(F,D_X,Y,X)+L_cyc(G,F) (7)

训练Cycle-GAN模型的时，在没有成对训练数据的情况下，将步骤S1中得到的CQT频谱从源域迁移到目标域；

Cycle-GAN模型经过训练后，在生成图片阶段，只需使用一个生成器G或者生成器F，进行一次单向的图片输入，则得到对应目标领域风格的图片，从而实现图片风格即音频风格的迁移。

进一步的，步骤S3获得目标风格音频是将步骤S2生成的CQT频谱转换为时域的音频，使用WaveNet生成器来产生时域波形；

WaveNet模型的预训练是对所有的扩张卷积层和初始的因果卷积使用内核大小为3的卷积核，在残差链接和跳跃连接中，所有的残差块都具有256的宽度，第一个因果卷积将通道大小从1映射到256，该模型使用Adam优化器进行训练，学习率为0.0001，批大小为4，样本长度为8196；

所述WaveNet生成器通过一个前向的生成过程，基于CQT频谱得到丢失的相位信息；

所述该WaveNet生成器是一个自回归的生成模型，用于生成高质量的原始音频波形(raw waveform)，其主要作用是将Cycle-GAN模型转换后的音频的CQT频谱转换到频域。

根据所述的一种基于Cycle-GAN的音频风格转换方法的系统，包括Cycle-GAN模型和服务响应云平台；所述Cycle-GAN模型包括前向生成网络、逆向生成网络、两种风格的判别网络；其中，所述的前向生成网络，用于将输入音频通过Cycle-GAN模型转换为特定目标风格的音频；所述的逆向生成网络，用于将目标风格的音频通过Cycle-GAN模型为原来风格的音频；所述的两个风格的判别器分别用于判别原风格与目标风格；

所述的网络响应云平台，用于传输和响应用户请求的输入数据；

所述前向生成网络和逆向生成网络均为生成器；所述判别网络为判别器；

进一步的，Cycle-GAN模型参数作如下设置：对于输入的100维正态分布数据，先通过一个线性层将其转换为256维，再改变其形状为二维数据，随后，使用滤波器大小为5、步长为2的二维转置卷积操作对数据进行上采样，经过ReLU非线性层进行激活，重复该过程4次后，使用tanh函数层将数据范围压缩在-1和1之间，输出作为生成器的生成样本；

对于判别器，接收生成器产生的样本，连续使用5组由滤波器大小为5、步长为2的二维卷积和α＝0.2的LReLU非线性层进行下采样，通过改变形状后使用一个全连接层缩小数据的维度，输出判别的结果。

进一步的，网络响应云平台对用户请求的响应包括以下步骤：

S1、用户通过从网页端向服务端上传音频文件，向服务端发起服务请求；

S4、服务端接收到来自用户的请求之后，服务端调用搭载在网络响应云平台上已经训练好的Cycle-GAN模型，对上传的音频文件进行处理；

在此期间，服务端从Cycle-GAN模型的输出日志中获得Cycle-GAN模型的当前状态，将Cycle-GAN模型的当前状态打包后发送回网页端用户交互平台，并将当前处理文件处理状态及预训练网络状态输出到网页，即实时向用户显示模型当前对数据处理的进程；

S3、Cycle-GAN模型处理用户在网页交互平台上传的音频文件之后，将得到的转换后音频文件保存在服务器，服务器再将该转换后音频文件发送到网页端用户交互平台，网页端接收到文件之后，下载按钮从灰色变亮，提示用户数据处理完毕，能进行下载。

本发明相对于现有技术具有如下的优点及效果：

1、本发明有效地解决了音频音色转换问题，相比使用短时傅里叶变换作为转换方法的模型来说具有更强的信噪比，能够减少生成出来的音频频谱中的棋盘伪迹，从而减轻转换后时域音频表现出来的噪声。

2、本发明训练过程中不需要获得严格的成对训练样本，能够有效地提高本模型的鲁棒性，对大多数的音频都具有实用性，给训练数据的采集、预处理以及模型的训练都带来了便利。

3、本发明的前端具有较好的用户设计，有效地链接了前端用户交互平台与后端服务器处理平台，使得普通用户能够在没有相关计算机基础的情况下，直接体验到前沿深度学习成果，实现了成果转化、产研结合。

附图说明

图1是本实施例的基于Cycle-GAN的音频风格转换方法对输入音频数据处理过程示意图；

图2是本实施例生成器的结构图；

图3是本实施例判别器的结构图；

图4是本发明的网络响应云平台对用户请求的响应流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示的一种基于Cycle-GAN的音频风格转换方法，包括以下步骤：

S1、通过CQT转换(ConstantQtransform，CQT)计算音频的CQT频谱，具体如下：

将音频的频率值ω_k按以下模式进行几何分布：

其中k∈{1,2,3,…k_max}表示的是滤波器个数，b是一个决定不同频带之间几何分散的常数，ω₀代表初始频率，k_max表示滤波器个数上限，为了使得不同频率的滤波器相邻接，第k个滤波器的带宽Δ_k通过以下公式进行计算：

根据式(1)和式(2)得到不变的频率，计算分辨率比值Q，也称为质量因素(quality(Q)factor)：

通过使用CQT变换，计算音频的CQT频谱(下面详述)，然后将其对数幅度看作一张抛弃相位信息的图片。

波形到CQT频谱预处理：

使用常数Q变换即CQT变换，可以根据时域的波形计算出来CQT频谱。在这里，对于CQT中的相关参数，使用16ms的帧跳跃(在16kHz音频中对应256个样本点)，w₀取为32.70Hz(对应于键盘中最低的C音的频率)，b取48，k_max设置为336，γ在0和1之间取0.8。在完成CQT转换后，对所得结果取对数幅度作为最终的网络输入表达形式。

步骤S2利用Cycle-GAN模型对音频的CQT频谱进行风格迁移，得到对应目标领域音色的音频的CQT频谱，从而实现音频CQT频谱的转换。

所述Cycle-GAN模型包括两个生成式对抗网络(GAN,Generative AdversarialNetworks)、生成器G、生成器F、判别器DX和判别器DY，CycleGAN的核心理念是，如果有一个图像风格转换器G可以将X域的图片转换为Y域的风格，而F可以将Y域的图片转换为X域的风格，那么G和F应该是互逆的。也就是说，X域的图片经过生成器G转换为图片

之后，

应该可以通过另一个生成器F转换为X。同样地，Y域的图片经过F转换为

之后，

应该可以通过G转换为Y。即：F(G(x))＝X；G(F(y))＝Y。生成器需要重建图片x，必然希望重构图片F(G(x))与原图x尽量一致，为此采用L1损失或者L2损失。为了实现这一个Cycle Consistency，使用了一个Cycle Consistency Loss：

CycleGAN的模型同时训练两个原始GAN：生成器G、F和判别器D_X,D_Y。G用于将X域的图片转换成Y域风格的图片，D_Y则分辨

的真假，F将Y域的图片转换成X域的风格，D_X则判别

的真假。这里的两个生成网络被两个GAN结构共享，同时各自还有一个判别网络，因此共有两个判别器和生成器，他们的损失函数如下所示：

网络的所有损失：

L(G,F,D_X,D_Y)＝L_GAN(G,D_Y,X,Y)+L_GAN(F,D_X,Y,X)+L_cyc(G,F) (5)

经过上述的训练后，在生成图片阶段，只需使用其中的一个生成器(G/F)，进行一次单向的图片输入，则可以得到对应目标领域风格的图片，从而实现图片风格迁移。

训练Cycle-GAN模型的时，在没有成对训练数据的情况下，将步骤S1中计算得到的CQT频谱从源域迁移到目标域。

S3、预训练WaveNet模型，通过使用预训练的WaveNet生成器，将转换后上文音频CQT频谱进行相位的推断，实现从CQT频谱到时域音频的变换，最终实现音频音色的转换，获得目标风格音频。

所述WaveNet生成器能够通过一个前向的生成过程，基于CQT频谱推理出丢失的相位信息；该WaveNet生成器是一个自回归的生成模型，用于生成高质量的原始音频波形(rawwaveform)，其主要作用是将Cycle-GAN生成的转换后音频的CQT频谱转换到频域，这是因为目前不存在可行的相位推断算法用于从CQT幅度频谱图中推断相位信息从而生成对应的音频信号。

一种基于Cycle-GAN的音频风格转换方法的系统，该系统包括Cycle-GAN模型和服务响应云平台；所述Cycle-GAN模型包括前向生成网络、逆向生成网络、两种风格的判别网络；其中，所述的前向生成网络，用于将输入音频通过Cycle-GAN模型转换为特定目标风格的音频；所述的逆向生成网络，用于将目标风格的音频通过Cycle-GAN模型为原来风格的音频；所述的两个风格的判别器分别用于判别原风格与目标风格；所述的网络响应云平台，用于传输和响应用户请求的输入数据；所述前向生成网络和逆向生成网络均为生成器；所述判别网络为判别器；

如图2所示，Cycle-GAN模型参数包括：对于输入的100维正态分布数据，先通过一个线性层将其转换为256维，再改变其形状为二维数据。随后，使用滤波器大小为5、步长为2的二维转置卷积操作对数据进行上采样，经过ReLU非线性层进行激活，重复该过程4次后，使用tanh层将数据范围压缩在-1和1之间，输出作为生成器的生成样本；

如图3所示，对于判别器，接收生成器产生的样本，连续使用5组由滤波器大小为5、步长为2的二维卷积和α＝0.2的LReLU非线性层进行下采样，最后通过改变形状后使用一个全连接层缩小数据的维度，输出判别的结果。

如图4所示，网络响应云平台对用户请求的响应如下：

用户通过从网页端向服务端(服务器)上传音频文件，向服务端发起服务请求；

服务端接收到来自用户的请求之后，调用搭载在网络响应云平台上已经训练好的Cycle-GAN模型对上传文件进行时频转换后调用图形处理器(GPU)开始银色转换；

在此期间，服务端从Cycle-GAN模型的输出日志中获得Cycle-GAN模型的当前状态，将Cycle-GAN模型的当前状态打包后发送回网页端，并按照用户可理解的格式输出到网页，即可实时向用户显示模型当前对数据处理的进程。

生成转换后音频，将文件传回到服务端，服务端再将文件发送到网页端，网页端接收到文件之后，下载按钮从灰色变亮，提示用户数据处理完毕，可进行下载。

以上所述，仅为本发明较佳的实施例，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明所公开的范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都属于本发明的保护范围。

Claims

1.一种基于Cycle-GAN的音频风格转换方法，其特征在于，所述方法包括以下步骤：

S1、通过CQT转换，获取音频的CQT频谱；

2.根据权利要求权1所述的一种基于Cycle-GAN的音频风格转换方法，其特征在于，步骤S1获取音频的CQT频谱具体如下：

将音频的频率值ω_k按以下模式进行几何分布：

使用常数Q变换即CQT变换，根据时域的波形获得CQT频谱；

3.根据权利要求权1所述的一种基于Cycle-GAN的音频风格转换方法，其特征在于，步骤S2的Cycle-GAN模型包括两个生成式对抗网络(GAN,Generative AdversarialNetworks)、生成器G、生成器F、判别器D_X和判别器D_Y；

经过生成器G转换为图片

之后，图片

通过生成器F转换为图片

同样地，Y域的图片

经过生成器F转换为图片

之后，图片

通过生成器G转换为图片

即：

F(G(x))＝X；G(F(y))＝Y (4)

为了使重构图片F(G(x))与原图X一致，重构图片G(F(y))与原图Y一致，为此采用L1损失或者L2损失，实现一个循环一致性(Cycle Consistency)，使用一个循环一致性损失(Cycle Consistency Loss)：

判别器D_Y则分辨

的真假，生成器F将Y域的图片转换成X域风格的图片

判别器D_X则判别

Cycle-GAN模型的损失函数：

L(G,F,D_X,D_Y)＝L_GAN(G,D_Y,X,Y)+L_GAN(F,D_X,Y,X)+L_cyc(G,F)(7)

4.根据权利要求权1所述的一种基于Cycle-GAN的音频风格转换方法，其特征在于，步骤S3获得目标风格音频是将步骤S2得到的CQT频谱转换为时域的音频，使用WaveNet生成器来产生时域波形；

5.一种实施权利要求1所述的一种基于Cycle-GAN的音频风格转换方法的系统，其特征在于，该系统包括Cycle-GAN模型和服务响应云平台；所述Cycle-GAN模型包括前向生成网络、逆向生成网络、两种风格的判别网络；其中，所述的前向生成网络，用于将输入音频通过Cycle-GAN模型转换为特定目标风格的音频；所述的逆向生成网络，用于将目标风格的音频通过Cycle-GAN模型为原来风格的音频；所述的两个风格的判别器分别用于判别原风格与目标风格；

所述前向生成网络和逆向生成网络均为生成器；所述判别网络为判别器。

6.根据权利要求5所述的系统，其特征在于，Cycle-GAN模型参数作如下设置：对于输入的100维正态分布数据，先通过一个线性层将其转换为256维，再改变其形状为二维数据，随后，使用滤波器大小为5、步长为2的二维转置卷积操作对数据进行上采样，经过ReLU非线性层进行激活，重复该过程4次后，使用tanh函数层将数据范围压缩在-1和1之间，输出作为生成器的生成样本；

7.根据权利要求5所述的系统，其特征在于，网络响应云平台对用户请求的响应包括以下步骤：

S3、Cycle-GAN模型处理用户在网页交互平台上传的音频文件之后，将得到的转换后音频文件保存在服务器，服务器再将该转换后音频文件发送到网页端用户交互平台，网页端接收到文件之后，下载按钮从灰色变亮，提示用户数据处理完毕，能够进行下载。