CN110085203A

CN110085203A - 一种基于对偶生成对抗网络的音乐风格融合方法

Info

Publication number: CN110085203A
Application number: CN201910312288.9A
Authority: CN
Inventors: 周武能; 徐亦捷
Original assignee: Donghua University
Current assignee: Donghua University; National Dong Hwa University
Priority date: 2019-04-18
Filing date: 2019-04-18
Publication date: 2019-08-02

Abstract

本发明公开了一种基于对偶生成对抗网络的音乐风格融合方法，包括：将音频文件转为波形图文件训练，引入对偶学习的思想，建立三个互相耦合的生成对抗网络去完成两种不同风格的音乐序列的融合。本发明的创新点在于能够有效地对两种不同曲风的音乐进行融合生成新的序列，与音乐风格融合领域的现有方法相比，提出了使用波形图形文件做音乐生成的新思路。

Description

一种基于对偶生成对抗网络的音乐风格融合方法

技术领域

本发明涉及一种基于对偶生成对抗网络的音乐风格融合方法。

背景技术

人工智能已经在诸多领域带来变革，而在艺术创作方面也具有很大的潜力。在AI生成艺术的范畴中，与生成图像、文字不同的是，生成音乐更具挑战性，因为首先音乐是一种关于时间的艺术，其次音乐通常由多个音轨/乐器并行演奏而成，随着时间推移互相联系地展开。

风格融合与风格迁移类似，最初被应用在图像上，普通的照片可以被艺术化处理生成大师级风格艺术照，本质上风格融合与风格迁移都是对样本风格进行转换的一种技术。音乐领域的风格融合学名“fusion”，这一概念起源于60年代后期，属于爵士乐的子流派，它结合了几种音乐风格，如放克、摇滚、布鲁斯，以及爵士乐的和声和即兴创作。

用AI来做音乐风格融合可以为广告、游戏等视频的配乐节约大量时间和金钱成本，这一研究并不会取代人类作曲家，相反它会辅助人类作曲，给予人类作曲家新的灵感；同时也可以用于音乐播放软件的娱乐功能上。

生成对抗网络是一种深度学习模型，是近年来复杂分布上无监督学习最具前景的方法之一。模型框架中往往有两个模块：生成模型和判别模型，生成模型主要用来学习真实数据分布从而让自身生成的图像更加真实，以骗过判别模型。判别模型则需要对生成的数据进行真假判别。通过这一互相博弈学习的过程，可以生成能以假乱真的数据。

发明内容

本发明的目的是提供一种生成融合两种不同曲风的音乐的方法。

为了达到上述目的，本发明的技术方案是提供了一种基于对偶生成对抗网络的音乐风格融合方法，其特征在于，包括如下步骤：

(1)获取用于训练的音频数据训练集，获取的音频数据训练集被人工分为两种不同曲风；

(2)将音频数据训练集中的音频文件转为波形图文件；

(3)建立对偶生成对抗网络模型，对偶生成对抗网络模型由三个独立的生成对抗网络构成，分别为GAN_A、GAN_B、GAN_F，生成对抗网络GAN_A、GAN_B、GAN_F的判别模型与生成模型均是采用卷积神经网络，其中：GAN_A用于学习第一种风格数据集的数据分布，GAN_B用于学习第二种风格的数据集的数据分布，GAN_F用于对两类数据进行风格融合；

(4)将步骤(2)得到的音频数据训练集中的两种不同曲风的音频文件分别输入GAN_A与GAN_B，对GAN_A与GAN_B进行训练，随后对GAN_F进行训练，GAN_F中的判别模型D_F将从GAN_A与GAN_B的判别模型D_A、D_B中学习并迭代更新，而GAN_F中的生成模型G_F也从GAN_A与GAN_B的判别模型D_A、D_B中获取反馈并试图和两者保持等距；

(5)由训练好的GAN_F生成融合了两种不同曲风的波形图文件，将波形图文件转为音频即可得到最终的结果乐段。

优选地，所述生成对抗网络的算法公式为：

式中，V(D，G)表示生成对抗网络优化问题的目标函数；P_data代表真实数据的分布；P_z代表噪声信号的分布；x表示输入的真实样本，当x～P_data，D(x)＝1，最大，D(x)表示x为真实数据的概率，表示真实数据的数学期望；z表示随机噪声，当z～P_z，D(G(z))＝0，最大，G(z)表示生成模型的输出，表示随机噪声的数学期望。

生成对抗网络的判别模型使V(D，G)最大，而生成对抗网络的生成模型是使V(D，G)最小。

优选地，所述步骤(4)中，训练GAN_A的判别模型时，D_A(A)>D_A(F)>D_A(B)；训练GAN_B的判别模型时，D_A(B)>D_A(F)>D_A(A)。

优选地，所述步骤(4)中，训练过程中用于衡量两个分布之间的距离，采用的是Wasserstein距离：

式中，W(P₁，P₂)表示分布P₁与分布P₂之间的Wasserstein距离；和分别表示样本x对于分布P₁与分布P₂的距离期望值。

本发明能够有效地对两种不同曲风的音乐进行融合生成新的序列，与音乐风格融合领域的现有方法相比，提出了使用波形图形文件做音乐生成的新思路。

附图说明

图1为本发明实施的流程算法；

图2为本方法中的对偶生成对抗网络模型图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明提供了一种基于对偶生成对抗网络的音乐风格融合方法，以下实施例中以将“民谣”与“爵士”两种曲风为例进一步说明本发明，包括以下步骤：

(1)获取用于训练的音频数据训练集，音乐融合学名“Fusion”，主要是60年代后期出现的爵士乐的子流派，它结合了几种音乐风格，如放克、摇滚、布鲁斯以及爵士乐的和声和即兴创作。这里获取的音频数据训练集将被人工分为“民谣”与“爵士”两种曲风。

(2)将音频数据训练集中的音频文件转为波形图(wav格式)文件。音乐领域的风格融合由于其自身独特的分层与序列结构，导致与图像的风格融合相比更具难度与挑战性。而使用波形图去训练可以让生成的样本在音色听感上更接近真实样本，也可以去借鉴图像风格融合领域里现有的模型。

(3)建立对偶生成对抗网络模型，模型由三个独立的生成对抗网络(GAN)构成，分别为：GAN_A，GAN_B，GAN_F。GAN_A用于学习第一种风格数据集的数据分布，GAN_B用于学习第二种风格的数据集的数据分布，GAN_F用于对两类数据进行风格融合。

最好的判别模型是使V(D，G)最大，而最好的生成模型是使V(D，G)最小。GAN的本质是学习数据分布，最终得到两个一样的数据分布的零和博弈问题。

本发明中的GAN的判别模型与生成模型均是采用卷积神经网络，针对图像有更快的训练速度且易于并行化。

先训练分别输入两种音乐流派数据集的GAN_A与GAN_B。

负责进行风格融合的GAN_F中的判别模型D_F将从GAN_A与GAN_B的判别模型D_A、D_B中学习并迭代更新。而生成模型G_F也从D_A、D_B中获取反馈并试图和两者保持等距。

在训练好的三组GAN的基础上，有一些限制来促进一半对一半的混合：例如如果GAN_F生成的抽样数据的分布，距离GAN_A和GAN_B都是一样的，就是一个完美的混合；否则，就会加上一个惩罚。

训练GAN_A的判别模型时候，D_A(A)>D_A(F)>D_A(B)。而训练GAN_B的时候也有类似限制。

而在训练过程中用于衡量两个分布之间的距离，采用的是Wasserstein距离。

式中，W(P₁，P₂)表示分布P₁与分布P₂之间的Wasserstein距离；和分别表示样本x对于分布P₁与分布P₂的距离期望值。直观上可以把W(P1，P2)理解为在这个路径规划下把土堆P₁挪到土堆P₂所需要的消耗。而Wasserstein距离就是在最优路径规划下的最小消耗。所以Wesserstein距离又叫Earth-Mover距离。

(5)由训练好的GAN_F生成融合了“民谣”以及“爵士”两种不同曲风的波形图文件，改变初始输入到GAN_A与GAN_B进行训练的数据类型也可以得到其他风格融合的产物。将波形图文件转为音频即可得到最终的结果乐段。

Claims

1.一种基于对偶生成对抗网络的音乐风格融合方法，其特征在于，包括如下步骤：

(2)将音频数据训练集中的音频文件转为波形图文件；

(3)建立对偶生成对抗网络模型，对偶生成对抗网络模型由三个独立的生成对抗网络构成，分别为GAN_A、GAN_B、GAN_F，生成对抗网络GAN_A、GAN_B、GAN_F的判别模型与生成模型均是采用卷积神经网络，GAN_A用于学习第一种风格数据集的数据分布，GAN_B用于学习第二种风格的数据集的数据分布，GAN_F用于对两类数据进行风格融合；

2.如权利要求1所述的一种基于对偶生成对抗网络的音乐风格融合方法，其特征在于，所述生成对抗网络的算法公式为：

3.如权利要求1所述的一种基于对偶生成对抗网络的音乐风格融合方法，其特征在于，所述步骤(4)中，训练GAN_A的判别模型时，D_A(A)＞D_A(F)＞D_A(B)；训练GAN_B的判别模型时，D_A(B)＞D_A(F)＞D_A(A)。

4.如权利要求1所述的一种基于对偶生成对抗网络的音乐风格融合方法，其特征在于，所述步骤(4)中，训练过程中用于衡量两个分布之间的距离，采用的是Wasserstein距离：