CN108846048A

CN108846048A - 基于循环神经网络和注意力机制的音乐流派分类方法

Info

Publication number: CN108846048A
Application number: CN201810538183.0A
Authority: CN
Inventors: 刘胜蓝; 冯林; 姚佳宁
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2018-05-30
Filing date: 2018-05-30
Publication date: 2018-11-20

Abstract

本发明公开了一种基于循环神经网络和注意力机制的音乐流派分类方法。首先，音乐信号通过短时傅里叶变换得到声谱图，利用双向循环神经网络根据声谱图进行特征学习，得到更高层次的抽象特征，同时利用并行的注意力模型，从声谱图中学习得到与特征表示相对应的注意力概率分布，用于设置音乐特征表示的不同权重。然后根据特征权重对特征进行加权平均，得到融合后的特征。最后利用融合后的音乐特征进行音乐流派的分类。本发明方法利用并行的循环神经网络和注意力模型，自动地根据音乐信号进行特征学习，并利用注意力概率分布为特征设置合理的权重，对特征进行加权平均后再进行分类，提高了音乐流派分类的准确性，避免了手工提取特征的复杂性和局限性。

Description

基于循环神经网络和注意力机制的音乐流派分类方法

技术领域

本发明涉及音乐检索领域，尤其涉及基于循环神经网络和注意力机制的音乐流派分类方法。

背景技术

通过人工的方式难以对海量的音乐数据进行分类和管理。对于用户而言，又需要能够在数据量庞大的音乐库中快速检索到感兴趣的音乐。所以音乐流派分类成为了音乐信息检索领域中热门的研究方向之一。

通过传统的分类框架进行分类，特征提取的过程复杂不易实现，需要该领域内较为专业的先验知识，而且通过人工提取的音乐特征缺乏通用性，只适用于单一的分类任务。因此本发明利用循环神经网络自动地实现特征学习并得到特征表示，同时利用注意力模型为特征设置不同的权重，得到更高级的音乐特征，从而提升音乐流派分类的准确性。

发明内容

本发明实施例提供一种基于循环神经网络和注意力机制的音乐流派分类方法，利用并行的循环神经网络和注意力模型自动地根据音乐信号进行特征学习，并为特征表示分配合理的注意力概率，提高了音乐流派分类的准确性，避免了手工提取特征的复杂性和局限性。

本发明提供的一种基于循环神经网络和注意力机制的音乐流派分类方法，包括以下步骤：

步骤S101：利用短时傅里叶变换对原始的音乐信号进行变换，得到对应的音乐信号的声谱图；

步骤S102：利用双向循环神经网络，根据音乐信号的声谱图进行特征学习，并得到特征表示，同时利用并行的注意力模型学习得到与特征表示相对应的注意力概率分布；

步骤S103：根据注意力模型学习到的特征权重对特征进行加权平均，得到融合后的特征，并利用该特征进行音乐流派的分类。

优选的，所述步骤S102，利用双向循环神经网络不断地学习并得到音乐信号的特征表示

优选的，利用并行的注意力模型学习得到与特征表示相对应的注意力概率分布；

首先给定由短时傅里叶变换得到的音乐信号声谱图X和标签y，以及双向循环神经网络F(W,X)，得到能够表征音乐信号特性的特征表示X_brnn；

同时，利用并行的由卷积神经网络实现的注意力模型，从声谱图中学习得到注意力的分数表示E，对注意力分数进行归一化得到注意力的概率分布，如下公示所示：

其中，α_i表示注意力概率分布α中第i个注意力概率值；e_i表示表示注意力分数E中的第i个分数值；T表示特征X_brnn中列向量的数量。

优选的，所述步骤S103：利用注意力概率分布α为特征表示X_brnn设置不同的权重，得到更高级的特征H，并利用softmax函数对H进行音乐流派的分类；

注意力模型由卷积神经网络实现。通过卷积操作，不断地将上一层特征抽象成具备更高级且更具判别能力的特征表示，并且，与线性注意力模型相比，卷积神经网络注意力模型结构更加复杂，能够更好地根据音乐信号进行学习，得到更加合理的注意力概率分布α；由于sigmoid激活函数在进行反向传播时，在饱和区变化缓慢，导数趋近于0，易发生梯度消失的问题，因此该发明中使用ReLU作为激活函数，该函数的定义如下：

f(x)＝max(0,x)

根据注意力模型学习到的特征权重，对双向循环神经网络学习到的特征进行加权平均，得到更能准确表征音乐特性的特征，公式如下所示：

其中H表示融合后的音乐特征；α_i表示注意力概率分布α中第i个注意力概率值；x_i表示由循环神经网络得到的特征表示X_brnn中第i个特征向量；

利用softmax对融合后的特征进行分类，得到分类结果在各个音乐流派类目上的概率分布，公式如下所示：

P(y|H)＝softmax(W^TH+b)

其中，表示给定特征H预测标签y的概率分布；W和b为学习得到的系数。

有益效果：循环神经网络由于其循环的网络结构，可以对前面的信息加以保留，用来帮助分析学习未来的信息。且与普通的循环神经网络相比，双向循环神经网络能够同时利用过去和未来的信息帮助分析学习当前节点状态，从而得到更准确的特征。

附图说明

图1为本发明基于循环神经网络和注意力机制的音乐流派分类算法流程图。

图2为本发明基于循环神经网络和注意力机制的音乐流派分类算法的具体实施例图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参照图1，本发明提出的基于循环神经网络和注意力机制的音乐流派分类方法，主要包括：

首先对音乐信号预处理得到声谱图。利用短时傅里叶变换对原始的音乐信号进行变换，得到对应的音乐信号的声谱图X。

其次，利用双向循环神经网络，根据音乐信号的声谱图X进行特征学习，并得到特征表示X_brnn，同时利用并行的卷积神经网络注意力模型，从声谱图中学习得到与特征表示相对应的注意力分数E，对注意力分数做归一化，得到注意力概率分布α，公式如下所示：

最后，得到的注意力概率分布用于为特征表示设置不同的权重，对特征进行加权平均，如下公示所示：

这里x_i代表双向循环神经网络得到的特征表示中第i个特征向量。最后利用融合后的特征进行音乐流派的分类，得到分类结果在各个音乐流派类目上的概率分布，公式如下所示：

P(y|H)＝softmax(W^TH+b)

最后，选取最大的概率所对应的类目标签作为最终的分类结果：

在对音乐流派进行分类时，源音乐信号经过短时傅里叶变换得到一个m×n维的声谱图。这里m＝513，n＝128。音乐流派的类目根据所选数据集中规定的类目数量而确定，本发明中音乐流派类目为10，分别是：

序号	流派类型	序号	流派类型
				1	摇滚	6	爵士
2	乡村	7	蓝调
				3	迪斯科	8	雷鬼
4	流行	9	嘻哈
				5	古典	10	金属

图2所示，本实施例的基于循环神经网络和注意力机制的音乐流派分类方法，包括以下步骤：

步骤201、对源音乐信号预处理。通过短时傅里叶变换对音乐信号进行变换，并得到相应的音乐信号声谱图。

步骤202、利用双向循环神经网络，根据声谱图进行特征学习，得到能够表征音乐特性的特征表示。

步骤203、同时，利用并行的卷积神经网络注意力模型，根据音乐信号声谱图学习得到注意力分数，并将其进行归一化，得到注意力的概率分布：

步骤204、将由双向循环神经网络得到的特征表示与卷积神经网络注意力模型得到的注意力概率分布对应相乘，从而得到重新分配不同权重的特征表示H，使其具备更高的表征能力：

其中，x_i代表双向循环神经网络得到的特征表示中第i个特征向量。

步骤205、将特征表示进行仿射变换，将其映射为n维的特征向量，其中n的值即为待分类流派类目的数量。

步骤206、使用softmax对n维的特征向量进行分类，得到分类结果在各个音乐流派类目上的概率分布，并选取最大概率对应的类目标签作为最终的分类结果。

本实施例，对源音乐信号进行短时傅里叶变换得到音乐信号的声谱图。通过双向循环神经网络，同时利用音乐信号中上下文信息自动地进行特征学习，得到更具表征能力的音乐特征表示，避免了手动提取特征的复杂性和局限性。同时，利用注意力模型学习得到与特征表示相对应的注意力概率分布，并将其重新分配给特征表示，使其不同的特征向量具备不同的权重比例，从而提升分类算法在音乐流派分类中的准确性。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于循环神经网络和注意力机制的音乐流派分类方法，包括以下步骤：

2.根据权利要求1所述基于循环神经网络和注意力机制的音乐流派分类方法，其特征在于，所述步骤S102，利用双向循环神经网络不断地学习并得到音乐信号的特征表示。

3.根据权利要求2所述基于循环神经网络和注意力机制的音乐流派分类方法，其特征在于，利用并行的注意力模型学习得到与特征表示相对应的注意力概率分布；

4.根据权利要求3所述基于循环神经网络和注意力机制的音乐流派分类方法，其特征在于，所述步骤S103：利用注意力概率分布α为特征表示X_brnn设置不同的权重，得到更高级的特征H，并利用softmax函数对H进行音乐流派的分类；

注意力模型由卷积神经网络实现：通过卷积操作，不断地将上一层特征抽象成具备更高级且更具判别能力的特征表示，并且，与线性注意力模型相比，卷积神经网络注意力模型结构更加复杂，能够更好地根据音乐信号进行学习，得到更加合理的注意力概率分布α；由于sigmoid激活函数在进行反向传播时，在饱和区变化缓慢，导数趋近于0，易发生梯度消失的问题，因此该发明中使用ReLU作为激活函数，该函数的定义如下：

f(x)＝max(0,x)

P(y|H)＝softmax(W^TH+b)