CN112466329A

CN112466329A - 一种改进dcnn的音乐流派分类方法

Info

Publication number: CN112466329A
Application number: CN202011280422.0A
Authority: CN
Inventors: 刘万军; 王佳铭; 曲海成; 王俊恺
Original assignee: Liaoning Technical University
Current assignee: Liaoning Technical University
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2021-03-09

Abstract

本发明公开了一种改进DCNN的音乐流派分类方法，包括：输入训练集和验证集；提取音频信息MFCC特征；生成频谱；频谱切割；输入网络模型；训练模型；验证模型；是否达到指定批次；输出模型。本发明通过一个函数来实现通道维数的自适应，来确保局域交叉通道相互作用的覆盖范围，更为有效地将ECA模块整合到现有的DCNN架构中，为网络模型带来明显的性能增益，进而提升音乐流派分类的工作效率。通过梅尔频率倒谱系数，模拟人体听觉系统的感知特点，进一步提升分类精度。

Description

一种改进DCNN的音乐流派分类方法

技术领域

本发明属于高光谱图像分类的技术领域，尤其涉及一种改进DCNN的音乐流派分类方法。

背景技术

现阶段，传统的音乐流派分类方法已慢慢被深度学习方法所取代。通过特征学习和深度结构来实现流派分类的方法相对传统方法的优势主要有：(1)规避了过于专业的乐理知识技术，不需要使用者设计人工特征；(2)具有良好的端到端学习结构，解决音乐流派相关问题具有一定优势；(3)可以大幅减轻专业人员的负担，提升相关工作效率。

深度卷积神经网络(DCNN)作为在音乐流派分类领域应用较为广泛的深度学习模型之一，也取得了较好的应用效果，为了在音乐流派分类的性能方面进一步改善DCNN，通道注意力机制展现出了巨大的潜力。为了取得更好的分类效果，现存的大多数方法都将开发更为复杂的注意力模块作为根本任务，但是与此同时，计算的复杂度也在不断攀升。

随着互联网技术的高速发展，人们可以获得海量音频、视频以及图像的途径愈发广泛。随着互联网曲库和用户多样化需求的不断丰富。对于可以满足用户，可以对海量音乐信息进行个性化检索的这一迫切需求。音乐流派分类方法从音乐的不同艺术表现形式入手，通过音乐自身的信息内容，对旋律、和声、节奏以及曲式等音乐要素形成的音乐流派进行分类检索。

在音乐流派分类领域中，传统的机器学习模型通过应用领域专家设计的人工特征，就已经达到了一定的分类效果。但是这类人工特征需要设计者的专业性极高，且部分特征缺乏通用性和可迁移性。随着深度学习模型的应用，这一具备良好学习结构的模型直接优化了设计人工特征这一流程，在减轻专业技术人员负担的同时大大提升了工作效率。由此，深度学习模型便迅速夺得了音乐流派分类技术的主流，并为解决更为复杂的音乐检索问题打下了坚实的基础。

由于深度卷积神经网络(DCNN)具有权值共享和较好的局部感知特性，对音乐数据频谱图象中音乐流派特征和节奏频率等要素的局部微弱变化感知能力较强，由此成为了实现音乐流派分类的一种常用模型。随着音乐流派分类技术的飞速发展，为了优化分类效果、提升深度学习模型的性能，将注意力机制引入卷积块凭借对各种DCNN架构的明显增益，显示出了极大的改进潜力。现有的开发注意力模块的方向大致分为两种：(1)增强特征聚合；(2)通道注意力与空间注意力相结合；

有效的通道注意是提升深度卷积神经网络在音乐流派分类效果上的关键。现有的将注意机制应用于深度神经网络的技术，主要还是以开发复杂的注意模块为主，并且在降低模型的复杂度上，有些直接采用降维方式对复杂度进行降低的方法，虽说达到了原有的目标，但是很大程度上，对通道与其权值的直接对应关系产生了影响。学习有效的通道注意力，在降低模型复杂度的同时，对DCNN进行性能上的优化，是一项很有意义的研究。

贾连印等2019年提出一种基于特征选择加权模糊支持向量机的音乐流派分类方法，通过reliefF计算提取特征的权重，保留权重和大于80％的大权重特征，通过模糊支持向量机的思想，对不同输入样本赋以相应隶属度，对于盲区不可分点，采用加权欧氏距离进行多类别概率划分。本发明涉及的深度卷积神经网络与此发明中采用的传统算法相比：避免了将特征选择和分类器进行分别设计，增强模型迁移性；深度学习模型自动学习特征的能力，提升模型泛化性；结合通道注意机制对模型的分类精度进行进一步地提升。

刘胜蓝等2018年提出一种基于循环神经网络和注意力机制的音乐流派分类方法，通过并行的循环神经网络和注意力模型，自动的根据音乐数据进行特征学习，通过注意力概率分布为特征设置合理权重，对特征加权平均后再分类。此发明在使用双向循环神经网络对基础特征进行学习提取和概率预测的同时，使用了另一个卷积神经网络来对基础特征进行注意力打分，而不是复用相同的特征进行注意力打分。分析对比实验数据得出，是否结合注意力模型及注意力模型的不同特征使用对分类精度影响较小，但是将并行的注意力模型替换为卷积神经网络后，分类精度大幅度提升。这充分说明了卷积神经网络对音乐流派分类任务的适用性。本发明涉及的无降维的局部跨通道交互策略，避免了注意力模型中的不当降维产生的副作用，降低模型复杂度，对用于音乐流派分类任务的卷积神经网络可以进行明显的性能增益。

吴梅梅等2017年提出一种二次加权的KNN音乐流派分类方法，通过对KNN算法的近邻判断和类属判断上进行加权，强化了分类时各类样本之间的差异性，进而改善交叉或重叠较多的样本的分类。本发明涉及的深度卷积神经网络模型在工作效率上明显优于此发明的KNN算法，对数据量较大的分类任务适应性强，分类效率更高。结合梅尔频率倒谱系数，进一步对分类精度进行提升。

上述方案中，所提出的音乐流派分类方法均对分类效果有所提升。但是在改进分类方法、优化分类效果的同时，也相应的增加了模型结构的计算负担。刘胜蓝等在音乐数据的特征表示上，通过并行的注意力模型得到了与其相对应的注意力概率分布，通过最大池化来聚合特性，虽说可以取得更强的学习能力，但是模型的复杂度也随之增高。

发明内容

基于以上现有技术的不足，本发明所解决的技术问题在于提供一种改进DCNN的音乐流派分类方法，有效地将ECA模块整合到现有的DCNN架构中，为网络模型带来明显的性能增益，进而提升音乐流派分类的工作效率；通过梅尔频率倒谱系数，模拟人体听觉系统的感知特点，进一步提升分类精度。

为了解决上述技术问题，本发明提供一种改进DCNN的音乐流派分类方法，包括以下步骤：

步骤1：输入训练集和验证集；

步骤2：提取音频信息MFCC特征；

步骤3：生成频谱；

步骤4：频谱切割；

步骤5：输入网络模型；

步骤6：训练模型；

步骤7：验证模型；

步骤8：是否达到指定批次，若否进入到步骤6；

步骤9：输出模型。

由上，本发明主要解决的是音乐流派分类领域网络模型性能与复杂度的权衡问题，尝试将一种用于提高DCNN性能的超轻量级注意模块(ECA)应用于音乐流派分类领域。对于学习有效的通道注意来讲，避免降维和一定程度的跨通道交互是极为重要的。因此使用了一种无降维的局部跨通道策略，该策略可以通过快速一维卷积有效地实现。并且将一维卷积核的大小，通过一个函数来实现通道维数的自适应，来确保局域交叉通道相互作用的覆盖范围。更为有效地将ECA模块整合到现有的DCNN架构中，为网络模型带来明显的性能增益，进而提升音乐流派分类的工作效率。通过梅尔频率倒谱系数，模拟人体听觉系统的感知特点，进一步提升分类精度。

进一步的，所述步骤2中，提取音频信息的方法为：

如果音乐数据的声道为立体声，则对音乐数据进行声道转换，由立体声转换为单声道，以此降低信息冗余；

然后通过对音乐数据的梅尔频率倒谱系数进行提取，将音乐的时域数据转换到频域，使音乐数据表示更加贴近人耳，变得更为简单和紧凑。

进一步的，所述步骤4中，将频谱切分为227×227像素的切片后输入网络模型，以此更加拟合人类的学习和认知规律；频谱切片以x轴表示时间，y轴表示频率，其中顶部为最高频率，底部为最低频率；以灰度显示频率的缩放幅度，其中白色为最大值，黑色为最小值。

由上，本发明主要解决音乐流派分类领域网络模型优化的问题，提出一种不降维的局部跨通道交互策略对DCNN进行优化。由于通道注意力机制可以对各通道的特征进行动态调整，而ECA-Net能够通过一种与通道维数相关的函数，自适应确定一个参数k，通过以核函数大小为k的快速一维卷积，实现适当的跨通道交互去建立通道注意力机制，能在引入很少的额外参数和可忽略的计算的同时，对DCNN带来显著的性能提升。通过结合梅尔频率倒谱系数对音乐流派进行分类，能够更为贴近人耳听觉系统的感知，强化音乐数据表示，提高分类精度。

本发明提出在没有降维条件下的局部跨通道交互的DCNN，来完成音乐流派的分类任务。由于降维容易产生相应的副作用，所以在不降低维数的通道级全局平均池化之后，通过考虑每个通道及其K个邻居来捕获局部跨通道交互信息。通道注意由大小为K的快速一维卷积来有效实现，K的大小由通道维数自适应确定。通过引入很少的额外参数，以及简单的计算，带来了较为明显的性能增益。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下结合优选实施例，并配合附图，详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例的附图作简单地介绍。

图1为本发明的改进DCNN的音乐流派分类方法的流程图。

图2为本发明的音频处理得到的频谱切片图。

具体实施方式

下面结合附图详细说明本发明的具体实施方式，其作为本说明书的一部分，通过实施例来说明本发明的原理，本发明的其他方面、特征及其优点通过该详细说明将会变得一目了然。在所参照的附图中，不同的图中相同或相似的部件使用相同的附图标号来表示。

如图1所示，本发明的改进DCNN的音乐流派分类方法，其特征在于，包括以下步骤：

步骤1：输入训练集和验证集；

步骤2：提取音频信息MFCC特征；

步骤3：生成频谱；

步骤4：频谱切割；

步骤5：输入网络模型；

步骤6：训练模型；

步骤7：验证模型；

步骤8：是否达到指定批次，若否进入到步骤6；

步骤9：输出模型。

模型提取音频信息的方法为：

如果音乐数据的声道为立体声，则对音乐数据进行声道转换，由立体声转换为单声道，以此降低信息冗余；然后通过对音乐数据的梅尔频率倒谱系数进行提取，将音乐的时域数据转换到频域，使音乐数据表示更加贴近人耳，变得更为简单和紧凑。

模型将频谱切分为227×227像素的切片后输入网络模型，以此更加拟合人类的学习和认知规律。音频处理得到的频谱切片如图2所示。

频谱切片以x轴表示时间，y轴表示频率，其中顶部为最高频率，底部为最低频率；以灰度显示频率的缩放幅度，其中白色为最大值，黑色为最小值。

梅尔频率倒谱系数：

人体的听觉系统可以比作一个复杂的非线性系统，其对声音信息的感知可以近似是音高强度与声音赫兹频率呈现的一种对数关系，并非是简单的线性关系。在梅尔刻度下，听觉系统对音调的感知强度与梅尔频率呈现出一种线性关系，假设两个声音信息的梅尔频率相差两倍，那么人对两者的音调感知也相差两倍。梅尔频率与赫兹频率之间可以通过公式进行简单的换算，一个常见的将f赫兹频率换算为m梅尔频率的换算公式Fmel如公式(1)所示。

其中，f_hz表示声音在赫兹刻度下的频率值，f_mel表示声音在梅尔刻度下的频率值。

注意力机制引导计算资源向输入信号中信息量最大的部分进行倾斜，近些年大量用于深度神经网络中，在很多任务中对性能有提升较大。它一般是和门限函数或者序列方法联合使用。其中SE block作为一种轻量级的门限机制，专门用于对各通道的关联性进行建模，通过动态调整各通道特征和增强网络表示能力受到广泛关注。

通道注意力机制：

令一个卷积块的输出为X∈R^W×H×C，其中W为宽度，H为高度，C为通道尺寸(滤波器数量)。因此，SE块中的通道权重可以计算为：

ω＝σ(f_{W1,W2}(g(X)))， (2)

其中

该公式表示全局平均channel-wise池化(GAP)，σ是一个Sigmoid函数。令y＝g(X)，f{W1,W2}采用这种形式：

f_{W1,W2}(y)＝W₂ReLU(W₁y)， (3)

其中ReLU表示经过整流的线性单元。为了避免模型复杂度过高，将W1和W2的大小分别设置为

可以看出，f{W1,W2}包含了通道注意块的所有参数。虽然上述公式的降维可以降低模型的复杂度，但是它破坏了通道与其权值之间的直接对应关系。

如等式(2)所示，通道与其对应的权重的关系通过降维变为了间接的。为了验证其效果，我们将原始SE块与它的三个变体(即SE-Var1，SE-Var2和SEVar3)进行了比较，如下表所示。

表1使用ResNet-50作为骨干模型比较各种通道注意模块。⊙表示逐元素乘积；GC和C1D分别表示组卷积和一维卷积；k是C1D的内核大小。

其中，SE(Global pooling-FC[r]-ReLu-FC-sigmoid)，FC[r]就是使用压缩比(降维)为r的FC层。SE-Var1(0参数的SE，Global pooling-sigmoid)。SE-Var2(Globalpooling-[⊙]-sigmoid)，[⊙]为点积操作。SE-Var3(Global pooling-FC-sigmoid)。其中SE-Var2的Wvar2是对角矩阵，涉及C参数；SE-Var3的W是一个完整的矩阵，涉及C×C参数。

SE-Var1不带参数仍然优于原始网络，这表明通道的注意力确实能够提高DCNN的性能。同时，SE-Var2独立学习每个通道的权重，这比SE块略胜一筹，但涉及的参数较少。这可能表明通道及其权重需要直接关联，而避免降维比考虑非线性通道相关性更为重要。此外，采用单个FC层的SE-Var3的性能要优于两个FC层，并且SE块的尺寸减小。以上所有结果清楚地表明，避免降维有助于学习有效的通道注意力。因此，我们采用了不降低通道尺寸的ECA模块。

SE-Var3考虑跨通道交互而SEVar2不考虑跨通道交互，因此SE-Var3可获得更好的性能。这个结果表明跨渠道互动对学习渠道注意力是有益的。但是，SEVar3需要大量参数，从而导致较高的模型复杂性，尤其是对于较大的通道数。SE-Var3结果更出色因为考虑了通道间信息交流(cross-channel interaction)。SE-GC1、SE-GC2和SE-GC3分别表示在SE-Var3基础上使用不同数量的group的Group convolution操作。

给定一个FC层，组卷积将它分成多个组，并在每个组中独立地执行线性变换。组卷积的SE块写为：σ(GC_G(y))＝σ(W_Gy)。

WG为块对角矩阵，其参数数目G是组的数。但是如表1所示，不同分组的SE-GC，这说明分组卷积并不是一种有效的跨通道交互利用方案。并且，过多的组卷积会对内存访问的成本产生大量的提升。通过对可视化的通道特征y进行观察，可以发现其表现出了较为明显的局部周期性。所以，采取了与上述不同的捕获局部的跨通道交互方式。也就是只考虑每个通道与其K近邻之间的相互作用，由此，yi的权重可以计算为：

代表yi的k个相邻通道的集合。由公式(5)可以看出，实现了局部跨通道交互的捕获，并且这种局部的约束性也可以避免跨所有通道交互的无用功，进而达到更高的模型效率。这样的话，每个通道的注意力模块涉及到的参数数目都是k*C，为了进一步降低模型的复杂度，达到更高的效率，对所有通道使用相同的倾斜参数，公式如下：

所以，高效通道注意力(ECA)模块可以很容易的通过与k大小的卷积核进行快速一维卷积来实现，公式如下：

ω＝σ(C1D_k(y))， (7)

其中C1D表示一维卷积，如表1所示，通过引入本地跨通道交互，ECA在公式(5)中的SE-Var3和ECA-NS得到的效果较为接近，但因为参数数量的明显差异，模型复杂度要低很多。

核大小k的自适应选择：在我们的ECA模块(公式7)中，内核大小k是一个关键参数。由于使用一维卷积来捕获局部的跨通道交互，k决定了交互的覆盖范围，不同的通道数和不同的CNN架构的卷积块可能会有所不同。尽管k可以手动调优，但它将消耗大量计算资源。K与通道维数c有关，这是合理的。一般认为，通道尺寸越大，长期交互作用越强，而通道尺寸越小，短期交互作用越强。换句话说，k和C之间可能存在某种映射

最简单的映射关系是线性函数，即

但是，以线性函数为特征的关系表示太过局限，因此将参数化指数函数引入具备较强的可行性。在经典的核技巧中，作为核函数的指数族函数(如高斯)被广泛应用于处理未知映射问题，且信道维数C(即滤波器数量)通常被设置为2的整数次幂。因此，我们通过扩展线性函数

引入一个指数函数来近似映射

即：

然后，在给定通道尺寸C的情况下，内核大小k可以通过以下方式自适应确定：

这里|t|_odd表示t的最接近奇数。实验中，γ和b分别设置为2和1。显然，通过映射ψ，高维通道具有较长的范围交互作用，而低维通道则通过使用非线性映射进行较短的范围交互作用。

以上所述是本发明的优选实施方式而已，当然不能以此来限定本发明之权利范围，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和变动，这些改进和变动也视为本发明的保护范围。