CN112199548A

CN112199548A - 一种基于卷积循环神经网络的音乐音频分类方法

Info

Publication number: CN112199548A
Application number: CN202011038361.7A
Authority: CN
Inventors: 王振宇; 高雨轩
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2021-01-08
Anticipated expiration: 2040-09-28
Also published as: CN112199548B

Abstract

本发明公开了一种基于卷积循环神经网络的音乐音频分类方法，所述方法包括以下步骤：S1、对音乐的音频进行标注得到音乐标注数据集；S2、对数据集采用音乐数据增强方法对训练数据进行增强；S3、将数据集中音乐的音频信号进行分帧与加窗，通过短时傅里叶变换和梅尔尺度变换得到音频对应的梅尔声谱；S4、构建基于卷积循环神经网络的音乐音频分类模型；S5、将训练数据的梅尔声谱输入到基于卷积循环神经网络的音乐音频分类模型进行迭代训练；S6、输入音乐对应的梅尔声谱，对音乐的标签进行预测。本发明所述的方法能提高网络对声谱特征的提取能力，得到更好的音乐整体特征表示，从而提高音乐音频分类的准确性。

Description

一种基于卷积循环神经网络的音乐音频分类方法

技术领域

本发明涉及音乐分类领域，更具体地，涉及一种基于卷积循环神经网络的音乐音频分类方法。

背景技术

随着多媒体与数字技术的迅猛发展，网上的数字音乐资源越来越多，消费者的音乐消费习惯从实体音乐转向了在线音乐平台。海量的音乐资源和巨大的在线曲库，激发着用户产生各种各样复杂的音乐检索的需求，如用户在某一时刻渴望收听某种流派或具有某种情感的歌曲，此时音乐标签就对音乐检索的质量至关重要。除了音乐检索以外，许多推荐、订阅场景也需要歌曲的类别信息，为用户提供更精准的内容。

目前对音乐类别的标注主要还是通过人工和社会化标注。人工标注对标注者的音乐知识与音乐素养有一定的要求，音乐媒体平台通常聘用音乐专家进行标签标注，虽然能保证音乐标签具有很高的准确性，但是成本也会很高。社会化标注通常指通过开放的方式，允许非专业的普通用户对标签进行标注，通过对标注数据的统计生成最终的音乐标签，但是这些标签存在很多类别标记错误的情况。传统音乐分类方法使用的是手工提取的特征，这些特征往往需要专业软件进行提取，往往不具有普适性，而且传统机器学习算法又难以应对现今海量的音乐数据。基于深度学习方法通过网络自动学习音频特征表示，其中常用卷积神经网络进行声谱特征提取。

现如今，学者们只是将神经网络当作分类器来使用，网络的输入还是一些手工音频特征。如Weninger等人(Weninger F,Eyben F,Schuller B.On-line continuous-timemusic mood regression with deep recurrent neural networks[C]//2014 IEEEInternational Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2014:5412- 5416.)从声谱上以一秒为间隔提取底层特征，以这些底层特征为基础计算回归系数、百分位数等统计特征作为循环神经网络的输入，实验表明基于循环神经网络的模型优于支持向量机与多层感知机；Sigtia等人(Sigtia S,Dixon S.Improved musicfeature learning with deep neural networks[C]//2014 IEEE internationalconference on acoustics,speech and signal processing(ICASSP).IEEE,2014:6959-6963.)首先对频谱进行一些预处理抽取统计特征，然后输入神经网络进行音乐分类，同时测试了不同激活函数与优化算法对分类性能的影响；Arjun等人提出了一种采用流形学习技术的两层神经网络用于音乐流派分类，得出当数据以丰富的特征空间作为表示时，神经网络的分类效果可与经典机器学习模型相当的结论。这些方法仍然依赖于手工选取特征，无法发挥深度神经网络的强大学习能力。

在分类方法的选择上，大多数学者将循环神经网络和卷积神经网络相结合进行实验。例如，Choi(Choi K,Fazekas G,Sandler M,et al.Convolutional recurrent neuralnetworks for music classification[C].international conference on acoustics,speech,and signal processing,2017:2392-2396.)等人首先提出将卷积神经网络和循环神经网络结合进行音乐分类，在实验中对比了不同循环神经网络的结构对音乐分类性能的影响； Wang等人在卷积循环神经网络上进行了改进，首先使用卷积神经网络抽取声谱的深层抽象特征，然后对产生的特征图进行多方向地扫描生成多个特征序列，将这些特征序列输入到多个 LSTM网络中进行音乐标注。Dong等人提出了一种双向卷积递归稀疏网络用于音乐情感分类，该网络能够自适应地从声谱中学习到包含时序信息的情感显著性特征。上述方法存在的不足是没有对卷积结构进行有效设计，模型的卷积网络部分较为简单，局部特征提取能力较弱。

综上所述，目前方法存在的问题是：手工特征的设计需要音乐领域的背景知识，不同分类任务的特征往往并不通用。因为音乐本身具有版权的问题，标注音乐标签又需要一定的音乐背景知识，标注数据稀缺。目前的网络模型设计也存在不足，缺少针对音频特点的有效设计。

发明内容

本发明针对上述现有技术的不足，提供了一种基于卷积循环神经网络的音乐音频分类方法，能够有效提高音乐音频分类的准确性。

本发明至少通过如下技术方案之一实现。

一种基于卷积循环神经网络的音乐音频分类方法，所述方法包括以下步骤：

S1、对音乐的音频进行标注以得到带有音乐标签的音乐标注数据集，将音乐标注数据集分为划分为训练集、验证集和测试集；

S2、采用包括音频叠加、音频调速、音强调节、音调调节的音乐数据增强方法对训练集的数据进行增强；

S3、将音乐标注数据集中音乐的音频信号进行分帧与加窗，通过短时傅里叶变换和梅尔尺度变换得到音频对应的梅尔声谱；

S4、构建基于卷积循环神经网络的音乐音频分类模型，包括基于结合通道注意力机制的一维残差门控卷积神经网络的音乐表示学习、基于双向LSTM网络的音乐序列建模与基于注意力机制的序列特征聚合；

S5、将经过步骤3处理的训练集的数据的梅尔声谱输入到基于卷积循环神经网络的音乐音频分类模型进行迭代训练；

S6、输入音乐对应的梅尔声谱至训练获得的基于卷积循环神经网络的音乐音频分类模型，对音乐的标签进行预测。

优选的，步骤S2所述的音乐数据增强方法是对音乐的原始音频信号进行增强，其中音频叠加是所需音频为同类别下的两首不同音乐的音频，设一首音乐的原始信号为S₁，同类别下的另一首音乐的原始信号为S₂，经过音频叠加后的增强音频S_a由下式得到：

S_a＝αS₁+(1-α)S₂

上式为音频叠加的计算过程，两段音乐以α的比例进行混合，其中α的值在α∈(0,1)的均匀分布中随机选取；

所述的音频调速是对原始音乐的速度进行加速或变慢至原来的α倍，α的值在α∈(0.9,1.)1的均匀分布中随机选取，对多出或缩短的时长进行剪切或填补；

所述的音强调节是指对原始音乐的响度做改变，将原始音频的响度增加或减少|α|dB，其中α的值在α∈[-10,10]的非零整数区间内随机选取；

所述的音调调节是指对音频增加或降低|α|个半音(semitone)，其中α的值在α∈[-1,1]的非零整数区间内随机选取。

优选的，步骤S3中所述的梅尔声谱在响度上进行对数据进行处理，将步骤S3的梅尔声谱的响度值通过使用非线性函数log(1+C|A|)对频谱图振幅进行压缩，其中A是音频振幅，C 是声谱图序列中最大数值的倒数，并在其后进行归一化，解决因为不同音乐音频的格式存在异构问题，所导致的深度学习模型在训练时收敛速度缓慢的问题。

优选的，步骤S4所述的基于卷积循环神经网络的音乐音频分类模型主要由音乐表示学习层、音乐序列建模与序列特征聚合层、全连接层构成；

其中，音乐表示学习层包括若干个结合通道注意力机制的一维残差门控卷积块(RGLU- SE block)，第一最大池化层和一维卷积层组成，其通过卷积神经网络对声谱中的光谱描述符 (spectro-temporal descriptors)进行学习，通过堆叠若干个结合通道注意力机制的一维残差门控卷积网络(RGLU-SE block)进行声谱局部特征的提取，配合池化操作进行特征降维，最后音乐表示学习层的一维卷积层输出的卷积特征图中包含音频信号中的高层抽象特征图；

音乐表示学习层中的结合通道注意力机制的一维残差门控卷积块(RGLU-SEblock)主要由两个残差门控卷积单元、SE结构与第二最大池化层组成，其中残差门控卷积单元一维卷积层(Conv1D)中的感受野覆盖整个声谱的频率范围，将其与残差连接相结合，网络信息的流向为下式：

σ＝σ(Conv1D₂(X))

上式的σ表示Sigmoid激活函数，信息的流向有以下两种方向：

(1)以1-σ的概率不经过任何变换直接通过，对应中的

部分，其中X为声谱序列，

表示按位相乘；

(2)以σ的概率经过网络变换通过，对于卷积神经网络来说就是会进行卷积操作，与式中的

相对应，其中Conv1D₁(X)、Conv1D₂(X)表示两个相同的一维卷积，但是权值不共享，σ(Conv1D₂(X))表示对Conv1D₁(X)进行sigmoid激活操作；

音乐序列建模与序列特征聚合层对卷积学习到的特征图进行进一步的学习，音乐序列建模与序列特征聚合层使用双向长短期记忆网络(LSTM)对卷积特征图进行序列建模，得到不同时刻的声谱序列特征；在该层中使用注意力机制对不同时刻的声谱序列特征进行聚合，音乐表示学习层的一维卷积层输出的卷积特征图经过音乐序列建模与序列特征聚合层将会得到音乐整体特征；

全连接层对音乐整体特征包含的信息进行进一步的整合和筛选，通过基于多层感知机 (MLP)的前馈神经网络(FNN)学习特征间的高阶交互关系，最终得到音乐音频的分类结果。

优选的，步骤S5所述的梅尔声谱不经过步骤S2，即输入网络的梅尔声谱是原始音频经过步骤S3所得。

优选的，步骤S5所述的迭代训练包括以下步骤：

步骤S51、利用步骤S1音频数据集通过结合通道注意力机制的一维残差门控卷积块 (RGLU-SE block)的堆叠学习得到声谱卷积特征图；

步骤S52、将声谱卷积特征图按照时间方向扫描生成时域特征序列；

步骤S53、时域特征序列经过双向长短期记忆网络(LSTM)学习得到音乐序列特征；

步骤S54、计算每个时刻音乐序列特征的注意力权重，注意力权重的计算为：

a＝softmax(W₂φ(W₁X^T))

其中W₁为声谱序列的权重矩阵，W₂是经过非线性变换后序列的权重矩阵，X为双向LSTM网络的输出序列，Softmax函数保证所有特征序列的注意力权重加起来等于1，φ表示Tanh激活函数，得到注意力权重向量a之后，序列特征的整体特征表示v如下：

步骤S55、用注意力权重对每个时刻的音乐序列特征进行加权求和，得到音乐整体特征表示；

步骤S56、将音乐整体特征表示输入全连接网络进一步学习，在输出层得到音乐音频分类结果。

优选的，步骤S51具体如下：

其中a_i,j为音频数据集中特征图的宽与高，i与j分别表示声谱卷积特征图的宽与高，h 表示卷积层采用的激活函数，f_w表示卷积核的宽，f_h表示卷积核的高，b为卷积的偏置，w_m,n和x_i+m,j+n分别表示卷积核的权重矩阵与数据输入，其中m和n表示卷积核的高度和宽度；在基于声谱的一维卷积操作中，f_h与声谱的频率范围l有如下关系：

l＝f_h

即一维卷积中卷积核的高度等于声谱中频率的范围，卷积核的感受野覆盖整个频率轴，以便于捕捉特定的频率模式，卷积运算表示为：

其中X表示第二一维卷积层的输入声谱序列，W为卷积层的权值矩阵，设卷积核的输出为R，偏置矩阵为B，声谱中频率最大值为L，那么卷积运算表示成：

R＝conv(X,W)+B

R的宽度R_w由下式得到：

t表示声谱时间轴上的长度，即声谱的宽度，p表示填充的大小，f_w表示卷积核的宽，s 表示卷积的步长，由于一维卷积只在声谱的时间维度上进行平移，所以输出的特征图R的高度R_h为：

R_h＝1

即R_h与声谱的频率范围l和卷积核的高f_h无关，声谱经过一维卷积之后维度变为1。

优选的，步骤S6所述的对音乐的标签进行预测具体包括：通过音乐表示学习层提取出声谱的局部卷积特征图、通过基于双向LSTM网络对卷积特征图进行音乐序列建模、通过RGLU- SE block进行聚合、通过全连接网络进行信息整合、通过输出神经元得到音频类别的预测值。

本发明与现有技术相比，具有的优点和有益效果是：

1.本发明将音乐的音频信号转换成声谱作为统一表示，避免了手工选取特征存在的问题。音乐的标注工作难度较大，有限的标注数据不利于深度学习模型的训练，对此本发明结合音乐信号的特点采用了多种音乐数据增强方法对音乐数据进行增强。

2.本发明根据声谱的特点，提出了结合通道注意力机制的一维残差门控卷积结构。残差结构与门控机制的结合，不仅能缓解网络的退化问题，还能进一步提高门控单元对信息流的选择能力，基于通道的注意力机制使得模型可以学习到不同通道声谱特征的重要程度，本发明将该结构用于音乐表示学习。

3.本发明将提出的结合通道注意力机制的一维残差门控卷积结构与双向LSTM网络和注意力机制结合，其中卷积结构用于提取声谱深层次的局部特征，双向LSTM网络进行时域信息的总结，使得模型能够学习到音乐中的时序信息，同时使用注意力机制为不同时刻循环神经网络的输出分配不同的注意力权重，从而得到更好的音乐整体特征表示，提高音乐音频分类的性能。

附图说明

图1为本发明实施例的整体流程图；

图2为本发明实施例的基于卷积循环神经网络的音乐音频分类模型的整体架构图；

图3为本发明实施例的基于RGLU-SE block的音乐表示学习层的架构图；

图4为本发明实施例的基于通道注意力机制的一维SE结构图；

图5为本发明实施例的通过卷积特征图构造时域特征序列的过程图。

具体实施方式

下面结合附图和实施例对本发明的技术方案做进一步的说明，但本发明的实施方式不限于此。

如图1所示，本实施例提供了一种基于卷积循环神经网络的音乐音频分类方法，包括以下步骤：

S1、对音乐的音频进行标注以得到带有音乐标签的音乐标注数据集。此处标注的数据集大小为1000；使用的音乐标注数据集有两种，分别是GTZAN数据集和MagnaTagATune数据集；将GTZAN数据集按照8:1:1比例分别划分为训练集、验证集和测试集，而MagnaTagTune 数据集包含从0～f的16个子目录，将0～b目录中的数据用作训练集，c目录中的数据集作为验证集，最后剩下的d～f目录中的数据作为测试集。

S2、对音乐标注数据集采用音频叠加、音频调速、音强调节、音调调节的音乐数据增强方法对训练数据进行增强。本实施例设置音频叠加的音乐样本占步骤S1中的总训练样本的 50％；

S3、将音乐标注数据集中音乐的音频信号进行分帧与加窗，通过短时傅里叶变换和梅尔尺度变换得到音频对应的梅尔声谱。本实施例设置采样率为16kHz，转梅尔声谱时采用的傅立叶变换窗口长度为512，窗口跳跃大小为256，频率分箱数为128；

S4、构建基于卷积循环神经网络的音乐音频分类模型，包括基于结合通道注意力机制的一维残差门控卷积神经网络的音乐表示学习、基于双向LSTM网络的音乐序列建模与基于注意力机制的序列特征聚合。

S5、将训练数据的梅尔声谱输入到基于卷积循环神经网络的音乐音频分类模型进行迭代训练。

S6、输入音乐对应的梅尔声谱，利用训练获得的基于卷积循环神经网络的音乐音频分类模型对音乐的标签进行预测。

其中，步骤S2所述的音频叠加是所需音频为同类别下的两首不同音乐的音频，设一首音乐的原始信号为S₁，同类别下的另一首音乐的原始信号为S₂，经过音频叠加后的增强音频S_a可由下式得到：

S_a＝αS₁+(1-α)S₂

上式展示了音频叠加的计算过程，两段音乐以α的比例进行混合，其中α的值在α∈(0,1) 的均匀分布中随机选取。

其中，步骤S2所述的音频调速是对原始音乐的速度进行轻微地加速或变慢至原来的α倍，α的值在α∈(0.9,1.1)的均匀分布中随机选取，对多出或缩短的时长进行剪切或填补。

其中，步骤S2所述的音强调节是指对原始音乐的响度做轻微的改变，将原始音频的响度增加或减少|α|dB，其中α的值在α∈[-10,10]的非零整数区间内随机选取。

其中，步骤S2所述的音调调节是指对音频增加或降低|α|个半音(semitone)，其中α的值在α∈[-1,1]的非零整数区间内随机选取。

其中，步骤S3中所述的梅尔声谱在响度上进行了对数处理，将梅尔声谱的响度值通过使用非线性函数log(1+C|A|)对频谱图振幅进行压缩，其中A是音频振幅，C是声谱图序列中最大数值的倒数，并在其后进行归一化，解决因为不同音乐音频的格式存在异构问题，所导致的深度学习模型在训练时收敛速度缓慢的问题。此处归一化的区间为[0,1]，振幅压缩的具体公式如下，其中S表示梅尔声谱计算结果，topDb为最大分贝：

P＝max(20log10(S))-topDb

其中，步骤S4所述的基于卷积循环神经网络的音乐音频分类模型其整体架构如图2所示，主要由音乐表示学习层、音乐序列建模与序列特征聚合层、全连接层三个主要层次构成。

音乐表示学习层通过卷积神经网络对声谱中的光谱描述符(spectro-temporaldescriptors)进行学习，输出包含声谱中高层抽象信息的特征图(Feature map)。该层通过堆叠多个结合通道注意力机制的一维残差门控卷积网络(RGLU-SE block)进行声谱局部特征的提取，配合池化操作进行特征降维，最后卷积网络层输出的特征图中包含了音频信号中的高层抽象特征。表 1为音乐表示学习层的具体参数配置。

结合通道注意力机制的一维残差门控卷积(RGLU-SE)结构如图3所示，主要由两个残差门控卷积单元、一个压缩-激发网络(SE)与一个最大池化层(MaxPooling)组成。其中一维卷积(Conv1D)的感受野覆盖整个声谱的频率范围，将其与残差连接相结合，网络信息的流向为下式：

σ＝σ(Conv1D₂(X))

上式的σ表示Sigmoid激活函数，信息的流向有以下两种方向：(1)以1-σ的概率不经过任何变换直接通过，对应中的

部分，其中X为声谱序列，

表示按位相乘；(2) 以σ的概率经过网络变换通过，对于卷积神经网络来说就是会进行卷积操作，与式中的

相对应。其中Conv1D₁(X)、Conv1D₂(X)表示两个相同的一维卷积，但是权值不共享，σ(Conv1D₂(X))表示对Conv1D₁(X)进行sigmoid激活操作

图3中的批量归一化(BN)层表示能够起到加速训练、降低网络过拟合风险等作用；压缩-激发网络(SE)对其进行一维化处理，其结构如图4所示，最大池化层(MaxPooling)用于减特征图的大小。

图4展示了一维SE结构图，主要由压缩(Squeeze)和激发(Excitation)两个模块组成。压缩模块对应于图中的全局平均池化(Global pooling)，将时间维度的大小压缩为1，每个通道被转换为一个实数，通过池化操作计算每个通道对应的统计信息，完成时域特征的总结。激发模块的主要作用是抓取通道之间的关系，实现了门控机制的效果，图中C是特征数量，r是缩放比例。两个全连接层(FC)对压缩操作得到的每个通道的统计信息进行学习，在两个全连接层中加入修正线性单元(ReLu)，显式地建模特征通道间的相关性，能够捕捉不同通道之间潜在的非线性关系。SE结构的最后是一个重新加权的操作，将激发模块输出的权重当作对应特征通道的重要程度，通过Sigmoid的输出值与原本的输入对应通道(Scale)相乘，实现特征的加权，最终实现基于通道的注意力机制。

表1音乐表示学习层的具体参数配置为：

其中F表示卷积核的个数，K表示卷积核的大小，S表示卷积步长。

音乐序列建模与序列特征聚合层对卷积学习到的特征图进行进一步学习，在该层中使用双向长短期记忆网络(LSTM)对卷积输出的特征图进行序列建模，得到不同时刻的声谱序列特征；在该层中使用注意力机制对不同时刻的声谱序列特征进行聚合，卷积特征图经过该层将会得到音乐的整体特征表示。

对于本实施例，将音乐表示学习层、音乐序列建模与序列特征聚合层、全连接层结合后的网络具体参数如表2，其中F表示卷积核的个数，K表示卷积核的大小，S表示卷积步长， U表示隐藏层神经元的个数：

表2各层具体参数

其中，步骤S5中所述的迭代训练包括以下步骤：

步骤S51、利用步骤S1的两个训练集均通过结合通道注意力机制的一维残差门控卷积块 (RGLU-SE block)的堆叠学习得到声谱卷积特征图。此处本实施例得到的卷积特征图大小为 (22,256)。

步骤S52、将声谱卷积特征图按照时间方向扫描生成时域特征序列，如图4和图5所示。此处本实施例得到的时域特征序列长度为22，每个时刻的特征长度为256。

步骤S54、计算每个时刻音乐序列特征的注意力权重，注意力权重的计算公式为：

a＝softmax(W₂φ(W₁X^T))

其中W₁为声谱序列的权重矩阵，W₂是经过非线性变换后序列的权重矩阵，X为双向LSTM网络的输出序列，归一化指函数(Softmax)保证所有特征序列的注意力权重加起来等于1，φ表示Tanh激活函数，t表示声谱时间轴上的长度，即声谱的宽度，得到注意力权重向量a之后，序列特征的整体特征表示v的计算方式如下：

步骤S55、用计算出的注意力权重对每个时刻的音乐序列特征进行加权求和，得到音乐整体特征表示。此处本实施例得到的音乐整体特征表示长度为256。

步骤S56、将音乐整体特征表示输入全连接网络进一步学习，在输出层得到音乐音频分类结果。此处本实施例采用的优化算法为自适应矩估计(Adam)，训练时的批大小为16，采用提前停止(Early Stopping)的停止轮次为5。

其中，步骤S6所述的利用训练获得的基于卷积循环神经网络的音乐音频分类模型对音乐的标签进行预测具体包括：通过音乐表示学习层提取出声谱的局部卷积特征图、通过基于长短期记忆网络(LSTM)对卷积特征图进行音乐序列建模、通过注意力机制序列特征进行聚合、通过全连接网络进行信息聚合、通过输出神经元得到音频类别的预测值。

本实施例采用keras 2.2.4开源平台，其中Tensorflow的版本为1.10.0，编程语言Python3.6， GPU加速组件是CUDA 9.0、cuDNN 7.0.5构建和训练模型，本实施例在运行时显卡需有6G 以上可分配的显存。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于卷积循环神经网络的音乐音频分类方法，其特征在于，所述方法包括以下步骤：

S5、将经过步骤3的训练集的数据的梅尔声谱输入到基于卷积循环神经网络的音乐音频分类模型进行迭代训练；

2.根据权利要求1所述的一种基于卷积循环神经网络的音乐音频分类方法，其特征在于，步骤S2所述的音乐数据增强方法是对音乐的原始音频信号进行增强，其中音频叠加是所需音频为同类别下的两首不同音乐的音频，设一首音乐的原始信号为S₁，同类别下的另一首音乐的原始信号为S₂，经过音频叠加后的增强音频S_a由下式得到：

S_a＝αS₁+(1-α)S₂

上式为音频叠加的计算过程，两段音乐以α的比例进行混合，其中α的值在α∈(0,1)的均匀分布中随机选取；所述的音频调速是对原始音乐的速度进行加速或变慢至原来的α倍，α的值在α∈(0.9,1.1)的均匀分布中随机选取，对多出或缩短的时长进行剪切或填补；

3.根据权利要求2所述的一种基于卷积循环神经网络的音乐音频分类方法，其特征在于，步骤S3中所述的梅尔声谱在响度上进行对数据进行处理，将步骤S3的梅尔声谱的响度值通过使用非线性函数log(1+C|A|)对频谱图振幅进行压缩，其中A是音频振幅，C是声谱图序列中最大数值的倒数，并在其后进行归一化，解决因为不同音乐音频的格式存在异构问题，所导致的深度学习模型在训练时收敛速度缓慢的问题。

4.根据权利要求3所述的一种基于卷积循环神经网络的音乐音频分类方法，其特征在于，步骤S4所述的基于卷积循环神经网络的音乐音频分类模型主要由音乐表示学习层、音乐序列建模与序列特征聚合层、全连接层构成；

其中，音乐表示学习层包括若干个结合通道注意力机制的一维残差门控卷积块(RGLU-SE block)，第一最大池化层和一维卷积层组成，其通过卷积神经网络对声谱中的光谱描述符(spectro-temporal descriptors)进行学习，通过堆叠若干个结合通道注意力机制的一维残差门控卷积网络(RGLU-SE block)进行声谱局部特征的提取，配合池化操作进行特征降维，最后音乐表示学习层的一维卷积层输出的卷积特征图中包含音频信号中的高层抽象特征图；

音乐表示学习层中的结合通道注意力机制的一维残差门控卷积块(RGLU-SE block)主要由两个残差门控卷积单元、SE结构与第二最大池化层组成，其中残差门控卷积单元一维卷积层(Conv1D)中的感受野覆盖整个声谱的频率范围，将其与残差连接相结合，网络信息的流向为下式：

σ＝σ(Conv1D₂(X))

上式的σ表示Sigmoid激活函数，信息的流向有以下两种方向：

(1)以1-σ的概率不经过任何变换直接通过，对应中的

部分，其中X为声谱序列，

表示按位相乘；

全连接层对音乐整体特征包含的信息进行进一步的整合和筛选，通过基于多层感知机(MLP)的前馈神经网络(FNN)学习特征间的高阶交互关系，最终得到音乐音频的分类结果。

5.根据权利要求4所述的一种基于卷积循环神经网络的音乐音频分类方法，其特征在于，步骤S5所述的迭代训练包括以下步骤：

步骤S51、利用步骤S1音频数据集通过结合通道注意力机制的一维残差门控卷积块(RGLU-SE block)的堆叠学习得到声谱卷积特征图；

a＝softmax(W₂φ(W₁X^T))

6.根据权利要求5所述的一种基于卷积循环神经网络的音乐音频分类方法，其特征在于，

步骤S51具体如下：

其中a_i,j为音频数据集中特征图的宽与高，i与j分别表示声谱卷积特征图的宽与高，h表示卷积层采用的激活函数，f_w表示卷积核的宽，f_h表示卷积核的高，b为卷积的偏置，w_m,n和x_i+m,j+n分别表示卷积核的权重矩阵与数据输入，其中m和n表示卷积核的高度和宽度；在基于声谱的一维卷积操作中，f_h与声谱的频率范围l有如下关系：

l＝f_h

其中X表示第二一维卷积层的输入序列，W为卷积层的权值矩阵，设卷积核的输出为R，偏置矩阵为B，声谱中频率最大值为L，那么卷积运算表示成：

R＝conv(X,W)+B

R的宽度R_w由下式得到：

t表示声谱时间轴上的长度，即声谱的宽度，p表示填充的大小，f_w表示卷积核的宽，s表示卷积的步长，由于一维卷积只在声谱的时间维度上进行平移，所以输出的特征图R的高度R_h为：

R_h＝1

7.根据权利要求6所述的一种基于卷积循环神经网络的音乐音频分类方法，其特征在于，步骤S6所述的对音乐的标签进行预测具体包括：通过音乐表示学习层提取出声谱的局部卷积特征图、通过基于双向LSTM网络对卷积特征图进行音乐序列建模、通过RGLU-SEblock进行聚合、通过全连接网络进行信息整合、通过输出神经元得到音频类别的预测值。