CN111611431B

CN111611431B - 一种基于深度学习的音乐分类方法

Info

Publication number: CN111611431B
Application number: CN202010301644.XA
Authority: CN
Inventors: 廖建新; 张磊; 陈爽; 王玉龙; 赵海秀; 王晶; 刘同存
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-04-16
Filing date: 2020-04-16
Publication date: 2023-07-28
Anticipated expiration: 2040-04-16
Also published as: CN111611431A

Abstract

一种基于深度学习的音乐分类方法，包括：将音乐的音频文件转化成梅尔声谱图，并生成音乐标签的独热向量；将音乐的梅尔声谱图和音乐标签的独热向量分别传入卷积神经网络和循环神经网络，通过卷积神经网络获得音乐的频域和时域特征向量，通过循环神经网络获得音乐‑标签关系向量，然后将卷积神经网络和循环神经网络各自的输出向量映射到相同维度后，连接合并构成一个音乐‑标签嵌入向量；将音乐‑标签嵌入向量传入标签预测层，其输出是音乐对应每个类别标签的概率值，最后根据概率值，从所有类别标签中挑选多个类别标签作为音乐的分类。本发明属于信息技术领域，能基于音乐类别的繁多和交错关系，实现音乐类别标签的准确预测。

Description

一种基于深度学习的音乐分类方法

技术领域

本发明涉及一种基于深度学习的音乐分类方法，属于信息技术领域。

背景技术

音乐是每天由数十亿人表演和聆听的最流行的艺术形式。音乐流派很多，如流行音乐、古典乐、爵士乐、民谣等。每个流派有不同的乐器，音色，节奏，节拍，流动等。音乐流派分类是音乐信息检索(MIR)的众多分支之一，利用它可以在音乐数据上进行其他任务，比如节拍追踪、音乐生成、推荐系统、音轨分离和乐器识别等等。

传统的音乐分类方法，一首歌曲往往只属于某一类，类别种类单一且数量较少。但考虑到当今音乐类别的繁多与交错，同一歌曲可能会归属于多个类别，因此，如何实现音乐类别标签的准确预测，从而自动识别音乐的多个所属类别，已经成为技术人员普遍关注的技术问题。

发明内容

有鉴于此，本发明的目的是提供一种基于深度学习的音乐类别分类方法，能基于音乐类别的繁多和相互之间的交错关系，实现音乐类别标签的准确预测，从而自动识别音乐的多个所属类别。

为了达到上述目的，本发明提供了一种基于深度学习的音乐分类方法，包括有：

步骤一、将音乐的音频文件转化成梅尔声谱图，并生成音乐标签的独热向量BD：(bd₁，bd₂，…，bd_n)，其中，bd₁、bd₂、…、bd_n分别表示音乐对应于各项类别标签的属性值，预先为音乐设置多个归属的类别标签，当音乐归属于第i项类别标签时，则bd_i＝1；当音乐不归属于第i项类别标签时，则bd_i＝0，i∈[1,n]，n是类别标签的总数；

步骤二、将音乐的梅尔声谱图和音乐标签的独热向量分别传入卷积神经网络和循环神经网络，通过卷积神经网络获得音乐的频域和时域特征向量，通过循环神经网络获得音乐-标签关系向量，然后将卷积神经网络和循环神经网络各自的输出向量映射到相同维度后，连接合并构成一个音乐-标签嵌入向量；

步骤三、将音乐-标签嵌入向量传入标签预测层，其输出是音乐对应每个类别标签的概率值，最后根据概率值，从所有类别标签中挑选多个类别标签作为音乐的分类，

步骤三中，标签预测层采用集束搜索算法来计算音乐对应每个类别标签的概率值，其预测路径是所有的类别标签，音乐对应每个类别标签的概率根据音乐-标签嵌入向量中的音乐的频域和时域特征和音乐-标签关系来计算。

与现有技术相比，本发明的有益效果是：与传统的音乐分类不同，因为音乐类别的繁多与交错，本发明采用了音乐的多标签分类，即最终可以得到音乐最相关的多个类别标签，从而将音乐赋予多个类别；由于考虑到类别之间并非独立的，类之间具有相关性，且具有层级特性，针对音乐多标签分类任务，本发明在卷积神经网络中设计了不同形状的滤波器来提取音乐频域和时域特征，并通过循环神经网络建模音乐和标签之间的关系、以及标签相互之间的依赖关系来训练调整模型，从而可以实现音乐类别标签的准确预测。

附图说明

图1是本发明一种基于深度学习的音乐分类方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

如图1所示，本发明一种基于深度学习的音乐分类方法，包括有：

步骤一、将音乐的音频文件转化成梅尔声谱图，并生成音乐标签的独热向量BD：(bd₁，bd₂，…，bd_n)，其中，bd₁、bd₂、…、bd_n分别表示音乐对应于各项类别标签的属性值，可以由人工预先为音乐设置多个归属的类别标签，当音乐归属于第i项类别标签时，则bd_i＝1；当音乐不归属于第i项类别标签时，则bd_i＝0，i∈[1,n]，n是类别标签的总数；

步骤三、将音乐-标签嵌入向量传入标签预测层，其输出是音乐对应每个类别标签的概率值，最后根据概率值，从所有类别标签中挑选多个类别标签作为音乐的分类。

可以从现有数据集中选取一定数量的已有类别标签的音乐作为训练样本，对本发明模型进行训练。根据这些训练样本的已有类别标签，设置对应的音乐标签的独热向量，当模型预测的对应每个类别标签的概率值符合训练样本的已有类别标签时，则表示训练完成。

步骤二中，通过卷积神经网络可以提取音乐的语义表示，通过循环神经网络可以获取音乐和标签的关系。所述卷积神经网络由卷积层、残差连接层和池化层构成，第一层卷积层采用多个不同形状的滤波器堆叠而成，用于从输入的梅尔声谱图中提取音乐的频域和时域特征，然后将卷积层输出的频域和时域特征再依次经过残差连接层和池化层，从而最终输出音乐的频域和时域特征向量。利用不同形状的滤波器可以从声谱图中提取出更丰富的特征表示，其中，可以采用7*38、7*67形状的滤波器从输入的梅尔声谱图中提取音乐的频域特征，采用32*1、64*1、128*1形状的滤波器从输入的梅尔声谱图中提取音乐的时域特征，然后再通过池化层可以有效减少声谱图大小，加快处理速度。循环神经网络可以根据音乐和标签之间的关系、以及标签相互之间的依赖关系(即有些标签可能会同时出现，而有些标签则不能同时出现)，将输入的音乐标签的独热向量转化成更高阶的音乐-标签关系向量，同时保持易处理的计算复杂度。

步骤三中，标签预测层可以采用集束搜索算法来计算音乐对应每个类别标签的概率值，其预测路径是所有的类别标签，音乐对应每个类别标签的概率可以根据音乐-标签嵌入向量中的音乐的频域和时域特征和音乐-标签关系来计算。利用集束搜索算法来找到top排序的预测路径，即在每个时间步长将前若干个最可能的预测路径作为中间路径。标签顺序根据训练数据中的出现频率决定。频率高的类别标签排在低的类别标签前面，即首先预测较易的对象，从而有助于预测更困难的对象。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于深度学习的音乐分类方法，其特征在于，包括有：

步骤三、将音乐-标签嵌入向量传入标签预测层，其输出是音乐对应每个类别标签的概率值，最后根据概率值，从所有类别标签中挑选多个类别标签作为音乐的分类,

2.根据权利要求1所述的方法，其特征在于，步骤二中，卷积神经网络由卷积层、残差连接层和池化层构成，第一层卷积层采用多个不同形状的滤波器堆叠而成，用于从输入的梅尔声谱图中提取音乐的频域和时域特征，然后将卷积层输出的频域和时域特征再依次经过残差连接层和池化层，从而最终输出音乐的频域和时域特征向量。

3.根据权利要求2所述的方法，其特征在于，采用7*38、7*67形状的滤波器从输入的梅尔声谱图中提取音乐的频域特征，采用32*1、64*1、128*1形状的滤波器从输入的梅尔声谱图中提取音乐的时域特征。