CN111611431B - 一种基于深度学习的音乐分类方法 - Google Patents
一种基于深度学习的音乐分类方法 Download PDFInfo
- Publication number
- CN111611431B CN111611431B CN202010301644.XA CN202010301644A CN111611431B CN 111611431 B CN111611431 B CN 111611431B CN 202010301644 A CN202010301644 A CN 202010301644A CN 111611431 B CN111611431 B CN 111611431B
- Authority
- CN
- China
- Prior art keywords
- music
- neural network
- category
- tag
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/65—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于深度学习的音乐分类方法,包括:将音乐的音频文件转化成梅尔声谱图,并生成音乐标签的独热向量;将音乐的梅尔声谱图和音乐标签的独热向量分别传入卷积神经网络和循环神经网络,通过卷积神经网络获得音乐的频域和时域特征向量,通过循环神经网络获得音乐‑标签关系向量,然后将卷积神经网络和循环神经网络各自的输出向量映射到相同维度后,连接合并构成一个音乐‑标签嵌入向量;将音乐‑标签嵌入向量传入标签预测层,其输出是音乐对应每个类别标签的概率值,最后根据概率值,从所有类别标签中挑选多个类别标签作为音乐的分类。本发明属于信息技术领域,能基于音乐类别的繁多和交错关系,实现音乐类别标签的准确预测。
Description
技术领域
本发明涉及一种基于深度学习的音乐分类方法,属于信息技术领域。
背景技术
音乐是每天由数十亿人表演和聆听的最流行的艺术形式。音乐流派很多,如流行音乐、古典乐、爵士乐、民谣等。每个流派有不同的乐器,音色,节奏,节拍,流动等。音乐流派分类是音乐信息检索(MIR)的众多分支之一,利用它可以在音乐数据上进行其他任务,比如节拍追踪、音乐生成、推荐系统、音轨分离和乐器识别等等。
传统的音乐分类方法,一首歌曲往往只属于某一类,类别种类单一且数量较少。但考虑到当今音乐类别的繁多与交错,同一歌曲可能会归属于多个类别,因此,如何实现音乐类别标签的准确预测,从而自动识别音乐的多个所属类别,已经成为技术人员普遍关注的技术问题。
发明内容
有鉴于此,本发明的目的是提供一种基于深度学习的音乐类别分类方法,能基于音乐类别的繁多和相互之间的交错关系,实现音乐类别标签的准确预测,从而自动识别音乐的多个所属类别。
为了达到上述目的,本发明提供了一种基于深度学习的音乐分类方法,包括有:
步骤一、将音乐的音频文件转化成梅尔声谱图,并生成音乐标签的独热向量BD:(bd1,bd2,…,bdn),其中,bd1、bd2、…、bdn分别表示音乐对应于各项类别标签的属性值,预先为音乐设置多个归属的类别标签,当音乐归属于第i项类别标签时,则bdi=1;当音乐不归属于第i项类别标签时,则bdi=0,i∈[1,n],n是类别标签的总数;
步骤二、将音乐的梅尔声谱图和音乐标签的独热向量分别传入卷积神经网络和循环神经网络,通过卷积神经网络获得音乐的频域和时域特征向量,通过循环神经网络获得音乐-标签关系向量,然后将卷积神经网络和循环神经网络各自的输出向量映射到相同维度后,连接合并构成一个音乐-标签嵌入向量;
步骤三、将音乐-标签嵌入向量传入标签预测层,其输出是音乐对应每个类别标签的概率值,最后根据概率值,从所有类别标签中挑选多个类别标签作为音乐的分类,
步骤三中,标签预测层采用集束搜索算法来计算音乐对应每个类别标签的概率值,其预测路径是所有的类别标签,音乐对应每个类别标签的概率根据音乐-标签嵌入向量中的音乐的频域和时域特征和音乐-标签关系来计算。
与现有技术相比,本发明的有益效果是:与传统的音乐分类不同,因为音乐类别的繁多与交错,本发明采用了音乐的多标签分类,即最终可以得到音乐最相关的多个类别标签,从而将音乐赋予多个类别;由于考虑到类别之间并非独立的,类之间具有相关性,且具有层级特性,针对音乐多标签分类任务,本发明在卷积神经网络中设计了不同形状的滤波器来提取音乐频域和时域特征,并通过循环神经网络建模音乐和标签之间的关系、以及标签相互之间的依赖关系来训练调整模型,从而可以实现音乐类别标签的准确预测。
附图说明
图1是本发明一种基于深度学习的音乐分类方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
如图1所示,本发明一种基于深度学习的音乐分类方法,包括有:
步骤一、将音乐的音频文件转化成梅尔声谱图,并生成音乐标签的独热向量BD:(bd1,bd2,…,bdn),其中,bd1、bd2、…、bdn分别表示音乐对应于各项类别标签的属性值,可以由人工预先为音乐设置多个归属的类别标签,当音乐归属于第i项类别标签时,则bdi=1;当音乐不归属于第i项类别标签时,则bdi=0,i∈[1,n],n是类别标签的总数;
步骤二、将音乐的梅尔声谱图和音乐标签的独热向量分别传入卷积神经网络和循环神经网络,通过卷积神经网络获得音乐的频域和时域特征向量,通过循环神经网络获得音乐-标签关系向量,然后将卷积神经网络和循环神经网络各自的输出向量映射到相同维度后,连接合并构成一个音乐-标签嵌入向量;
步骤三、将音乐-标签嵌入向量传入标签预测层,其输出是音乐对应每个类别标签的概率值,最后根据概率值,从所有类别标签中挑选多个类别标签作为音乐的分类。
可以从现有数据集中选取一定数量的已有类别标签的音乐作为训练样本,对本发明模型进行训练。根据这些训练样本的已有类别标签,设置对应的音乐标签的独热向量,当模型预测的对应每个类别标签的概率值符合训练样本的已有类别标签时,则表示训练完成。
步骤二中,通过卷积神经网络可以提取音乐的语义表示,通过循环神经网络可以获取音乐和标签的关系。所述卷积神经网络由卷积层、残差连接层和池化层构成,第一层卷积层采用多个不同形状的滤波器堆叠而成,用于从输入的梅尔声谱图中提取音乐的频域和时域特征,然后将卷积层输出的频域和时域特征再依次经过残差连接层和池化层,从而最终输出音乐的频域和时域特征向量。利用不同形状的滤波器可以从声谱图中提取出更丰富的特征表示,其中,可以采用7*38、7*67形状的滤波器从输入的梅尔声谱图中提取音乐的频域特征,采用32*1、64*1、128*1形状的滤波器从输入的梅尔声谱图中提取音乐的时域特征,然后再通过池化层可以有效减少声谱图大小,加快处理速度。循环神经网络可以根据音乐和标签之间的关系、以及标签相互之间的依赖关系(即有些标签可能会同时出现,而有些标签则不能同时出现),将输入的音乐标签的独热向量转化成更高阶的音乐-标签关系向量,同时保持易处理的计算复杂度。
步骤三中,标签预测层可以采用集束搜索算法来计算音乐对应每个类别标签的概率值,其预测路径是所有的类别标签,音乐对应每个类别标签的概率可以根据音乐-标签嵌入向量中的音乐的频域和时域特征和音乐-标签关系来计算。利用集束搜索算法来找到top排序的预测路径,即在每个时间步长将前若干个最可能的预测路径作为中间路径。标签顺序根据训练数据中的出现频率决定。频率高的类别标签排在低的类别标签前面,即首先预测较易的对象,从而有助于预测更困难的对象。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (3)
1.一种基于深度学习的音乐分类方法,其特征在于,包括有:
步骤一、将音乐的音频文件转化成梅尔声谱图,并生成音乐标签的独热向量BD:(bd1,bd2,…,bdn),其中,bd1、bd2、…、bdn分别表示音乐对应于各项类别标签的属性值,预先为音乐设置多个归属的类别标签,当音乐归属于第i项类别标签时,则bdi=1;当音乐不归属于第i项类别标签时,则bdi=0,i∈[1,n],n是类别标签的总数;
步骤二、将音乐的梅尔声谱图和音乐标签的独热向量分别传入卷积神经网络和循环神经网络,通过卷积神经网络获得音乐的频域和时域特征向量,通过循环神经网络获得音乐-标签关系向量,然后将卷积神经网络和循环神经网络各自的输出向量映射到相同维度后,连接合并构成一个音乐-标签嵌入向量;
步骤三、将音乐-标签嵌入向量传入标签预测层,其输出是音乐对应每个类别标签的概率值,最后根据概率值,从所有类别标签中挑选多个类别标签作为音乐的分类,
步骤三中,标签预测层采用集束搜索算法来计算音乐对应每个类别标签的概率值,其预测路径是所有的类别标签,音乐对应每个类别标签的概率根据音乐-标签嵌入向量中的音乐的频域和时域特征和音乐-标签关系来计算。
2.根据权利要求1所述的方法,其特征在于,步骤二中,卷积神经网络由卷积层、残差连接层和池化层构成,第一层卷积层采用多个不同形状的滤波器堆叠而成,用于从输入的梅尔声谱图中提取音乐的频域和时域特征,然后将卷积层输出的频域和时域特征再依次经过残差连接层和池化层,从而最终输出音乐的频域和时域特征向量。
3.根据权利要求2所述的方法,其特征在于,采用7*38、7*67形状的滤波器从输入的梅尔声谱图中提取音乐的频域特征,采用32*1、64*1、128*1形状的滤波器从输入的梅尔声谱图中提取音乐的时域特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010301644.XA CN111611431B (zh) | 2020-04-16 | 2020-04-16 | 一种基于深度学习的音乐分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010301644.XA CN111611431B (zh) | 2020-04-16 | 2020-04-16 | 一种基于深度学习的音乐分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111611431A CN111611431A (zh) | 2020-09-01 |
CN111611431B true CN111611431B (zh) | 2023-07-28 |
Family
ID=72199643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010301644.XA Active CN111611431B (zh) | 2020-04-16 | 2020-04-16 | 一种基于深度学习的音乐分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111611431B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364878A (zh) * | 2020-09-25 | 2021-02-12 | 江苏师范大学 | 一种复杂背景下基于深度学习的电力线分类方法 |
CN112307254B (zh) * | 2020-11-24 | 2024-04-02 | 腾讯科技(深圳)有限公司 | 一种音乐标签的向量确定方法和相关装置 |
CN112948623B (zh) * | 2021-02-25 | 2022-08-16 | 杭州网易云音乐科技有限公司 | 音乐热度预测方法、装置、计算设备以及介质 |
CN113220929B (zh) * | 2021-04-06 | 2023-12-05 | 辽宁工程技术大学 | 一种基于时间驻留与状态驻留混合模型的音乐推荐方法 |
CN113450828B (zh) * | 2021-06-25 | 2024-07-09 | 平安科技(深圳)有限公司 | 音乐流派的识别方法、装置、设备及存储介质 |
CN113793580B (zh) * | 2021-08-31 | 2024-05-24 | 云境商务智能研究院南京有限公司 | 一种基于深度学习的音乐流派分类方法 |
CN113742514B (zh) * | 2021-09-03 | 2023-11-24 | 林飞鹏 | 一种音乐精准搜索方法及装置 |
CN117349257A (zh) * | 2022-06-28 | 2024-01-05 | 教育科技加私人有限公司 | 乐谱训练数据库的构建和应用 |
CN115083435B (zh) * | 2022-07-28 | 2022-11-04 | 腾讯科技(深圳)有限公司 | 音频数据处理方法、装置、计算机设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109599126A (zh) * | 2018-12-29 | 2019-04-09 | 广州丰石科技有限公司 | 一种基于mel能量谱和卷积神经网络的声音故障识别方法 |
CN110136690A (zh) * | 2019-05-22 | 2019-08-16 | 平安科技(深圳)有限公司 | 语音合成方法、装置及计算机可读存储介质 |
CN110310666A (zh) * | 2019-06-27 | 2019-10-08 | 成都嗨翻屋科技有限公司 | 一种基于se卷积网络的乐器识别方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190251480A1 (en) * | 2018-02-09 | 2019-08-15 | NEC Laboratories Europe GmbH | Method and system for learning of classifier-independent node representations which carry class label information |
-
2020
- 2020-04-16 CN CN202010301644.XA patent/CN111611431B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109599126A (zh) * | 2018-12-29 | 2019-04-09 | 广州丰石科技有限公司 | 一种基于mel能量谱和卷积神经网络的声音故障识别方法 |
CN110136690A (zh) * | 2019-05-22 | 2019-08-16 | 平安科技(深圳)有限公司 | 语音合成方法、装置及计算机可读存储介质 |
CN110310666A (zh) * | 2019-06-27 | 2019-10-08 | 成都嗨翻屋科技有限公司 | 一种基于se卷积网络的乐器识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
电脑知识与技术.基于深度学习的音乐情感识别.电脑知识与技术.2019,(第11期),摘要,第1-2节. * |
Also Published As
Publication number | Publication date |
---|---|
CN111611431A (zh) | 2020-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111611431B (zh) | 一种基于深度学习的音乐分类方法 | |
CN100397387C (zh) | 数字声音数据的摘要制作方法和设备 | |
Burred et al. | Hierarchical automatic audio signal classification | |
Levy et al. | Music information retrieval using social tags and audio | |
CN102024058B (zh) | 音乐推荐方法及系统 | |
CN106777013A (zh) | 对话管理方法和装置 | |
CN112528676A (zh) | 文档级别的事件论元抽取方法 | |
CN115393692A (zh) | 基于生成式预训练语言模型的联想文本到图像生成方法 | |
Hedges et al. | Predicting the composer and style of jazz chord progressions | |
Pérez-Sancho et al. | Genre classification using chords and stochastic language models | |
Li et al. | Regional classification of Chinese folk songs based on CRF model | |
US9747927B2 (en) | System and method for multifaceted singing analysis | |
Ferraro et al. | Enriched music representations with multiple cross-modal contrastive learning | |
Fuhrmann et al. | Polyphonic instrument recognition for exploring semantic similarities in music | |
Farajzadeh et al. | PMG-Net: Persian music genre classification using deep neural networks | |
CN113220929B (zh) | 一种基于时间驻留与状态驻留混合模型的音乐推荐方法 | |
Ahmed et al. | Machine learning and deep learning techniques for genre classification of bangla music | |
Goienetxea et al. | Towards the use of similarity distances to music genre classification: A comparative study | |
Rao et al. | Automatic music genre classification based on linguistic frequencies using machine learning | |
CN111026908A (zh) | 歌曲标签确定方法、装置、计算机设备以及存储介质 | |
CN115359785A (zh) | 音频识别方法、装置、计算机设备及计算机可读存储介质 | |
CN115101052A (zh) | 音频识别方法及计算机设备 | |
da Silva et al. | Audio plugin recommendation systems for music production | |
CN112800270A (zh) | 基于音乐标签和时间信息的音乐推荐方法及系统 | |
Chmulik et al. | Bio-inspired optimization of acoustic features for generic sound recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |