CN108846048A - 基于循环神经网络和注意力机制的音乐流派分类方法 - Google Patents
基于循环神经网络和注意力机制的音乐流派分类方法 Download PDFInfo
- Publication number
- CN108846048A CN108846048A CN201810538183.0A CN201810538183A CN108846048A CN 108846048 A CN108846048 A CN 108846048A CN 201810538183 A CN201810538183 A CN 201810538183A CN 108846048 A CN108846048 A CN 108846048A
- Authority
- CN
- China
- Prior art keywords
- feature
- attention
- neural network
- probability distribution
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种基于循环神经网络和注意力机制的音乐流派分类方法。首先,音乐信号通过短时傅里叶变换得到声谱图,利用双向循环神经网络根据声谱图进行特征学习,得到更高层次的抽象特征,同时利用并行的注意力模型,从声谱图中学习得到与特征表示相对应的注意力概率分布,用于设置音乐特征表示的不同权重。然后根据特征权重对特征进行加权平均,得到融合后的特征。最后利用融合后的音乐特征进行音乐流派的分类。本发明方法利用并行的循环神经网络和注意力模型,自动地根据音乐信号进行特征学习,并利用注意力概率分布为特征设置合理的权重,对特征进行加权平均后再进行分类,提高了音乐流派分类的准确性,避免了手工提取特征的复杂性和局限性。
Description
技术领域
本发明涉及音乐检索领域,尤其涉及基于循环神经网络和注意力机制的音乐流派分类方法。
背景技术
通过人工的方式难以对海量的音乐数据进行分类和管理。对于用户而言,又需要能够在数据量庞大的音乐库中快速检索到感兴趣的音乐。所以音乐流派分类成为了音乐信息检索领域中热门的研究方向之一。
通过传统的分类框架进行分类,特征提取的过程复杂不易实现,需要该领域内较为专业的先验知识,而且通过人工提取的音乐特征缺乏通用性,只适用于单一的分类任务。因此本发明利用循环神经网络自动地实现特征学习并得到特征表示,同时利用注意力模型为特征设置不同的权重,得到更高级的音乐特征,从而提升音乐流派分类的准确性。
发明内容
本发明实施例提供一种基于循环神经网络和注意力机制的音乐流派分类方法,利用并行的循环神经网络和注意力模型自动地根据音乐信号进行特征学习,并为特征表示分配合理的注意力概率,提高了音乐流派分类的准确性,避免了手工提取特征的复杂性和局限性。
本发明提供的一种基于循环神经网络和注意力机制的音乐流派分类方法,包括以下步骤:
步骤S101:利用短时傅里叶变换对原始的音乐信号进行变换,得到对应的音乐信号的声谱图;
步骤S102:利用双向循环神经网络,根据音乐信号的声谱图进行特征学习,并得到特征表示,同时利用并行的注意力模型学习得到与特征表示相对应的注意力概率分布;
步骤S103:根据注意力模型学习到的特征权重对特征进行加权平均,得到融合后的特征,并利用该特征进行音乐流派的分类。
优选的,所述步骤S102,利用双向循环神经网络不断地学习并得到音乐信号的特征表示
优选的,利用并行的注意力模型学习得到与特征表示相对应的注意力概率分布;
首先给定由短时傅里叶变换得到的音乐信号声谱图X和标签y,以及双向循环神经网络F(W,X),得到能够表征音乐信号特性的特征表示Xbrnn;
同时,利用并行的由卷积神经网络实现的注意力模型,从声谱图中学习得到注意力的分数表示E,对注意力分数进行归一化得到注意力的概率分布,如下公示所示:
其中,αi表示注意力概率分布α中第i个注意力概率值;ei表示表示注意力分数E中的第i个分数值;T表示特征Xbrnn中列向量的数量。
优选的,所述步骤S103:利用注意力概率分布α为特征表示Xbrnn设置不同的权重,得到更高级的特征H,并利用softmax函数对H进行音乐流派的分类;
注意力模型由卷积神经网络实现。通过卷积操作,不断地将上一层特征抽象成具备更高级且更具判别能力的特征表示,并且,与线性注意力模型相比,卷积神经网络注意力模型结构更加复杂,能够更好地根据音乐信号进行学习,得到更加合理的注意力概率分布α;由于sigmoid激活函数在进行反向传播时,在饱和区变化缓慢,导数趋近于0,易发生梯度消失的问题,因此该发明中使用ReLU作为激活函数,该函数的定义如下:
f(x)=max(0,x)
根据注意力模型学习到的特征权重,对双向循环神经网络学习到的特征进行加权平均,得到更能准确表征音乐特性的特征,公式如下所示:
其中H表示融合后的音乐特征;αi表示注意力概率分布α中第i个注意力概率值;xi表示由循环神经网络得到的特征表示Xbrnn中第i个特征向量;
利用softmax对融合后的特征进行分类,得到分类结果在各个音乐流派类目上的概率分布,公式如下所示:
P(y|H)=softmax(WTH+b)
其中,表示给定特征H预测标签y的概率分布;W和b为学习得到的系数。
有益效果:循环神经网络由于其循环的网络结构,可以对前面的信息加以保留,用来帮助分析学习未来的信息。且与普通的循环神经网络相比,双向循环神经网络能够同时利用过去和未来的信息帮助分析学习当前节点状态,从而得到更准确的特征。
附图说明
图1为本发明基于循环神经网络和注意力机制的音乐流派分类算法流程图。
图2为本发明基于循环神经网络和注意力机制的音乐流派分类算法的具体实施例图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1,本发明提出的基于循环神经网络和注意力机制的音乐流派分类方法,主要包括:
首先对音乐信号预处理得到声谱图。利用短时傅里叶变换对原始的音乐信号进行变换,得到对应的音乐信号的声谱图X。
其次,利用双向循环神经网络,根据音乐信号的声谱图X进行特征学习,并得到特征表示Xbrnn,同时利用并行的卷积神经网络注意力模型,从声谱图中学习得到与特征表示相对应的注意力分数E,对注意力分数做归一化,得到注意力概率分布α,公式如下所示:
最后,得到的注意力概率分布用于为特征表示设置不同的权重,对特征进行加权平均,如下公示所示:
这里xi代表双向循环神经网络得到的特征表示中第i个特征向量。最后利用融合后的特征进行音乐流派的分类,得到分类结果在各个音乐流派类目上的概率分布,公式如下所示:
P(y|H)=softmax(WTH+b)
最后,选取最大的概率所对应的类目标签作为最终的分类结果:
在对音乐流派进行分类时,源音乐信号经过短时傅里叶变换得到一个m×n维的声谱图。这里m=513,n=128。音乐流派的类目根据所选数据集中规定的类目数量而确定,本发明中音乐流派类目为10,分别是:
序号 | 流派类型 | 序号 | 流派类型 |
1 | 摇滚 | 6 | 爵士 |
2 | 乡村 | 7 | 蓝调 |
3 | 迪斯科 | 8 | 雷鬼 |
4 | 流行 | 9 | 嘻哈 |
5 | 古典 | 10 | 金属 |
图2所示,本实施例的基于循环神经网络和注意力机制的音乐流派分类方法,包括以下步骤:
步骤201、对源音乐信号预处理。通过短时傅里叶变换对音乐信号进行变换,并得到相应的音乐信号声谱图。
步骤202、利用双向循环神经网络,根据声谱图进行特征学习,得到能够表征音乐特性的特征表示。
步骤203、同时,利用并行的卷积神经网络注意力模型,根据音乐信号声谱图学习得到注意力分数,并将其进行归一化,得到注意力的概率分布:
步骤204、将由双向循环神经网络得到的特征表示与卷积神经网络注意力模型得到的注意力概率分布对应相乘,从而得到重新分配不同权重的特征表示H,使其具备更高的表征能力:
其中,xi代表双向循环神经网络得到的特征表示中第i个特征向量。
步骤205、将特征表示进行仿射变换,将其映射为n维的特征向量,其中n的值即为待分类流派类目的数量。
步骤206、使用softmax对n维的特征向量进行分类,得到分类结果在各个音乐流派类目上的概率分布,并选取最大概率对应的类目标签作为最终的分类结果。
本实施例,对源音乐信号进行短时傅里叶变换得到音乐信号的声谱图。通过双向循环神经网络,同时利用音乐信号中上下文信息自动地进行特征学习,得到更具表征能力的音乐特征表示,避免了手动提取特征的复杂性和局限性。同时,利用注意力模型学习得到与特征表示相对应的注意力概率分布,并将其重新分配给特征表示,使其不同的特征向量具备不同的权重比例,从而提升分类算法在音乐流派分类中的准确性。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (4)
1.一种基于循环神经网络和注意力机制的音乐流派分类方法,包括以下步骤:
步骤S101:利用短时傅里叶变换对原始的音乐信号进行变换,得到对应的音乐信号的声谱图;
步骤S102:利用双向循环神经网络,根据音乐信号的声谱图进行特征学习,并得到特征表示,同时利用并行的注意力模型学习得到与特征表示相对应的注意力概率分布;
步骤S103:根据注意力模型学习到的特征权重对特征进行加权平均,得到融合后的特征,并利用该特征进行音乐流派的分类。
2.根据权利要求1所述基于循环神经网络和注意力机制的音乐流派分类方法,其特征在于,所述步骤S102,利用双向循环神经网络不断地学习并得到音乐信号的特征表示。
3.根据权利要求2所述基于循环神经网络和注意力机制的音乐流派分类方法,其特征在于,利用并行的注意力模型学习得到与特征表示相对应的注意力概率分布;
首先给定由短时傅里叶变换得到的音乐信号声谱图X和标签y,以及双向循环神经网络F(W,X),得到能够表征音乐信号特性的特征表示Xbrnn;
同时,利用并行的由卷积神经网络实现的注意力模型,从声谱图中学习得到注意力的分数表示E,对注意力分数进行归一化得到注意力的概率分布,如下公示所示:
其中,αi表示注意力概率分布α中第i个注意力概率值;ei表示表示注意力分数E中的第i个分数值;T表示特征Xbrnn中列向量的数量。
4.根据权利要求3所述基于循环神经网络和注意力机制的音乐流派分类方法,其特征在于,所述步骤S103:利用注意力概率分布α为特征表示Xbrnn设置不同的权重,得到更高级的特征H,并利用softmax函数对H进行音乐流派的分类;
注意力模型由卷积神经网络实现:通过卷积操作,不断地将上一层特征抽象成具备更高级且更具判别能力的特征表示,并且,与线性注意力模型相比,卷积神经网络注意力模型结构更加复杂,能够更好地根据音乐信号进行学习,得到更加合理的注意力概率分布α;由于sigmoid激活函数在进行反向传播时,在饱和区变化缓慢,导数趋近于0,易发生梯度消失的问题,因此该发明中使用ReLU作为激活函数,该函数的定义如下:
f(x)=max(0,x)
根据注意力模型学习到的特征权重,对双向循环神经网络学习到的特征进行加权平均,得到更能准确表征音乐特性的特征,公式如下所示:
其中H表示融合后的音乐特征;αi表示注意力概率分布α中第i个注意力概率值;xi表示由循环神经网络得到的特征表示Xbrnn中第i个特征向量;
利用softmax对融合后的特征进行分类,得到分类结果在各个音乐流派类目上的概率分布,公式如下所示:
P(y|H)=softmax(WTH+b)
其中,表示给定特征H预测标签y的概率分布;W和b为学习得到的系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810538183.0A CN108846048A (zh) | 2018-05-30 | 2018-05-30 | 基于循环神经网络和注意力机制的音乐流派分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810538183.0A CN108846048A (zh) | 2018-05-30 | 2018-05-30 | 基于循环神经网络和注意力机制的音乐流派分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108846048A true CN108846048A (zh) | 2018-11-20 |
Family
ID=64209963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810538183.0A Pending CN108846048A (zh) | 2018-05-30 | 2018-05-30 | 基于循环神经网络和注意力机制的音乐流派分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108846048A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109859736A (zh) * | 2019-01-23 | 2019-06-07 | 北京光年无限科技有限公司 | 语音合成方法及系统 |
CN110675893A (zh) * | 2019-09-19 | 2020-01-10 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种歌曲识别方法、装置、存储介质及电子设备 |
CN110853668A (zh) * | 2019-09-06 | 2020-02-28 | 南京工程学院 | 基于多种特征融合的语音篡改检测方法 |
CN110852181A (zh) * | 2019-10-18 | 2020-02-28 | 天津大学 | 基于注意力机制卷积神经网络钢琴乐谱难度识别方法 |
CN111583957A (zh) * | 2020-04-21 | 2020-08-25 | 华南理工大学 | 基于五音阶乐律声谱图和级联神经网络的戏曲分类方法 |
CN111862985A (zh) * | 2019-05-17 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种语音识别装置、方法、电子设备及存储介质 |
CN112466329A (zh) * | 2020-11-16 | 2021-03-09 | 辽宁工程技术大学 | 一种改进dcnn的音乐流派分类方法 |
CN113793580A (zh) * | 2021-08-31 | 2021-12-14 | 云境商务智能研究院南京有限公司 | 一种基于深度学习的音乐流派分类方法 |
CN114464152A (zh) * | 2022-04-13 | 2022-05-10 | 齐鲁工业大学 | 一种基于视觉变换网络的音乐流派分类方法及系统 |
CN111862985B (zh) * | 2019-05-17 | 2024-05-31 | 北京嘀嘀无限科技发展有限公司 | 一种语音识别装置、方法、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106340309A (zh) * | 2016-08-23 | 2017-01-18 | 南京大空翼信息技术有限公司 | 一种基于深度学习的狗叫情感识别方法及装置 |
CN107168945A (zh) * | 2017-04-13 | 2017-09-15 | 广东工业大学 | 一种融合多特征的双向循环神经网络细粒度意见挖掘方法 |
CN107341462A (zh) * | 2017-06-28 | 2017-11-10 | 电子科技大学 | 一种基于注意力机制的视频分类方法 |
WO2017201444A1 (en) * | 2016-05-20 | 2017-11-23 | Google Llc | Classifying input examples using a comparison set |
CN108010514A (zh) * | 2017-11-20 | 2018-05-08 | 四川大学 | 一种基于深度神经网络的语音分类方法 |
-
2018
- 2018-05-30 CN CN201810538183.0A patent/CN108846048A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017201444A1 (en) * | 2016-05-20 | 2017-11-23 | Google Llc | Classifying input examples using a comparison set |
CN106340309A (zh) * | 2016-08-23 | 2017-01-18 | 南京大空翼信息技术有限公司 | 一种基于深度学习的狗叫情感识别方法及装置 |
CN107168945A (zh) * | 2017-04-13 | 2017-09-15 | 广东工业大学 | 一种融合多特征的双向循环神经网络细粒度意见挖掘方法 |
CN107341462A (zh) * | 2017-06-28 | 2017-11-10 | 电子科技大学 | 一种基于注意力机制的视频分类方法 |
CN108010514A (zh) * | 2017-11-20 | 2018-05-08 | 四川大学 | 一种基于深度神经网络的语音分类方法 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109859736A (zh) * | 2019-01-23 | 2019-06-07 | 北京光年无限科技有限公司 | 语音合成方法及系统 |
CN111862985A (zh) * | 2019-05-17 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种语音识别装置、方法、电子设备及存储介质 |
CN111862985B (zh) * | 2019-05-17 | 2024-05-31 | 北京嘀嘀无限科技发展有限公司 | 一种语音识别装置、方法、电子设备及存储介质 |
CN110853668A (zh) * | 2019-09-06 | 2020-02-28 | 南京工程学院 | 基于多种特征融合的语音篡改检测方法 |
CN110853668B (zh) * | 2019-09-06 | 2022-02-01 | 南京工程学院 | 基于多种特征融合的语音篡改检测方法 |
CN110675893A (zh) * | 2019-09-19 | 2020-01-10 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种歌曲识别方法、装置、存储介质及电子设备 |
CN110852181A (zh) * | 2019-10-18 | 2020-02-28 | 天津大学 | 基于注意力机制卷积神经网络钢琴乐谱难度识别方法 |
CN111583957B (zh) * | 2020-04-21 | 2023-04-28 | 华南理工大学 | 基于五音阶乐律声谱图和级联神经网络的戏曲分类方法 |
CN111583957A (zh) * | 2020-04-21 | 2020-08-25 | 华南理工大学 | 基于五音阶乐律声谱图和级联神经网络的戏曲分类方法 |
CN112466329A (zh) * | 2020-11-16 | 2021-03-09 | 辽宁工程技术大学 | 一种改进dcnn的音乐流派分类方法 |
CN113793580B (zh) * | 2021-08-31 | 2024-05-24 | 云境商务智能研究院南京有限公司 | 一种基于深度学习的音乐流派分类方法 |
CN113793580A (zh) * | 2021-08-31 | 2021-12-14 | 云境商务智能研究院南京有限公司 | 一种基于深度学习的音乐流派分类方法 |
CN114464152A (zh) * | 2022-04-13 | 2022-05-10 | 齐鲁工业大学 | 一种基于视觉变换网络的音乐流派分类方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108846048A (zh) | 基于循环神经网络和注意力机制的音乐流派分类方法 | |
CN111860638B (zh) | 基于不平衡数据深度信念网络的并行入侵检测方法和系统 | |
Li et al. | Nonparametric bayes pachinko allocation | |
CN105469096B (zh) | 一种基于哈希二值编码的特征袋图像检索方法 | |
CN103559504B (zh) | 图像目标类别识别方法及装置 | |
Aguiar et al. | Exploring data augmentation to improve music genre classification with convnets | |
CN110532379B (zh) | 一种基于lstm的用户评论情感分析的电子资讯推荐方法 | |
CN110297888B (zh) | 一种基于前缀树与循环神经网络的领域分类方法 | |
CN109002492B (zh) | 一种基于LightGBM的绩点预测方法 | |
Tsai et al. | Evolutionary instance selection for text classification | |
CN101561805A (zh) | 文档分类器生成方法和系统 | |
CN110705298B (zh) | 一种改进的前缀树与循环神经网络结合的领域分类方法 | |
CN110909158B (zh) | 基于改进萤火虫算法和k近邻的文本分类方法 | |
CN109062958B (zh) | 一种基于TextRank和卷积神经网络的小学作文自动分类方法 | |
CN103020167A (zh) | 一种计算机中文文本分类方法 | |
CN110825850A (zh) | 一种自然语言主题分类方法及装置 | |
CN110796260B (zh) | 一种基于类扩张学习的神经网络模型优化方法 | |
Shi et al. | Semi-supervised acoustic event detection based on tri-training | |
CN114417058A (zh) | 一种视频素材的筛选方法、装置、计算机设备和存储介质 | |
CN112489689B (zh) | 基于多尺度差异对抗的跨数据库语音情感识别方法及装置 | |
CN105701227B (zh) | 一种基于局部关联图的跨媒体相似性度量方法和检索方法 | |
Jia et al. | S 2-ver: Semi-supervised visual emotion recognition | |
CN108280165B (zh) | 基于状态转移的奖励值音乐推荐方法 | |
Park | Classification of audio signals using Fuzzy c-Means with divergence-based Kernel | |
CN111611432B (zh) | 一种基于Labeled LDA模型的歌手分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181120 |
|
RJ01 | Rejection of invention patent application after publication |