CN113793580B - 一种基于深度学习的音乐流派分类方法 - Google Patents
一种基于深度学习的音乐流派分类方法 Download PDFInfo
- Publication number
- CN113793580B CN113793580B CN202111017289.4A CN202111017289A CN113793580B CN 113793580 B CN113793580 B CN 113793580B CN 202111017289 A CN202111017289 A CN 202111017289A CN 113793580 B CN113793580 B CN 113793580B
- Authority
- CN
- China
- Prior art keywords
- audio
- convolution
- layer
- model
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000013135 deep learning Methods 0.000 title claims abstract description 13
- 230000000007 visual effect Effects 0.000 claims abstract description 22
- 238000013528 artificial neural network Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000001228 spectrum Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 6
- 101100261006 Salmonella typhi topB gene Proteins 0.000 claims description 5
- 101150032437 top-3 gene Proteins 0.000 claims description 5
- 239000012634 fragment Substances 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 230000000306 recurrent effect Effects 0.000 claims description 2
- 238000002790 cross-validation Methods 0.000 abstract description 4
- 239000011159 matrix material Substances 0.000 description 7
- 230000006978 adaptation Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/036—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal of musical genre, i.e. analysing the style of musical pieces, usually for selection, filtering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Algebra (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明提供了一种基于深度学习的音乐流派分类方法,所述生成方法包括,首先对目标音频进行预处理得到所述目标音频的视觉特征和音频特征;通过10折交叉验证,将所述目标音频的特征数据依次放入每个模型中进行训练,选取泛化能力最优的模型;对所述最优模型用全部的数据重新进行训练,保留最优参数;将录制音频或原始音频文件进行预处理后投入使用所述最优参数的神经网络进行分类预测,分类器给出分类结果。
Description
技术领域
本发明设计音频信息检索技术领域,主要设计一种基于深度学习的音乐流派分类方法。
背景技术
随着音乐流媒体服务的兴起,数以万计的数字音频被上传到互联网上。这些服务的关键特性是播放列表,通常按流派分组。不同音乐体裁的特点没有严格的界限,但同一体裁的音乐却有着相似的特点。通过对这些特征的分析,人类可以对许多音乐作品进行流派标注。
总体上来说,现存的方法只关注目标音频的视觉特征,而忽略了音乐本身的音频信息。这对音乐流派分类任务来说是不合理的。同时,现存的方法对于分类概率结果较低的情况并没有相应的解决的办法。
发明内容
发明目的:本发明提供了一种基于深度学习的音乐流派分类方法,通过充分利用目标音频的视觉特征和音频特征来有效预测所述目标音频的流派,并对不同分类概率的情况做出了相应的处理办法。
为实现上述目的,本发明才用的技术方案为:
一种基于深度学习的音乐流派分类方法,包括以下步骤:
步骤S1、首先对目标音频进行预处理,得到所述目标音频的视觉特征和音频特征;
步骤S2、通过10折交叉验证,将所述目标音频的特征数据一次放入每个模型中进行训练,选取泛化能力最优的模型;
步骤S3、对所述最优模型用全部的数据重新进行训练,保留最优参数;
步骤S4、将录制音频或原始音频文件进行预处理后投入使用所述最优参数的神经网络进行分类预测,分类器给出最终分类结果。
进一步地,所述步骤S1、中首先对目标音频进行预处理,得到所述目标音频的视觉特征和音频特征的具体步骤如下:
步骤S1.1、为了增加数据量,将目标音频切割为长度约为3s的片段;
步骤S1.2、对所述音频片段应用预加重滤波器来放大高频;
步骤S1.3、在预加重之后,将所述音频片段分为短时间帧,在将所述音频片段切片成帧之后,对每一帧应用一个窗口函数,例如Hamming窗口;
步骤S1.4、在所述每一帧上进行N点快速傅里叶变换(FFT)来计算频谱,这也称为短时傅里叶变换(STFT),其中N通常是512或256,还要通过相应的公式计算功率谱(周期图)。
步骤S1.5、对所述功率谱应用三角形滤波器,通常是40个滤波器,在Mel尺度上以提取频带,最终形成(None,128,130,1)的视觉特征数据张量;
步骤S1.6、对步骤S1.1获得的所述目标音频片段提取若干个不同音频维度的音频特征,每种特征均保留其均值和方差形式,最终形成(None,m)的音频特征数据张量。
进一步地,所述步骤S2、中通10折交叉验证,将所述目标音频的特征数据依次放入每个候选模型中进行训练,候选模型以视觉特征和音频特征两种特征作为输入,兼顾了音乐本身的视觉特征和音频信息。选取泛化能力最优的模型的具体步骤如下:
步骤S2.1、将所述目标音频的音频特征数据和视觉特征数据额分为比较均等且不相交的10份,然后取其中一份进行测试,另外的9份用作训练,然后求得error的平均值作为最终的评价指标;
步骤S2.2、对若干候选模型应用步骤S2.1、,选取具有最小泛化误差的模型作为最终模型。
进一步地,所述步骤S4、将录制音频或原始音频文件进行预处理后投入使用所述最优参数的神经网络进行分类预测,分类器给出最终分类结果的具体步骤如下:
步骤S4.1、对要预测的目标音频进行S1步骤的预处理后投入使用最优参数的神经网络进行分类预测;
步骤S4.2、所述神经网络的分类器会给出每个流派的可能概率,每个片段经过网络模型后都会“投票”给一个流派(一般情况下,为分类概率最高的那个类),我们会选择投票最多的流派。当top3的概率均很低时,该方法会将所述top3的概率均提供给用户并判定结果为poor。
有益效果:
本发明充分利用目标音频的视觉特征和音频特征来有效预测所述目标音频的流派,并对不同分类概率的情况做出了相应的处理办法,改善了用户的体验。
附图说明
图1是本发明提供的基于深度学习的音乐流派分类方法的总体流程图;
图2是本发明提供的深度神经网络结构图;
图3是本发明提供的较低分类置信度的结果图;
图4是本发明提供的基于DTZAN数据集得到的混淆矩阵;
图5是本发明提供的三角形滤波器组图;
图6是本发明提供的多种流派的梅尔频谱图。
具体实施方式
下面结合附图提供具体实施例,对本发明作进一步的说明。
一种基于深度学习的音乐流派分类方法,结合图1具体包括以下步骤:
步骤S1、首先,加载目标音频作为源数据,将它们分成一个近3秒的窗口。具体来说,每三秒保留66149个采样点,长度不足的片段将被丢弃。这一步可以大大增加数据量,简化变换过程(如Mel谱图)。图6所示不同流派的梅尔频谱图,其特征纹理有着明显的差异,使深度学习模型学习不同特征进而进行分类成为可能。同时,为了使模型更好地学习每种流派的特征,在分割数据集之前对数据序列进行置乱。本方法包含两种不同的数据特征,视觉特征和音频特征。对于视觉特征的提取,其具体步骤如下:
第一步是对信号应用预加重滤波器来放大高频。预加重滤波器在以下几个方面很有用:(1)平衡频谱,因为高频通常比低频小;(2)避免傅里叶变换操作期间的数值问题;(3)还可以提高信噪比(SNR)。可以使用以下等式中的一阶滤波器将预加重滤波器应用于信号x:
y(t)=x(t)-αx(t-1)
过滤系数(α)的典型值为0.95或0.97。
在预加重之后,我们需要将信号分成短时间帧。这一步的基本原理是信号中的频率随时间而变化,因此在大多数情况下,对整个信号进行傅里叶变换是没有意义的,因为我们会随着时间的推移丢失信号的频率轮廓。为了避免这种情况,我们可以安全地假设信号中的频率在很短的时间内是平稳的。因此,通过在这个短时间帧上进行傅里叶变换,我们可以通过连接相邻帧来获得信号频率轮廓的良好近似。一般真的大小范围为20ms到40ms,帧之间的重叠率为50%(+/-10%)。在本实施例中帧大小为23.22ms。
在将信号切片成帧之后,我们对每一帧应用一个窗口函数,例如Hamming窗口。汉明窗具有以下形式,其中N为窗口长度:
在所述每一帧上进行N点快速傅里叶变换(FFT)来计算频谱,这也称为短时傅里叶变换(STFT),其中N通常是512或256,还要计算功率谱(周期图)。最后,对所述功率谱应用三角形滤波器如图5所示,通常是40个滤波器,在Mel尺度上以提取频带,最终形成(None,128,130,1)的视觉特征数据张量。
对于音频特征的提取,其具体步骤如下:
对步骤S1.1获得的所述目标音频片段提取若干个不同音频维度的音频特征,如音色纹理特征:Chroma,Spectral centroid,Spectral roll-off等,每种特征均保留其均值和方差形式,最终形成(None,m)的音频特征数据张量,这里的m在本实施例中设为55。
这样,我们就获得了一个(None,128,130,1)的视觉特征数据张量和一个(None,55)的音频特征数据张量。接下来,我们需要将所述两个特征张量分为大小相等且不相交的10份,每次取1份用作测试集,另外九份用作训练集,这样我们可以得到10种形式不同的数据集来评估模型泛化能力的好坏。根据10次得到的误差求平均作为该模型泛化能力的优劣指标,从而选取最优额模型来进行下一步的操作。上述方法被称为10折交叉验证。考虑到10折交叉验证的目的主要是为了选择模型的层数、神经元的激活函数、每层模型的神经元个数(即所谓的超参数)。因此需要不断地根据最终得到的平均误差来对超参数进行优化改进,从而得到当前最优的模型结构。
在本实施例中,采用的模型包括一个音频特征处理模块(AFE),一个视觉特征处理模型(VFE)和一个分类器。结合图2,其具体结构如下:
为了更好地处理音频的Mel谱图,VFE模块采用并行卷积层进行了微调,包括3层二维卷积、1层并行卷积(分别使用最大池和平均池)和2层递归神经网络(RNNs)。与只使用一个卷积层然后对第四个卷积层执行池操作相比,本实施例选择使用具有不同池操作的并行卷积层。并行卷积层的主要优点是为后续层提供了更多的统计信息,进一步提高了模型的识别能力。在每个卷积运算过程中,除第一卷积层具有64个大小相等的不同核外,其他卷积层具有128个核。每个卷积核的大小为3*3,跳长为1,每个卷积核与所有底层特征形成映射关系。卷积核覆盖在输入的相应位置。将卷积核中的每个值与输入中相应像素的值相乘。上述乘积之和是输出中目标像素的值。对输入的所有位置重复此操作。在每次卷积之后,执行批标准化(BN)和校正线性单元(ReLU)操作。我们还添加了一个最大池操作(仅适用于并行卷积层的一个分支)以减少参数的数量。此外,它有助于扩大感受野,实现非线性。池操作的过滤器大小主要采用2*2带步幅2,3*3带步幅3分别用于第一和第二池操作,4*4带步幅4用于其他池操作。卷积层和归并层的作用是将原始数据映射到隐层特征空间。VFE模块使用门控制单元(GRU)的2层RNN来总结二维3层卷积和1层并行卷积的时间模式。然而,并不是所有并行卷积层的输出都放入RNN中,在RNNs中只加入了最大池并行卷积的分支输出。考虑到人类在识别音乐体裁时,可能会在短时间内更加注重突出的节奏。最后,将有一个长度为160的向量输出,它由GRU的输出和使用平均池运算的并行卷积的分支输出组成。我们不是简单地将输出相加,而是将输出串联起来以避免丢失一些信息。这样,可以获得更多具有低层次信息的特征。
AFE模块由五个致密层组成,每个致密层的大小分别为1024、512、256、128和64。为了解决实验中的过拟合问题,在每层BN层后增加0.4的Dropout层。最后,AFE模块将输出一个长度为64的向量。
VFE模块、AFE模块和分类器构成了整个网络模型。最后,将两个模块的输出连接起来,形成一个长度为224的特征向量。完全连接层(FC)通常在整个神经网络中扮演“分类器”的角色。但为了减少参数的数目,本文只使用一个具有SoftMax函数的FC层进行分类。与传统的多层完全连接层相比,特征映射和类型之间的对应关系更容易解释,也不容易出现过度拟合。由于最后一层使用了SoftMax函数,我们将得到每个流派的分类概率。
10折交叉验证选择了具有最小泛化误差的模型作为最终模型,并且在整个训练集上再次训练该模型,从而得到最优模型。同时保留模型参数用来实现目标音频的流派分类。
在目标音频分类的实现过程中,需要先将录制的音频或原始音频文件执行步骤S1的预处理操作,获得(None,128,130,1)的视觉特征数据张量和(None,55)的音频特征数据张量。将上述数据张量投入到模型中后得到每个流派的分类概率。
考虑到我们对目标音频进行了分割,得到若干个连续的片段。为此,我们将使用投票系统。每个片段经过网络模型后都会“投票”给一个流派(一般情况下,为分类概率最高的那个类),我们会选择投票最多的流派,这将提高分类的准确性。
我们构建的分类器的最后一层是softmax层。这意味着它不会真正输出检测到的类型,而是输出每个类型的概率。这就是我们所说的分类置信度。例如图3所示,我们可以拒绝来自低分类置信度切片的投票。如果没有明确的胜利者,我们将拒绝投票。如果没有任何一个流派获得超过某一分数(70%),就可以对该歌曲判定为poor,而只给出top3的分类结果供用户选择,这样,可以避免错误的标记歌曲,可以在用户的反馈下进一步对该歌曲进行分类。
图4是本实施例的基于DTZAN数据集得到的混淆矩阵。在机器学习领域,混淆矩阵(confusion matrix),又称为可能性表格或错误矩阵。它是一种特定的矩阵用来呈现算法性能的可视化效果。其每一列代表预测值,每一行代表的是实际的类别。所有正确的预测结果都在对角线上,所以从混淆矩阵中可以很方便直观地看出哪里有错误,因为它们都在对角线外面。混淆矩阵允许我们做出更多的分析,而不仅仅是局限在正确率上。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (5)
1.一种基于深度学习的音乐流派分类方法,其特征在于,包括以下步骤:
步骤S1、首先对目标音频进行预处理,得到所述目标音频的视觉特征和音频特征;
步骤S2、通过10折交叉验证,将所述目标音频的特征数据一次放入每个候选模型中进行训练,选取泛化能力最优的模型;模型包括一个音频特征处理模块AFE,一个视觉特征处理模型VFE和一个分类器,
VFE模块采用并行卷积层进行了微调,包括3层二维卷积、1层并行卷积和2层递归神经网络RNNs,在每个卷积运算过程中,除第一卷积层具有64个大小相等的不同核外,其他卷积层具有128个核;每个卷积核的大小为3*3,跳长为1,每个卷积核与所有底层特征形成映射关系;卷积核覆盖在输入的相应位置,将卷积核中的每个值与输入中相应像素的值相乘;上述乘积之和是输出中目标像素的值,对输入的所有位置重复此操作;在每次卷积之后,执行批标准化BN和校正线性单元ReLU操作;还添加了一个最大池操作以减少参数的数量;池操作的过滤器大小采用2*2带步幅2,3*3带步幅3分别用于第一和第二池操作,4*4带步幅4用于其他池操作;卷积层和归并层的作用是将原始数据映射到隐层特征空间;VFE模块使用门控制单元GRU的2层RNN来总结二维3层卷积和1层并行卷积的时间模式;并不是所有并行卷积层的输出都放入RNN中,在RNNs中只加入了最大池并行卷积的分支输出;最后,将有一个长度为160的向量输出,它由GRU的输出和使用平均池运算的并行卷积的分支输出组成;
AFE模块由五个致密层组成,每个致密层的大小分别为1024、512、256、128和64;在每层BN层后增加0.4的Dropout层;最后,AFE模块将输出一个长度为64的向量;
VFE模块、AFE模块和分类器构成了整个网络模型,最后,将两个模块的输出连接起来,形成一个长度为224的特征向量;只使用一个具有SoftMax函数的FC层进行分类;
步骤S3、对所述最优模型用全部的数据重新进行训练,保留最优参数;
步骤S4、将录制音频或原始音频文件进行预处理后投入使用所述最优参数的神经网络进行分类预测,分类器给出最终分类结果。
2.根据权利要求1所述的一种基于深度学习的音乐流派分类方法,其特征在于,所述步骤S1具体步骤如下:
步骤S1.1、将目标音频切割为长度为3s的片段;
步骤S1.2、对所述音频片段应用预加重滤波器来放大高频;
步骤S1.3、在预加重之后,将所述音频片段分为短时间帧,对每一帧应用一个窗口函数;
步骤S1.4、在所述每一帧上进行N点快速傅里叶变换FFT来计算频谱,并计算功率谱;
步骤S1.5、对所述功率谱应用三角形滤波器,在Mel尺度上以提取频带,最终形成视觉特征数据张量;
步骤S1.6、对步骤S1.1获得的所述目标音频片段提取若干个不同音频维度的音频特征,每种特征均保留其均值和方差形式,最终形成音频特征数据张量。
3.根据权利要求1所述的一种基于深度学习的音乐流派分类方法,其特征在于,所述步骤S2具体步骤如下:
步骤S2.1、将所述目标音频的音频特征数据和视觉特征数据分为不相交的10等份,然后取其中一份进行测试,另外的9份用作训练,然后求得error的平均值作为最终的评价指标;
步骤S2.2、对若干候选模型应用步骤S2.1,选取具有最小泛化误差的模型作为最终模型。
4.根据权利要求1所述的一种基于深度学习的音乐流派分类方法,其特征在于,所述步骤S4具体步骤如下:
步骤S4.1、对要预测的目标音频进行S1步骤的预处理后投入使用最优参数的神经网络进行分类预测;
步骤S4.2、所述神经网络的分类器会给出每个流派的可能概率,每个片段经过网络模型后都会“投票”给一个流派,我们会选择投票最多的流派;当top3的概率均很低时,该方法会将所述top3的概率均提供给用户并判定结果为poor。
5.根据权利要求3所述的一种基于深度学习的音乐流派分类方法,其特征在于,所述的具有最小泛化误差的最优模型具有视觉特征处理模块、音频特征处理模块和分类器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111017289.4A CN113793580B (zh) | 2021-08-31 | 2021-08-31 | 一种基于深度学习的音乐流派分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111017289.4A CN113793580B (zh) | 2021-08-31 | 2021-08-31 | 一种基于深度学习的音乐流派分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113793580A CN113793580A (zh) | 2021-12-14 |
CN113793580B true CN113793580B (zh) | 2024-05-24 |
Family
ID=78879377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111017289.4A Active CN113793580B (zh) | 2021-08-31 | 2021-08-31 | 一种基于深度学习的音乐流派分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113793580B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015114216A2 (en) * | 2014-01-31 | 2015-08-06 | Nokia Corporation | Audio signal analysis |
CN108846048A (zh) * | 2018-05-30 | 2018-11-20 | 大连理工大学 | 基于循环神经网络和注意力机制的音乐流派分类方法 |
CN109408660A (zh) * | 2018-08-31 | 2019-03-01 | 安徽四创电子股份有限公司 | 一种基于音频特征的音乐自动分类的方法 |
CN110222227A (zh) * | 2019-05-13 | 2019-09-10 | 西安交通大学 | 一种融合听觉感知特征和视觉特征的中国民歌地域分类方法 |
KR20190140780A (ko) * | 2018-06-12 | 2019-12-20 | 광운대학교 산학협력단 | 음악 장르 분류 장치 및 방법 |
CN111414513A (zh) * | 2020-03-16 | 2020-07-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 音乐流派的分类方法、装置及存储介质 |
CN111611431A (zh) * | 2020-04-16 | 2020-09-01 | 北京邮电大学 | 一种基于深度学习的音乐分类方法 |
WO2020224107A1 (zh) * | 2019-05-05 | 2020-11-12 | 平安科技(深圳)有限公司 | 音乐风格分类方法、装置、计算机设备及存储介质 |
CN112199548A (zh) * | 2020-09-28 | 2021-01-08 | 华南理工大学 | 一种基于卷积循环神经网络的音乐音频分类方法 |
CN112466329A (zh) * | 2020-11-16 | 2021-03-09 | 辽宁工程技术大学 | 一种改进dcnn的音乐流派分类方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10623480B2 (en) * | 2013-03-14 | 2020-04-14 | Aperture Investments, Llc | Music categorization using rhythm, texture and pitch |
US11271993B2 (en) * | 2013-03-14 | 2022-03-08 | Aperture Investments, Llc | Streaming music categorization using rhythm, texture and pitch |
US20180276540A1 (en) * | 2017-03-22 | 2018-09-27 | NextEv USA, Inc. | Modeling of the latent embedding of music using deep neural network |
EP3617871A1 (en) * | 2018-08-28 | 2020-03-04 | Koninklijke Philips N.V. | Audio apparatus and method of audio processing |
-
2021
- 2021-08-31 CN CN202111017289.4A patent/CN113793580B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015114216A2 (en) * | 2014-01-31 | 2015-08-06 | Nokia Corporation | Audio signal analysis |
CN108846048A (zh) * | 2018-05-30 | 2018-11-20 | 大连理工大学 | 基于循环神经网络和注意力机制的音乐流派分类方法 |
KR20190140780A (ko) * | 2018-06-12 | 2019-12-20 | 광운대학교 산학협력단 | 음악 장르 분류 장치 및 방법 |
CN109408660A (zh) * | 2018-08-31 | 2019-03-01 | 安徽四创电子股份有限公司 | 一种基于音频特征的音乐自动分类的方法 |
WO2020224107A1 (zh) * | 2019-05-05 | 2020-11-12 | 平安科技(深圳)有限公司 | 音乐风格分类方法、装置、计算机设备及存储介质 |
CN110222227A (zh) * | 2019-05-13 | 2019-09-10 | 西安交通大学 | 一种融合听觉感知特征和视觉特征的中国民歌地域分类方法 |
CN111414513A (zh) * | 2020-03-16 | 2020-07-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 音乐流派的分类方法、装置及存储介质 |
CN111611431A (zh) * | 2020-04-16 | 2020-09-01 | 北京邮电大学 | 一种基于深度学习的音乐分类方法 |
CN112199548A (zh) * | 2020-09-28 | 2021-01-08 | 华南理工大学 | 一种基于卷积循环神经网络的音乐音频分类方法 |
CN112466329A (zh) * | 2020-11-16 | 2021-03-09 | 辽宁工程技术大学 | 一种改进dcnn的音乐流派分类方法 |
Non-Patent Citations (8)
Title |
---|
Combining Visual and Acoustic Features for Music Genre Classification;Ming-Ju Wu et al;2011 10th International Conference on Machine Learning and Applications and Workshops;1-6 * |
基于BP神经网络的音乐分类模型;刘明星;;现代电子技术(第05期);全文 * |
基于CNN-LSTM的歌曲音频情感分类;陈长风;;通信技术(第05期);全文 * |
基于卷积神经网络的音乐流派分类;陆欢;;电子测量技术(第21期);全文 * |
基于听觉图像的音乐流派自动分类;李锵;李秋颖;关欣;;天津大学学报(第01期);全文 * |
基于改进投票机制的音乐流派分类方法研究;杨翠丽;郭昭辉;武港山;;计算机工程(第09期);全文 * |
基于深度置信网络的多特征融合音乐分类算法;郑旦;;电子设计工程(第04期);全文 * |
多模态音乐流派分类研究;甄超;宋爽;许洁萍;;计算机科学与探索(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113793580A (zh) | 2021-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Korzeniowski et al. | A fully convolutional deep auditory model for musical chord recognition | |
Lin et al. | Audio classification and categorization based on wavelets and support vector machine | |
CN111291614B (zh) | 基于迁移学习多模型决策融合的儿童癫痫综合症分类方法 | |
US20060155399A1 (en) | Method and system for generating acoustic fingerprints | |
Allamy et al. | 1D CNN architectures for music genre classification | |
CN111400540B (zh) | 一种基于挤压和激励残差网络的歌声检测方法 | |
Luz et al. | Ensemble of handcrafted and deep features for urban sound classification | |
CN115470827B (zh) | 基于自监督学习和孪生网络的对抗性心电信号降噪方法 | |
Bandela et al. | Unsupervised feature selection and NMF de-noising for robust Speech Emotion Recognition | |
CN111933124A (zh) | 一种可支持自定唤醒词的关键词检测方法 | |
US20210256993A1 (en) | Voice Separation with An Unknown Number of Multiple Speakers | |
Chazan et al. | Single channel voice separation for unknown number of speakers under reverberant and noisy settings | |
CN111832438A (zh) | 一种面向情感识别的脑电信号通道选择方法、系统及应用 | |
CN111986699A (zh) | 基于全卷积网络的声音事件检测方法 | |
Cai et al. | Music genre classification based on auditory image, spectral and acoustic features | |
CN116842460A (zh) | 基于注意力机制与残差神经网络的咳嗽关联疾病识别方法和系统 | |
Chang et al. | Example-based explanations with adversarial attacks for respiratory sound analysis | |
CN112581980B (zh) | 时频通道注意力权重计算和向量化的方法和网络 | |
Wen et al. | Parallel attention of representation global time–frequency correlation for music genre classification | |
CN113793580B (zh) | 一种基于深度学习的音乐流派分类方法 | |
CN116570284A (zh) | 一种基于语音表征的抑郁症识别方法、系统 | |
Nguyen et al. | DCASE 2018 task 2: iterative training, label smoothing, and background noise normalization for audio event tagging. | |
Haritaoglu et al. | Using deep learning with large aggregated datasets for COVID-19 classification from cough | |
Hu et al. | Supervised Contrastive Pretrained ResNet with MixUp to Enhance Respiratory Sound Classification on Imbalanced and Limited Dataset | |
Pyykkönen et al. | Depthwise separable convolutions versus recurrent neural networks for monaural singing voice separation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |