CN111259189A - 一种音乐分类方法及装置 - Google Patents
一种音乐分类方法及装置 Download PDFInfo
- Publication number
- CN111259189A CN111259189A CN201811456622.XA CN201811456622A CN111259189A CN 111259189 A CN111259189 A CN 111259189A CN 201811456622 A CN201811456622 A CN 201811456622A CN 111259189 A CN111259189 A CN 111259189A
- Authority
- CN
- China
- Prior art keywords
- music
- category
- pieces
- probability
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000001228 spectrum Methods 0.000 claims abstract description 57
- 238000013145 classification model Methods 0.000 claims abstract description 43
- 238000004590 computer program Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 5
- 125000004122 cyclic group Chemical group 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims 2
- 230000006403 short-term memory Effects 0.000 claims 1
- 239000011159 matrix material Substances 0.000 description 38
- 238000010586 diagram Methods 0.000 description 5
- 230000002457 bidirectional effect Effects 0.000 description 4
- 229910001385 heavy metal Inorganic materials 0.000 description 4
- 239000011435 rock Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明提供一种音乐分类方法及装置,该方法包括:将待分类的音乐文件划分为N个音乐片段;其中,N为正整数;分别提取所述N个音乐片段中每个音乐片段的声谱特征;将所述N个音乐片段中每个音乐片段的声谱特征输入到预先训练的音乐分类模型中,得到所述N个音乐片段中每个音乐片段对应的M个类别的概率;其中,M为正整数;根据所述N个音乐片段中每个音乐片段对应的M个类别的概率,确定所述音乐文件的类别。通过本发明提供的音乐分类方法,可以较为快捷和准确的确定音乐文件的类别,提高音乐文件分类的效率。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种音乐分类方法及装置。
背景技术
在音乐推荐过程中,音乐文件的标签(也可称为类别,例如,古风,摇滚,重金属等)通常是很重要的一个推荐因素,因此,对音乐文件进行准确分类较为关键。目前,一般是由人工分别标注各个音乐文件的标签,也即人工确定各个音乐文件的类别,但是这种方式不仅主观性较强,且较为耗时,效率较低。
可见,现有技术中存在对音乐文件进行分类效率较低的问题。
发明内容
本发明实施例提供一种音乐分类方法及装置,以解决对音乐文件进行分类效率较低的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种音乐分类方法。该方法包括:
将待分类的音乐文件划分为N个音乐片段;其中,N为正整数;
分别提取所述N个音乐片段中每个音乐片段的声谱特征;
将所述N个音乐片段中每个音乐片段的声谱特征输入到预先训练的音乐分类模型中,得到所述N个音乐片段中每个音乐片段对应的M个类别的概率;其中,M为正整数;
根据所述N个音乐片段中每个音乐片段对应的M个类别的概率,确定所述音乐文件的类别。
第二方面,本发明实施例还提供一种音乐分类装置。该音乐分类装置包括:
划分模块,用于将待分类的音乐文件划分为N个音乐片段;其中,N为正整数;
提取模块,用于分别提取所述N个音乐片段中每个音乐片段的声谱特征;
输入模块,用于将所述N个音乐片段中每个音乐片段的声谱特征输入到预先训练的音乐分类模型中,得到所述N个音乐片段中每个音乐片段对应的M个类别的概率;其中,M为正整数;
确定模块,用于根据所述N个音乐片段中每个音乐片段对应的M个类别的概率,确定所述音乐文件的类别。
第三方面,本发明实施例还提供一种音乐分类装置,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述的音乐分类方法的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的音乐分类方法的步骤。
本发明实施例中,通过将待分类的音乐文件划分为N个音乐片段;分别提取所述N个音乐片段中每个音乐片段的声谱特征;将所述N个音乐片段中每个音乐片段的声谱特征输入到预先训练的音乐分类模型中,得到所述N个音乐片段中每个音乐片段对应的M个类别的概率;根据所述N个音乐片段中每个音乐片段对应的M个类别的概率,确定所述音乐文件的类别,可以较为快捷和准确的确定音乐文件的类别,提高音乐文件分类的效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的音乐分类方法的流程图;
图2是本发明又一实施例提供的音乐分类方法的流程图;
图3是本发明实施例提供的音乐分类模型的结构的示意图;
图4是本发明实施例提供的音乐分类装置的结构图;
图5是本发明又一实施例提供的音乐分类装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种音乐分类方法。参见图1,图1是本发明实施例提供的音乐分类方法的流程图,如图1所示,包括以下步骤:
步骤101、将待分类的音乐文件划分为N个音乐片段;其中,N为正整数。
本发明实施例中,可以按照预设时长划分上述音乐文件,使得所得到的每个音乐片段的时长均为预设时长,其中,预设时长的值可以根据实际情况进行合理设置,例如,10秒、15秒等。可选的,为了提高分类准确性,上述预设时长的取值范围可以为[5,15]。也可将上述音乐文件分成不同长度的N个音乐片段,在通过插值等方式使得上述N个音乐片段的时长相同。
步骤102、分别提取所述N个音乐片段中每个音乐片段的声谱特征。
本发明实施例中,上述声谱特征可以是声谱图,或是声谱特征矩阵等。例如,可以通过对音乐片段进行傅里叶变换,得到该音乐片段的声谱特征。
可选的,上述声谱特征可以是梅尔声谱特征,例如,可以是梅尔频谱、梅尔频谱倒谱系数等。例如,上述声谱特征为梅尔声谱特征矩阵,其中,梅尔声谱特征矩阵中特征值的单位可以为分贝,并可限制该梅尔声谱特征矩阵中的特征值的最大值不大于100。
步骤103、将所述N个音乐片段中每个音乐片段的声谱特征输入到预先训练的音乐分类模型中,得到所述N个音乐片段中每个音乐片段对应的M个类别的概率;其中,M为正整数。
本发明实施例中,上述音乐分类模型可以是基于标注了类别的音乐样本对深度学习网络进行训练所得到的分类模型,该音乐分类模块基于声谱特征可以得到各个类别的概率,也可以称为各个类别的置信度。需要说明的是,在训练音乐分类模型的过程中,也需要将音乐样本进行划分音乐片段,提取声谱特征等处理过程。
上述类别的概率用于指示该音乐片段被分类为该类别的概率。例如,第一音乐片段对应的第一类别的概率为第一音乐片段被分类为第一类别的概率,第一音乐片段对应的第二类别的概率为第一音乐片段被分类为第二类别的概率。
实际应用中,可以预先设置M个类别,例如,轻音乐、摇滚、古风、重金属、民谣、古典等。通过将N个音乐片段中每个音乐片段的声谱特征输入到音乐分类模型中,可以得到每个音乐片段对应的M个类别的概率。例如,第一音乐片段对应轻音乐的概率为0.9,第一音乐片段对应摇滚的概率为0.01,第一音乐片段对应重金属的概率为0.01,第一音乐片段对应民谣的概率为0.06,等等;第二音乐片段对应轻音乐的概率为0.7,第二音乐片段对应摇滚的概率为0.02,第二音乐片段对应重金属的概率为0.01,第二音乐片段对应民谣的概率为0.20,等等。
步骤104、根据所述N个音乐片段中每个音乐片段对应的M个类别的概率,确定所述音乐文件的类别。
本发明实施例中,可以分别将N个音乐片段对应的所有类别的概率中,属于相同类别的概率进行相加,得到各个类别的概率之和,并将概率之和最大的类别确定为上述音乐文件的类别。
例如,N个音乐片段包括音乐片段A1至A3,M个类别包括类别a1至类别a5,音乐片段A1对应各类别(也即类别a1至类别a5)的概率依次为0.6、0.2、0.01、0.1、0.09,音乐片段A2对应各类别的概率依次为0.45、0.5、0.01、0.01、0.13,音乐片段A3对应各类别的概率依次为0.8、0.15、0.02、0.02、0.01,将相同类别的概率相加后得到类别a1至类别a5的概率之和分别为1.85、0.85、0.04、0.004、0.23,由于类别a1的概率之和最大,从而确定该音乐文件的类别为类别a1。
可选的,本发明实施例也可以根据每个音乐片段对应的类别的概率的大小顺序,设置每个音乐片段对应的各个类别的概率的权重,在将相同类别的概率进行相加的过程中可以结合权重进行相加。例如,某一音乐片段对应的5个类别的概率从大到小依次为概率b1至概率b5,则概率b1至概率b5的权重依次可以为0.45、0.35、0.1、0.05、0.05。
本发明实施例的音乐分类方法,将待分类的音乐文件划分为N个音乐片段;其中,N为正整数;分别提取所述N个音乐片段中每个音乐片段的声谱特征;将所述N个音乐片段中每个音乐片段的声谱特征输入到预先训练的音乐分类模型中,得到所述N个音乐片段中每个音乐片段对应的M个类别的概率;其中,M为正整数;根据所述N个音乐片段中每个音乐片段对应的M个类别的概率,确定所述音乐文件的类别,可以较为快捷和准确的确定音乐文件的类别,提高音乐文件分类的效率。
参见图2,图2是本发明又一实施例提供的音乐分类方法的流程图。本发明实施例与上一实施例的区别主要在于对上述步骤104进行进一步限定。本发明实施例中,所述根据所述N个音乐片段中每个音乐片段对应的M个类别的概率,确定所述音乐文件的类别,包括:获取所述N个音乐片段中每个音乐片段对应的K个目标类别的概率;其中,K为大于1的整数,所述目标类别为所述M个类别中概率满足预设条件的类别;分别将所述N个音乐片段对应的目标类别的概率中,相同类别的概率进行加权运算,得到各个类别的加权值;将加权值最大的类别确定为所述音乐文件的类别。
如图2所示,本发明实施例提供的音乐分类方法包括以下步骤:
步骤201、将待分类的音乐文件划分为N个音乐片段;其中,N为正整数。
该步骤同上述步骤101,为避免重复,在此不做赘述。
步骤202、分别提取所述N个音乐片段中每个音乐片段的声谱特征。
该步骤同上述步骤102,为避免重复,在此不做赘述。
步骤203、将所述N个音乐片段中每个音乐片段的声谱特征输入到预先训练的音乐分类模型中,得到所述N个音乐片段中每个音乐片段对应的M个类别的概率;其中,M为正整数。
该步骤同上述步骤103,为避免重复,在此不做赘述。
步骤204、获取所述N个音乐片段中每个音乐片段对应的K个目标类别的概率;其中,K为大于1的整数,所述目标类别为所述M个类别中概率满足预设条件的类别。
本发明实施例中,目标类别为所述M个类别中概率满足预设条件的类别。其中,预设条件可以是类别的概率大于预设概率值,例如,类别的概率大于0.3或0.35等;也可以是类别的概率位于目标概率排序中的前L;其中,所述目标概率排序为所述M个类别的概率按照从大到小排序,L为小于M的正整数,例如,类别的概率位于目标概率排序中的前2。
以下以目标类别为类别的概率位于目标概率排序中的前2为例进行说明:
例如,N个音乐片段包括音乐片段A1至A3,M个类别包括类别a1至类别a5,若音乐片段A1对应各类别(也即类别a1至类别a5)的概率依次为0.6、0.01、0.2、0.1、0.09,则音乐片段A1对应的目标类别为类别a1和类别a3,概率分别为0.6和0.2;若音乐片段A2对应各类别的概率依次为0.45、0.5、0.01、0.01、0.13,则音乐片段A2对应的目标类别为类别a1和类别a2,概率分别为0.45和0.5;音乐片段A3对应各类别的概率依次为0.8、0.02、0.15、0.02、0.01,则音乐片段A3对应的目标类别为类别a1和类别a3,概率分别为0.8和0.15。
步骤205、分别将所述N个音乐片段对应的目标类别的概率中,相同类别的概率进行加权运算,得到各个类别的加权值。
本发明实施例中,上述各个类别的概率的权重可以根据实际需求进行设置,例如,各个类别的概率的权重均相同,或是概率越大,权重越大等。
以下以上述各个类别的概率的权重均为1为例进行说明:
例如,音乐片段A1对应的目标类别为类别a1和类别a3,概率分别为0.6和0.2,音乐片段A2对应的目标类别为类别a1和类别a2,概率分别为0.45和0.5,音乐片段A3对应的目标类别为类别a1和类别a3,概率分别为0.8和0.15,则可以将上述所有音乐片段中对应的目标类别中的类别a1的概率进行相加,也即0.6+0.45+0.8;将上述所有音乐片段中对应的目标类别中的类别a2的概率进行相加,也即0.5;将上述所有音乐片段中对应的目标类别中的类别a3的概率进行相加,也即0.2+0.15。
步骤206、将加权值最大的类别确定为所述音乐文件的类别。
例如,上述类别a1的加权值最大,则确定音乐文件的类别为类别a1。
本发明实施例通过将待分类的音乐文件划分为N个音乐片段;分别提取所述N个音乐片段中每个音乐片段的声谱特征;将所述N个音乐片段中每个音乐片段的声谱特征输入到预先训练的音乐分类模型中,得到所述N个音乐片段中每个音乐片段对应的M个类别的概率;获取所述N个音乐片段中每个音乐片段对应的K个目标类别的概率;分别将所述N个音乐片段对应的目标类别的概率中,相同类别的概率进行加权运算,得到各个类别的加权值;将加权值最大的类别确定为所述音乐文件的类别。通过加权各个音乐片段对应的各个目标类别的概率确定音乐文件的类别,可以提高音乐文件分类的准确性。
可选的,所述音乐分类模型为基于目标网络训练得到的分类模型,其中,所述目标网络包括第一网络,所述第一网络包括残差网络ResNet或是密集连接卷积网络DenseNet。
本发明实施例中,上述第一网络可以是ResNet,例如,ResNet-50,也即50层的ResNet;也可以是DenseNet。
以下以第一网络为ResNet、声谱特征为梅尔声谱特征为例对音乐分类模型的训练过程进行说明:
分别将音乐样本集中各个标注了类别的音乐样本划分为多个音乐片段,且每个音乐片段的时长均为预设时长,例如10秒,提取各个音乐片段的梅尔声谱特征矩阵,其中,梅尔声谱特征矩阵中特征值的单位可以为分贝,并可限制该梅尔声谱特征矩阵中的特征值的最大值不大于100。根据上述提取的梅尔特征矩阵对ResNet进行迭代训练,直至损失函数小于预设阈值,从而得到上述音乐分类模型。其中,上述损失函数可以根据实际情况进行合理设置。
本发明实施例中音乐分类模型为基于ResNet或是DenseNet训练得到的分类模型,可以提高音乐分类的准确性。
可选的,所述目标网络还包括第二网络,且所述第二网络的输入端连接所述第一网络的输出端,其中,所述第二网络包括门控循环单元GRU网络或长短期记忆LSTM网络。
本发明实施例中,上述第二网络可以是GRU网络,例如,双向GRU网络,也可以是LSTM网络,用于增强对时间维度信息的特征提取能力。
例如,可以根据上述提取的梅尔特征矩阵对ResNet和双向GRU进行迭代训练,直至损失函数小于预设阈值,从而得到上述音乐分类模型。
需要说明的是,在将第一网络输出的特征矩阵输入第二网络之前,可以根据第二网络的输入矩阵要求调整第一网络输出的特征矩阵的行数、列数等参数,并将调整后的特征矩阵输入至第二网络。例如,第一网络输出的特征矩阵A为4096*1,第二网络的输入矩阵要求为128*32,则可以将特征矩阵A调整为128*32的特征矩阵B,并将特征矩阵B输入至第二网络。
本发明实施例中音乐分类模型为基于上述第一网络和上述第二网络训练得到的分类模型,可以进一步提高音乐分类的准确性。
可选的,用于所述音乐分类模型训练的损失函数为交叉熵损失函数。
本发明实施例中,用于所述音乐分类模型训练的损失函数为交叉熵损失函数,可以减少音乐分类模型的训练时长,提高音乐分类模型训练的效率。
可选的,上述步骤101或步骤201之前,也即所述将待分类的音乐文件划分为N个音乐片段之前,所述方法还可以包括:
过滤所述待分类的音乐文件中的静音片段;
所述将待分类的音乐文件划分为N个音乐片段,包括:
将过滤静音片段后的音乐文件划分为N个音乐片段。
本发明实施例中,上述静音片段是指没有声音的片段,例如,一首歌曲的前几秒以及最后几秒通常没有声音。
在一种实施方式中,可以直接将音乐文件中从起始时刻开始的第一预设时长的音乐片段,以及以结尾时刻结束的第二预设时长的音乐片段作为静音片段。例如,去除音乐文件中前3秒的音乐片段和最后3秒的音乐片段。
在另一种实施方式中,可以检测音乐文件中的静音片段,并过滤所检测到的静音片段。例如,根据音乐文件的声谱图检测音乐文件中的静音片段,以过滤所检测到的静音片段。
本发明实施例通过过滤所述待分类的音乐文件中的静音片段,并将过滤静音片段后的音乐文件划分为N个音乐片段,可以减少静音片段对分类结果的影响,进一步提高音乐分类的准确性。
以下结合示例对本发明实施例进行说明:
步骤a1、去除待分类的音乐文件开始和结尾各3秒的音乐数据,并把处理后的音乐文件,按照每K秒划分为一个音乐片段的方式,划分为多个音乐片段。
该步骤中,上述K的取值范围可以为[5,15]。
步骤a2、提取各个音乐片段的梅尔声谱特征。
例如,上述梅尔声谱特征可以是梅尔声谱特征矩阵,其中,梅尔声谱特征矩阵中特征值的单位可以为分贝,并可限制该梅尔声谱特征矩阵中的特征值的最大值不大于100。本发明实施例以上述梅尔声谱特征矩阵为128*128的特征矩阵为例进行说明。
步骤a3、调用预先训练的音乐分类模型进行分类,得到各个类别的概率。
该步骤中,上述音乐分类模型的结构可以如图3所示。
例如,上述各个音乐片段的梅尔声谱特征矩阵,例如,128*128的第一特征矩阵,输入ResNet,得到第二特征矩阵,例如,4096*1的特征矩阵,并将该第二特征矩阵输入至形状调整层(即Reshape层),以将第二特征矩阵调整为符合双向GRU输入矩阵要求的第三特征矩阵,例如,将4096*1的特征矩阵调整为128*32的第三特征矩阵,并将第三特征矩阵输入双向GRU,输出第四特征矩阵,其中,第四特征矩阵与num_unit(即单元个数)和层数有关,例如,当单元个数为256,层数为2时,第四特征矩阵为512*1。全连接层用于把特征映射到样本标记空间,在分类过程中一般都会默认使用该层,其输出的维度(即Size)等于类别个数,例如,当共存在32个类别时,其维度即为32。SoftMax层用于把分类结果映射到0~1之间,得到各个类别概率。
需要说明的是,图3所示的音乐分类模型中,ResNet可以不包括平均池化层和分类层。
需要说明的是,本发明实施例直接将梅尔声谱特征矩阵输入音乐分类模型,相比于将梅尔声谱特征图输入音乐分类模型,可以在保证音乐类型的准确性的同时,还无需进行图片渲染过程,提高了音乐分类速度。
步骤a4、根据音乐文件的各个音乐片段对应的M个类别的概率,确定音乐文件的类别。
例如,可以获取每个音乐片段对应的K个目标类别的概率,将相同的类别的概率进行加权,得到各个类别的加权值,并将加权值最大的类别确定为上述音乐文件的类型。其中,所述目标类别可以为所述M个类别中类别的概率位于目标概率排序中的前2的类别,所述目标概率排序为所述M个类别的概率按照从大到小排序。
步骤a4、把所确定的类别作为该音乐文件的标注信息,并存入数据库。
本发明实施例中,根据音乐声音本身特征进行分类,例如,旋律、音高、音调、音色等,可以减少分类的主观性,并可以提高分类效率和准确性。
参见图4,图4是本发明实施例提供的音乐分类装置的结构图。如图4所示,音乐分类装置400包括:
划分模块401,用于将待分类的音乐文件划分为N个音乐片段;其中,N为正整数;
提取模块402,用于分别提取所述N个音乐片段中每个音乐片段的声谱特征;
输入模块403,用于将所述N个音乐片段中每个音乐片段的声谱特征输入到预先训练的音乐分类模型中,得到所述N个音乐片段中每个音乐片段对应的M个类别的概率;其中,M为正整数;
确定模块404,用于根据所述N个音乐片段中每个音乐片段对应的M个类别的概率,确定所述音乐文件的类别。
可选的,所述确定模块具体用于:
获取所述N个音乐片段中每个音乐片段对应的K个目标类别的概率;其中,K为大于1的整数,所述目标类别为所述M个类别中概率满足预设条件的类别;
分别将所述N个音乐片段对应的目标类别的概率中,相同类别的概率进行加权运算,得到各个类别的加权值;
将加权值最大的类别确定为所述音乐文件的类别。
可选的,所述音乐分类模型为基于目标网络训练得到的分类模型,其中,所述目标网络包括第一网络,所述第一网络包括残差网络ResNet或是密集连接卷积网络DenseNet。
可选的,所述目标网络还包括第二网络,且所述第二网络的输入端连接所述第一网络的输出端,其中,所述第二网络包括门控循环单元GRU网络或长短期记忆LSTM网络。
可选的,用于所述音乐分类模型训练的损失函数为交叉熵损失函数。
可选的,所述声谱特征为梅尔声谱特征。
可选的,所述装置还包括:
过滤模块,用于所述将待分类的音乐文件划分为N个音乐片段之前,过滤所述待分类的音乐文件中的静音片段;
所述划分模块具体用于:
将过滤静音片段后的音乐文件划分为N个音乐片段。
本发明实施例提供的音乐分类装置400能够实现上述方法实施例中的各个过程,为避免重复,这里不再赘述。
本发明实施例的音乐分类装置400,划分模块401,用于将待分类的音乐文件划分为N个音乐片段;其中,N为正整数;提取模块402,用于分别提取所述N个音乐片段中每个音乐片段的声谱特征;输入模块403,用于将所述N个音乐片段中每个音乐片段的声谱特征输入到预先训练的音乐分类模型中,得到所述N个音乐片段中每个音乐片段对应的M个类别的概率;其中,M为正整数;确定模块404,用于根据所述N个音乐片段中每个音乐片段对应的M个类别的概率,确定所述音乐文件的类别,可以较为快捷和准确的确定音乐文件的类别,提高音乐文件分类的效率。
参见图5,图5是本发明又一实施提供的音乐分类装置的结构图,如图5所示,音乐分类装置500包括:处理器501、存储器502及存储在所述存储器502上并可在所述处理器上运行的计算机程序,数据发送装置500中的各个组件通过总线接口503耦合在一起,所述计算机程序被所述处理器501执行时实现如下步骤:
将待分类的音乐文件划分为N个音乐片段;其中,N为正整数;
分别提取所述N个音乐片段中每个音乐片段的声谱特征;
将所述N个音乐片段中每个音乐片段的声谱特征输入到预先训练的音乐分类模型中,得到所述N个音乐片段中每个音乐片段对应的M个类别的概率;其中,M为正整数;
根据所述N个音乐片段中每个音乐片段对应的M个类别的概率,确定所述音乐文件的类别。
可选的,所述计算机程序被所述处理器501执行时还用于:
获取所述N个音乐片段中每个音乐片段对应的K个目标类别的概率;其中,K为大于1的整数,所述目标类别为所述M个类别中概率满足预设条件的类别;
分别将所述N个音乐片段对应的目标类别的概率中,相同类别的概率进行加权运算,得到各个类别的加权值;
将加权值最大的类别确定为所述音乐文件的类别。
可选的,所述音乐分类模型为基于目标网络训练得到的分类模型,其中,所述目标网络包括第一网络,所述第一网络包括残差网络ResNet或是密集连接卷积网络DenseNet。
可选的,所述目标网络还包括第二网络,且所述第二网络的输入端连接所述第一网络的输出端,其中,所述第二网络包括门控循环单元GRU网络或长短期记忆LSTM网络。
可选的,用于所述音乐分类模型训练的损失函数为交叉熵损失函数。
可选的,所述声谱特征为梅尔声谱特征。
可选的,所述计算机程序被所述处理器501执行时还用于:
所述将待分类的音乐文件划分为N个音乐片段之前,过滤所述待分类的音乐文件中的静音片段;
将过滤静音片段后的音乐文件划分为N个音乐片段。
本发明实施例还提供一种音乐分类装置,包括处理器,存储器,存储在存储器上并可在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述音乐分类方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述音乐分类方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
Claims (10)
1.一种音乐分类方法,其特征在于,包括:
将待分类的音乐文件划分为N个音乐片段;其中,N为正整数;
分别提取所述N个音乐片段中每个音乐片段的声谱特征;
将所述N个音乐片段中每个音乐片段的声谱特征输入到预先训练的音乐分类模型中,得到所述N个音乐片段中每个音乐片段对应的M个类别的概率;其中,M为正整数;
根据所述N个音乐片段中每个音乐片段对应的M个类别的概率,确定所述音乐文件的类别。
2.根据权利要求1所述的方法,其特征在于,所述根据所述N个音乐片段中每个音乐片段对应的M个类别的概率,确定所述音乐文件的类别,包括:
获取所述N个音乐片段中每个音乐片段对应的K个目标类别的概率;其中,K为大于1的整数,所述目标类别为所述M个类别中概率满足预设条件的类别;
分别将所述N个音乐片段对应的目标类别的概率中,相同类别的概率进行加权运算,得到各个类别的加权值;
将加权值最大的类别确定为所述音乐文件的类别。
3.根据权利要求1所述的方法,其特征在于,所述音乐分类模型为基于目标网络训练得到的分类模型,其中,所述目标网络包括第一网络,所述第一网络包括残差网络ResNet或是密集连接卷积网络DenseNet。
4.根据权利要求3所述的方法,其特征在于,所述目标网络还包括第二网络,且所述第二网络的输入端连接所述第一网络的输出端,其中,所述第二网络包括门控循环单元GRU网络或长短期记忆LSTM网络。
5.根据权利要求3所述的方法,其特征在于,用于所述音乐分类模型训练的损失函数为交叉熵损失函数。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述声谱特征为梅尔声谱特征。
7.根据权利要求1至5中任一项所述的方法,其特征在于,所述将待分类的音乐文件划分为N个音乐片段之前,所述方法还包括:
过滤所述待分类的音乐文件中的静音片段;
所述将待分类的音乐文件划分为N个音乐片段,包括:
将过滤静音片段后的音乐文件划分为N个音乐片段。
8.一种音乐分类装置,其特征在于,包括:
划分模块,用于将待分类的音乐文件划分为N个音乐片段;其中,N为正整数;
提取模块,用于分别提取所述N个音乐片段中每个音乐片段的声谱特征;
输入模块,用于将所述N个音乐片段中每个音乐片段的声谱特征输入到预先训练的音乐分类模型中,得到所述N个音乐片段中每个音乐片段对应的M个类别的概率;其中,M为正整数;
确定模块,用于根据所述N个音乐片段中每个音乐片段对应的M个类别的概率,确定所述音乐文件的类别。
9.一种音乐分类装置,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的音乐分类方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的音乐分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811456622.XA CN111259189B (zh) | 2018-11-30 | 2018-11-30 | 一种音乐分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811456622.XA CN111259189B (zh) | 2018-11-30 | 2018-11-30 | 一种音乐分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111259189A true CN111259189A (zh) | 2020-06-09 |
CN111259189B CN111259189B (zh) | 2023-04-18 |
Family
ID=70952081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811456622.XA Active CN111259189B (zh) | 2018-11-30 | 2018-11-30 | 一种音乐分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111259189B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859011A (zh) * | 2020-07-16 | 2020-10-30 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法、装置、存储介质及电子设备 |
CN112445933A (zh) * | 2020-12-07 | 2021-03-05 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种模型训练方法、装置、设备及存储介质 |
CN112818164A (zh) * | 2021-03-24 | 2021-05-18 | 平安科技(深圳)有限公司 | 音乐类型识别方法、装置、设备及存储介质 |
CN113010728A (zh) * | 2021-04-06 | 2021-06-22 | 金宝贝网络科技(苏州)有限公司 | 一种歌曲推荐方法、系统、智能设备及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1998044A (zh) * | 2004-04-29 | 2007-07-11 | 皇家飞利浦电子股份有限公司 | 音频信号分类方法和系统 |
CN102799899A (zh) * | 2012-06-29 | 2012-11-28 | 北京理工大学 | 基于svm和gmm的特定音频事件分层泛化识别方法 |
CN104573114A (zh) * | 2015-02-04 | 2015-04-29 | 苏州大学 | 一种音乐分类方法及装置 |
CN105074822A (zh) * | 2013-03-26 | 2015-11-18 | 杜比实验室特许公司 | 用于音频分类和处理的装置和方法 |
CN105895110A (zh) * | 2016-06-30 | 2016-08-24 | 北京奇艺世纪科技有限公司 | 一种音频文件的分类方法及装置 |
CN106328121A (zh) * | 2016-08-30 | 2017-01-11 | 南京理工大学 | 基于深度置信网络的中国传统乐器分类方法 |
CN107220281A (zh) * | 2017-04-19 | 2017-09-29 | 北京协同创新研究院 | 一种音乐分类方法及装置 |
CN108010514A (zh) * | 2017-11-20 | 2018-05-08 | 四川大学 | 一种基于深度神经网络的语音分类方法 |
US20180144749A1 (en) * | 2015-08-20 | 2018-05-24 | Samsung Electronics Co., Ltd. | Speech recognition apparatus and method |
CN108538311A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频分类方法、装置及计算机可读存储介质 |
US20180288634A1 (en) * | 2017-03-30 | 2018-10-04 | International Business Machines Corporation | Identifying the network segment responsible for poor audio quality |
CN108648748A (zh) * | 2018-03-30 | 2018-10-12 | 沈阳工业大学 | 医院噪声环境下的声学事件检测方法 |
-
2018
- 2018-11-30 CN CN201811456622.XA patent/CN111259189B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1998044A (zh) * | 2004-04-29 | 2007-07-11 | 皇家飞利浦电子股份有限公司 | 音频信号分类方法和系统 |
CN102799899A (zh) * | 2012-06-29 | 2012-11-28 | 北京理工大学 | 基于svm和gmm的特定音频事件分层泛化识别方法 |
CN105074822A (zh) * | 2013-03-26 | 2015-11-18 | 杜比实验室特许公司 | 用于音频分类和处理的装置和方法 |
CN104573114A (zh) * | 2015-02-04 | 2015-04-29 | 苏州大学 | 一种音乐分类方法及装置 |
US20180144749A1 (en) * | 2015-08-20 | 2018-05-24 | Samsung Electronics Co., Ltd. | Speech recognition apparatus and method |
CN105895110A (zh) * | 2016-06-30 | 2016-08-24 | 北京奇艺世纪科技有限公司 | 一种音频文件的分类方法及装置 |
CN106328121A (zh) * | 2016-08-30 | 2017-01-11 | 南京理工大学 | 基于深度置信网络的中国传统乐器分类方法 |
US20180288634A1 (en) * | 2017-03-30 | 2018-10-04 | International Business Machines Corporation | Identifying the network segment responsible for poor audio quality |
CN107220281A (zh) * | 2017-04-19 | 2017-09-29 | 北京协同创新研究院 | 一种音乐分类方法及装置 |
CN108010514A (zh) * | 2017-11-20 | 2018-05-08 | 四川大学 | 一种基于深度神经网络的语音分类方法 |
CN108648748A (zh) * | 2018-03-30 | 2018-10-12 | 沈阳工业大学 | 医院噪声环境下的声学事件检测方法 |
CN108538311A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频分类方法、装置及计算机可读存储介质 |
Non-Patent Citations (3)
Title |
---|
YANDRE M.G. COSTA 等: "An evaluation of Convolutional Neural Networks for music classification using spectrograms" * |
赵娟: "基于内容的海量音频智能检索与重复性检测" * |
韩凝: "基于深度神经网络的音乐自动标注技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859011A (zh) * | 2020-07-16 | 2020-10-30 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法、装置、存储介质及电子设备 |
CN112445933A (zh) * | 2020-12-07 | 2021-03-05 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种模型训练方法、装置、设备及存储介质 |
CN112818164A (zh) * | 2021-03-24 | 2021-05-18 | 平安科技(深圳)有限公司 | 音乐类型识别方法、装置、设备及存储介质 |
CN112818164B (zh) * | 2021-03-24 | 2023-09-15 | 平安科技(深圳)有限公司 | 音乐类型识别方法、装置、设备及存储介质 |
CN113010728A (zh) * | 2021-04-06 | 2021-06-22 | 金宝贝网络科技(苏州)有限公司 | 一种歌曲推荐方法、系统、智能设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111259189B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111259189B (zh) | 一种音乐分类方法及装置 | |
CN110990685B (zh) | 基于声纹的语音搜索方法、设备、存储介质及装置 | |
CN109697290B (zh) | 一种信息处理方法、设备及计算机存储介质 | |
CN109065071B (zh) | 一种基于迭代k-means算法的歌曲聚类方法 | |
Kiktova-Vozarikova et al. | Feature selection for acoustic events detection | |
CN111737464B (zh) | 文本分类方法、装置和电子设备 | |
CN108764114B (zh) | 一种信号识别方法及其设备、存储介质、终端 | |
CN111932296B (zh) | 一种产品推荐方法及装置、服务器、存储介质 | |
WO2019137392A1 (zh) | 文件分类处理方法、装置及终端、服务器、存储介质 | |
CN114443891B (zh) | 编码器的生成方法、指纹提取方法、介质及电子设备 | |
CN111859011A (zh) | 音频处理方法、装置、存储介质及电子设备 | |
CN110705282A (zh) | 关键词提取方法、装置、存储介质及电子设备 | |
JP2010032865A (ja) | 音声認識装置、音声認識システムおよびプログラム | |
CN111428487B (zh) | 模型训练方法、歌词生成方法、装置、电子设备及介质 | |
CN116153336B (zh) | 一种基于多域信息融合的合成语音检测方法 | |
CN110708619B (zh) | 一种智能设备的词向量训练方法及装置 | |
CN112069335A (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN116932735A (zh) | 一种文本比对方法、装置、介质和设备 | |
CN111898363A (zh) | 文本长难句的压缩方法、装置、计算机设备及存储介质 | |
CN113793623B (zh) | 音效设置方法、装置、设备以及计算机可读存储介质 | |
CN113032616B (zh) | 音频推荐的方法、装置、计算机设备和存储介质 | |
CN116153326A (zh) | 语音分离方法、装置、电子设备及可读存储介质 | |
JP2002062892A (ja) | 音響分類装置 | |
CN111782860A (zh) | 一种音频检测方法及装置、存储介质 | |
CN112712792A (zh) | 一种方言识别模型的训练方法、可读存储介质及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |