CN107220281A

CN107220281A - 一种音乐分类方法及装置

Info

Publication number: CN107220281A
Application number: CN201710257754.9A
Authority: CN
Inventors: 王永滨; 孙书韬; 安靖; 王�琦; 王剑
Original assignee: Beijing Collaborative Innovation Institute; Communication University of China
Current assignee: Beijing Collaborative Innovation Institute; Communication University of China
Priority date: 2017-04-19
Filing date: 2017-04-19
Publication date: 2017-09-29
Anticipated expiration: 2037-04-19
Also published as: CN107220281B

Abstract

本发明提供了一种音乐分类方法及装置。该方法包括：根据训练集的音乐数据的声学特征和流派标签训练通用流派分类器，并根据训练集的音乐数据的声学特征和情感标签训练通用情感分类器；选取训练集中的不同情感的音乐数据，训练针对不同情感的流派分类器，并选取训练集中不同流派的音乐数据，训练针对不同流派的情感分类器；根据所述通用流派分类器、各个不同流派的情感分类器、通用情感分类器、各个不同情感的流派分类器获取流派情感预测表；根据所述流派情感预测表获取所述待分类音乐的流派标签和情感标签。本发明实施例在进行分类的过程中，充分考虑流派与情感类别的相互关系，根据流派情感预测表对待分类音乐进行综合评估，提高了音乐分类的准确性。

Description

一种音乐分类方法及装置

技术领域

本发明涉及数据处理技术领域，具体涉及一种音乐分类方法及装置。

背景技术

音乐分类是基于音乐的声学特征采用经机器学习得到的分类器对没有标记的音乐进行分类与标记。提取待分类音乐的音色特征和节奏特征等声学特征，完成对音乐的情感分类和流派分类。

现有的音乐分类方法中情感和流派的分类都是分开处理。在针对情感分类的音乐分类方法中,一种方法是训练数据集中不含有流派信息(或即使有流派信息也不考虑)，训练情感分类模型，通过训练后的情感分类模型进行情感分类；另一种方法是训练数据集中包含流派信息,针对每一个流派训练情感分类模型，用于分类流派明确的音乐，但如果待分类音乐流派不明,就无法通过这种方法完成音乐分类。

现有的技术方案对音乐流派与情感建立的分类模型过于简单,没有考虑流派与情感类别的相互关系,造成音乐分类结果准确性差。

发明内容

本发明实施例提供一种音乐分类方法，用于解决现有的音乐分类方法中分类结果准确性差的问题。

本发明实施例提供了一种音乐分类方法，包括:

根据训练集的音乐数据的声学特征和流派标签训练通用流派分类器，并根据训练集的音乐数据的声学特征和情感标签训练通用情感分类器；

选取训练集中的不同情感的音乐数据，训练针对不同情感的流派分类器，并选取训练集中不同流派的音乐数据，训练针对不同流派的情感分类器；

根据所述通用流派分类器获取待分类音乐的第一预估流派预测结果，根据各个不同流派的情感分类器和所述第一预估流派预测结果获取所述待分类音乐的第一预估情感预测结果，将所述第一预估情感预测结果填入流派情感预测表，并根据所述通用情感分类器获取所述待分类音乐的第二预估情感预测结果，根据各个不同情感的流派分类器和所述第二预估情感预测结果获取所述待分类音乐的第二预估流派预测结果，并将所述第二预估流派预测结果填入所述流派情感预测表；

根据所述流派情感预测表获取所述待分类音乐的流派标签和情感标签。

可选地，所述根据所述通用流派分类器获取待分类音乐的第一预估流派预测结果，包括：

根据所述通用流派分类器获取待分类音乐的隶属流派的第一排序结果；

根据所述第一排序结果获取待分类音乐的第一预估流派预测结果；

其中，将所述第一排序结果转换为所述第一预估流派预测结果的公式为：

P_g(i)＝(1-α_g)^i-1α_g

其中，P_g(i)为所述待分类音乐隶属于排序为i的流派的估计概率，α_g为所述通用流派分类器采用测试集得到的流派分类准确率。

可选地，所述根据各个不同流派的情感分类器和所述第一预估流派预测结果获取所述待分类音乐的第一预估情感预测结果，包括：

根据所述各个不同流派的情感分类器和所述第一预估流派预测结果获取所述待分类音乐的隶属情感的第二排序结果；

根据所述第二排序结果获取所述待分类音乐的第一预估情感预测结果；

其中，将所述第二排序结果转换为所述第一预估情感预测结果的公式为：

其中，P_e(j)为所述待分类音乐隶属于排序为j的情感的估计概率，为流派i情感分类器采用测试集得到的情感分类准确率。

可选地，所述根据所述通用情感分类器获取所述待分类音乐的第二预估情感预测结果，包括：

根据所述通用情感分类器获取所述待分类音乐的隶属情感的第三排序结果；

根据所述第三排序结果获取待分类音乐的第二预估情感预测结果；

其中，将所述第三排序结果转换为所述第二预估情感预测结果的公式为：

P_e(j)＝(1-α_e)^j-1α_e

其中，P_e(j)为所述待分类音乐隶属于排序为j的情感的估计概率，α_e为所所述通用情感分类器采用测试集得到的情感分类准确率。

可选地，所述根据各个不同情感的流派分类器和所述第二预估情感预测结果获取所述待分类音乐的第二预估流派预测结果，包括：

根据所述各个不同情感的流派分类器和所述第二预估情感预测结果获取所述待分类音乐的隶属流派的第四排序结果；

根据所述第四排序结果获取所述待分类音乐的第二预估流派预测结果；

其中，将所述第四排序结果转换为所述第二预估流派预测结果的公式为：

其中，P_g(i)为所述待分类音乐隶属于排序为i的流派的估计概率，为情感j流派分类器采用测试集得到的流派分类准确率。

可选地，所述根据所述流派情感预测表获取所述待分类音乐的流派标签和情感标签，包括：

根据如下公式获取所述待分类音乐的各个流派标签的第一权重值：

对所述待分类音乐的各个流派标签的第一权重值进行排序，将排在前面第一预设个数的流派标签确定为所述待分类音乐的流派标签；

根据如下公式获取所述待分类音乐的各个情感标签的第二权重值：

对所述待分类音乐的各个情感标签的第二权重值进行排序，将排在前面第二预设个数的流派标签确定为所述待分类音乐的情感标签；

其中，GF[i]为第i个流派标签的第一权重值；EF[j]为第j个情感标签的第二权重值；M为待分类音乐中流派标签的种类；N为待分类音乐中情感标签的种类；GE[i，j]为所述流派情感预测表中第i行第j列元素的值。

可选地，所述第一预设个数为1，所述第二预设个数为1。

可选地，所述通用流派分类器、所述通用情感分类器、所述针对不同情感的流派分类器和所述针对不同流派的情感分类器是基于最大期望算法训练得到的。

本发明实施例提供了一种音乐分类装置，包括：

通用分类器训练单元，用于根据训练集的音乐数据的声学特征和流派标签训练通用流派分类器，并根据训练集的音乐数据的声学特征和情感标签训练通用情感分类器；

流派情感分类器训练单元，用于选取训练集中的不同情感的音乐数据，训练针对不同情感的流派分类器，并选取训练集中不同流派的音乐数据，训练针对不同流派的情感分类器；

流派情感预测表获取单元，用于根据所述通用流派分类器获取待分类音乐的第一预估流派预测结果，根据各个不同流派的情感分类器和所述第一预估流派预测结果获取所述待分类音乐的第一预估情感预测结果，将所述第一预估情感预测结果填入流派情感预测表，并根据所述通用情感分类器获取所述待分类音乐的第二预估情感预测结果，根据各个不同情感的流派分类器和所述第二预估情感预测结果获取所述待分类音乐的第二预估流派预测结果，并将所述第二预估流派预测结果填入所述流派情感预测表；

标签获取单元，用于根据所述流派情感预测表获取所述待分类音乐的流派标签和情感标签。

本发明实施例提供的音乐分类方法及装置，根据训练集的音乐数据的声学特征和流派标签训练通用流派分类器，并根据训练集的音乐数据的声学特征和情感标签训练通用情感分类器；选取训练集中的不同情感的音乐数据，训练针对不同情感的流派分类器，并选取训练集中不同流派的音乐数据，训练针对不同流派的情感分类器；根据所述通用流派分类器、各个不同流派的情感分类器、通用情感分类器、各个不同情感的流派分类器获取流派情感预测表；根据所述流派情感预测表获取所述待分类音乐的流派标签和情感标签。本发明实施例在进行分类的过程中，充分考虑流派与情感类别的相互关系，根据流派情感预测表对待分类音乐进行综合评估，提高了音乐分类的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的音乐分类方法的流程示意图；

图2是本发明一个实施例的音乐分类方法的原理图；

图3是本发明一个实施例的音乐分类装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例的音乐分类方法基于监督学习的分类方法，将待分类音乐分成M类流派和N类情感，M和N的数值根据具体的分类任务确定。训练集包括一定数量的已经具有情感与流派标签的音乐数据。本发明实施例基于训练集训练一系列分类器。

图1是本发明一个实施例的音乐分类方法的流程示意图。如图1所示，该实施例的方法包括：

S11：根据训练集的音乐数据的声学特征和流派标签训练通用流派分类器，并根据训练集的音乐数据的声学特征和情感标签训练通用情感分类器；

需要说明的是，本发明实施例对分类器不做特殊规定，所选择的分类器的输出应为待分类音乐属于某一个流派的排序Rank或估计概率；或者所选择的分类器的输出为待分类音乐属于某一个情感的排序Rank或估计概率。如果分类的输出为rank，在进行实际预测时，将被按一定规则转化为估计概率。

本发明实施例采用训练集音乐的声学特征与流派标签训练一个通用流派分类器，并采用测试集进行评估得到分类准确率α_g；然后采用训练集音乐声学特征与情感标签训练一个通用情感分类器，并采用测试集进行评估得到分类准确率α_e。

S12：选取训练集中的不同情感的音乐数据，训练针对不同情感的流派分类器，并选取训练集中不同流派的音乐数据，训练针对不同流派的情感分类器；

需要说明的是，本发明实施例选取训练集中的不同情感的音乐数据，训练针对不同情感的流派分类器，采用情感标签为j的训练数据得到的流派分类器，命名为情感j流派分类器，并采用测试集进行评估得到分类准确率

本发明实施例选取训练集中的不同流派的音乐数据，训练针对不同流派的情感分类器，采用流派i的训练数据得到的情感分类器，命名为流派i情感分类器，并采用测试集进行评估得到分类准确率

S13：根据所述通用流派分类器获取待分类音乐的第一预估流派预测结果，根据各个不同流派的情感分类器和所述第一预估流派预测结果获取所述待分类音乐的第一预估情感预测结果，将所述第一预估情感预测结果填入流派情感预测表，并根据所述通用情感分类器获取所述待分类音乐的第二预估情感预测结果，根据各个不同情感的流派分类器和所述第二预估情感预测结果获取所述待分类音乐的第二预估流派预测结果，并将所述第二预估流派预测结果填入所述流派情感预测表；

可理解的是，本发明实施例采用通用流派分类器对待分类音乐进行分类和采用通用情感分类器对待分类音乐进行分类并不限制执行的先后顺序，可以先通用流派分类后通用情感分类，可以先通用情感分类再通用流派分类，二者也可以并行进行。

本发明实施例对待分类音乐首先经过通用流派分类器和通用情感分类器的分类，得到待分类音乐隶属于不同情感和流派的概率估计。然后采用各个不同情感的流派分类器分流派和各个不同流派的情感分类器，获取待分类音乐属于不同情感和流派的概率。并将结果填入流派情感预测表。

S14：根据所述流派情感预测表获取所述待分类音乐的流派标签和情感标签。

本发明实施例对流派情感预测表进行综合评估后，给出最终分类结果，获得待分类音乐的流派标签和情感标签。

本发明实施例提供的音乐分类方法，在进行分类的过程中，充分考虑流派与情感类别的相互关系，根据流派情感预测表对待分类音乐进行综合评估，提高了音乐分类的准确性。

在本发明实施例的一种可选的实施方式中，所述根据所述通用流派分类器获取待分类音乐的第一预估流派预测结果，包括：

P_g(i)＝(1-α_g)^i-1α_g

类似地，所述根据各个不同流派的情感分类器和所述第一预估流派预测结果获取所述待分类音乐的第一预估情感预测结果，包括：

类似地，所述根据所述通用情感分类器获取所述待分类音乐的第二预估情感预测结果，包括：

P_e(j)＝(1-α_e)^j-1α_e

类似地，所述根据各个不同情感的流派分类器和所述第二预估情感预测结果获取所述待分类音乐的第二预估流派预测结果，包括：

可理解的是，本发明实施例设计了由基于排序的分类结果到基于概率估计的分类结果的变换机制，本发明实施例既可以采用基于概率估计的分类模型也可以采用基于排序的分类模型，提高了本发明实施例的适应性。

进一步地，所述根据所述流派情感预测表获取所述待分类音乐的流派标签和情感标签，包括：

以下结合图2说明详细说明本发明实施例的音乐分类方法的过程。

如图2所示，GMM为选用的高斯混合分类模型(可根据实际需要选择其他分类模型)，GMMg为通用流派分类器，GMMe为通用情感分类器。GMMgie为用于流派i的情感分类器，GMMeig为用于情感i类的流派分类器。

本发明实施例首先对训练集的音乐数据进行声学特征提取，提取的声学特征可以包括但不限于表1中的声学特征：

表1音乐数据的声学特征

本发明实施例采用高斯混合模型分别进行通用情感分类器和通用流派分类器的训练，训练得到两个高斯混合分类器：通用情感分类器GMMe和通用流派分类器GMMg。

以训练通用情感分类器为例，假定其混合成分数为K，对每一类情感的训练数据X＝{x1,x2,x3,….,xn}，可以采用最大期望EM算法训练其高斯混合模型，训练步骤如下：

初始化参数θ_c＝{w_i，μ_i，∑_i，i＝1，...，k}

循环下面步骤，直到收敛：

(E步)计算

(M步)求取如下似然函数最大化的参数θ

总共得到N个具有K组高斯分布参数的GMM混合模型参数，记为通用情感分类器GMMe。

后续的分类器的训练采用EM算法，再次不再赘述。

本发明实施例采用上述的类似方法，训练得到通用流派分类器GMMg；

对每类流派i，训练流派i歌曲的情感分类模型得到GMMgie；

对每类情感j，训练情感j歌曲的流派分类模型得到GMMejg；

同时在训练阶段获取各个分类器的准确率评估结果α_e，α_g，等。

在各分类器训练完毕后，本发明实施例对待分类音乐进行分类的过程如下：

初始化流派情感预测表GE[i，j]初值为0；

对待分类音乐x使用通用情感分类器GMMe进行情感预测，得到属于不同情感的排序，并将该排序转化为隶属于不同情感的概率P(ej|X)，即第二预估情感预测结果；

采用基于情感的流派分类器GMMejg(j＝1,…,N)进行流派预测，得到属于不同流派的排序，并将该排序转化为隶属于不同流派的概率P(gi|X,ej)；将第二预估流派预测结果填入流派情感预测表：

GE[i，j]＝GE[i，j]+P(gi|X,ei)*P(ej/X)；

对待分类音乐x使用通用流派分类器GMMg进行流派预测，得到属于不同流派的排序，并将该排序转化为隶属于不同流派的概率P(gi|X)，即第一预估流派预测结果；

采用基于流派的情感分类器GMMgie(i＝1,…,M)进行情感预测，得到属于不同情感的排序，将该排序转化为隶属于不同流派的概率P(ej|X,gi),将第一预估情感预测结果填入流派情感预测表：

GE[i，j]＝GE[i，j]+P(ej|X,gi)*P(gi|X)；

进一步地，所述第一预设个数为1，所述第二预设个数为1。

本发明实施例对待分类音乐可为多标签分类，在预测结果中取靠前的或者超过某一阈值的部分标签。本发明实施例对待分类音乐也可以为单一标签分类，即取最大GF[i]对应的标号的标签为待分类音乐的流派标签，取最大EF[j]对应的标号的标签为待分类音乐的情感标签。

本发明实施例的训练与分类的具体实现还取决于计算机系统，在多核或集群计算机系统上，上述基于不同情感的流派分类器的训练、基于不同流派的情感分类器的训练、流派与情感分类器的训练。预测的可并行情况与训练类似，在此不再一一说明。

图3是本发明一个实施例的音乐分类装置的结构示意图。如图3所示，本发明实施例的装置包括通用分类器训练单元31：

通用分类器训练单元31，用于根据训练集的音乐数据的声学特征和流派标签训练通用流派分类器，并根据训练集的音乐数据的声学特征和情感标签训练通用情感分类器；

流派情感分类器训练单元32，用于选取训练集中的不同情感的音乐数据，训练针对不同情感的流派分类器，并选取训练集中不同流派的音乐数据，训练针对不同流派的情感分类器；

流派情感预测表获取单元33，用于根据所述通用流派分类器获取待分类音乐的第一预估流派预测结果，根据各个不同流派的情感分类器和所述第一预估流派预测结果获取所述待分类音乐的第一预估情感预测结果，将所述第一预估情感预测结果填入流派情感预测表，并根据所述通用情感分类器获取所述待分类音乐的第二预估情感预测结果，根据各个不同情感的流派分类器和所述第二预估情感预测结果获取所述待分类音乐的第二预估流派预测结果，并将所述第二预估流派预测结果填入所述流派情感预测表；

标签获取单元34，用于根据所述流派情感预测表获取所述待分类音乐的流派标签和情感标签。

本发明实施例的音乐分类装置可以用于执行上述方法实施例，其原理和技术效果类似，此处不再赘述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

需要说明的是术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明的说明书中，说明了大量具体细节。然而能够理解的是，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本发明公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

以上实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种音乐分类方法，其特征在于，包括:

2.根据权利要求1所述的方法，其特征在于，所述根据所述通用流派分类器获取待分类音乐的第一预估流派预测结果，包括：

P_g(i)＝(1-α_g)^i-1α_g

3.根据权利要求1所述的方法，其特征在于，所述根据各个不同流派的情感分类器和所述第一预估流派预测结果获取所述待分类音乐的第一预估情感预测结果，包括：

<mrow> <msub> <mi>P</mi> <mi>e</mi> </msub> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msubsup> <mi>&alpha;</mi> <mi>e</mi> <mi>i</mi> </msubsup> <mo>)</mo> </mrow> <mrow> <mi>j</mi> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msubsup> <mi>&alpha;</mi> <mi>e</mi> <mi>i</mi> </msubsup> </mrow>

4.根据权利要求1所述的方法，其特征在于，所述根据所述通用情感分类器获取所述待分类音乐的第二预估情感预测结果，包括：

P_e(j)＝(1-α_e)^j-1α_e

5.根据权利要求1所述的方法，其特征在于，所述根据各个不同情感的流派分类器和所述第二预估情感预测结果获取所述待分类音乐的第二预估流派预测结果，包括：

<mrow> <msub> <mi>P</mi> <mi>g</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msubsup> <mi>&alpha;</mi> <mi>g</mi> <mi>j</mi> </msubsup> <mo>)</mo> </mrow> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msubsup> <mi>&alpha;</mi> <mi>g</mi> <mi>j</mi> </msubsup> </mrow>

6.根据权利要求1所述的方法，其特征在于，所述根据所述流派情感预测表获取所述待分类音乐的流派标签和情感标签，包括：

<mrow> <mi>G</mi> <mi>F</mi> <mo>&lsqb;</mo> <mi>i</mi> <mo>&rsqb;</mo> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <mi>G</mi> <mi>E</mi> <mo>&lsqb;</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>&rsqb;</mo> </mrow>

<mrow> <mi>E</mi> <mi>F</mi> <mo>&lsqb;</mo> <mi>j</mi> <mo>&rsqb;</mo> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </msubsup> <mi>G</mi> <mi>E</mi> <mo>&lsqb;</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>&rsqb;</mo> </mrow>

7.根据权利要求6所述的方法，其特征在于，所述第一预设个数为1，所述第二预设个数为1。

8.根据权利要求1所述的方法，其特征在于，所述通用流派分类器、所述通用情感分类器、所述针对不同情感的流派分类器和所述针对不同流派的情感分类器是基于最大期望算法训练得到的。

9.一种音乐分类装置，其特征在于，包括：