CN110134823B

CN110134823B - 基于归一化音符显马尔可夫模型的midi音乐流派分类方法

Info

Publication number: CN110134823B
Application number: CN201910274136.4A
Authority: CN
Inventors: 韦岗; 潘镇锋; 曹燕
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-04-08
Filing date: 2019-04-08
Publication date: 2021-10-22
Anticipated expiration: 2039-04-08
Also published as: CN110134823A

Abstract

本发明提供基于归一化音符显马尔可夫模型的MIDI音乐流派分类方法，其包括:对MIDI音乐文件的音轨预处理；对预处理后的MIDI文件识别旋律音轨和伴奏音轨，分别提取出旋律、伴奏音符向量组；基于乐理对旋律、伴奏音符向量组分别先做归一化处理，然后建立八度循环音名跳转、12个音名八度跳转马尔可夫模型，提取旋律、伴奏音轨的特征向量；将其分别输入到预训练好的两个分类器，利用集成学习方法，计算出最终音乐流派分类结果。本发明对音符归一化处理，去掉调式对音乐风格的影响，提取特征时考虑了旋律、伴奏的音符在一个八度内和八度之间跳转对音乐风格分类的影响，音符在特定音乐流派下的变化规律和联系，有利于提高分类的准确性。

Description

基于归一化音符显马尔可夫模型的MIDI音乐流派分类方法

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于归一化音符马尔可夫模型的MIDI音乐流派分类方法。

背景技术

随着人们的生活水平日益提升，人们对精神层面的追求提出了更高的要求。音乐作为人类精神生活的重要组成，在娱乐、学习、医疗、教育等方面起到不可或缺的作用。不同流派的音乐，都有其特定适用情境场合。因此，音乐流派分类的准确性，在这些应用中具有重要指导和推荐作用。

MIDI是一种音乐的数字化存储格式，是数字音乐国际标准。MIDI被认为是计算机最能理解的乐谱，它能准确的告诉音乐播放器每个音符的演奏时间、音高、音色、时值等信息。MIDI文件体积较小，便于存储。MIDI文件结构明显，由独立的音轨组成，每个音轨各自包含事件，易于编辑和进行分析。

随着音乐创作不断的出现和上传，互联网上音乐资源库日益庞大，其中也包括MIDI音乐文件。音乐流派是听众区分音乐的重要特征，也是各大音乐网站管理音乐的标签，对管理一个庞大的MIDI音乐数据库，具有显著的划分功能。为了便于MIDI音乐数据库的管理和搜索，人们对MIDI音乐流派的自动分类逐渐提出需求。对一个庞大的MIDI音乐数据库进行音乐流派分类，如果采用人力去对海量的资源进行标注，将耗费大量的人力和时间。由于MIDI作为一种数字化音乐存储格式，适合交给计算机处理，能够有效地节省人力和时间，提高经济效益。

目前，有不少学者对基于机器学习的MIDI的自动分类研究。在预处理过程，首先识别MIDI中哪些音轨属于旋律音轨，并对这些音轨提取主旋律音符向量组，舍弃其余音轨。只对主旋律音轨进行特征提取，对其他的音轨丢弃。如此会丢失乐曲不少信息，被丢弃的音轨大多数是伴奏音轨。伴奏音轨往往包含着和声，和声是音乐的血肉，影响乐曲的情感，进而改变乐曲流派风格，因此，对MIDI音乐文件区分音乐流派，如果想达到更好的分类效果，MIDI音乐的伴奏音轨不应主观丢弃。

此外，对上述音符向量组特征提取时，由于主旋律音符向量组里的音符非常多，因此他们对其统计特征，比如音符密度，音符平均音高，音符音高方差等等以压缩输入数据特征的维度，并令这些统计特征作为输入分类器的参数。此类统计特征一般没有考虑到移调，移调会改变MIDI音乐的整体音高，但该旋律所有的音程、和弦、标记等内容都保持不动，音乐风格流派不变。而且音符出现的顺序对乐曲风格有着极大的影响，但是统计特征去掉了音符在时间上的特征。因此利用上述统计特征不能有效并完全表征原来乐曲的旋律，忽略了一首MIDI音乐在特定的流派风格下，弹奏音符在时间上的变化与内在联系。

马尔可夫模型是一种状态转移的统计模型，非常适用于描述弹奏音符上下文随着时间的变化。马尔可夫模型广泛应用在语音识别，词性自动标注，音节转化等各个自然语言处理等应用领域，其中研究最多的隐马尔可夫模型HMM，在哼唱音乐检索和识别也有应用，先训练HMM，再进行概率匹配，由于状态多且未知，故用“隐式”马尔可夫模型HMM，计算量相对较大且复杂。而MIDI音乐文件中的音符个数是已知的，故本发明考虑利用马尔可夫模型的时间特性，使用“显式”马尔可夫模型来提取音乐中主旋律和伴奏的特征。

因此，针对以上现有技术对MIDI文件分类时提取特征没有考虑到移调只会改变整个音乐的音高而不影响流派风格；对伴奏不作处理；没能体现弹奏音符特定流派下在时间上的变化规律和联系，不够有效和智能，有必要在分类时对上述问题进行考虑和优化，以提高分类的智能性和准确性。

发明内容

本发明的目的在于克服现有技术存在的上述不足，提供一种基于归一化音符显马尔可夫模型的MIDI音乐流派分类方法，分别对存在的旋律、伴奏音轨提取特征，归一化音符处理以消除移调对整体音高的影响，建立音符马尔科夫模型，能有效描述在特定音乐流派下音符的变化和联系，更具智能性，提高分类准确性。

本发明的目的至少通过如下技术方案之一实现。

本发明实施一种基于归一化音符显马尔可夫模型的MIDI音乐流派分类方法，具体流程包括：

步骤S101：对MIDI音乐文件的音轨预处理；

步骤S102：对预处理的MIDI音乐文件识别旋律音轨和伴奏音轨，分别提取出旋律、伴奏音符向量组；

步骤S103：基于旋律、伴奏音符向量组分别建立归一化音符马尔可夫模型，提取旋律、伴奏音轨的特征值向量；

步骤S104：将旋律、伴奏特征值向量分别输入到预训练好的分类器1、分类器2，利用集成学习方法，结合两个分类器的结果进行优化，计算出最终分类结果，即所述MIDI音乐文件所属音乐流派的标签。

进一步的，所述的S101中，对MIDI音乐文件的音轨预处理，包括：

步骤1：对所述的MIDI音乐文件删除其由打击乐器发声的音轨；

步骤2：融合发声乐器编号相同的音轨。

进一步的，所述的步骤S102中，对预处理的MIDI音乐文件识别旋律音轨和伴奏音轨，比如可使用神经网络、多音轨聚类MTC方法分类，得到旋律音轨集合和伴奏音轨集合；基于旋律、伴奏音轨集合分别提取出旋律、伴奏音符向量组，可以使用轮廓线算法。在现代音乐中，高音区是旋律声部。然后对旋律音轨集合使用高音轮廓线skyline算法提取旋律音符向量组；若伴奏音轨集合非空，则对其相应使用低音轮廓线landline算法提取伴奏音符向量组；低音轮廓线landline算法与高音轮廓线skyline算法相似，区别是对于起始时间相同的音符，保留音高最低的音符，删除其他，最后得出低音轮廓线。

其中，旋律音轨集合包含至少一条旋律音轨，伴奏音轨集合可为空。若伴奏音轨集合为空，后续不对其作处理。每个音符向量包括音符音高、音符的起始和结束时间、音量、音符的类别、速度、升降号等信息。对旋律音轨集合提取旋律音符向量组，可以使用高音轮廓线skyline算法；对伴奏音轨集合相应使用低音轮廓线landline算法提取伴奏音符向量组。对伴奏音轨集合使用低音轮廓线landline算法提取伴奏音符向量组，在伴奏音轨集合非空时作处理，主要包括：

步骤1：将伴奏音轨集合的音轨融合生成一条音轨，其事件按起始时间升序排列，并转化成待处理的音符向量组；

步骤2：遍历待处理的音符向量组，若存在起始时间相同的音符向量，则保留音高最低的音符向量，将剩下的删除，得到低音音符向量组；

步骤3：低音音符向量组的音符作结束时间修正，消除相邻音符之间的复调关系；若存在相邻音符向量n_i、n_i+1，满足起始时间s_i<s_i+1，结束时间e_i>s_i+1，音高p_i<p_i+1，则令e_i＝s_i+1。

进一步的，所述的步骤S103中，基于乐理对旋律、伴奏音符向量组分别先做归一化处理，然后建立八度循环音名跳转、12个音名八度跳转马尔可夫模型，提取旋律、伴奏音轨的特征值向量，主要包括：

步骤S1301：对旋律音符向量组、伴奏音符向量组分别做音符归一化处理，即是把调式都转成C调，同时计算出音符向量转调后对应的音名、八度值，并存入音符向量中；

步骤S1302：基于归一化的旋律、伴奏音符向量组分别建立八度循环音名跳转马尔可夫模型；

步骤S1303：基于归一化的旋律、伴奏音符向量组分别建立12个音名的八度跳转马尔可夫模型；

步骤S1304：提取旋律、伴奏特征值向量。

上述步骤S1301中，对旋律音符向量组、伴奏音符向量组分别做音符归一化处理，即把所有的调式都移到基本调式(C调)，消除移调对音符整体音高的改变，对一首乐曲移调，只是对其整体音高平移，但由于乐曲旋律并没有改变，该乐曲的流派风格不变；这样的音符归一化处理有利于提高分类效率。在乐理中，依据十二平均律将一组音分成12个半音，对应音列表示为Tones＝[C,#C,D,#D,E,F,#F,G,#G,A,#A,B]；乐曲调号每增加一个升号，就是将前一个调的每一个音都提高纯五度，反之亦然；纯五度是音数为7个半音的五度音程；在音符向量组中，音符向量包含音高pitch(其范围为0-127，钢琴88个键，其范围为21-108)，调号升降记号数m，若m为正，代表有m个升号，反之亦然；计算出归一化处理后音符对应的音名note，八度octave，并存入音符向量中：

note＝Tones[(pitch％12-|m|×7)₁₃]

上述第一个公式表示先对音高pitch模12，减去调号升降记号数m所对应的音程偏移值，再以12为周期循环位移计算出音列Tones的下标索引，最终映射到对应的音名；第二个公式表示对音高pitch除以12向下取整，再减1得到对应的八度。

上述步骤S1302中，基于归一化的旋律、伴奏音符向量组分别建立八度循环音名跳转马尔可夫模型，主要包括：

步骤1：对归一化后的旋律音符向量组、伴奏音符向量组分别遍历，统计各音名出现的次数、音符向量组中相邻两个音符向量的音名状态转移的次数；

步骤2：分别建立旋律、伴奏的八度循环音名跳转马尔可夫模型，12个音名为八度循环音名跳转马尔可夫模型的状态，计算出状态初始概率矩阵，状态转移概率矩阵。

上述步骤S1303中，基于归一化的旋律、伴奏音符向量组分别建立12个音名各自八度跳转马尔可夫模型，主要包括：

步骤1：对归一化后的旋律音符向量组、伴奏音符向量组分别遍历，得出旋律、伴奏的12个音名各自的八度跳转序列，并统计出各个音名八度跳转序列中的各八度值出现的次数、相邻两个八度值的各状态转移次数；

步骤2：分别建立旋律、伴奏的12个音名各自的八度跳转马尔可夫模型，八度值为八度跳转马尔可夫模型的状态，计算出状态初始概率矩阵，状态转移概率矩阵。

上述步骤S1304中，提取旋律、伴奏特征值向量。即是将旋律、伴奏的八度音名跳转马尔可夫模型、12个音名的八度跳转马尔可夫模型中的初始概率矩阵、转移概率矩阵相同地分别展成一维的旋律、伴奏特征值向量。

进一步的，所述步骤S104中，将旋律、伴奏特征值向量分别输入到预训练好的分类器1、分类器2，分类器采用现有技术实现，可以但不限于支持向量机、k邻近聚类、决策树、神经网络等；利用集成学习方法，结合两个分类器的结果进行优化，计算得出最终MIDI音乐文件所属流派类别的标签。

与现有技术相比，本发明具有如下优点和技术效果：

1)根据调式对音符作归一化处理，消除移调对音乐整体音高的影响，更具智能性；

2)提取特征时建立归一化音符显马尔可夫模型，可描述在特定风格流派下MIDI音符随时间变化的规律和联系；

3)相对于隐马尔科夫模型的隐藏状态不可知，显马尔可夫模型状态确定且可数，减少复杂度；

4)考虑了旋律、伴奏的音符在一个八度内和八度之间跳转对音乐风格分类的影响，音符在特定音乐流派下的变化规律和联系，有利于提高分类的准确性。

5)除了旋律会对音乐流派分类起到重要作用，伴奏也会影响乐曲的情感，进而会改变乐曲的流派；采用集成学习方法，分别对提取到的旋律音符向量组和伴奏音符向量组训练出基分类器，再结合两者优化用于分类，进而提高对MIDI音乐文件流派分类的准确性。

附图说明

图1是实施例基于归一化音符显马尔可夫模型的MIDI音乐流派分类方法的整个算法流程。

图2是实施例中利用集成学习方法，结合分类器1、分类器2计算出最终分类结果的具体流程。

图3是实施例中伴奏音轨集合非空时，使用低音轮廓线landline算法对其提取伴奏音符向量组的具体流程。

图4是实施例中基于旋律、伴奏音符向量组分别建立归一化音符马尔可夫模型，提取旋律、伴奏音轨的特征值向量的具体流程。

具体实施方式

以下结合附图和实例对本发明的具体实施做进一步说明，但本发明的实施和保护不限于此。需指出的是，以下若有未特别详细说明之过程或符号，均是本领域技术人员可参照现有技术理解或实现的。

本实施例的基于归一化音符显马尔可夫模型的MIDI音乐流派分类方法，如图1所示，具体流程如下：

步骤S101：对MIDI音乐文件的音轨预处理，删除其由打击乐器发声的音轨，优选地，删除通道CH10的音轨，融合发声乐器编号相同的音轨，融合按照发声乐器编号相同的音轨中的事件起始时间升序排列，得出新的音轨加入到MIDI文件中，删除被融合的音轨；

步骤S102：对预处理的MIDI音乐文件识别区分旋律音轨和伴奏音轨，优选地，采用多音轨聚类MTC算法，区分得出旋律音轨集合和伴奏音轨集合；旋律音轨集合包含至少一条旋律音轨，伴奏音轨集合包括若干条伴奏音轨；若伴奏音轨集合为空，后续不对其作处理；对旋律音轨集合提取出旋律音符向量组，可以使用高音轮廓线skyline算法，对伴奏音轨集合则使用低音轮廓线landline算法提取出伴奏音符向量组。

步骤S103：基于乐理对旋律、伴奏音符向量组分别先做归一化处理，然后建立八度循环音名跳转、12个音名八度跳转马尔可夫模型，提取旋律、伴奏音轨的特征值向量；

步骤S104：如图2所示，旋律、伴奏特征值向量分别输入到预训练好的分类器1、分类器2(可以采用现有技术分别对提取到的旋律音符向量组和伴奏音符向量组训练出基分类器)，优选地，分类器1、分类器2都采用深度神经网络进行分类；分类器1、分类器2的预测结果P₁、P₂都输入到结合模块，结合模块采用集成学习方法，比如加权平均法，计算出各个音乐流派类目的概率:P＝[p₁,p₂,…,p_n]，其中n为MIDI音乐流派分类标签的个数。最后，选取最大的概率对应的分类目标标签作为最终的分类结果。特别地，若MIDI文件识别出没有伴奏音轨，则从分类器1的预测结果中选取最大的概率对应的分类目标标签作为最终的分类结果。

分类器1、2预先训练，即按照上述过程对已标注音乐流派的MIDI音乐数据集提取特征值向量、输入音乐流派标签进行多轮有监督学习训练，得出分类准确性能较好的预测模型，用于分类。

如图3所示，伴奏音轨集合非空时，使用低音轮廓线landline算法提取伴奏音符向量组，具体流程如下：

步骤3：低音音符向量组的音符作结束时间修正，消除相邻音符之间的复调关系；若存在相邻音符向量n_i、n_i+1，满足起始时间s_i＜s_i+1，结束时间e_i＞s_i+1，音高p_i＜p_i+1，则令e_i＝s_i+1。

如图4所示，为图1步骤S103中基于乐理对旋律、伴奏音符向量组分别先做归一化处理，然后建立八度循环音名跳转、12个音名八度跳转马尔可夫模型，提取旋律、伴奏音轨的特征值向量，包括以下步骤：

在乐理中，根据十二平均律，一组音可分成12个半音，其音列可表示为：

Tones＝[C，#C，D，#D，E，F，#F，G，#G，A，#A，B]

乐曲调号每增加一个升号，就是将前一个调的每一个音都提高纯五度，反之亦然。若对C调乐谱加一个升号变成G调，则使C调中所有的音提高7个半音，以G为主音，即以G为“Duo”音。为了区分音名相同而音高不同的各音，在乐理中常将音列分成9个音组，因此规范八度octave的范围，octave∈[0，8]，octave∈N。下面说明如何归一化音符求得对应的音名和八度。不失一般化，在音符向量组中，音符向量包含音符的音高pitch，乐曲调号升降记号数m；若m为正数，则表示乐谱调号有m个升号，反之亦然，可按下面式子计算音符归一化后对应的音名note，八度octave：

note＝Tones[(pitch％12-|m|×7)₁₂]公式(1)

其中，公式(1)表示的是先对音高pitch模12，减去调号升降记号数m所对应的音程偏移值，再以12为周期循环位移计算出音列Tones的下标索引，最终映射到对应的音名；公式(2)表示的是对音高pitch除以12向下取整，再减1得到对应的八度。具体例子如，一个G调主音的音高pitch为67，其对应琴键为G，唱“Duo”，G调是对C调乐谱加一个升号，即调号升降号数目m为1，可以求得音符归一化后的音名note为C，八度octave为4。

步骤S1302：基于归一化的旋律、伴奏音符向量组分别建立八度循环音名跳转马尔可夫模型；首先，对归一化后的旋律音符向量组、伴奏音符向量组分别遍历，统计12个音名出现的次数、音符向量组中相邻两个音符向量间的音名状态转移次数；然后，分别建立旋律、伴奏的八度循环音名跳转马尔可夫模型，12个音名为八度循环音名跳转马尔可夫模型的12个状态，计算出状态初始概率矩阵，状态转移概率矩阵；

其中，八度循环音名跳转马尔可夫模型表示为λ＝{S，π，A}；S是状态的集合，包含12个音名状态，S＝{S₁，S₂，...，S₁₂}；π是初始状态的概率矩阵，π＝[p_i]_1×12；A是状态间的转移概率矩阵A＝[p_ij]_12×12，1≤i，j≤12；n_i、p_i分别表示第i个音名状态出现的次数和初始概率，n_ij、p_ij分别表示第i个状态到第j个状态的出现次数和状态转移概率：

步骤S1303：基于归一化的旋律、伴奏音符向量组分别建立12个音名各自八度跳转马尔可夫模型；首先，对归一化后的旋律音符向量组、伴奏音符向量组分别遍历，得出旋律、伴奏的12个音名各自的八度跳转序列，并统计出各个音名八度跳转序列中的各八度值出现的次数、相邻两个八度值的各状态转移次数；然后，分别建立旋律、伴奏的12个音名八度跳转马尔可夫模型，12个音名的各个八度状态为该音名八度跳转马尔可夫模型的状态，计算出状态初始概率矩阵，状态转移概率矩阵。

其中，第k个音名的八度跳转马尔科夫模型表示为λ_k＝{S_k，π_k，A_k}，1≤k≤12；S_k是第k个音名的八度状态的集合，包括N_k个八度状态，

N_k＝9；π_k是第k个音名的八度状态的初始概率矩阵，π_k＝[p_ki]1×N_k；A_k是第k个音名的八度状态的转移概率矩阵A_k＝[p_kij]N_k×N_k，1≤i，j≤9；n_ki、p_ki分别是第k个音名的第i个八度状态的出现次数和初始概率，n_kij、p_kij分别表示第k个音名的第i个八度状态到第j个八度状态的出现次数和状态转移概率；

步骤S1304：提取旋律、伴奏特征值向量。将旋律、伴奏的八度音名跳转马尔可夫模型、12个音名的八度跳转马尔可夫模型中的初始概率矩阵、转移概率矩阵按相同地分别展成一维向量，构成旋律、伴奏特征值向量。

如上即可较好的实现本发明的并取得前述技术效果。

Claims

1.基于归一化音符显马尔可夫模型的MIDI音乐流派分类方法，其特征在于，包括：

步骤S101：对MIDI音乐文件的音轨预处理；

步骤S102：对预处理的MIDI音乐文件识别旋律音轨和伴奏音轨，分别提取出旋律、伴奏音符向量组；对预处理的MIDI音乐文件识别旋律音轨和伴奏音轨，得到旋律音轨集合和伴奏音轨集合，然后对旋律音轨集合使用高音轮廓线skyline算法提取旋律音符向量组；若伴奏音轨集合非空，则对其相应使用低音轮廓线landline算法提取伴奏音符向量组；低音轮廓线landline算法与高音轮廓线skyline算法相似，区别是对于起始时间相同的音符，保留音高最低的音符，删除其他，最后得出低音轮廓线；

步骤S103：基于乐理对旋律、伴奏音符向量组分别先做归一化处理，然后建立八度循环音名跳转、12个音名各自八度跳转马尔可夫模型，提取旋律、伴奏音轨的特征值向量；基于乐理对旋律、伴奏音符向量组分别先做归一化处理，然后建立八度循环音名跳转、12个音名八度跳转马尔可夫模型，提取旋律、伴奏音轨的特征值向量，包括：

步骤S1304：提取旋律、伴奏特征值向量；

步骤S104：将旋律、伴奏特征值向量分别输入到预训练好的相应分类器中，利用集成学习方法，结合两个分类器的结果进行优化，得出最终分类结果，即所述MIDI音乐文件所属音乐流派的标签。

2.根据权利要求1所述的基于归一化音符显马尔可夫模型的MIDI音乐流派分类方法，其特征在于，所述的步骤S1301中，对旋律音符向量组、伴奏音符向量组分别音符归一化处理，即是把调式都转成C调；在乐理中，依据十二平均律将一组音分成12个半音，对应音列表示为Tones＝[C,#C,D,#D,E,F,#F,G,#G,A,#A,B]；乐曲调号每增加一个升号，就是将前一个调的每一个音都提高纯五度，反之亦然；纯五度是音数为7个半音的五度音程；在音符向量组中，音符向量包含音高pitch，其范围为0-127，钢琴88个键，其范围为21-108；调号升降记号数m，若m为正，代表有m个升号，反之亦然；计算出归一化处理后音符对应的音名note，八度octave，并存入音符向量中：

note＝Tones[(pitch％12-|m|×7)₁₂]

3.根据权利要求1所述的基于归一化音符显马尔可夫模型的MIDI音乐流派分类方法，其特征在于，所述的步骤S1302中，基于归一化的旋律、伴奏音符向量组分别建立八度循环音名跳转马尔可夫模型，包括：

步骤1：对归一化后的旋律音符向量组、伴奏音符向量组分别遍历，统计12个音名出现的次数、音符向量组中相邻两个音符向量的音名状态转移的次数；

步骤2：分别建立旋律、伴奏的八度循环音名跳转马尔可夫模型，12个音名是八度循环音名跳转马尔可夫模型的状态，计算出状态初始概率矩阵，状态转移概率矩阵。

4.根据权利要求1所述的基于归一化音符显马尔可夫模型的MIDI音乐流派分类方法，其特征在于，所述的步骤S1303中，基于归一化的旋律、伴奏音符向量组分别建立12个音名的八度跳转马尔可夫模型，包括：

5.根据权利要求1所述的基于归一化音符显马尔可夫模型的MIDI音乐流派分类方法，其特征在于，所述的步骤S104中，将旋律、伴奏特征值向量分别输入到预训练好的相应分类器中，利用集成学习方法，结合两个分类器的结果进行优化，计算出最终分类结果，即所述MIDI音乐文件所属音乐流派的标签；若MIDI音乐文件识别出没有伴奏音轨，则取旋律特征值向量对应的分类器的预测标签作为分类结果。

6.根据权利要求1所述的基于归一化音符显马尔可夫模型的MIDI音乐流派分类方法，其特征在于，所述旋律、伴奏特征值向量对应的预训练好的分类器可采用支持向量机、k邻近聚类、决策树或神经网络中的任一种；所述集成学习方法采用加权平均法。