CN103186527A

CN103186527A - 建立音乐分类模型的系统、推荐音乐的系统及相应方法

Info

Publication number: CN103186527A
Application number: CN2011104426118A
Authority: CN
Inventors: 宋辉
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2011-12-27
Filing date: 2011-12-27
Publication date: 2013-07-03
Anticipated expiration: 2031-12-27
Also published as: CN103186527B

Abstract

本发明提供了建立音乐分类模型的系统、推荐音乐的系统及相应方法，用以解决现有技术的音乐分类模型不科学和音乐推荐的效果较差的问题。建立音乐分类模型的系统包括：第一特征提取单元、第一特征拼接单元和模型训练单元。推荐音乐的系统包括：第二特征提取单元、第二特征拼接单元、匹配单元和推荐单元。建立音乐分类模型方法包括：针对训练数据中的各音乐提取不同维度的声学特征向量；针对各音乐将不同维度的声学特征向量按照预设的顺序拼接成超向量；利用不同音乐风格的各音乐的超向量训练高斯混合模型(GMM)。推荐音乐方法所利用的GMM为建立音乐分类模型的方法得出的。

Description

建立音乐分类模型的系统、推荐音乐的系统及相应方法

技术领域

本发明涉及计算机技术领域，特别涉及一种建立音乐分类模型的系统及方法，以及一种推荐音乐的系统及方法。

背景技术

现有技术对音乐风格的描述方式通常为利用文本标签特征。基于文本标签的音乐风格分类，依靠用户的收听行为和喜好为不同音乐打上不同维度的特征标签，利用文本处理技术进行音乐分类与个性推荐。

现有基于上述文本标签的音乐推荐技术最大的缺陷是对于一些冷门歌曲不利，用户很少听到这些歌曲，文本标签过少，导致“越热门的歌曲越容易被推荐”，“越冷门的歌曲越不容易推荐”的循环，造成“冷门效应”，对冷门歌曲不公平。

发明内容

本发明提供了一种建立音乐分类模型的系统及方法以及一种推荐音乐的系统及方法，用以解决现有技术的音乐分类模型不科学和音乐推荐的效果较差的问题。

具体技术方案如下：

一种建立音乐分类模型的系统，包括：第一特征提取单元，用于针对训练数据中的各音乐提取不同维度的声学特征向量，所述训练数据为预先选择的不同音乐风格的音乐；第一特征拼接单元，用于针对各音乐将所述不同维度的声学特征向量按照预设的顺序拼接成超向量；模型训练单元，用于利用不同音乐风格的各音乐的超向量训练高斯混合模型。

根据本发明一优选实施例，还包括：模型库单元，用于根据训练得到的所述高斯混合模型，构建模型库。

根据本发明一优选实施例，还包括：第一特征降维单元，用于去除所述超向量中各维声学特征向量的相关性信息后，将各音乐的超向量提供给所述模型训练单元。

根据本发明一优选实施例，所述声学特征向量为：歌曲的速度特征、力度特征、音色特征和旋律特征中的任意组合构成的声学特征向量；其中所述速度特征采用每分钟的敲击次数BPM表征，所述力度特征采用频率中心表征，所述音色特征采用泛音和谐波频率表征，所述旋律特征采用频率倒谱系数MFCC表征。

根据本发明一优选实施例，模型训练单元根据所述超向量，对同一风格音乐的不同维度声学特征向量分别求符合高斯分布的概率密度函数，以及对求得的各概率密度函数进行线性组合，得出该风格音乐的高斯混合模型。

根据本发明一优选实施例，还包括：用户反馈单元，用于获取用户对当前收听音乐所反馈的结果；自适应调整单元，用于根据所述反馈的结果以及所述当前收听音乐的超向量对高斯混合模型进行自适应调整。

根据本发明一优选实施例，自适应调整单元触发模型训练单元利用用户当前收听音乐的超向量训练一个临时高斯混合模型，并根据所述反馈的结果为所述临时高斯混合模型取预设的权重，利用该权重将所述临时高斯混合模型与所述当前收听音乐当前归属的高斯混合模型进行线性组合，完成所述自适应调整。

一种推荐音乐的系统，包括：第二特征提取单元，用于针对用户当前收听音乐提取不同维度的声学特征向量；第二特征拼接单元，用于将所述不同维度的声学特征向量按照预设的顺序拼接成所述用户当前收听音乐的超向量；匹配单元，用于将用户当前收听音乐的超向量与高斯混合模型进行模式匹配，以确定所述用户当前收听音乐所属的音乐风格；推荐单元，用于向用户推荐属于所述匹配单元确定的音乐风格的其它音乐；其中，所述高斯混合模型为上述建立音乐分类模型的系统得出的高斯混合模型。

根据本发明一优选实施例，当所述高斯混合模型为通过上述第一特征降维单元得出的高斯混合模型时，所述推荐音乐的系统还包括：第二特征降维单元，用于去除所述用户当前收听音乐的超向量中各维声学特征向量的相关性信息后，将所述用户当前收听音乐的超向量中提供给所述匹配单元。

根据本发明一优选实施例，推荐单元采用欧氏距离衡量用户当前收听音乐的超向量与属于所述匹配单元确定的音乐风格的其它音乐的超向量的相似度，并向用户推荐最相似的至少一首音乐；或者，向用户随机推荐属于所述匹配单元确定的音乐风格的其它音乐。

一种建立音乐分类模型的方法，包括下列步骤：A1、针对训练数据中的各音乐提取不同维度的声学特征向量，所述训练数据为预先选择的不同音乐风格的音乐；A2、针对各音乐将所述不同维度的声学特征向量按照预设的顺序拼接成超向量；A3、利用不同音乐风格的各音乐的超向量训练高斯混合模型。

根据本发明一优选实施例，所述步骤A3之后还包括步骤：A4、根据训练得到的所述高斯混合模型，构建模型库。

根据本发明一优选实施例，所述步骤A2之后，A3之前还包括步骤：A20、去除步骤A2中所述超向量中各维声学特征向量的相关性信息，以及所述步骤A3中利用去除相关性信息后所得的超向量训练高斯混合模型。

根据本发明一优选实施例，所述步骤A3具体包括：根据所述超向量，对同一风格音乐的同一维度声学特征向量求符合高斯分布的概率密度函数，以及对求得的概率密度函数进行线性组合，得出该风格音乐的高斯混合模型。

根据本发明一优选实施例，所述步骤A3之后还包括步骤：A5、获取用户对当前收听音乐所反馈的结果；A6、根据所述反馈的结果以及所述当前收听音乐的超向量对高斯混合模型进行自适应调整。

根据本发明一优选实施例，所述步骤A6具体包括：利用用户当前收听音乐的超向量训练一个临时高斯混合模型，并根据所述反馈的结果为所述临时高斯混合模型取预设的权重，利用该权重将所述临时高斯混合模型与所述当前收听音乐当前归属的高斯混合模型进行线性组合，完成所述自适应调整。

一种推荐音乐的方法，包括下列步骤：B1、针对用户当前收听音乐提取不同维度的声学特征向量；B2、将所述不同维度的声学特征向量按照预设的顺序拼接成所述用户当前收听音乐的超向量；B3、将用户当前收听音乐的超向量与高斯混合模型进行模式匹配，以确定所述用户当前收听音乐所属的音乐风格；B4、向用户推荐属于所述步骤B3确定的音乐风格的其它音乐；其中，所述高斯混合模型为上述建立音乐分类模型的方法得出的高斯混合模型。

根据本发明一优选实施例，当所述高斯混合模型为上述步骤A20得出的高斯混合模型时，所述推荐音乐的方法中步骤B2之后，B3之前还包括步骤：B20、去除步骤B2中所述用户当前收听音乐的超向量中各维声学特征向量的相关性信息，以及所述步骤B3中利用去除相关性信息后所得的用户当前收听音乐的超向量匹配高斯混合模型。

根据本发明一优选实施例，所述步骤B4具体包括：采用欧氏距离衡量用户当前收听音乐的超向量与属于所述步骤B3确定的音乐风格的其它音乐的超向量的相似度，并向用户推荐最相似的至少一首音乐；或者，向用户随机推荐属于所述步骤B3确定的音乐风格的其它音乐。

由以上技术方案可以看出，在本发明中通过提取多维声学特征向量，使得本发明的超向量能够全面细致的描述一首歌曲的风格特点，基于此建立的音乐分类模型更加可靠。以及，基于上述建立的音乐分类模型向用户推荐音乐，可给予用户更优的体验。

附图说明

图1本发明实施例一的系统结构图；

图2本发明实施例二的系统结构图；

图3本发明实施例三的方法流程图；

图4本发明实施例四的方法流程图；

图5本发明实施例五的系统结构图；

图6本发明实施例六的方法流程图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

实施例一、本实施例提供了一种建立音乐分类模型的系统，参见图1所示，包括：第一特征提取单元101、第一特征拼接单元102，以及模型训练单元103。

其中，第一特征提取单元101，用于针对训练数据中的各音乐提取不同维度的声学特征向量。

在训练阶段，预先会根据不同的音乐风格选择相应的音乐作为训练数据。在训练过程中本发明针对训练数据提取的不同维度的声学特征可包括但不限于从歌曲的速度、力度、音色、旋律中的任意组合构成的不同维度的声学特征向量入手，在本发明实施例的描述中以同时采用这四种声学特征为例进行描述。这四种声学特征分别从不同的角度描述了一首歌曲的风格，风格相近的歌曲必然在这些特征上有相似性。速度特征向量采用每分钟的敲击次数(Beat Per Minute，BPM)来描述，力度特征向量采用频率重心描述，音色特征向量采用泛音和谐波频率来描述，旋律特征向量采用频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)特征来描述。

第一特征拼接单元102，用于针对每一音乐将各维声学特征向量按照预设的顺序拼接成超向量。具体的，可将提取出的速度、力度、音色、旋律四个维度的声学特征向量，顺序拼接成超向量。

模型训练单元103，用于利用不同音乐风格的各音乐的超向量训练高斯混合模型(Gaussian Mixture Model，GMM)。具体的，可采用期望最大化(Expectation Maximization，EM)方法，根据超向量，对同一风格音乐的不同维度声学特征向量分别求符合高斯分布的概率密度函数，以及对求得的各概率密度函数进行线性组合，得出该风格音乐的高斯混合模型。进一步可理解为利用超向量为每一风格的音乐类型训练一种GMM模型，每一个GMM模型是由N个服从高斯分布的概率密度函数的线性组合，所以每个GMM模型实际上由这N个概率密度函数的均值、方差和权重组成。可以这样理解，每个GMM模型是N个“均值、方差、权重”的一组系数，所有的声学特征均由这一组系数间接的体现出来，这些系数取值不同，导致每个模型的分布不同，从而在不同模型之间产生区分度。如以一维速度特征(BPM值)为例：抒情歌曲的速度通常较慢，BPM值大概在50-60左右，则抒情类歌曲的GMM模型的均值便会在50-60左右，而摇滚歌曲速度较快，速度值通常在120-140左右，则摇滚歌曲的GMM模型的均值会在120-140左右。实际上，本实施例采用的超向量中的每一维度都是一个一维分类，将各个一维分类进行线性组合构成了多维分类。

可见，本实施例通过第一特征提取单元101提取多维声学特征向量，并通过第一特征拼接单元102拼接成超向量，基于此再通过模型训练单元103建立音乐分类模型，能够全面细致的描述一首歌曲的风格特点，音乐分类模型较为科学。

实施例二、本实施例提供了一种建立音乐分类模型的系统，参见图2所示，包括：第一特征提取单元201、第一特征拼接单元202、第一特征降维单元203、模型训练单元204、模型库单元205、用户反馈单元206以及自适应调整单元207。

其中，关于第一特征提取单元201、第一特征拼接单元202的描述与实施例一一致，不再赘述。

第一特征降维单元203，用于去除第一特征拼接单元202得出的超向量中各维声学特征向量的相关性信息后，将各音乐的超向量提供给所述模型训练单元204。具体的，由于超向量的维数较高(如：四维)，而且不同维度的特征值之间还会存在相关性，为了降低运算复杂度，进一步可进行特征降维，以去除不同特征维度上的相关性。降维的方式可以采用线性区分性分析(Linear Discriminant Analysis，LDA)，或者无监督的主成分分析(Principalcomponent analysis，PCA)。本实施例中将降维后的超向量称为超特征向量，该超特征向量可代表一首歌曲的速度、力度、音色和旋律各方面信息。

模型训练单元204，用于利用不同音乐风格的各音乐的超向量训练高斯混合模型。具体的，可采用期望最大化(EM)方法，根据超特征向量，对同一风格音乐的不同维度声学特征向量分别求符合高斯分布的概率密度函数，以及对求得的各概率密度函数进行线性组合，得出该风格音乐的高斯混合模型。进一步可理解为利用超特征向量为每一风格的音乐类型训练一种GMM模型，每一个GMM模型是由N个服从高斯分布的概率密度函数的线性组合，所以每个GMM模型实际上由这N个概率密度函数的均值、方差和权重组成。可以这样理解，每个GMM模型是N个“均值、方差、权重”的一组系数，所有的声学特征均由这一组系数间接的体现出来，这些系数取值不同，导致每个模型的分布不同，从而在不同模型之间产生区分度。如以一维速度特征(BPM值)为例：抒情歌曲的速度通常较慢，BPM值大概在50-60左右，则抒情类歌曲的GMM模型的均值便会在50-60左右，而摇滚歌曲速度较快，速度值通常在120-140左右，则摇滚歌曲的GMM模型的均值会在120-140左右。实际上，本实施例采用的超特征向量中的每一维度都是一个一维分类，将各个一维分类进行线性组合构成了多维分类。

模型库单元205，用于根据模型训练单元204训练得到的所述高斯混合模型，构建模型库。

用户反馈单元206，用于获取用户对当前收听音乐所反馈的结果。具体的，用户很多情况下会对当前收听的音乐或推荐的音乐有一些反馈结果，包括：用户对推荐音乐打上“满意/不满意”的标签；或者用户对推荐音乐进行1～5分的打分，5分最高，1分最低；或者用户自行给推荐音乐打上自己认同的标签，比如“抒情”“摇滚”“蓝调”等。

自适应调整单元207，用于根据所述反馈的结果以及所述当前收听音乐的超特征向量，对模型库单元205中的高斯混合模型进行自适应调整。具体的，自适应调整单元207触发模型训练单元204利用用户当前收听音乐的超特征向量训练一个临时高斯混合模型，并根据所述反馈的结果为所述临时高斯混合模型取预设的权重，利用该权重将所述临时高斯混合模型与所述当前收听音乐当前归属的高斯混合模型进行线性组合，完成所述自适应调整。

举例来说，假设曲库中有两类音乐：抒情和摇滚，每一类音乐都有各自的GMM模型，推荐的音乐当前的类别为“抒情”。如果用户反馈的结果为满意(如用户选择“满意”，或者打了5分；或者用户打上的标签与推荐的音乐当前的类别吻合)，则可以认为推荐正确。进一步，自适应调整抒情音乐的GMM模型：首先、通过第一特征提取单元201、第一特征拼接单元202和第一特征降维单元203提取推荐的音乐的超特征向量。其次、通过模型训练单元204为之训练一个临时的GMM模型(GMM_Temp)，这个临时的GMM模型描述了推荐音乐的特性。最后、由于已知推荐的音乐当前归属于“抒情”类别，则原始的抒情GMM模型(GMM_Old)将根据上述临时GMM模型(GMM_Temp)进行微调，微调后新的模型(GMM_New)可表示为：

GMM_New＝0.9×GMM_Old+0.1×GMM_Temp

其中的系数“0.9”和“0.1”为预设的权重；当然也可采用其它线性组合方式和其它的权重比例。形象的说，即将GMM_Old向GMM_Temp“略微靠拢”。

如果用户反馈的结果为不满意(比如用户对结果选择“不满意”，或者打了1分)，则可以认为推荐不正确。进一步，自适应调整抒情音乐的GMM模型：其中部分内容与上述相同，微调后新的模型(GMM_New)可表示为：

GMM_New＝1.1×GMM_Old-0.1×GMM_Temp

其中的系数“1.1”和“0.1”为预设的权重；当然也可采用其它线性组合方式和其它的权重比例。

可见，本实施例通过第一特征提取单元201提取多维声学特征向量，进一步通过第一特征拼接单元202和第一特征降维单元203对提取的声学特征向量进行拼接和降维，既缩小了后续计算的数据量，又使得超特征向量能够全面细致的描述一首歌曲的风格特点。基于此再通过模型训练单元204建立的音乐分类模型较为科学，模型库单元205构建的模型库中存储的GMM模型也优于现有技术。进一步的，还可通过用户反馈单元206和自适应调整单元207利用用户反馈的结果自适应调整GMM模型参数，因此充分考虑了用户的行为和喜好，进一步优化GMM模型对音乐的描述能力，使得音乐模型分类更加可靠，可给予用户更优的体验。

实施例三、本实施例提供了一种建立音乐分类模型的方法，参见图3所示，包括下列步骤：

S301、针对训练数据中的各音乐提取不同维度的声学特征向量。

在训练阶段，预先会根据不同的音乐风格选择相应的音乐作为训练数据。具体的，在训练过程中本发明针对训练数据提取的不同维度的声学特征可包括但不限于从歌曲的速度、力度、音色、旋律中的任意组合构成的不同维度的声学特征向量入手，在本发明实施例的描述中以同时采用这四种声学特征为例进行描述。这四种声学特征分别从不同的角度描述了一首歌曲的风格，风格相近的歌曲必然在这些特征上有相似性。速度特征向量采用每分钟的敲击次数(BPM)来描述，力度特征向量采用频率重心描述，音色特征向量采用泛音和谐波频率来描述，旋律特征向量采用频率倒谱系数(MFCC)特征来描述。

S302、针对每一音乐将各维声学特征向量按照预设的顺序拼接成超向量。

具体的，可将提取出的速度、力度、音色、旋律四个维度的声学特征向量，顺序拼接成超向量。

S303、利用不同音乐风格的各音乐的超向量训练高斯混合模型。

具体的，可采用期望最大化(EM)方法，根据超向量，对同一风格音乐的不同维度声学特征向量分别求符合高斯分布的概率密度函数，以及对求得的各概率密度函数进行线性组合，得出该风格音乐的高斯混合模型。进一步可理解为利用超向量为每一风格的音乐类型训练一种GMM模型，每一个GMM模型是由N个服从高斯分布的概率密度函数的线性组合，所以每个GMM模型实际上由这N个概率密度函数的均值、方差和权重组成。可以这样理解，每个GMM模型是N个“均值、方差、权重”的一组系数，所有的声学特征均由这一组系数间接的体现出来，这些系数取值不同，导致每个模型的分布不同，从而在不同模型之间产生区分度。如以一维速度特征(BPM值)为例：抒情歌曲的速度通常较慢，BPM值大概在50-60左右，则抒情类歌曲的GMM模型的均值便会在50-60左右，而摇滚歌曲速度较快，速度值通常在120-140左右，则摇滚歌曲的GMM模型的均值会在120-140左右。实际上，本实施例采用的超向量中的每一维度都是一个一维分类，将各个一维分类进行线性组合构成了多维分类。

可见，本实施例通过提取多维声学特征向量拼接成超向量，基于此再建立音乐分类模型，能够全面细致的描述一首歌曲的风格特点，音乐分类模型较为科学。

实施例四、本实施例提供了一种建立音乐分类模型的方法，参见图4所示，包括下列步骤：

S401、针对训练数据中的各音乐提取不同维度的声学特征向量。

具体描述与实施例五的步骤S301一致，不再赘述。

S402、针对每一音乐将各维声学特征向量按照预设的顺序拼接成超向量。

具体描述与实施例五的步骤S302一致，不再赘述。

S403、去除步骤S402得出的超向量中各维声学特征向量的相关性信息后，将各音乐的超向量提供步骤S404。

具体的，由于超向量的维数较高(如：四维)，而且不同维度的特征值之间还会存在相关性，为了降低运算复杂度，进一步可进行特征降维，以去除不同特征维度上的相关性。降维的方式可以采用线性区分性分析(LDA)，或者无监督的主成分分析(PCA)。本实施例中将降维后的超向量称为超特征向量，该超特征向量可代表该音乐的速度、力度、音色和旋律各方面信息。

S404、利用不同音乐风格的各音乐的超向量训练高斯混合模型。

具体的，可采用期望最大化(EM)方法，根据超特征向量，对同一风格音乐的不同维度声学特征向量分别求符合高斯分布的概率密度函数，以及对求得的各概率密度函数进行线性组合，得出该风格音乐的高斯混合模型。进一步可理解为利用超特征向量为每一风格的音乐类型训练一种GMM模型，每一个GMM模型是由N个服从高斯分布的概率密度函数的线性组合，所以每个GMM模型实际上由这N个概率密度函数的均值、方差和权重组成。可以这样理解，每个GMM模型是N个“均值、方差、权重”的一组系数，所有的声学特征均由这一组系数间接的体现出来，这些系数取值不同，导致每个模型的分布不同，从而在不同模型之间产生区分度。如以一维速度特征(BPM值)为例：抒情歌曲的速度通常较慢，BPM值大概在50-60左右，则抒情类歌曲的GMM模型的均值便会在50-60左右，而摇滚歌曲速度较快，速度值通常在120-140左右，则摇滚歌曲的GMM模型的均值会在120-140左右。实际上，本实施例采用的超特征向量中的每一维度都是一个一维分类，将各个一维分类进行线性组合构成了多维分类。

S405、根据训练得到的各高斯混合模型，构建模型库。

S406、获取用户对当前收听音乐所反馈的结果。

具体的，用户很多情况下会对当前收听的音乐或推荐的音乐有一些反馈结果，包括：用户对推荐音乐打上“满意/不满意”的标签；或者用户对推荐音乐进行1～5分的打分，5分最高，1分最低；或者用户自行给推荐音乐打上自己认同的标签，比如“抒情”“摇滚”“蓝调”等。

S407、根据所述反馈的结果以及所述当前收听音乐的超向量对高斯混合模型进行自适应调整。

具体的，可利用用户当前收听音乐的超特征向量训练一个临时高斯混合模型，并根据所述反馈的结果为所述临时高斯混合模型取预设的权重，利用该权重将所述临时高斯混合模型与所述当前收听音乐当前归属的高斯混合模型进行线性组合，完成所述自适应调整。

举例来说，假设曲库中有两类音乐：抒情和摇滚，每一类音乐都有各自的GMM模型，推荐的音乐当前的类别为“抒情”。如果用户反馈的结果为满意(如用户选择“满意”，或者打了5分；或者用户打上的标签与推荐的音乐当前的类别吻合)，则可以认为推荐正确。进一步，自适应调整抒情音乐的GMM模型：首先、提取推荐的音乐的超特征向量。其次、为之训练一个临时的GMM模型(GMM_Temp)，这个临时的GMM模型描述了推荐音乐的特性。最后、由于已知推荐的音乐当前归属于“抒情”类别，则原始的抒情GMM模型(GMM_Old)将根据上述临时GMM模型(GMM_Temp)进行微调，微调后新的模型(GMM_New)可表示为：

GMM_New＝0.9×GMM_Old+0.1×GMM_Temp

GMM_New＝1.1×GMM_Old-0.1×GMM_Temp

可见，本实施例提取多维声学特征向量，进一步对提取的声学特征向量进行拼接和降维，既缩小了后续计算的数据量，又使得超特征向量能够全面细致的描述一首歌曲的风格特点。基于此建立的音乐分类模型较为科学，构建的模型库中存储的GMM模型也优于现有技术。进一步的，还可利用用户反馈的结果自适应调整GMM模型参数，因此充分考虑了用户的行为和喜好，进一步优化GMM模型对音乐的描述能力，使得音乐模型分类更加可靠，可给予用户更优的体验。

实施例五、本实施例提供了一种推荐音乐的系统，参见图5所示，包括：第二特征提取单元501、第二特征拼接单元502、第二特征降维单元503、匹配单元504和推荐单元505。

其中，第二特征提取单元501，用于针对用户当前收听音乐提取不同维度的声学特征向量。

在向用户推荐音乐之前，本发明针对用户当前收听的音乐提取不同维度的声学特征可包括但不限于从歌曲的速度、力度、音色、旋律中的任意组合构成的不同维度的声学特征向量入手，在本发明实施例的描述中以同时采用这四种声学特征为例进行描述。这四种声学特征分别从不同的角度描述了一首歌曲的风格，风格相近的歌曲必然在这些特征上有相似性。速度特征向量采用每分钟的敲击次数(BPM)来描述，力度特征向量采用频率重心描述，音色特征向量采用泛音和谐波频率来描述，旋律特征向量采用频率倒谱系数(MFCC)特征来描述。

第二特征拼接单元502，用于将所述不同维度的声学特征向量按照预设的顺序拼接成所述用户当前收听音乐的超向量。具体的，可将提取出的速度、力度、音色、旋律四个维度的声学特征向量，顺序拼接成超向量。

如果后续匹配单元504进行匹配操作所利用的高斯混合模型是通过上述实施例二所述的超特征向量得出的，则还包括：

第二特征降维单元503，用于去除所述用户当前收听音乐的超向量中各维声学特征向量的相关性信息后，将所述用户当前收听音乐的超向量中提供给所述匹配单元504。

匹配单元504，用于将用户当前收听音乐的超向量与高斯混合模型进行模式匹配，以确定所述用户当前收听音乐所属的音乐风格。具体的，如果匹配单元504所利用的高斯混合模型是上述实施例一中根据所述超向量得出的，则以用户当前收听音乐的超向量与高斯混合模型进行模式匹配；如果匹配单元504所利用的高斯混合模型是上述实施例二中根据超特征向量得出的，则以用户当前收听音乐的超特征向量与高斯混合模型进行模式匹配。

推荐单元505，用于向用户推荐属于匹配单元504确定的音乐风格的其它音乐。

具体的，可采用欧氏距离衡量用户当前收听音乐的超向量/超特征向量与属于所述匹配单元504确定的音乐风格的其它音乐的超向量/超特征向量的相似度，并向用户推荐最相似的至少一首音乐；或者，向用户随机推荐属于所述匹配单元504确定的音乐风格的其它音乐。

可见，本实施例基于优化的音乐分类模型，因此可给予用户更优的音乐推荐体验。

实施例六、本实施例提供了一种推荐音乐的方法，参见图6所示，包括下列步骤：

S601、针对用户当前收听音乐提取不同维度的声学特征向量。

S602、将所述不同维度的声学特征向量按照预设的顺序拼接成所述用户当前收听音乐的超向量。

如果后续匹配步骤S604进行匹配操作所利用的高斯混合模型是通过上述实施例四所述的超特征向量得出的，则还包括：

S603、去除步骤S602中所述用户当前收听音乐的超向量中各维声学特征向量的相关性信息，以及在后续步骤S604中利用去除相关性信息后所得的用户当前收听音乐的超特征向量匹配高斯混合模型。

S604、将用户当前收听音乐的超向量与高斯混合模型进行模式匹配，以确定所述用户当前收听音乐所属的音乐风格。

具体的，如果步骤S604所利用的高斯混合模型是上述实施例三中根据所述超向量得出的，则以用户当前收听音乐的超向量与高斯混合模型进行模式匹配；如果步骤S604所利用的高斯混合模型是上述实施例四中根据超特征向量得出的，则以用户当前收听音乐的超特征向量与高斯混合模型进行模式匹配。

S605、向用户推荐属于所述步骤S604确定的音乐风格的其它音乐。

具体的，采用欧氏距离衡量用户当前收听音乐的超向量/超特征向量与属于所述步骤S604确定的音乐风格的其它音乐的超向量/超特征向量的相似度，并向用户推荐最相似的至少一首音乐；或者，向用户随机推荐属于所述步骤S604确定的音乐风格的其它音乐。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种建立音乐分类模型的系统，其特征在于，包括：

第一特征提取单元，用于针对训练数据中的各音乐提取不同维度的声学特征向量，所述训练数据为预先选择的不同音乐风格的音乐；

第一特征拼接单元，用于针对各音乐将所述不同维度的声学特征向量按照预设的顺序拼接成超向量；

模型训练单元，用于利用不同音乐风格的各音乐的超向量训练高斯混合模型。

2.根据权利要求1所述的系统，其特征在于，还包括：

模型库单元，用于根据训练得到的所述高斯混合模型，构建模型库。

3.根据权利要求1所述的系统，其特征在于，还包括：

第一特征降维单元，用于去除所述超向量中各维声学特征向量的相关性信息后，将各音乐的超向量提供给所述模型训练单元。

4.根据权利要求1所述的系统，其特征在于，所述声学特征向量为：歌曲的速度特征、力度特征、音色特征和旋律特征中的任意组合构成的声学特征向量；

其中所述速度特征采用每分钟的敲击次数BPM表征，所述力度特征采用频率中心表征，所述音色特征采用泛音和谐波频率表征，所述旋律特征采用频率倒谱系数MFCC表征。

5.根据权利要求1所述的系统，其特征在于，模型训练单元根据所述超向量，对同一风格音乐的不同维度声学特征向量分别求符合高斯分布的概率密度函数，以及对求得的各概率密度函数进行线性组合，得出该风格音乐的高斯混合模型。

6.根据权利要求1所述的系统，其特征在于，还包括：

用户反馈单元，用于获取用户对当前收听音乐所反馈的结果；

自适应调整单元，用于根据所述反馈的结果以及所述当前收听音乐的超向量对高斯混合模型进行自适应调整。

7.根据权利要求6所述的系统，其特征在于，自适应调整单元触发模型训练单元利用用户当前收听音乐的超向量训练一个临时高斯混合模型，并根据所述反馈的结果为所述临时高斯混合模型取预设的权重，利用该权重将所述临时高斯混合模型与所述当前收听音乐当前归属的高斯混合模型进行线性组合，完成所述自适应调整。

8.一种推荐音乐的系统，其特征在于，包括：

第二特征提取单元，用于针对用户当前收听音乐提取不同维度的声学特征向量；

第二特征拼接单元，用于将所述不同维度的声学特征向量按照预设的顺序拼接成所述用户当前收听音乐的超向量；

匹配单元，用于将用户当前收听音乐的超向量与高斯混合模型进行模式匹配，以确定所述用户当前收听音乐所属的音乐风格；

推荐单元，用于向用户推荐属于所述匹配单元确定的音乐风格的其它音乐；

其中，所述高斯混合模型为权利要求1至7任一项得出的高斯混合模型。

9.根据权利要求8所述的系统，其特征在于，当所述高斯混合模型为权利要求3得出的高斯混合模型时，所述推荐音乐的系统还包括：

第二特征降维单元，用于去除所述用户当前收听音乐的超向量中各维声学特征向量的相关性信息后，将所述用户当前收听音乐的超向量中提供给所述匹配单元。

10.根据权利要求8所述的系统，其特征在于，推荐单元采用欧氏距离衡量用户当前收听音乐的超向量与属于所述匹配单元确定的音乐风格的其它音乐的超向量的相似度，并向用户推荐最相似的至少一首音乐；或者，向用户随机推荐属于所述匹配单元确定的音乐风格的其它音乐。

11.一种建立音乐分类模型的方法，其特征在于，包括下列步骤：

A1、针对训练数据中的各音乐提取不同维度的声学特征向量，所述训练数据为预先选择的不同音乐风格的音乐；

A2、针对各音乐将所述不同维度的声学特征向量按照预设的顺序拼接成超向量；

A3、利用不同音乐风格的各音乐的超向量训练高斯混合模型。

12.根据权利要求11所述的方法，其特征在于，所述步骤A3之后还包括步骤：

A4、根据训练得到的所述高斯混合模型，构建模型库。

13.根据权利要求11所述的方法，其特征在于，所述步骤A2之后，A3之前还包括步骤：A20、去除步骤A2中所述超向量中各维声学特征向量的相关性信息；

在所述步骤A3中利用去除相关性信息后所得的超向量训练高斯混合模型。

14.根据权利要求11所述的方法，其特征在于，所述声学特征向量为：歌曲的速度特征、力度特征、音色特征和旋律特征中的任意组合构成的声学特征向量；

15.根据权利要求11所述的方法，其特征在于，所述步骤A3具体包括：根据所述超向量，对同一风格音乐的同一维度声学特征向量求符合高斯分布的概率密度函数，以及对求得的概率密度函数进行线性组合，得出该风格音乐的高斯混合模型。

16.根据权利要求11所述的方法，其特征在于，所述步骤A3之后还包括步骤：

A5、获取用户对当前收听音乐所反馈的结果；

A6、根据所述反馈的结果以及所述当前收听音乐的超向量对高斯混合模型进行自适应调整。

17.根据权利要求16所述的方法，其特征在于，所述步骤A6具体包括：利用用户当前收听音乐的超向量训练一个临时高斯混合模型，并根据所述反馈的结果为所述临时高斯混合模型取预设的权重，利用该权重将所述临时高斯混合模型与所述当前收听音乐当前归属的高斯混合模型进行线性组合，完成所述自适应调整。

18.一种推荐音乐的方法，其特征在于，包括下列步骤：

B1、针对用户当前收听音乐提取不同维度的声学特征向量；

B2、将所述不同维度的声学特征向量按照预设的顺序拼接成所述用户当前收听音乐的超向量；

B3、将用户当前收听音乐的超向量与高斯混合模型进行模式匹配，以确定所述用户当前收听音乐所属的音乐风格；

B4、向用户推荐属于所述步骤B3确定的音乐风格的其它音乐；

其中，所述高斯混合模型为权利要求11至17任一项得出的高斯混合模型。

19.根据权利要求18所述的方法，其特征在于，当所述高斯混合模型为权利要求13得出的高斯混合模型时，所述推荐音乐的方法中步骤B2之后，B3之前还包括步骤：B20、去除步骤B2中所述用户当前收听音乐的超向量中各维声学特征向量的相关性信息；

在所述步骤B3中利用去除相关性信息后所得的用户当前收听音乐的超向量匹配高斯混合模型。

20.根据权利要求18所述的方法，其特征在于，所述步骤B4具体包括：

采用欧氏距离衡量用户当前收听音乐的超向量与属于所述步骤B3确定的音乐风格的其它音乐的超向量的相似度，并向用户推荐最相似的至少一首音乐；或者，向用户随机推荐属于所述步骤B3确定的音乐风格的其它音乐。