CN103186527B - 建立音乐分类模型的系统、推荐音乐的系统及相应方法 - Google Patents

建立音乐分类模型的系统、推荐音乐的系统及相应方法 Download PDF

Info

Publication number
CN103186527B
CN103186527B CN201110442611.8A CN201110442611A CN103186527B CN 103186527 B CN103186527 B CN 103186527B CN 201110442611 A CN201110442611 A CN 201110442611A CN 103186527 B CN103186527 B CN 103186527B
Authority
CN
China
Prior art keywords
music
vector
user
hybrid models
gauss hybrid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110442611.8A
Other languages
English (en)
Other versions
CN103186527A (zh
Inventor
宋辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110442611.8A priority Critical patent/CN103186527B/zh
Publication of CN103186527A publication Critical patent/CN103186527A/zh
Application granted granted Critical
Publication of CN103186527B publication Critical patent/CN103186527B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供了建立音乐分类模型的系统、推荐音乐的系统及相应方法,用以解决现有技术的音乐分类模型不科学和音乐推荐的效果较差的问题。建立音乐分类模型的系统包括:第一特征提取单元、第一特征拼接单元和模型训练单元。推荐音乐的系统包括:第二特征提取单元、第二特征拼接单元、匹配单元和推荐单元。建立音乐分类模型方法包括:针对训练数据中的各音乐提取不同维度的声学特征向量;针对各音乐将不同维度的声学特征向量按照预设的顺序拼接成超向量;利用不同音乐风格的各音乐的超向量训练高斯混合模型(GMM)。推荐音乐方法所利用的GMM为建立音乐分类模型的方法得出的。

Description

建立音乐分类模型的系统、推荐音乐的系统及相应方法
技术领域
本发明涉及计算机技术领域,特别涉及一种建立音乐分类模型的系统及方法,以及一种推荐音乐的系统及方法。
背景技术
现有技术对音乐风格的描述方式通常为利用文本标签特征。基于文本标签的音乐风格分类,依靠用户的收听行为和喜好为不同音乐打上不同维度的特征标签,利用文本处理技术进行音乐分类与个性推荐。
现有基于上述文本标签的音乐推荐技术最大的缺陷是对于一些冷门歌曲不利,用户很少听到这些歌曲,文本标签过少,导致“越热门的歌曲越容易被推荐”,“越冷门的歌曲越不容易推荐”的循环,造成“冷门效应”,对冷门歌曲不公平。
发明内容
本发明提供了一种建立音乐分类模型的系统及方法以及一种推荐音乐的系统及方法,用以解决现有技术的音乐分类模型不科学和音乐推荐的效果较差的问题。
具体技术方案如下:
一种建立音乐分类模型的系统,包括:第一特征提取单元,用于针对训练数据中的各音乐提取不同维度的声学特征向量,所述训练数据为预先选择的不同音乐风格的音乐;第一特征拼接单元,用于针对各音乐将所述不同维度的声学特征向量按照预设的顺序拼接成超向量;模型训练单元,用于利用不同音乐风格的各音乐的超向量训练高斯混合模型。
根据本发明一优选实施例,还包括:模型库单元,用于根据训练得到的所述高斯混合模型,构建模型库。
根据本发明一优选实施例,还包括:第一特征降维单元,用于去除所述超向量中各维声学特征向量的相关性信息后,将各音乐的超向量提供给所述模型训练单元。
根据本发明一优选实施例,所述声学特征向量为:歌曲的速度特征、力度特征、音色特征和旋律特征中的任意组合构成的声学特征向量;其中所述速度特征采用每分钟的敲击次数BPM表征,所述力度特征采用频率中心表征,所述音色特征采用泛音和谐波频率表征,所述旋律特征采用频率倒谱系数MFCC表征。
根据本发明一优选实施例,模型训练单元根据所述超向量,对同一风格音乐的不同维度声学特征向量分别求符合高斯分布的概率密度函数,以及对求得的各概率密度函数进行线性组合,得出该风格音乐的高斯混合模型。
根据本发明一优选实施例,还包括:用户反馈单元,用于获取用户对当前收听音乐所反馈的结果;自适应调整单元,用于根据所述反馈的结果以及所述当前收听音乐的超向量对高斯混合模型进行自适应调整。
根据本发明一优选实施例,自适应调整单元触发模型训练单元利用用户当前收听音乐的超向量训练一个临时高斯混合模型,并根据所述反馈的结果为所述临时高斯混合模型取预设的权重,利用该权重将所述临时高斯混合模型与所述当前收听音乐当前归属的高斯混合模型进行线性组合,完成所述自适应调整。
一种推荐音乐的系统,包括:第二特征提取单元,用于针对用户当前收听音乐提取不同维度的声学特征向量;第二特征拼接单元,用于将所述不同维度的声学特征向量按照预设的顺序拼接成所述用户当前收听音乐的超向量;匹配单元,用于将用户当前收听音乐的超向量与高斯混合模型进行模式匹配,以确定所述用户当前收听音乐所属的音乐风格;推荐单元,用于向用户推荐属于所述匹配单元确定的音乐风格的其它音乐;其中,所述高斯混合模型为上述建立音乐分类模型的系统得出的高斯混合模型。
根据本发明一优选实施例,当所述高斯混合模型为通过上述第一特征降维单元得出的高斯混合模型时,所述推荐音乐的系统还包括:第二特征降维单元,用于去除所述用户当前收听音乐的超向量中各维声学特征向量的相关性信息后,将所述用户当前收听音乐的超向量提供给所述匹配单元。
根据本发明一优选实施例,推荐单元采用欧氏距离衡量用户当前收听音乐的超向量与属于所述匹配单元确定的音乐风格的其它音乐的超向量的相似度,并向用户推荐最相似的至少一首音乐;或者,向用户随机推荐属于所述匹配单元确定的音乐风格的其它音乐。
一种建立音乐分类模型的方法,包括下列步骤:A1、针对训练数据中的各音乐提取不同维度的声学特征向量,所述训练数据为预先选择的不同音乐风格的音乐;A2、针对各音乐将所述不同维度的声学特征向量按照预设的顺序拼接成超向量;A3、利用不同音乐风格的各音乐的超向量训练高斯混合模型。
根据本发明一优选实施例,所述步骤A3之后还包括步骤:A4、根据训练得到的所述高斯混合模型,构建模型库。
根据本发明一优选实施例,所述步骤A2之后,A3之前还包括步骤:A20、去除步骤A2中所述超向量中各维声学特征向量的相关性信息,以及所述步骤A3中利用去除相关性信息后所得的超向量训练高斯混合模型。
根据本发明一优选实施例,所述声学特征向量为:歌曲的速度特征、力度特征、音色特征和旋律特征中的任意组合构成的声学特征向量;其中所述速度特征采用每分钟的敲击次数BPM表征,所述力度特征采用频率中心表征,所述音色特征采用泛音和谐波频率表征,所述旋律特征采用频率倒谱系数MFCC表征。
根据本发明一优选实施例,所述步骤A3具体包括:根据所述超向量,对同一风格音乐的同一维度声学特征向量求符合高斯分布的概率密度函数,以及对求得的概率密度函数进行线性组合,得出该风格音乐的高斯混合模型。
根据本发明一优选实施例,所述步骤A3之后还包括步骤:A5、获取用户对当前收听音乐所反馈的结果;A6、根据所述反馈的结果以及所述当前收听音乐的超向量对高斯混合模型进行自适应调整。
根据本发明一优选实施例,所述步骤A6具体包括:利用用户当前收听音乐的超向量训练一个临时高斯混合模型,并根据所述反馈的结果为所述临时高斯混合模型取预设的权重,利用该权重将所述临时高斯混合模型与所述当前收听音乐当前归属的高斯混合模型进行线性组合,完成所述自适应调整。
一种推荐音乐的方法,包括下列步骤:B1、针对用户当前收听音乐提取不同维度的声学特征向量;B2、将所述不同维度的声学特征向量按照预设的顺序拼接成所述用户当前收听音乐的超向量;B3、将用户当前收听音乐的超向量与高斯混合模型进行模式匹配,以确定所述用户当前收听音乐所属的音乐风格;B4、向用户推荐属于所述步骤B3确定的音乐风格的其它音乐;其中,所述高斯混合模型为上述建立音乐分类模型的方法得出的高斯混合模型。
根据本发明一优选实施例,当所述高斯混合模型为上述步骤A20得出的高斯混合模型时,所述推荐音乐的方法中步骤B2之后,B3之前还包括步骤:B20、去除步骤B2中所述用户当前收听音乐的超向量中各维声学特征向量的相关性信息,以及所述步骤B3中利用去除相关性信息后所得的用户当前收听音乐的超向量匹配高斯混合模型。
根据本发明一优选实施例,所述步骤B4具体包括:采用欧氏距离衡量用户当前收听音乐的超向量与属于所述步骤B3确定的音乐风格的其它音乐的超向量的相似度,并向用户推荐最相似的至少一首音乐;或者,向用户随机推荐属于所述步骤B3确定的音乐风格的其它音乐。
由以上技术方案可以看出,在本发明中通过提取多维声学特征向量,使得本发明的超向量能够全面细致的描述一首歌曲的风格特点,基于此建立的音乐分类模型更加可靠。以及,基于上述建立的音乐分类模型向用户推荐音乐,可给予用户更优的体验。
附图说明
图1本发明实施例一的系统结构图;
图2本发明实施例二的系统结构图;
图3本发明实施例三的方法流程图;
图4本发明实施例四的方法流程图;
图5本发明实施例五的系统结构图;
图6本发明实施例六的方法流程图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
实施例一、本实施例提供了一种建立音乐分类模型的系统,参见图1所示,包括:第一特征提取单元101、第一特征拼接单元102,以及模型训练单元103。
其中,第一特征提取单元101,用于针对训练数据中的各音乐提取不同维度的声学特征向量。
在训练阶段,预先会根据不同的音乐风格选择相应的音乐作为训练数据。在训练过程中本发明针对训练数据提取的不同维度的声学特征可包括但不限于从歌曲的速度、力度、音色、旋律中的任意组合构成的不同维度的声学特征向量入手,在本发明实施例的描述中以同时采用这四种声学特征为例进行描述。这四种声学特征分别从不同的角度描述了一首歌曲的风格,风格相近的歌曲必然在这些特征上有相似性。速度特征向量采用每分钟的敲击次数(Beat Per Minute,BPM)来描述,力度特征向量采用频率重心描述,音色特征向量采用泛音和谐波频率来描述,旋律特征向量采用频率倒谱系数(Mel Frequency CepstrumCoefficient,MFCC)特征来描述。
第一特征拼接单元102,用于针对每一音乐将各维声学特征向量按照预设的顺序拼接成超向量。具体的,可将提取出的速度、力度、音色、旋律四个维度的声学特征向量,顺序拼接成超向量。
模型训练单元103,用于利用不同音乐风格的各音乐的超向量训练高斯混合模型(Gaussian Mixture Model,GMM)。具体的,可采用期望最大化(ExpectationMaximization,EM)方法,根据超向量,对同一风格音乐的不同维度声学特征向量分别求符合高斯分布的概率密度函数,以及对求得的各概率密度函数进行线性组合,得出该风格音乐的高斯混合模型。进一步可理解为利用超向量为每一风格的音乐类型训练一种GMM模型,每一个GMM模型是由N个服从高斯分布的概率密度函数的线性组合,所以每个GMM模型实际上由这N个概率密度函数的均值、方差和权重组成。可以这样理解,每个GMM模型是N个“均值、方差、权重”的一组系数,所有的声学特征均由这一组系数间接的体现出来,这些系数取值不同,导致每个模型的分布不同,从而在不同模型之间产生区分度。如以一维速度特征(BPM值)为例:抒情歌曲的速度通常较慢,BPM值大概在50-60左右,则抒情类歌曲的GMM模型的均值便会在50-60左右,而摇滚歌曲速度较快,速度值通常在120-140左右,则摇滚歌曲的GMM模型的均值会在120-140左右。实际上,本实施例采用的超向量中的每一维度都是一个一维分类,将各个一维分类进行线性组合构成了多维分类。
可见,本实施例通过第一特征提取单元101提取多维声学特征向量,并通过第一特征拼接单元102拼接成超向量,基于此再通过模型训练单元103建立音乐分类模型,能够全面细致的描述一首歌曲的风格特点,音乐分类模型较为科学。
实施例二、本实施例提供了一种建立音乐分类模型的系统,参见图2所示,包括:第一特征提取单元201、第一特征拼接单元202、第一特征降维单元203、模型训练单元204、模型库单元205、用户反馈单元206以及自适应调整单元207。
其中,关于第一特征提取单元201、第一特征拼接单元202的描述与实施例一一致,不再赘述。
第一特征降维单元203,用于去除第一特征拼接单元202得出的超向量中各维声学特征向量的相关性信息后,将各音乐的超向量提供给所述模型训练单元204。具体的,由于超向量的维数较高(如:四维),而且不同维度的特征值之间还会存在相关性,为了降低运算复杂度,进一步可进行特征降维,以去除不同特征维度上的相关性。降维的方式可以采用线性区分性分析(Linear Discriminant Analysis,LDA),或者无监督的主成分分析(Principal component analysis,PCA)。本实施例中将降维后的超向量称为超特征向量,该超特征向量可代表一首歌曲的速度、力度、音色和旋律各方面信息。
模型训练单元204,用于利用不同音乐风格的各音乐的超向量训练高斯混合模型。具体的,可采用期望最大化(EM)方法,根据超特征向量,对同一风格音乐的不同维度声学特征向量分别求符合高斯分布的概率密度函数,以及对求得的各概率密度函数进行线性组合,得出该风格音乐的高斯混合模型。进一步可理解为利用超特征向量为每一风格的音乐类型训练一种GMM模型,每一个GMM模型是由N个服从高斯分布的概率密度函数的线性组合,所以每个GMM模型实际上由这N个概率密度函数的均值、方差和权重组成。可以这样理解,每个GMM模型是N个“均值、方差、权重”的一组系数,所有的声学特征均由这一组系数间接的体现出来,这些系数取值不同,导致每个模型的分布不同,从而在不同模型之间产生区分度。如以一维速度特征(BPM值)为例:抒情歌曲的速度通常较慢,BPM值大概在50-60左右,则抒情类歌曲的GMM模型的均值便会在50-60左右,而摇滚歌曲速度较快,速度值通常在120-140左右,则摇滚歌曲的GMM模型的均值会在120-140左右。实际上,本实施例采用的超特征向量中的每一维度都是一个一维分类,将各个一维分类进行线性组合构成了多维分类。
模型库单元205,用于根据模型训练单元204训练得到的所述高斯混合模型,构建模型库。
用户反馈单元206,用于获取用户对当前收听音乐所反馈的结果。具体的,用户很多情况下会对当前收听的音乐或推荐的音乐有一些反馈结果,包括:用户对推荐音乐打上“满意/不满意”的标签;或者用户对推荐音乐进行1~5分的打分,5分最高,1分最低;或者用户自行给推荐音乐打上自己认同的标签,比如“抒情”“摇滚”“蓝调”等。
自适应调整单元207,用于根据所述反馈的结果以及所述当前收听音乐的超特征向量,对模型库单元205中的高斯混合模型进行自适应调整。具体的,自适应调整单元207触发模型训练单元204利用用户当前收听音乐的超特征向量训练一个临时高斯混合模型,并根据所述反馈的结果为所述临时高斯混合模型取预设的权重,利用该权重将所述临时高斯混合模型与所述当前收听音乐当前归属的高斯混合模型进行线性组合,完成所述自适应调整。
举例来说,假设曲库中有两类音乐:抒情和摇滚,每一类音乐都有各自的GMM模型,推荐的音乐当前的类别为“抒情”。如果用户反馈的结果为满意(如用户选择“满意”,或者打了5分;或者用户打上的标签与推荐的音乐当前的类别吻合),则可以认为推荐正确。进一步,自适应调整抒情音乐的GMM模型:首先、通过第一特征提取单元201、第一特征拼接单元202和第一特征降维单元203提取推荐的音乐的超特征向量。其次、通过模型训练单元204为之训练一个临时的GMM模型(GMM_Temp),这个临时的GMM模型描述了推荐音乐的特性。最后、由于已知推荐的音乐当前归属于“抒情”类别,则原始的抒情GMM模型(GMM_Old)将根据上述临时GMM模型(GMM_Temp)进行微调,微调后新的模型(GMM_New)可表示为:
GMM_New=0.9×GMM_Old+0.1×GMM_Temp
其中的系数“0.9”和“0.1”为预设的权重;当然也可采用其它线性组合方式和其它的权重比例。形象的说,即将GMM_Old向GMM_Temp“略微靠拢”。
如果用户反馈的结果为不满意(比如用户对结果选择“不满意”,或者打了1分),则可以认为推荐不正确。进一步,自适应调整抒情音乐的GMM模型:其中部分内容与上述相同,微调后新的模型(GMM_New)可表示为:
GMM_New=1.1×GMM_Old-0.1×GMM_Temp
其中的系数“1.1”和“0.1”为预设的权重;当然也可采用其它线性组合方式和其它的权重比例。
可见,本实施例通过第一特征提取单元201提取多维声学特征向量,进一步通过第一特征拼接单元202和第一特征降维单元203对提取的声学特征向量进行拼接和降维,既缩小了后续计算的数据量,又使得超特征向量能够全面细致的描述一首歌曲的风格特点。基于此再通过模型训练单元204建立的音乐分类模型较为科学,模型库单元205构建的模型库中存储的GMM模型也优于现有技术。进一步的,还可通过用户反馈单元206和自适应调整单元207利用用户反馈的结果自适应调整GMM模型参数,因此充分考虑了用户的行为和喜好,进一步优化GMM模型对音乐的描述能力,使得音乐模型分类更加可靠,可给予用户更优的体验。
实施例三、本实施例提供了一种建立音乐分类模型的方法,参见图3所示,包括下列步骤:
S301、针对训练数据中的各音乐提取不同维度的声学特征向量。
在训练阶段,预先会根据不同的音乐风格选择相应的音乐作为训练数据。具体的,在训练过程中本发明针对训练数据提取的不同维度的声学特征可包括但不限于从歌曲的速度、力度、音色、旋律中的任意组合构成的不同维度的声学特征向量入手,在本发明实施例的描述中以同时采用这四种声学特征为例进行描述。这四种声学特征分别从不同的角度描述了一首歌曲的风格,风格相近的歌曲必然在这些特征上有相似性。速度特征向量采用每分钟的敲击次数(BPM)来描述,力度特征向量采用频率重心描述,音色特征向量采用泛音和谐波频率来描述,旋律特征向量采用频率倒谱系数(MFCC)特征来描述。
S302、针对每一音乐将各维声学特征向量按照预设的顺序拼接成超向量。
具体的,可将提取出的速度、力度、音色、旋律四个维度的声学特征向量,顺序拼接成超向量。
S303、利用不同音乐风格的各音乐的超向量训练高斯混合模型。
具体的,可采用期望最大化(EM)方法,根据超向量,对同一风格音乐的不同维度声学特征向量分别求符合高斯分布的概率密度函数,以及对求得的各概率密度函数进行线性组合,得出该风格音乐的高斯混合模型。进一步可理解为利用超向量为每一风格的音乐类型训练一种GMM模型,每一个GMM模型是由N个服从高斯分布的概率密度函数的线性组合,所以每个GMM模型实际上由这N个概率密度函数的均值、方差和权重组成。可以这样理解,每个GMM模型是N个“均值、方差、权重”的一组系数,所有的声学特征均由这一组系数间接的体现出来,这些系数取值不同,导致每个模型的分布不同,从而在不同模型之间产生区分度。如以一维速度特征(BPM值)为例:抒情歌曲的速度通常较慢,BPM值大概在50-60左右,则抒情类歌曲的GMM模型的均值便会在50-60左右,而摇滚歌曲速度较快,速度值通常在120-140左右,则摇滚歌曲的GMM模型的均值会在120-140左右。实际上,本实施例采用的超向量中的每一维度都是一个一维分类,将各个一维分类进行线性组合构成了多维分类。
可见,本实施例通过提取多维声学特征向量拼接成超向量,基于此再建立音乐分类模型,能够全面细致的描述一首歌曲的风格特点,音乐分类模型较为科学。
实施例四、本实施例提供了一种建立音乐分类模型的方法,参见图4所示,包括下列步骤:
S401、针对训练数据中的各音乐提取不同维度的声学特征向量。
具体描述与实施例三的步骤S301一致,不再赘述。
S402、针对每一音乐将各维声学特征向量按照预设的顺序拼接成超向量。
具体描述与实施例三的步骤S302一致,不再赘述。
S403、去除步骤S402得出的超向量中各维声学特征向量的相关性信息后,将各音乐的超向量提供步骤S404。
具体的,由于超向量的维数较高(如:四维),而且不同维度的特征值之间还会存在相关性,为了降低运算复杂度,进一步可进行特征降维,以去除不同特征维度上的相关性。降维的方式可以采用线性区分性分析(LDA),或者无监督的主成分分析(PCA)。本实施例中将降维后的超向量称为超特征向量,该超特征向量可代表该音乐的速度、力度、音色和旋律各方面信息。
S404、利用不同音乐风格的各音乐的超向量训练高斯混合模型。
具体的,可采用期望最大化(EM)方法,根据超特征向量,对同一风格音乐的不同维度声学特征向量分别求符合高斯分布的概率密度函数,以及对求得的各概率密度函数进行线性组合,得出该风格音乐的高斯混合模型。进一步可理解为利用超特征向量为每一风格的音乐类型训练一种GMM模型,每一个GMM模型是由N个服从高斯分布的概率密度函数的线性组合,所以每个GMM模型实际上由这N个概率密度函数的均值、方差和权重组成。可以这样理解,每个GMM模型是N个“均值、方差、权重”的一组系数,所有的声学特征均由这一组系数间接的体现出来,这些系数取值不同,导致每个模型的分布不同,从而在不同模型之间产生区分度。如以一维速度特征(BPM值)为例:抒情歌曲的速度通常较慢,BPM值大概在50-60左右,则抒情类歌曲的GMM模型的均值便会在50-60左右,而摇滚歌曲速度较快,速度值通常在120-140左右,则摇滚歌曲的GMM模型的均值会在120-140左右。实际上,本实施例采用的超特征向量中的每一维度都是一个一维分类,将各个一维分类进行线性组合构成了多维分类。
S405、根据训练得到的各高斯混合模型,构建模型库。
S406、获取用户对当前收听音乐所反馈的结果。
具体的,用户很多情况下会对当前收听的音乐或推荐的音乐有一些反馈结果,包括:用户对推荐音乐打上“满意/不满意”的标签;或者用户对推荐音乐进行1~5分的打分,5分最高,1分最低;或者用户自行给推荐音乐打上自己认同的标签,比如“抒情”“摇滚”“蓝调”等。
S407、根据所述反馈的结果以及所述当前收听音乐的超向量对高斯混合模型进行自适应调整。
具体的,可利用用户当前收听音乐的超特征向量训练一个临时高斯混合模型,并根据所述反馈的结果为所述临时高斯混合模型取预设的权重,利用该权重将所述临时高斯混合模型与所述当前收听音乐当前归属的高斯混合模型进行线性组合,完成所述自适应调整。
举例来说,假设曲库中有两类音乐:抒情和摇滚,每一类音乐都有各自的GMM模型,推荐的音乐当前的类别为“抒情”。如果用户反馈的结果为满意(如用户选择“满意”,或者打了5分;或者用户打上的标签与推荐的音乐当前的类别吻合),则可以认为推荐正确。进一步,自适应调整抒情音乐的GMM模型:首先、提取推荐的音乐的超特征向量。其次、为之训练一个临时的GMM模型(GMM_Temp),这个临时的GMM模型描述了推荐音乐的特性。最后、由于已知推荐的音乐当前归属于“抒情”类别,则原始的抒情GMM模型(GMM_Old)将根据上述临时GMM模型(GMM_Temp)进行微调,微调后新的模型(GMM_New)可表示为:
GMM_New=0.9×GMM_Old+0.1×GMM_Temp
其中的系数“0.9”和“0.1”为预设的权重;当然也可采用其它线性组合方式和其它的权重比例。形象的说,即将GMM_Old向GMM_Temp“略微靠拢”。
如果用户反馈的结果为不满意(比如用户对结果选择“不满意”,或者打了1分),则可以认为推荐不正确。进一步,自适应调整抒情音乐的GMM模型:其中部分内容与上述相同,微调后新的模型(GMM_New)可表示为:
GMM_New=1.1×GMM_Old-0.1×GMM_Temp
其中的系数“1.1”和“0.1”为预设的权重;当然也可采用其它线性组合方式和其它的权重比例。
可见,本实施例提取多维声学特征向量,进一步对提取的声学特征向量进行拼接和降维,既缩小了后续计算的数据量,又使得超特征向量能够全面细致的描述一首歌曲的风格特点。基于此建立的音乐分类模型较为科学,构建的模型库中存储的GMM模型也优于现有技术。进一步的,还可利用用户反馈的结果自适应调整GMM模型参数,因此充分考虑了用户的行为和喜好,进一步优化GMM模型对音乐的描述能力,使得音乐模型分类更加可靠,可给予用户更优的体验。
实施例五、本实施例提供了一种推荐音乐的系统,参见图5所示,包括:第二特征提取单元501、第二特征拼接单元502、第二特征降维单元503、匹配单元504和推荐单元505。
其中,第二特征提取单元501,用于针对用户当前收听音乐提取不同维度的声学特征向量。
在向用户推荐音乐之前,本发明针对用户当前收听的音乐提取不同维度的声学特征可包括但不限于从歌曲的速度、力度、音色、旋律中的任意组合构成的不同维度的声学特征向量入手,在本发明实施例的描述中以同时采用这四种声学特征为例进行描述。这四种声学特征分别从不同的角度描述了一首歌曲的风格,风格相近的歌曲必然在这些特征上有相似性。速度特征向量采用每分钟的敲击次数(BPM)来描述,力度特征向量采用频率重心描述,音色特征向量采用泛音和谐波频率来描述,旋律特征向量采用频率倒谱系数(MFCC)特征来描述。
第二特征拼接单元502,用于将所述不同维度的声学特征向量按照预设的顺序拼接成所述用户当前收听音乐的超向量。具体的,可将提取出的速度、力度、音色、旋律四个维度的声学特征向量,顺序拼接成超向量。
如果后续匹配单元504进行匹配操作所利用的高斯混合模型是通过上述实施例二所述的超特征向量得出的,则还包括:
第二特征降维单元503,用于去除所述用户当前收听音乐的超向量中各维声学特征向量的相关性信息后,将所述用户当前收听音乐的超向量提供给所述匹配单元504。
匹配单元504,用于将用户当前收听音乐的超向量与高斯混合模型进行模式匹配,以确定所述用户当前收听音乐所属的音乐风格。具体的,如果匹配单元504所利用的高斯混合模型是上述实施例一中根据所述超向量得出的,则以用户当前收听音乐的超向量与高斯混合模型进行模式匹配;如果匹配单元504所利用的高斯混合模型是上述实施例二中根据超特征向量得出的,则以用户当前收听音乐的超特征向量与高斯混合模型进行模式匹配。
推荐单元505,用于向用户推荐属于匹配单元504确定的音乐风格的其它音乐。
具体的,可采用欧氏距离衡量用户当前收听音乐的超向量/超特征向量与属于所述匹配单元504确定的音乐风格的其它音乐的超向量/超特征向量的相似度,并向用户推荐最相似的至少一首音乐;或者,向用户随机推荐属于所述匹配单元504确定的音乐风格的其它音乐。
可见,本实施例基于优化的音乐分类模型,因此可给予用户更优的音乐推荐体验。
实施例六、本实施例提供了一种推荐音乐的方法,参见图6所示,包括下列步骤:
S601、针对用户当前收听音乐提取不同维度的声学特征向量。
在向用户推荐音乐之前,本发明针对用户当前收听的音乐提取不同维度的声学特征可包括但不限于从歌曲的速度、力度、音色、旋律中的任意组合构成的不同维度的声学特征向量入手,在本发明实施例的描述中以同时采用这四种声学特征为例进行描述。这四种声学特征分别从不同的角度描述了一首歌曲的风格,风格相近的歌曲必然在这些特征上有相似性。速度特征向量采用每分钟的敲击次数(BPM)来描述,力度特征向量采用频率重心描述,音色特征向量采用泛音和谐波频率来描述,旋律特征向量采用频率倒谱系数(MFCC)特征来描述。
S602、将所述不同维度的声学特征向量按照预设的顺序拼接成所述用户当前收听音乐的超向量。
具体的,可将提取出的速度、力度、音色、旋律四个维度的声学特征向量,顺序拼接成超向量。
如果后续匹配步骤S604进行匹配操作所利用的高斯混合模型是通过上述实施例四所述的超特征向量得出的,则还包括:
S603、去除步骤S602中所述用户当前收听音乐的超向量中各维声学特征向量的相关性信息,以及在后续步骤S604中利用去除相关性信息后所得的用户当前收听音乐的超特征向量匹配高斯混合模型。
S604、将用户当前收听音乐的超向量与高斯混合模型进行模式匹配,以确定所述用户当前收听音乐所属的音乐风格。
具体的,如果步骤S604所利用的高斯混合模型是上述实施例三中根据所述超向量得出的,则以用户当前收听音乐的超向量与高斯混合模型进行模式匹配;如果步骤S604所利用的高斯混合模型是上述实施例四中根据超特征向量得出的,则以用户当前收听音乐的超特征向量与高斯混合模型进行模式匹配。
S605、向用户推荐属于所述步骤S604确定的音乐风格的其它音乐。
具体的,采用欧氏距离衡量用户当前收听音乐的超向量/超特征向量与属于所述步骤S604确定的音乐风格的其它音乐的超向量/超特征向量的相似度,并向用户推荐最相似的至少一首音乐;或者,向用户随机推荐属于所述步骤S604确定的音乐风格的其它音乐。
可见,本实施例基于优化的音乐分类模型,因此可给予用户更优的音乐推荐体验。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (16)

1.一种建立音乐分类模型的系统,其特征在于,包括:
第一特征提取单元,用于针对训练数据中的各音乐提取不同维度的声学特征向量,所述训练数据为预先选择的不同音乐风格的音乐;
第一特征拼接单元,用于针对各音乐将所述不同维度的声学特征向量按照预设的顺序拼接成超向量;
模型训练单元,用于利用不同音乐风格的各音乐的超向量训练高斯混合模型;
用户反馈单元,用于获取用户对当前收听音乐所反馈的结果;
自适应调整单元,用于根据所述反馈的结果以及所述当前收听音乐的超向量对高斯混合模型进行自适应调整;
其中所述自适应调整单元触发模型训练单元利用用户当前收听音乐的超向量训练一个临时高斯混合模型,并根据所述反馈的结果为所述临时高斯混合模型取预设的权重,利用该权重将所述临时高斯混合模型与所述当前收听音乐当前归属的高斯混合模型进行线性组合,完成所述自适应调整。
2.根据权利要求1所述的系统,其特征在于,还包括:
模型库单元,用于根据训练得到的所述高斯混合模型,构建模型库。
3.根据权利要求1所述的系统,其特征在于,还包括:
第一特征降维单元,用于去除所述超向量中各维声学特征向量的相关性信息后,将各音乐的超向量提供给所述模型训练单元。
4.根据权利要求1所述的系统,其特征在于,所述声学特征向量为:歌曲的速度特征、力度特征、音色特征和旋律特征中的任意组合构成的声学特征向量;
其中所述速度特征采用每分钟的敲击次数BPM表征,所述力度特征采用频率中心表征,所述音色特征采用泛音和谐波频率表征,所述旋律特征采用频率倒谱系数MFCC表征。
5.根据权利要求1所述的系统,其特征在于,模型训练单元根据所述超向量,对同一风格音乐的不同维度声学特征向量分别求符合高斯分布的概率密度函数,以及对求得的各概率密度函数进行线性组合,得出该风格音乐的高斯混合模型。
6.一种推荐音乐的系统,其特征在于,包括:
第二特征提取单元,用于针对用户当前收听音乐提取不同维度的声学特征向量;
第二特征拼接单元,用于将所述不同维度的声学特征向量按照预设的顺序拼接成所述用户当前收听音乐的超向量;
匹配单元,用于将用户当前收听音乐的超向量与高斯混合模型进行模式匹配,以确定所述用户当前收听音乐所属的音乐风格;
推荐单元,用于向用户推荐属于所述匹配单元确定的音乐风格的其它音乐;
其中,所述高斯混合模型为权利要求1至5任一项得出的高斯混合模型。
7.根据权利要求6所述的系统,其特征在于,当所述高斯混合模型为权利要求3得出的高斯混合模型时,所述推荐音乐的系统还包括:
第二特征降维单元,用于去除所述用户当前收听音乐的超向量中各维声学特征向量的相关性信息后,将所述用户当前收听音乐的超向量提供给所述匹配单元。
8.根据权利要求6所述的系统,其特征在于,推荐单元采用欧氏距离衡量用户当前收听音乐的超向量与属于所述匹配单元确定的音乐风格的其它音乐的超向量的相似度,并向用户推荐最相似的至少一首音乐;或者,向用户随机推荐属于所述匹配单元确定的音乐风格的其它音乐。
9.一种建立音乐分类模型的方法,其特征在于,包括下列步骤:
A1、针对训练数据中的各音乐提取不同维度的声学特征向量,所述训练数据为预先选择的不同音乐风格的音乐;
A2、针对各音乐将所述不同维度的声学特征向量按照预设的顺序拼接成超向量;
A3、利用不同音乐风格的各音乐的超向量训练高斯混合模型;
A5、获取用户对当前收听音乐所反馈的结果;
A6、根据所述反馈的结果以及所述当前收听音乐的超向量对高斯混合模型进行自适应调整;
其中所述A6具体包括:
利用用户当前收听音乐的超向量训练一个临时高斯混合模型,并根据所述反馈的结果为所述临时高斯混合模型取预设的权重,利用该权重将所述临时高斯混合模型与所述当前收听音乐当前归属的高斯混合模型进行线性组合,完成所述自适应调整。
10.根据权利要求9所述的方法,其特征在于,所述步骤A3之后还包括步骤:
A4、根据训练得到的所述高斯混合模型,构建模型库。
11.根据权利要求9所述的方法,其特征在于,所述步骤A2之后,A3之前还包括步骤:A20、去除步骤A2中所述超向量中各维声学特征向量的相关性信息;
在所述步骤A3中利用去除相关性信息后所得的超向量训练高斯混合模型。
12.根据权利要求9所述的方法,其特征在于,所述声学特征向量为:歌曲的速度特征、力度特征、音色特征和旋律特征中的任意组合构成的声学特征向量;
其中所述速度特征采用每分钟的敲击次数BPM表征,所述力度特征采用频率中心表征,所述音色特征采用泛音和谐波频率表征,所述旋律特征采用频率倒谱系数MFCC表征。
13.根据权利要求9所述的方法,其特征在于,所述步骤A3具体包括:根据所述超向量,对同一风格音乐的同一维度声学特征向量求符合高斯分布的概率密度函数,以及对求得的概率密度函数进行线性组合,得出该风格音乐的高斯混合模型。
14.一种推荐音乐的方法,其特征在于,包括下列步骤:
B1、针对用户当前收听音乐提取不同维度的声学特征向量;
B2、将所述不同维度的声学特征向量按照预设的顺序拼接成所述用户当前收听音乐的超向量;
B3、将用户当前收听音乐的超向量与高斯混合模型进行模式匹配,以确定所述用户当前收听音乐所属的音乐风格;
B4、向用户推荐属于所述步骤B3确定的音乐风格的其它音乐;
其中,所述高斯混合模型为权利要求9至13任一项得出的高斯混合模型。
15.根据权利要求14所述的方法,其特征在于,当所述高斯混合模型为权利要求11得出的高斯混合模型时,所述推荐音乐的方法中步骤B2之后,B3之前还包括步骤:B20、去除步骤B2中所述用户当前收听音乐的超向量中各维声学特征向量的相关性信息;
在所述步骤B3中利用去除相关性信息后所得的用户当前收听音乐的超向量匹配高斯混合模型。
16.根据权利要求14所述的方法,其特征在于,所述步骤B4具体包括:
采用欧氏距离衡量用户当前收听音乐的超向量与属于所述步骤B3确定的音乐风格的其它音乐的超向量的相似度,并向用户推荐最相似的至少一首音乐;或者,向用户随机推荐属于所述步骤B3确定的音乐风格的其它音乐。
CN201110442611.8A 2011-12-27 2011-12-27 建立音乐分类模型的系统、推荐音乐的系统及相应方法 Active CN103186527B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110442611.8A CN103186527B (zh) 2011-12-27 2011-12-27 建立音乐分类模型的系统、推荐音乐的系统及相应方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110442611.8A CN103186527B (zh) 2011-12-27 2011-12-27 建立音乐分类模型的系统、推荐音乐的系统及相应方法

Publications (2)

Publication Number Publication Date
CN103186527A CN103186527A (zh) 2013-07-03
CN103186527B true CN103186527B (zh) 2017-04-26

Family

ID=48677698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110442611.8A Active CN103186527B (zh) 2011-12-27 2011-12-27 建立音乐分类模型的系统、推荐音乐的系统及相应方法

Country Status (1)

Country Link
CN (1) CN103186527B (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778216B (zh) 2015-03-20 2017-05-17 广东欧珀移动通信有限公司 一种预设风格歌曲处理的方法及装置
CN104750839B (zh) * 2015-04-03 2019-02-15 魅族科技(中国)有限公司 一种数据推荐方法、终端及服务器
CN104766612A (zh) * 2015-04-13 2015-07-08 李素平 基于乐音音色匹配的正弦模型分离方法
CN105575393A (zh) * 2015-12-02 2016-05-11 中国传媒大学 一种基于人声音色的个性化点唱歌曲推荐方法
CN107886941A (zh) * 2016-09-29 2018-04-06 亿览在线网络技术(北京)有限公司 一种音频标注方法及装置
CN106649559B (zh) * 2016-11-09 2019-09-17 腾讯音乐娱乐(深圳)有限公司 音频推荐方法及装置
CN107220233B (zh) * 2017-05-09 2020-06-16 北京理工大学 一种基于高斯混合模型的用户知识需求模型构建方法
CN107908701A (zh) * 2017-11-06 2018-04-13 广东欧珀移动通信有限公司 音乐推荐的方法、装置、存储介质及终端设备
CN109840321B (zh) * 2017-11-29 2022-02-01 腾讯科技(深圳)有限公司 文本推荐方法、装置及电子设备
CN108597535B (zh) * 2018-03-29 2021-10-26 华南理工大学 一种融合伴奏的midi钢琴曲风格分类方法
CN108717849A (zh) * 2018-04-03 2018-10-30 腾讯音乐娱乐科技(深圳)有限公司 拼接多媒体数据的方法、装置及存储介质
CN108764114B (zh) * 2018-05-23 2022-09-13 腾讯音乐娱乐科技(深圳)有限公司 一种信号识别方法及其设备、存储介质、终端
CN108806657A (zh) * 2018-06-05 2018-11-13 平安科技(深圳)有限公司 音乐模型训练、音乐创作方法、装置、终端及存储介质
CN109147804A (zh) 2018-06-05 2019-01-04 安克创新科技股份有限公司 一种基于深度学习的音质特性处理方法及系统
CN109308912B (zh) * 2018-08-02 2024-02-20 平安科技(深圳)有限公司 音乐风格识别方法、装置、计算机设备及存储介质
CN109189908B (zh) * 2018-08-22 2019-08-20 乔杨 海量数据提取推送工作方法
CN109408660B (zh) * 2018-08-31 2021-08-10 安徽四创电子股份有限公司 一种基于音频特征的音乐自动分类的方法
CN109285560B (zh) * 2018-09-28 2021-09-03 北京奇艺世纪科技有限公司 一种音乐特征提取方法、装置及电子设备
CN109657056B (zh) * 2018-11-14 2021-04-06 金色熊猫有限公司 目标样本获取方法、装置、存储介质及电子设备
EP3938927A4 (en) 2019-03-12 2022-09-21 Citrix Systems, Inc. INTELLIGENT FILE RECOMMENDATION ENGINE
CN110162700A (zh) * 2019-04-23 2019-08-23 腾讯科技(深圳)有限公司 信息推荐及模型的训练方法、装置、设备以及存储介质
CN110427518A (zh) * 2019-08-12 2019-11-08 央视国际网络无锡有限公司 一种短视频音乐推荐方法
CN110782915A (zh) * 2019-10-31 2020-02-11 广州艾颂智能科技有限公司 一种基于深度学习的波形音乐成分分离方法
CN110853606A (zh) * 2019-11-26 2020-02-28 Oppo广东移动通信有限公司 一种音效配置方法、装置及计算机可读存储介质
CN111586089A (zh) * 2020-03-20 2020-08-25 上海大犀角信息科技有限公司 基于向量评分的客户端、服务端内容推荐系统和方法
CN111552831B (zh) * 2020-04-21 2024-03-26 腾讯音乐娱乐科技(深圳)有限公司 一种音乐推荐的方法及服务器
CN111835561A (zh) * 2020-06-29 2020-10-27 中国平安财产保险股份有限公司 基于用户行为数据的异常用户群体检测方法、装置、设备
WO2022040282A1 (en) 2020-08-18 2022-02-24 Dolby Laboratories Licensing Corporation Audio content identification
CN112948623B (zh) * 2021-02-25 2022-08-16 杭州网易云音乐科技有限公司 音乐热度预测方法、装置、计算设备以及介质
CN113923517B (zh) * 2021-09-30 2024-05-07 北京搜狗科技发展有限公司 一种背景音乐生成方法、装置及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1247363A (zh) * 1998-09-04 2000-03-15 松下电器产业株式会社 基于本征话音的说话者检验和说话者识别
CN101894550A (zh) * 2010-07-19 2010-11-24 东南大学 基于情感对特征优化的语音情感分类方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7396990B2 (en) * 2005-12-09 2008-07-08 Microsoft Corporation Automatic music mood detection
KR100772386B1 (ko) * 2005-12-10 2007-11-01 삼성전자주식회사 음악 파일 분류 방법 및 그 시스템
CN101398825B (zh) * 2007-09-29 2013-07-03 三星电子株式会社 用于快速音乐分类和检索的方法和设备
CN101471068B (zh) * 2007-12-26 2013-01-23 三星电子株式会社 通过哼唱音乐旋律搜索基于波形的音乐文件的方法和系统
CN101599271B (zh) * 2009-07-07 2011-09-14 华中科技大学 一种数字音乐情感的识别方法
CN101640043A (zh) * 2009-09-01 2010-02-03 清华大学 基于多坐标序列内核的说话人识别方法和系统
KR101147805B1 (ko) * 2010-04-08 2012-05-18 (주)퓨쳐 라이팅 태양광 버스 정류장
KR101012968B1 (ko) * 2010-06-15 2011-02-08 박병욱 바텀애쉬 골재를 이용한 미끄럼 방지기능을 가진 블록 및 그 제조방법
CN102004785B (zh) * 2010-11-30 2012-08-29 北京瑞信在线系统技术有限公司 一种音乐推荐方法及装置
CN102129456B (zh) * 2011-03-09 2012-07-04 天津大学 去相关稀疏映射音乐流派有监督自动分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1247363A (zh) * 1998-09-04 2000-03-15 松下电器产业株式会社 基于本征话音的说话者检验和说话者识别
CN101894550A (zh) * 2010-07-19 2010-11-24 东南大学 基于情感对特征优化的语音情感分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于MFCC和GMM的异常声音识别算法研究;吕霄云;《中国优秀硕士学位论文全文数据库信息科技辑》;20101015(第10期);论文正文第2-36页 *

Also Published As

Publication number Publication date
CN103186527A (zh) 2013-07-03

Similar Documents

Publication Publication Date Title
CN103186527B (zh) 建立音乐分类模型的系统、推荐音乐的系统及相应方法
CN103823867B (zh) 一种基于音符建模的哼唱式音乐检索方法及系统
CN107491531B (zh) 基于集成学习框架的中文网络评论情感分类方法
CN108109613A (zh) 用于智能对话语音平台的音频训练和识别方法及电子设备
CN103824565B (zh) 一种基于音符和时值建模的哼唱识谱方法及系统
CN107978311A (zh) 一种语音数据处理方法、装置以及语音交互设备
CN109785820A (zh) 一种处理方法、装置及设备
CN105741835B (zh) 一种音频信息处理方法及终端
CN104395953A (zh) 来自音乐音频信号的拍子、和弦和强拍的评估
CN105070283A (zh) 为歌声语音配乐的方法和装置
CN108268530B (zh) 一种歌词的配乐生成方法和相关装置
CN105575393A (zh) 一种基于人声音色的个性化点唱歌曲推荐方法
CN105096121A (zh) 声纹认证方法和装置
CN106991163A (zh) 一种基于演唱者声音特质的歌曲推荐方法
CN107146615A (zh) 基于匹配模型二次识别的语音识别方法及系统
CN103970802B (zh) 一种歌曲推荐的方法及装置
CN107123415A (zh) 一种自动编曲方法及系统
CN110347872A (zh) 视频封面图像提取方法及装置、存储介质及电子设备
CN109242090A (zh) 一种基于gan网络的视频描述及描述一致性判别方法
CN109346043B (zh) 一种基于生成对抗网络的音乐生成方法及装置
CN102637433A (zh) 识别语音信号中所承载的情感状态的方法和系统
TW200813759A (en) A method and apparatus for accessing an audio file from a collection of audio files using tonal matching
CN103793447A (zh) 音乐与图像间语义相识度的估计方法和估计系统
CN107767850A (zh) 一种演唱评分方法及系统
CN108231066A (zh) 语音识别系统及其方法与词汇建立方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant