CN109299313A

CN109299313A - 一种基于FP-growth的歌曲推荐方法

Info

Publication number: CN109299313A
Application number: CN201810877202.2A
Authority: CN
Inventors: 宋耀莲; 田榆杰; 龙华; 王慧东; 徐文林; 武双新
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-08-03
Filing date: 2018-08-03
Publication date: 2019-02-01

Abstract

本发明涉及一种基于FP‑growth的歌曲推荐方法，属于数据挖掘推荐技术领域。先建立一个用户在听歌软件上的歌曲列表数据库，用户账号作为标识符TID，对应的歌曲列表作为一个事务T，所有事务的集合为事务集D；对D进行第一次扫描，计算并保留频繁项歌曲；然后，对D进行第二次扫描，构建频繁模式树FP‑tree，并提取出频繁项集；其次，由各频繁项集产生相应的强关联规则，并计算出各强关联规则的置信度大小；最后，通过各强关联规则的置信度大小，将这些频繁项集进行推荐排序。本发明与现有技术相比，主要提供了FP‑growth算法对用户所喜欢音乐类型的相似歌曲起到推荐作用，提高用户匹配到喜欢歌曲的效率，同时也增强了听歌软件为用户带来的听歌舒适性。

Description

一种基于FP-growth的歌曲推荐方法

技术领域

本发明涉及一种基于FP-growth的歌曲推荐方法，属于数据挖掘推荐技术领域。

背景技术

在现代，音乐的种类多种多样，音乐的数量也非常庞大，胜有一种百花齐放、百家争鸣之景。然而，就是由于现代音乐的迅猛发展，使得人们即便在喜好音乐类型中也很难找到自己钟意的歌曲。

FP-growth算法是韩家炜等人在2000年提出的关联分析算法，它采取如下分治策略：将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree)，但仍保留项集关联信息。在算法中使用了一种称为频繁模式树(Frequent Pattern Tree)的数据结构。FP-tree是一种特殊的前缀树，由频繁项头表和项前缀树构成。FP-growth算法基于以上的结构加快整个挖掘过程。而且算法已经被广泛的应用到商业、网络安全等各个领域，但还没有应用到音乐领域。

发明内容

本发明要解决的技术问题是提供一种基于FP-growth的歌曲推荐方法，将FP-growth算法应用到听歌软件中根据用户的歌单来推荐给用户可能喜好的歌曲曲目，提高用户匹配到喜欢歌曲的效率，同时也增强了听歌软件为用户带来的听歌舒适性。

本发明的技术方案是：一种基于FP-growth的歌曲推荐方法，包括如下步骤：

Step1、建立一个用户在听歌软件上的歌曲列表数据库，用户账号作为标识符TID，对应的歌曲列表作为一个事务T，所有事务的集合为事务集D；

Step2、对D进行第一次扫描，计算每一个事务T中各项歌曲的支持度计数support_count_x，设置一个最小支持度阈值min_sup，support_count_x≥min_sup的歌曲作为频繁项保留，反之剔除，然后将频繁项按照支持度计数降序排列；

Step3、对事务集D进行第二次扫描，每读入一个事务T时，创建标记为其歌曲的节点，然后形成根节点null到歌曲节点的路径，直到每个事务都映射到FP-tree的一条路径，读入所有事务后形成FP-tree；

Step4、从FP-tree的每条路径的结尾节点依次向上提取出相应的项集，项集的支持度计数support_count_xj大于等于min_sup时，该项集作为频繁项集l保留，反之剔除；

Step5、设置一个最小置信度阈值min_conf；每个频繁项集l所产生的每个非空子集为s，若子集(l-s)与s的支持度计数之比大于等于最小置信度阈值min_conf，则输出强关联规则该强规则的置信度大小为l与s的支持度计数之比的值

Step6、将所计算出来的所有强关联规则按照其置信度confidence的大小进行排序，当输入一个歌曲时，通过关联规则得出与该歌曲相关联的其他歌曲。

具体地，所述步骤Step1中，歌曲列表数据库中每条信息包含用户账号字段及列表中的歌曲字段，用户账号作为标识符TID，对应歌曲列表作为一个事务T，所有事务的集合为D，每一首歌曲作为一个项。

具体地，所述步骤Step2中，最小支持度阈值min_sup的大小由用户根据自己的需求自行设置。

具体地，所述步骤Step3中，路径由根节点null和对应的所有歌曲节点组成，其中歌曲节点的路径顺序为Step2中的频繁项支持度计数降序排序。

具体地，所述步骤Step5的关联规则置信度大小的计算公式如公式(1)所示：

其中：

式(1)和(2)中，min_conf为最小置信度阈值；l为频繁项集，l所产生的每个非空子集为s；support_count(l)、support_count(s)、support_count(l-s)分别为括号内字母的支持度计数，为强关联规则。

本发明的有益效果是：提供了FP-growth算法对用户所喜欢音乐类型的相似歌曲起到推荐作用，提高用户匹配到喜欢歌曲的效率，同时也增强了听歌软件为用户带来的听歌舒适性。

附图说明

图1是本发明总体流程图；

图2是本发明步骤Step2流程图；

图3是本发明步骤Step3流程图；

图4是本发明具体实施方式中所举例子中Step3的流程图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1：如图1-4所示，一种基于FP-growth的歌曲推荐方法，建立一个用户在听歌软件上的歌曲列表数据库(包含用户账号和用户的歌曲表单)，用户账号作为标识符TID，对应的歌曲列表作为一个事务T，所有事务的集合为事务集D；对D进行第一次扫描，计算并保留频繁项歌曲；然后，对D进行第二次扫描，构建频繁模式树FP-tree，并提取出频繁项集；其次，由各频繁项集产生相应的强关联规则，并计算出各强关联规则的置信度大小；最后，通过各强关联规则的置信度大小，将这些频繁项集进行推荐排序。

具体步骤为：

进一步地，所述步骤Step1中，歌曲列表数据库中每条信息包含用户账号字段及列表中的歌曲字段，用户账号作为标识符TID，对应歌曲列表作为一个事务T，所有事务的集合为D，每一首歌曲作为一个项。

进一步地，所述步骤Step2中，最小支持度阈值min_sup的大小由用户根据自己的需求自行设置。

进一步地，所述步骤Step3中，路径由根节点null和对应的所有歌曲节点组成，其中歌曲节点的路径顺序为Step2中的频繁项支持度计数降序排序。

进一步地，所述步骤Step5的关联规则置信度大小的计算公式如公式(1)所示：

其中：

式(1)和(2)中，min_conf为最小置信度阈值；l为频繁项集，l所产生的每个非空子集为s；support_count(l)、support_count(s)、support_count(l-s)分别为括号内字母的支持度计数,为强关联规则。

所述步骤Step6的推荐方式中，假设给出以下几个关联规则及其置信度(I_i表示为第i个歌曲编号，置信度阈值设置为50％)：

当用户正在听歌曲I₁时，算法则按前后顺序依次推荐出歌曲I₅、歌单{I₂,I₃}的试听选项；当用户听了{I₁,I₂}这两首歌时，算法则按前后顺序依次推荐出歌单{I₄,I₃}、歌曲I₅的试听选项。

举例说明：下面结合举例的例子，详细说明本发明的方案：

一种基于FP-growth的歌曲推荐方法，所述方法的具体步骤如下：

Step1、建立一个用户在听歌软件上的歌曲列表数据库，用户账号作为标识符TID，对应的歌曲列表作为一个事务T，所有事务的集合为事务集D；具体地：

为方便阐述本发明，假设歌曲编号规则如下：

假设所建数据库中有如下五位用户的歌曲列表数据：

Step2、对D进行第一次扫描，计算每一个事务T中各项歌曲的支持度计数support_count_x，设置一个最小支持度阈值min_sup，support_count_x≥min_sup的歌曲作为频繁项保留，反之剔除，然后将频繁项按照支持度计数降序排列；具体地：

设置本案例中的最小支持度阈值为3，则得到的结果为：

Step3、对事务集D进行第二次扫描，每读入一个事务T时，创建标记为其歌曲的节点，然后形成根节点null到歌曲节点的路径，直到每个事务都映射到FP-tree的一条路径，读入所有事务后形成FP-tree；具体地：

因本案例中共有五位用户的歌曲列表数据即五个事务T，所以将产生五条路径分支，如图4所示。

首先，读入第一个事务T，得到第一条路径分支＜(f:1),(m:1),(c:1),(a:1),(p:1)＞，如图4中的(a)；其次，读入第二个事务T，得到第二条路径分支＜(f:1),(m:1),(c:1),(a:1),(b:1)＞，其中路径前四项与上一步相同，则在这四个节点的数目上加1，然后将(b:1)作为一个分支加在(a:2)节点后，成为它的子节点，如图4中的(b)；依次循环类推，直至读入所有事务T，构建出完整的FP-tree；

Step4、从FP-tree的每条路径的结尾节点依次向上提取出相应的项集。项集的支持度计数support_count_xj大于等于min_sup时，该项集作为频繁项集l保留，反之剔除；具体地：

首先，从FP-tree的结尾节点p开始提取相应的项集，它的两个节点存在路径＜(f:4),(m:4),(c:3),(a:3),(p:2)＞和＜(c:1),(b:1),(p:1)＞。其中，路径＜f,m,c,a,p＞出现了2次，＜c,b,p＞出现了1次。但是由于最小支持度阈值是3，所以从FP-tree上只能提取出一个直接频繁集{(p:3)}(该符号表示项集中包含p，其支持度计数为3)。结尾节点b类似，只能提取出一个直接频繁集{(b:3)}。

然后，从FP-tree的倒数第二个节点a开始提取相应的项集，它的节点存在路径＜(f:4),(m:4),(c:3),(a:3)＞中。那么路径＜f,m,c,a＞出现了3次，所以从FP-tree上提取的频繁项集有：{(fmca:3)}、{(fma:3)}、{(fca:3)}、{(fa:3)}、{(a:3)}。

依次循环类推，节点c相应的频繁项集有：{(fmc:3)}、{(fc:3)}、{(mc:3)}、{(c:3)}。节点m相应的频繁项集有：{(fm:4)}、{(m:4)}。节点f相应的频繁项集有：{(f:4)}。将所有的频繁项集及其支持度计数统计到下表中。

Step5、设置一个最小置信度阈值min_conf；每个频繁项集l所产生的每个非空子集为s，若子集(l-s)与s的支持度计数之比大于等于最小置信度阈值min_conf，则输出强关联规则该强规则的置信度大小为l与s的支持度计数之比的值具体地：

设置最小置信度阈值min_conf＝80％。为简要阐述该步骤，此处仅讨论Step4中f项作为前项的频繁项集，计算后所有关联规则及其置信度大小如下表所示。

则强关联规则仅有：

Step6、将所计算出来的所有强关联规则按照其置信度confidence的大小进行排序，当输入一个歌曲时，通过关联规则得出与该歌曲相关联的其他歌曲。具体地：

将Step5所得强关联规则按其置信度大小排序，即用户在听歌曲f(去大理)时，算法则按推荐选项m(爱的就是你)作为用户可能喜欢歌曲的参考选项供用户选择性收听。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于FP-growth的歌曲推荐方法，其特征在于：

Step1、建立用户歌曲列表数据库，用户账号作为标识符TID，对应的歌曲列表作为一个事务T，所有事务的集合为事务集D；

2.根据权利要求1所述的基于FP-growth的歌曲推荐方法，其特征在于：所述步骤Step3中，路径由根节点null和对应的所有歌曲节点组成，其中歌曲节点的路径顺序为Step2中的频繁项支持度计数降序排序。

3.根据权利要求1所述的基于FP-growth的歌曲推荐方法，其特征在于：所述步骤Step5的关联规则置信度大小的计算公式如公式(1)所示：

其中：

式中，min_conf为最小置信度阈值；l为频繁项集，l所产生的每个非空子集为s；support_count(l)、support_count(s)、support_count(l-s)分别为括号内字母的支持度计数，为强关联规则。