CN105718509A

CN105718509A - 一种基于有向图关联规则音乐云推荐算法

Info

Publication number: CN105718509A
Application number: CN201610015143.9A
Authority: CN
Inventors: 柯新生
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2016-01-11
Filing date: 2016-01-11
Publication date: 2016-06-29

Abstract

本发明涉及一种基于有向图关联规则音乐云推荐算法，通过对音乐云运营数据进行数据建模分析，为商业运营部门的音乐市场分析与辅助决策提供技术手段和服务。通过挖掘最大频繁项集可以有效地提高挖掘的效率和降低问题解的规模。算法利用深度优先的搜索方法，分别选择有向项集图结点集中的结点作为初始结点进行搜索，通过对每一个项集的频繁扩展集进行判断，可以有效地缩小问题空间，减少待检验的最大频繁项集的候选集的数目，有效地提高了算法的效率。通过调整有向项集图的结点集的排列顺序和有向边的生成顺序以及设计有效地最大频繁项集的存储方式进一步优化和提高了算法的效率。

Description

一种基于有向图关联规则音乐云推荐算法

技术领域

本发明涉及多媒体分析技术领域，具体说是一种基于有向图关联规则音乐云推荐算法。

背景技术

传统的频繁项集发现算法，例如：Apriori(基于先验算法)，Partition(基于分区算法)、DHP(基于散列算法)、Sample(基于样本插值算法)等算法，发现的是隐藏在数据集中的全部的频繁项集，当处理的数据对象是稀疏集或最小支持度设定的比较高的时候，这一类算法具有很好的执行效果。但是，当我们把支持度降得很低的话或者我们处理的数据对象是稠密数据集时，例如：生物基因数据、通讯数据等等，这类算法性能下降非常快。即使是深度优先的搜索算法的性能也会受到数据集稠密性的影响。这是因为在支持度很低时或者处理数据对象是稠密数据集时，数据中存在着许多长的频繁模式，每一个长频繁模式甚至会达到包括30～40个项。这些长的频繁模式的所有的子集都是频繁项目集(子集数目的上限是2ⁿ，n是长频繁项集中项的个数)。这样的话挖掘出的所有频繁项集的数目将是一个天文数字。

以mushroom数据库为例，仅仅8416条记录的一个小的稠密数据集，当支持度降到5％时发现的频繁项集居然达到了200万以上。如此众多的频繁项集又生成了数目众多的关联规则，这些关联规则中绝大多数都是冗余的关联规则。增加了用户充分理解关联规则挖掘的结果、迅速从挖掘结果中发现有价值的信息的难度。

发明内容

针对现有技术中存在的缺陷，本发明的目的在于提供一种基于有向图关联规则音乐云推荐算法，基于有向图关联规则音乐云推荐特点和特征，并能反映用户音乐库的基于相似性的音乐推荐。

为达到以上目的，本发明采取的技术方案是：

一种基于有向图关联规则音乐云推荐算法，其特征在于，包括如下步骤：

A:建立数据库

建立数据库的流程包括：建立关系型数据库、Hbase型数据库，以及从关系型数据库向Hbase型数据库迁移；

B构建有向图关联规则算法

B1制订支持度计算策略；

B2构建有向图的存储方式；

B3一般有向图关联构建；

B4完全频繁项集有向图构建：依据频繁项集的子集都是频繁项集，非频繁项集的超集都是非频繁项集，在有向项集图存储的1，2项频繁集的基础上进行项集并操作和支持该项集的交易列表的交操作便发现所有频繁项集；

B5最大频繁项集的有向图构建。

在上述技术方案的基础上，建立数据库的具体步骤为：

A1建立关系型数据库：以音乐特征元组为元素，用二位表型的关系模型数据库表示音乐特征数据及其数据之间的联系；

A2建立Hbase型数据库：建立基于列储存的分布式Hbase型数据库，以便能后期轻松改变硬件数量，提高错误兼容性；

A3从关系型数据库向Hbase型数据库迁移。

在上述技术方案的基础上，从关系型数据库向Hbase型数据库迁移的具体步骤为：

A31由解析器(Schemaparser)解析由外部工具把传统RDBMS(关系数据库管理系统)数据库导出的表模式定义文档；

A32用表模式转换器(Convertor)把传统RDBMS的表模式定义转换成Hbase的表模式；

A33用表模式适配器(Adapter)保存、读取已经由表模式转换器所转换过的表模式定义到指定文件中，并为其他模块查找新的表模式定义提供接口；

A34用数据表管理器(TableManager)把从初在传统RDBMS数据库中的数据迁移到Hbase数据库中对应新定义的表中；

A35令在关系型数据库中原有的表集合为A，迁移后的在HBase数据库中的表集合为B。

在上述技术方案的基础上，制订支持度计算策略的具体步骤为：

B11设计Tidlist存储方式：定义一个关联项的Tidlist的长度与其数据库中交易数相等，用n个二进制位来表示一个项的Tidlist，即n/8个字节；每一个字节中的一个位取值0、1对应数据库中相应的交易不支持或支持项。

在上述技术方案的基础上，构建有向图的存储方式的具体步骤为：

B21使用邻接矩阵存储表示图G＝(V，E)各顶点信息之间的关系矩阵，用定义：如果(i，j)∈E，则A.edge[i][j](该边权值)的值取1，否则为0；

B211保存节点中有与其边关联的另一顶点的下标和指向同一链表中的下一个边结点的指针；

B212保存该边权值。

在上述技术方案的基础上，一般有向图关联构建的具体步骤为：

B31确定有向图的结点：将所有大于最小支持度s的项按支持度降序排列组成有向项集图的结点V＝{B,E,A,C,D}；

B32添加有线图中的弧：按顺序从结点集V中选择一个结点作为出发结点；

B33依次选择点为出发结点，删除支持度不符合的点，直到结点集为空。

在上述技术方案的基础上，完全频繁项集有向图构建的具体步骤为：

B41定义候选集：一个项集的所有子集的支持度均大于或等于最小支持度的频繁项集为候选集；

B42有且只有n项频繁项集{V₁,V₂,…,V_n}中任何一个项在有向项集图中都存在一条指向结点V_n+1的弧，则{V₁,V₂,…,V_n,V_n+1}为候选集。

在上述技术方案的基础上，最大频繁项集的有向图构建的具体步骤为：

B51将数据库中的有关频繁项集的信息保存在有向项集图中，利用深度优先的搜索策略，发现最大频繁项集；

B511在访问图的某一起始结点V；

B512由V出发，访问它的邻接结点再从w₁出发访问的w₁邻接结点w₂；

B513从w₂出发进行上述访问；

B514直到邻接表为空时或支持度不满足要求时就生成了一个最大频繁项集；

B515将生成的最大频繁项集保存在最大频繁项集的集合中；

B516返回上一层结点或选择其他邻接点继续进行m上述的访问；

B517删除那些是已经发现的最大频繁项集的子集的频繁项集；

B518直到生成所有的最大频繁项集为止。

本发明所述的基于有向图关联规则音乐云推荐算法，挖掘最大频繁项集可以有效地降低问题解的空间，对于用户有效理解数据集中隐藏的长模式具有重要的意义。算法将数据库中的有关频繁项集的信息保存在有向项集图中，基于有向项集图，利用深度优先的搜索策略，可以迅速发现所有的最大频繁项集。

附图说明

本发明有如下附图：

图1数据库迁移工具工作流程图；

图2数据迁移决策关联图；

图3优化的有向项集图；

图4基于有向图挖掘频繁项集具体过程图。

具体实施方式

以下结合附图对本发明作进一步详细说明。

本发明所述的基于有向图关联规则音乐云推荐算法，包括如下步骤：

A:建立数据库

建立数据库的流程包括：建立关系型数据库、Hbase型数据库(基于列储存的分布式型数据库)，以及从关系型数据库向Hbase型数据库迁移；

A3从关系型数据库向Hbase型数据库迁移：

A34用数据表管理器(TableManager)把从初在传统RDBMS数据库中的数据迁移到Hbase数据库中对应新定义的表中；具体流程如图1所示；

A35令在关系型数据库中原有的表集合为A，迁移后的在HBase数据库中的表集合为B，总的迁移过程采用的决策如图2所示；

B构建有向图关联规则算法

B1制订支持度计算策略；

B11设计Tidlist存储方式：定义一个关联项的Tidlist的长度与其数据库中交易数相等，用n个二进制位来表示一个项的Tidlist，即n/8个字节；每一个字节中的一个位取值0、1对应数据库中相应的交易不支持或支持项；

B2构建有向图的存储方式；

B212保存该边权值；

B3一般有向图关联构建；

B33依次选择点为出发结点，删除支持度不符合的点，直到结点集为空。如图3所示；

B42有且只有n项频繁项集{V₁,V₂,…,V_n}中任何一个项在有向项集图中都存在一条指向结点V_n+1的弧，则{V₁,V₂,…,V_n,V_n+1}为候选集；

B5最大频繁项集的有向图构建；

B511在访问图的某一起始结点V；

B513从w₂出发进行上述访问；

B515将生成的最大频繁项集保存在最大频繁项集的集合中；

B516返回上一层结点或选择其他邻接点继续进行上述的访问；

B517删除那些是已经发现的最大频繁项集的子集的频繁项集；

B518直到生成所有的最大频繁项集为止；

本发明提出一种基于有向图关联规则音乐云推荐算法，基本思路用如下实例说明：

如图4所示：设最大频繁项集的集合为空，设定最小支持度为0.5。首先选择有向项集图的结点集V中的结点D，从D的邻接表中选择第一个邻接点A，计算项集{D,A}的频繁扩展集为{E,B}；

计算项集{D,A}的支持度为0.5，等于设定的最小支持度；

选择结点A的邻接表中第一个邻接点E，计算项集{D,A,E}的频繁扩展集为{B}；

计算项集{D,A,E}的支持度为0.5，等于设定的最小支持度；

选择结点E的邻接表中第一个邻接点B，{D,A,E,B}的频繁扩展集空间；

计算项集{D，A，E，B}的支持度为0.5，等于设定的最小支持度；保存{D,A,E,B}为最大频繁项集；

保存{D,A,E,B}的频繁扩展集为空，返回上一层结点E由于上一层结点A的下一个邻接点B已访问过，返回E的上一层结点A；

选择结点A的下一个邻接点B，由于项集{D,A,B}的频繁扩展集为空，{D,A,B}与其频繁扩展集的并仍为{D,A,B}；

由于{D,A,B}是最大频繁项集{D,A,E,B}的子集，所以{D,A,B}不是最大频繁项集；

由于项集{D,A,B}的频繁扩展集为空，返回结点A，由于在有向项集途中结点A的邻接表中已经没有未访问过的结点，所以返回结点D；

重复上述操作，直至结点D的所有的邻接点全部被访问；

将结点D从结点集中删除，依次将其他结点作为开始结点进行优先的搜索直到挖掘出所有的最大频繁项集；

最后生成的最大频繁项集是{B,E,A,D}和{B,E,C}。

已有的频繁项集挖掘算法存在着迭代次数多，数据结构复杂，存储空间大等问题。针对这些问题提出了一个新的频繁项集挖掘算法，算法以图论为基础，将原始数据库中的交易数据储存在一个有向项集图中。

有向项集图中的结点储存了交易中的一个项和支持该项的交易列表，同时有向项集图中的有向边则储存了所有的2项频繁集。

原来基于原始数据库的频繁项集发现问题就转化为有向项集图中的搜索问题。

算法中设计了一种特殊的Tidlist存储方式，定义一个项的Tidlist的长度与数据库中的交易数n相等。

将一个项的Tidlist用n个二进制位来表示，即n/8个字节。每一个字节中的一个位的取值0、1对应着数据库中相应的交易不支持或支持该项。只需n/8个不超过256的整数就可以表示一个项的Tidlist。

计算项集支持度时只需执行相对应的整数的二进制位操作，有效地提高了计算效率。每一方面存储空间明显减小，另一方面利用二进制位操作可以有效地提高计算支持度的效率。

利用有向项集图中的邻接关系对候选集进行剪枝，减小了计算支持度的候选集的规模，有效地提高了算法的效率。

最大频繁项集可以有效地降低问题解的空间，对于用户有效理解数据集中隐藏的长模式具有重要的意义。

算法利用优先的搜索策略可以迅速生成部分最大频繁项集，有效地利用已经生成的最大频繁项集对搜索空间进行剪枝，加快算法的执行效率。

在最大频繁项集挖掘过程中，由于要进行大量的子集检验，即判断一个频繁项集的频繁扩展集与其自身的并是否是最大频繁项集的子集，最大频繁项集挖掘算法采用的是深度优先的搜索方式所以最大频繁项集出现的早晚对于算法效率有着直接的关系。

最大频繁项集集中在计算过程的前期出现，后续发现的频繁项集的子集检验次数会比较多。

通过对基于有向项集图的挖掘方法进行分析我们发现最大频繁项集出现的时间受有向项集图中结点排列顺序的影响。

当有向项集图中结点排列是按支持度降序排列，由于支持度高的结点的邻接点数量比较多，所以首先选择支持度高的结点进行深度优先的搜索将会发现大量的最大频繁项集，其后发现的所有的频繁项集与其扩展集的并都将与这些已经发现的最大频繁项集进行比较，增加了算法的运行时间。

将有向项集图中的结点排列顺序改为升序排列，由于支持度低的结点的邻接点比较少，所以进行深度优先的搜索时首先发现的是规模比较小的最大频繁项集。子集检验的过程大大减少，有效地提高了算法的效率。有效地利用已经生成的最大频繁项集对搜索空间进行剪枝，加快算法的执行效率。

利用图的深度优先的搜索策略，在访问图的某一起始结点v后，由v出发，访问它的邻接结点w₁，再从w₁出发访问w₁的邻接结点w₂，然后从w₂出发进行上述的访问，直到邻接表为空时或支持度不满足要求时就生成了一个最大频繁项集，将生成的最大频繁项集保存在最大频繁项集的集合中。

然后返回上一层结点或选择其他邻接点继续进行尖似的访问，进行剪枝，删除那些是已经发现的最大频繁项集的子集的频繁项集，直到生成所有的最大频繁项集为止。

本发明通过对音乐云运营数据进行数据建模分析，为商业运营部门的音乐市场分析与辅助决策提供技术手段和服务。通过挖掘最大频繁项集可以有效地提高挖掘的效率和降低问题解的规模。算法利用深度优先的搜索方法，分别选择有向项集图结点集中的结点作为初始结点进行搜索，通过对每一个项集的频繁扩展集进行判断，可以有效地缩小问题空间，减少待检验的最大频繁项集的候选集的数目，有效地提高了算法的效率。通过调整有向项集图的结点集的排列顺序和有向边的生成顺序以及设计有效地最大频繁项集的存储方式进一步优化和提高了算法的效率。

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种基于有向图关联规则音乐云推荐算法，其特征在于，包括如下步骤：

A:建立数据库

B构建有向图关联规则算法

B1制订支持度计算策略；

B2构建有向图的存储方式；

B3一般有向图关联构建；

B5最大频繁项集的有向图构建。

2.如权利要求1所述的基于有向图关联规则音乐云推荐算法，其特征在于：建立数据库的具体步骤为：

A3从关系型数据库向Hbase型数据库迁移。

3.如权利要求2所述的基于有向图关联规则音乐云推荐算法，其特征在于：从关系型数据库向Hbase型数据库迁移的具体步骤为：

4.如权利要求1所述的基于有向图关联规则音乐云推荐算法，其特征在于：制订支持度计算策略的具体步骤为：

5.如权利要求1所述的基于有向图关联规则音乐云推荐算法，其特征在于：构建有向图的存储方式的具体步骤为：

B212保存该边权值。

6.如权利要求1所述的基于有向图关联规则音乐云推荐算法，其特征在于：一般有向图关联构建的具体步骤为：

7.如权利要求1所述的基于有向图关联规则音乐云推荐算法，其特征在于：完全频繁项集有向图构建的具体步骤为：

8.如权利要求1所述的基于有向图关联规则音乐云推荐算法，其特征在于：最大频繁项集的有向图构建的具体步骤为：

B511在访问图的某一起始结点V；

B513从w₂出发进行上述访问；

B515将生成的最大频繁项集保存在最大频繁项集的集合中；

B517删除那些是已经发现的最大频繁项集的子集的频繁项集；

B518直到生成所有的最大频繁项集为止。