CN104834708A

CN104834708A - 一种基于兴趣度度量的频繁模式挖掘方法

Info

Publication number: CN104834708A
Application number: CN201510214209.2A
Authority: CN
Inventors: 李涛; 王丽娜; 林陈; 周欢乐; 范文波
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2015-04-29
Filing date: 2015-04-29
Publication date: 2015-08-12

Abstract

本发明公开了一种基于兴趣度度量的频繁模式挖掘方法，其特征在于，包括如下步骤：步骤一：用户指定top k结果频繁集合中的元素数量k；步骤二：用户指定原始数据集，原始数据集即需要进行挖掘的频繁模式数据集；步骤三：读入原始数据集中的数据；步骤四：将原始数据集中的出现的元素，按照出现频率从大到小排列，组成元素集合IS；步骤五：针对元素集合IS，逐个生成备选频繁项集S；并进行检查，检查中符合条件的项集更新到top k结果频繁集合中；步骤六：输出top k结果频繁集合中的内容。本发明使用兴趣度度量作为频繁模式挖掘结果的评判依据，提高了挖掘结果的实用性；减少了算法输入参数的数量，方便用户使用。

Description

一种基于兴趣度度量的频繁模式挖掘方法

技术领域

本发明涉及一种频繁模式挖掘方法，具体涉及一种基于兴趣度量的频繁模式挖掘方法。本发明属于数据挖掘领域。

背景技术

频繁项集挖掘是数据挖掘领域中一个重要研究方向，其主要用于发掘频繁出现在数据集中的模式（如项集，子序列和子结构）。由于频繁项集可以很方便地生成关联规则，便于目标系统应用，因而频繁模式挖掘一直以来都是数据挖掘研究和应用领域的热点。传统的频繁模式挖掘方法基本都是研究如何高效快速地发现频繁项集，以提高算法效率为主，它们的评价体系大多都以绝对或相对频率为依据。然而，在实际应用中，出现频率高的频繁模式未必令人感兴趣；反之，令人感兴趣的频繁模式未必出现频率就一定高。此外，单纯依赖频率指标（如支持度）会导致其他问题的出现，那就是频率指标的阈值难以确定。当阈值设置较大时，结果频繁项集会变小，难以有效发现有用的频繁模式，影响生成合理的关联规则；当阈值设置较小时，结果频繁项集变大，容易混杂无用模式，需要用户再次人工辨别，增大了用户的工作量，减少了算法的实用性。可见，仅仅依赖频率指标，难以发现合适的频繁模式结果。

目前已有的公认的频繁模式挖掘算法包括：Apriori，FP-growth以及它们的改进算法，均以频率指标为依据挖掘频繁模式，虽然在时间效率方面逐级改进，但本质上难以突破上述限制。

发明内容

为解决现有技术的不足，本发明的目的在于提供一种基于兴趣度度量的频繁模式挖掘方法，以解决现有挖掘方法难以简便发现合适的频繁模式结果的技术问题。

为了实现上述目标，本发明采用如下的技术方案：

一种基于兴趣度度量的频繁模式挖掘方法，其特征在于，包括如下步骤：

步骤一：用户指定top k结果频繁集合中的元素数量k；

步骤二：用户指定原始数据集，原始数据集即需要进行挖掘的频繁模式数据集；

步骤三：读入原始数据集中的数据；

步骤四：将原始数据集中的出现的元素，按照出现频率从大到小排列，组成元素集合IS；

步骤五：针对元素集合IS，逐个生成备选频繁项集S；并进行检查，检查中符合条件的项集更新到top k结果频繁集合中；

步骤六：输出top k结果频繁集合中的内容。

前述的一种基于兴趣度度量的频繁模式挖掘方法，其特征在于，所述步骤五包括：

步骤5a：从元素集合IS中取出当前位置的元素item，形成一个元素个数为1的备选频繁项集S；

步骤5b：将元素集合IS中位于item后面的所有元素，组合成一个备选元素集合ISNew；

步骤5c：基于备选频繁项集S和备选元素集合ISNew，对备选频繁项集S进行检查，检查中符合条件的项集更新到top k结果频繁集合中；

步骤5d：检测元素集合IS中的所有元素是否已经都执行过上述步骤，若存在未执行的项目，则重复步骤5a，否则执行步骤六。

前述的一种基于兴趣度度量的频繁模式挖掘方法，其特征在于，所述步骤5c包括：

步骤5c1：读入备选频繁项集S和备选元素集合ISNew；

步骤5c2：初始化新的备选项集ISNewRecursive为空；初始化阈值t=-1；

步骤5c3：从备选元素集合ISNew中逐个选取备选元素，将其放入备选频繁项集S中，形成频繁项集SNew，并对所述频繁项集SNew进行检验，如果符合要求，则将其更新到top k结果频繁集合中；

步骤5c4：从备选项集ISNewRecursive中逐个取出项目，添加到备选频繁项集S，形成新的频繁项集，并对该频繁项集进行校验；

步骤5c5：结束退出；

前述的一种基于兴趣度度量的频繁模式挖掘方法，其特征在于，所述步骤5c3包括：

步骤5c3a：初始化新的频繁项集SNew，内容与S相同；

步骤5c3b：从备选项集ISNew中取出当前项目元素i，并添加到频繁项集SNew中；

步骤5c3c：将SNew作为参数，计算SNew的兴趣度；

步骤5c3d：如果SNew的兴趣度大于阈值t，则执行步骤5c3e，否则直接执行步骤步骤5c3i；

步骤5c3e：将SNew更新到top k结果频繁集合中；

步骤5c3f：将项目元素i添加到备选项集ISNewRecursive集合；

步骤5c3g：将top k结果频繁集合中的元素按照各自的兴趣度值从大到小排序；

步骤5c3h：如果top k结果频繁集合中的元素数量大于k，则仅仅保留前k个项目，同时更新t值为结果集合中兴趣度的最小值；

步骤5c3i：检查项目i是否是元素集合IS中的最后元素；如果不是，则重复执行步骤5c3；否则，执行步骤5c4。

前述的一种基于兴趣度度量的频繁模式挖掘方法，其特征在于，所述步骤5c4包括：

步骤5c4a：从备选项集ISNewRecursive中取出项目元素j，并追加到备选频繁项集S的最后，形成新的频繁项集SCandidate；

步骤5c4b：以频繁项集SCandidate和备选项集ISNew为参数，调用步骤5c1；

步骤5c4c：检查项目j是否是从备选项集ISNewRecursive中的最后元素；如果不是，则重复执行步骤5c4；否则，执行步骤5c5。

前述的一种基于兴趣度度量的频繁模式挖掘方法，其特征在于，步骤5c3c包括：

步骤5c3c1：读入待计算兴趣度的频繁项集S；

步骤5c3c2：计算原始样本库中，包含频繁项集S的样本数量sup；初始化备选数量集合SupSet为空；计算整个原始样本库中的样本总数total；初始化兴趣度Interest的值为-1；

步骤5c3c3：将频繁项集S中的元素分割，形成两个频繁项集SLeft和SRight；对于所有分割，形成集合PartitionSet，其中的元素由{SLeft, SRight}构成；

步骤5c3c4：针对集合PartitionSet中的所有元素{SLeft, SRight}，计算其与原始频繁项集S的Fisher检验值和支持度集合；

步骤5c3c5：计算集合SupSet中的最小值minsup；

步骤5c3c6：将频繁项集S的兴趣度Interest，设定为minsup，并将该值作为本算法的结果返回。

前述的一种基于兴趣度度量的频繁模式挖掘方法，其特征在于，步骤5c3c4包括：

步骤5c3c4a：从备选频繁集合PartitionSet中取出当前元素频繁项集集合{SLeft, SRight}；

步骤5c3c4b：计算原始频繁样本库中，包含频繁项集SLeft的样本数量sup1；

步骤5c3c4c：计算原始频繁样本库中，包含频繁项集SRight的样本数量sup2；

步骤5c3c4d：以total，sup，sup1，sup2为参数，计算Fisher检验值p；

步骤5c3c4e：检查p是否小于阈值0.05，如果满足条件，则执行步骤5c3c4f，否则执行步骤5c3c4h；

步骤5c3c4f：计算数值sup-sup1*sup2；

步骤5c3c4g：将数上述数值加入集合SupSet；

步骤5c3c4h：检查条件：当前元素集合{SLeft, SRight}是否为集合PartitionSet的最后一个元素；如果{SLeft, SRight}不是最后一个元素，表示PartitionSet还有元素没有处理，则执行(4.1)；否则执行(5)。

前述的一种基于兴趣度度量的频繁模式挖掘方法，其特征在于，步骤5c3c4d包括：

步骤5c3c4d1：读入样本总数量total；读入频繁项集SLeft的样本数量sup1；读入频繁项集SRight的样本数量sup2；读入频繁项集S的样本数量sup；

步骤5c3c4d2：初始化p为0；初始化局部变量a为total-sup1-sup2+sup；初始化局部变量b为sup1-sup；初始化局部变量c为sup2-sup；初始化局部变量d为sup；

步骤5c3c4d3：当b大于等于0而且c大于等于0时，依次执行如下：P加上((a+b)!*(c+d)!*(a+c)!*(b+d)!)/(a!*b!*c!*d!*(a+b+c+d)!)，其中!表示阶乘运算，*表示乘法运算；a赋值为a+1；) b赋值为b-1；c赋值为c-1；d赋值为d+1；检查循环条件b大于等于0而且c大于等于0；当条件满足时，执行步骤5c3c4d3；否则执行步骤5c3c4d4；

步骤5c3c4d4：结束，返回p，所述p即Fisher检验值，并退出。

本发明的有益之处在于：本发明使用兴趣度度量作为频繁模式挖掘结果的评判依据，提高了挖掘结果的实用性；仅仅需要用户指定所需结果的数量，减少了算法输入参数的数量，方便用户使用；得到的结果频繁项集按照兴趣度度量由大到小自动排序，减少了用户对结果的甄别过程，提高了本发明的实用性和适用性。

附图说明

图1 是本发明的总流程示意图；

图2 是本发明主干程序流程图；

图3 是本发明频繁项集检验与扩展算法流程图；

图4 是本发明频繁项集兴趣度计算算法流程图。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

参照图1所示，本发明主要旨在实现一类基于兴趣度度量的频繁模式挖掘方法，给定k值以后，算法能够挖掘出top k条结果频繁模式。同时，频繁模式结果按照兴趣度度量值由大到小顺序排列，便于用户采纳使用。算法仅仅需要用户提供潜在目标结果的数量，降低了用户交互过程中对用户的要求，方便了用户对算法的使用。

本发明的具体实施方法包括如下具体步骤：

算法1，主体结构程序：

(1) 基本数据信息输入

(1.1) 用户指定结果频繁模式集合中的元素数量k，这里的结果频繁模式集合也称为top k结果频繁集合或者top k结果集合。

(1.2) 用户指定需要进行挖掘的频繁模式数据集。

(2) 数据预处理

(2.1) 初始化top k结果频繁项集集合为空。

(2.2) 读入原始数据集中的数据。

(2.3) 将原始数据集中的出现的元素，按照出现频率从大到小排列，组成元素集合IS。

(3) 针对元素集合IS，逐个生成备选频繁，并进行检查，符合条件的项集更新到top k结果频繁集合中。具体包含如下步骤：

(3.1) 从元素集合IS中取出当前位置的元素item，形成一个元素个数为1的备选频繁项集S。

(3.2) 将元素集合IS中位于item后面的所有元素，组合成一个备选元素集合ISNew。

(3.2) 将备选频繁项集S和备选元素集合ISNew作为参数，调用算法2，对备选频繁项集S进行扩展与检测。

(3.3) 检测元素集合IS中的所有元素是否已经都执行过上述步骤，若存在未执行的项目，则重复步骤(3.1)，否则执行步骤(4)

(4) 输出top k结果频繁集合中的内容。

算法2，频繁项集的扩展与检验程序：

(1) 基本数据信息输入。

(1.1) 读入备选频繁项集S。

(1.2) 读入当前的备选元素集合ISNew。

(2) 初始化局部变量。

(2.1) 初始化新的备选项集ISNewRecursive为空。

(2.2) 初始化阈值t=-1。

(3) 从备选项集ISNew中逐个选取备选元素，将其放入备选频繁项集S中，形成新的频繁项集SNew，进而对该频繁项集SNew进行检验，如果符合要求，则将其更新到top k结果频繁集合中。具体过程如下：

(3.1) 初始化新的频繁项集SNew，内容与S相同。

(3.2) 从备选项集ISNew中取出当前项目元素i，并添加到频繁项集SNew中。

(3.3) 将SNew作为参数，调用算法3，计算SNew的兴趣度。

(3.4) 如果SNew的兴趣度大于阈值t，则执行步骤(3.4.1)，否则直接执行步骤(3.5)

(3.4.1) 将SNew更新到top k结果频繁集合中。

(3.4.2) 将项目元素i添加到备选项集ISNewRecursive集合中。

(3.4.3) 将top k结果频繁集合中的元素按照各自的兴趣度值从大到小排序。

(3.4.4) 如果结果集合中的元素数量大于k，则仅仅保留前k个元素，同时更新t值为结果集合中兴趣度的最小值。

(3.5) 检查项目i是否是备选项集IS中的最后元素。如果不是，则重复执行步骤(3)；否则，执行步骤(4)。

(4) 从备选项集ISNewRecursive中逐个取出项目元素，添加到备选频繁项集S，形成新的频繁项集，并对该频繁项集进行校验。具体过程如下：

(4.1) 从备选项集ISNewRecursive中取出项目元素j，并追加到备选频繁项集S的最后，形成新的频繁项集SCandidate。

(4.2) 以频繁项集SCandidate和备选项集ISNew为参数，递归调用算法2。

(4.3) 检查项目j是否是从备选项集ISNewRecursive中的最后元素。如果不是，则重复执行步骤(4)；否则，执行步骤(5)。

(5) 本段程序正常结束，退出。

算法3，计算频繁项集的兴趣度：

(1) 基本数据信息输入。

(1.1) 读入待计算兴趣度的频繁项集S。

(2) 初始化局部变量。

(2.2) 计算原始样本库中，包含频繁项集S的样本数量sup。

(2.3) 初始化备选数量集合SupSet为空。

(2.4) 计算整个原始样本库中的样本总数total。

(2.5) 初始化兴趣度Interest的值为-1。

(3) 将频繁项集S中的元素分割，形成两个频繁项集SLeft和SRight。对于所有分割，形成集合PartitionSet，其中的元素由{SLeft, SRight}构成。

(4) 针对集合PartitionSet中的所有元素{SLeft, SRight}，计算其与原始频繁项集S的Fisher检验值和支持度集合，具体过程如下：

(4.1) 从备选频繁集合PartitionSet中取出当前元素频繁项集集合{SLeft, SRight}。

(4.2) 计算原始频繁样本库中，包含频繁项集SLeft的样本数量sup1。

(4.3) 计算原始频繁样本库中，包含频繁项集SRight的样本数量sup2。

(4.4) 以total，sup，sup1，sup2为参数，使用算法4计算Fisher检验值p。

(4.5) 检查p是否小于阈值0.05，如果满足条件，则执行(4.3.1)，否则执行(4.4)

(4.3.1) 计算数值sup-sup1*sup2。

(4.3.2) 将数上述数值加入集合SupSet。

(4.4) 检查条件：当前元素集合{SLeft, SRight}是否为集合PartitionSet的最后一个元素。如果{SLeft, SRight}不是最后一个元素，表示PartitionSet还有元素没有处理，则执行(4.1)；否则执行(5)

(5) 计算集合SupSet中的最小值minsup。

(6) 将频繁项集S的兴趣度Interest，设定为minsup，并将该值作为本算法的结果返回。

(7) 本段程序正常结束，退出。

算法4，计算Fisher检验值：

(1) 基本数据信息输入。

(1.1) 读入样本总数量total。

(1.2) 读入频繁项集SLeft的样本数量sup1。

(1.3) 读入频繁项集SRight的样本数量sup2。

(1.3) 读入频繁项集S的样本数量sup。

(2) 初始化局部变量。

(2.1) 初始化p为0。

(2.1) 初始化局部变量a为total-sup1-sup2+sup。

(2.1) 初始化局部变量b为sup1-sup。

(2.1) 初始化局部变量c为sup2-sup。

(2.1) 初始化局部变量d为sup。

(3) 当b大于等于0而且c大于等于0时执行如下循环过程：

(3.1) P加上((a+b)!*(c+d)!*(a+c)!*(b+d)!)/(a!*b!*c!*d!*(a+b+c+d)!)。其中!表示阶乘运算，*表示乘法运算。

(3.2) a赋值为a+1。

(3.3) b赋值为b-1。

(3.4) c赋值为c-1。

(3.5) d赋值为d+1。

(3.6)检查循环条件b大于等于0而且c大于等于0。当条件满足时，执行(3.1)；否则执行下一步(4)。

(4) 本段程序正常结束，返回p，即Fisher检验值，并退出。

本发明使用兴趣度度量作为频繁模式挖掘结果的评判依据，提高了挖掘结果的实用性；在算法实用过程中，仅仅需要用户指定所需结果的数量，减少了算法输入参数的数量，方便用户使用；算法得到的结果频繁项集按照兴趣度度量由大到小自动排序，减少了用户对结果的甄别过程，提高了算法的实用性和适用性。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于兴趣度度量的频繁模式挖掘方法，其特征在于，包括如下步骤：

步骤一：用户指定top k结果频繁集合中的元素数量k；

步骤三：读入原始数据集中的数据；

步骤六：输出top k结果频繁集合中的内容。

2.根据权利要求1所述的一种基于兴趣度度量的频繁模式挖掘方法，其特征在于，所述步骤五包括：

3.根据权利要求2所述的一种基于兴趣度度量的频繁模式挖掘方法，其特征在于，所述步骤5c包括：

步骤5c1：读入备选频繁项集S和备选元素集合ISNew；

步骤5c5：结束退出。

4.根据权利要求3所述的一种基于兴趣度度量的频繁模式挖掘方法，其特征在于，所述步骤5c3包括：

步骤5c3a：初始化新的频繁项集SNew，内容与S相同；

步骤5c3c：将SNew作为参数，计算SNew的兴趣度；

步骤5c3e：将SNew更新到top k结果频繁集合中；

步骤5c3f：将项目元素i添加到备选项集ISNewRecursive集合；

步骤5c3i：检查项目i是否是备选元素集合ISNew中的最后元素；如果不是，则重复执行步骤5c3；否则，执行步骤5c4。

5.根据权利要求4所述的一种基于兴趣度度量的频繁模式挖掘方法，其特征在于，所述步骤5c4包括：

6.根据权利要求5所述的一种基于兴趣度度量的频繁模式挖掘方法，其特征在于，步骤5c3c包括：

步骤5c3c1：读入待计算兴趣度的频繁项集S；

步骤5c3c5：计算集合SupSet中的最小值minsup；

7.根据权利要求6所述的一种基于兴趣度度量的频繁模式挖掘方法，其特征在于，步骤5c3c4包括：

步骤5c3c4f：计算数值sup-sup1*sup2；

步骤5c3c4g：将数上述数值加入集合SupSet；

8.根据权利要求7所述的一种基于兴趣度度量的频繁模式挖掘方法，其特征在于，步骤5c3c4d包括：

步骤5c3c4d4：结束，返回p，所述p即Fisher检验值，并退出。