CN104834708A - 一种基于兴趣度度量的频繁模式挖掘方法 - Google Patents

一种基于兴趣度度量的频繁模式挖掘方法 Download PDF

Info

Publication number
CN104834708A
CN104834708A CN201510214209.2A CN201510214209A CN104834708A CN 104834708 A CN104834708 A CN 104834708A CN 201510214209 A CN201510214209 A CN 201510214209A CN 104834708 A CN104834708 A CN 104834708A
Authority
CN
China
Prior art keywords
frequent
frequent item
item set
alternative
elements
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510214209.2A
Other languages
English (en)
Inventor
李涛
王丽娜
林陈
周欢乐
范文波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN201510214209.2A priority Critical patent/CN104834708A/zh
Publication of CN104834708A publication Critical patent/CN104834708A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于兴趣度度量的频繁模式挖掘方法,其特征在于,包括如下步骤:步骤一:用户指定top k结果频繁集合中的元素数量k;步骤二:用户指定原始数据集,原始数据集即需要进行挖掘的频繁模式数据集;步骤三:读入原始数据集中的数据;步骤四:将原始数据集中的出现的元素,按照出现频率从大到小排列,组成元素集合IS;步骤五:针对元素集合IS,逐个生成备选频繁项集S;并进行检查,检查中符合条件的项集更新到top k结果频繁集合中;步骤六:输出top k结果频繁集合中的内容。本发明使用兴趣度度量作为频繁模式挖掘结果的评判依据,提高了挖掘结果的实用性;减少了算法输入参数的数量,方便用户使用。

Description

一种基于兴趣度度量的频繁模式挖掘方法
技术领域
本发明涉及一种频繁模式挖掘方法,具体涉及一种基于兴趣度量的频繁模式挖掘方法。本发明属于数据挖掘领域。
背景技术
频繁项集挖掘是数据挖掘领域中一个重要研究方向,其主要用于发掘频繁出现在数据集中的模式(如项集,子序列和子结构)。由于频繁项集可以很方便地生成关联规则,便于目标系统应用,因而频繁模式挖掘一直以来都是数据挖掘研究和应用领域的热点。传统的频繁模式挖掘方法基本都是研究如何高效快速地发现频繁项集,以提高算法效率为主,它们的评价体系大多都以绝对或相对频率为依据。然而,在实际应用中,出现频率高的频繁模式未必令人感兴趣;反之,令人感兴趣的频繁模式未必出现频率就一定高。此外,单纯依赖频率指标(如支持度)会导致其他问题的出现,那就是频率指标的阈值难以确定。当阈值设置较大时,结果频繁项集会变小,难以有效发现有用的频繁模式,影响生成合理的关联规则;当阈值设置较小时,结果频繁项集变大,容易混杂无用模式,需要用户再次人工辨别,增大了用户的工作量,减少了算法的实用性。可见,仅仅依赖频率指标,难以发现合适的频繁模式结果。
目前已有的公认的频繁模式挖掘算法包括:Apriori,FP-growth以及它们的改进算法,均以频率指标为依据挖掘频繁模式,虽然在时间效率方面逐级改进,但本质上难以突破上述限制。
发明内容
为解决现有技术的不足,本发明的目的在于提供一种基于兴趣度度量的频繁模式挖掘方法,以解决现有挖掘方法难以简便发现合适的频繁模式结果的技术问题。
为了实现上述目标,本发明采用如下的技术方案:
一种基于兴趣度度量的频繁模式挖掘方法,其特征在于,包括如下步骤:
步骤一:用户指定top k结果频繁集合中的元素数量k;
步骤二:用户指定原始数据集,原始数据集即需要进行挖掘的频繁模式数据集;
步骤三:读入原始数据集中的数据;
步骤四:将原始数据集中的出现的元素,按照出现频率从大到小排列,组成元素集合IS;
步骤五:针对元素集合IS,逐个生成备选频繁项集S;并进行检查,检查中符合条件的项集更新到top k结果频繁集合中;
步骤六:输出top k结果频繁集合中的内容。
前述的一种基于兴趣度度量的频繁模式挖掘方法,其特征在于,所述步骤五包括:
步骤5a:从元素集合IS中取出当前位置的元素item,形成一个元素个数为1的备选频繁项集S;
步骤5b:将元素集合IS中位于item后面的所有元素,组合成一个备选元素集合ISNew;
步骤5c:基于备选频繁项集S和备选元素集合ISNew,对备选频繁项集S进行检查,检查中符合条件的项集更新到top k结果频繁集合中;
步骤5d:检测元素集合IS中的所有元素是否已经都执行过上述步骤,若存在未执行的项目,则重复步骤5a,否则执行步骤六。
前述的一种基于兴趣度度量的频繁模式挖掘方法,其特征在于,所述步骤5c包括:
步骤5c1:读入备选频繁项集S和备选元素集合ISNew;
步骤5c2:初始化新的备选项集ISNewRecursive为空;初始化阈值t=-1;
步骤5c3:从备选元素集合ISNew中逐个选取备选元素,将其放入备选频繁项集S中,形成频繁项集SNew,并对所述频繁项集SNew进行检验,如果符合要求,则将其更新到top k结果频繁集合中;
步骤5c4:从备选项集ISNewRecursive中逐个取出项目,添加到备选频繁项集S,形成新的频繁项集,并对该频繁项集进行校验;
步骤5c5:结束退出;
前述的一种基于兴趣度度量的频繁模式挖掘方法,其特征在于,所述步骤5c3包括:
步骤5c3a:初始化新的频繁项集SNew,内容与S相同;
步骤5c3b:从备选项集ISNew中取出当前项目元素i,并添加到频繁项集SNew中;
步骤5c3c:将SNew作为参数,计算SNew的兴趣度;
步骤5c3d:如果SNew的兴趣度大于阈值t,则执行步骤5c3e,否则直接执行步骤步骤5c3i;
步骤5c3e:将SNew更新到top k结果频繁集合中;
步骤5c3f:将项目元素i添加到备选项集ISNewRecursive集合;
步骤5c3g:将top k结果频繁集合中的元素按照各自的兴趣度值从大到小排序;
步骤5c3h:如果top k结果频繁集合中的元素数量大于k,则仅仅保留前k个项目,同时更新t值为结果集合中兴趣度的最小值;
步骤5c3i:检查项目i是否是元素集合IS中的最后元素;如果不是,则重复执行步骤5c3;否则,执行步骤5c4。
前述的一种基于兴趣度度量的频繁模式挖掘方法,其特征在于,所述步骤5c4包括:
步骤5c4a:从备选项集ISNewRecursive中取出项目元素j,并追加到备选频繁项集S的最后,形成新的频繁项集SCandidate;
步骤5c4b:以频繁项集SCandidate和备选项集ISNew为参数,调用步骤5c1;
步骤5c4c:检查项目j是否是从备选项集ISNewRecursive中的最后元素;如果不是,则重复执行步骤5c4;否则,执行步骤5c5。
前述的一种基于兴趣度度量的频繁模式挖掘方法,其特征在于,步骤5c3c包括:
步骤5c3c1:读入待计算兴趣度的频繁项集S;
步骤5c3c2:计算原始样本库中,包含频繁项集S的样本数量sup;初始化备选数量集合SupSet为空;计算整个原始样本库中的样本总数total;初始化兴趣度Interest的值为-1;
步骤5c3c3:将频繁项集S中的元素分割,形成两个频繁项集SLeft和SRight;对于所有分割,形成集合PartitionSet,其中的元素由{SLeft, SRight}构成;
步骤5c3c4:针对集合PartitionSet中的所有元素{SLeft, SRight},计算其与原始频繁项集S的Fisher检验值和支持度集合;
步骤5c3c5:计算集合SupSet中的最小值minsup;
步骤5c3c6:将频繁项集S的兴趣度Interest,设定为minsup,并将该值作为本算法的结果返回。
前述的一种基于兴趣度度量的频繁模式挖掘方法,其特征在于,步骤5c3c4包括:
步骤5c3c4a:从备选频繁集合PartitionSet中取出当前元素频繁项集集合{SLeft, SRight};
步骤5c3c4b:计算原始频繁样本库中,包含频繁项集SLeft的样本数量sup1;
步骤5c3c4c:计算原始频繁样本库中,包含频繁项集SRight的样本数量sup2;
步骤5c3c4d:以total,sup,sup1,sup2为参数,计算Fisher检验值p;
步骤5c3c4e:检查p是否小于阈值0.05,如果满足条件,则执行步骤5c3c4f,否则执行步骤5c3c4h;
步骤5c3c4f:计算数值sup-sup1*sup2;
步骤5c3c4g:将数上述数值加入集合SupSet;
步骤5c3c4h:检查条件:当前元素集合{SLeft, SRight}是否为集合PartitionSet的最后一个元素;如果{SLeft, SRight}不是最后一个元素,表示PartitionSet还有元素没有处理,则执行(4.1);否则执行(5)。
前述的一种基于兴趣度度量的频繁模式挖掘方法,其特征在于,步骤5c3c4d包括:
步骤5c3c4d1:读入样本总数量total;读入频繁项集SLeft的样本数量sup1;读入频繁项集SRight的样本数量sup2;读入频繁项集S的样本数量sup;
步骤5c3c4d2:初始化p为0;初始化局部变量a为total-sup1-sup2+sup;初始化局部变量b为sup1-sup;初始化局部变量c为sup2-sup;初始化局部变量d为sup;
步骤5c3c4d3:当b大于等于0而且c大于等于0时,依次执行如下:P加上((a+b)!*(c+d)!*(a+c)!*(b+d)!)/(a!*b!*c!*d!*(a+b+c+d)!),其中!表示阶乘运算,*表示乘法运算;a赋值为a+1;) b赋值为b-1;c赋值为c-1;d赋值为d+1;检查循环条件b大于等于0而且c大于等于0;当条件满足时,执行步骤5c3c4d3;否则执行步骤5c3c4d4;
步骤5c3c4d4:结束,返回p,所述p即Fisher检验值,并退出。
本发明的有益之处在于:本发明使用兴趣度度量作为频繁模式挖掘结果的评判依据,提高了挖掘结果的实用性;仅仅需要用户指定所需结果的数量,减少了算法输入参数的数量,方便用户使用;得到的结果频繁项集按照兴趣度度量由大到小自动排序,减少了用户对结果的甄别过程,提高了本发明的实用性和适用性。
附图说明
图1 是本发明的总流程示意图;
图2 是本发明主干程序流程图;
图3 是本发明频繁项集检验与扩展算法流程图;
图4 是本发明频繁项集兴趣度计算算法流程图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
参照图1所示,本发明主要旨在实现一类基于兴趣度度量的频繁模式挖掘方法,给定k值以后,算法能够挖掘出top k条结果频繁模式。同时,频繁模式结果按照兴趣度度量值由大到小顺序排列,便于用户采纳使用。算法仅仅需要用户提供潜在目标结果的数量,降低了用户交互过程中对用户的要求,方便了用户对算法的使用。
本发明的具体实施方法包括如下具体步骤:
算法1,主体结构程序:
(1) 基本数据信息输入
(1.1) 用户指定结果频繁模式集合中的元素数量k,这里的结果频繁模式集合也称为top k结果频繁集合或者top k结果集合。
(1.2) 用户指定需要进行挖掘的频繁模式数据集。
(2) 数据预处理
(2.1) 初始化top k结果频繁项集集合为空。
(2.2) 读入原始数据集中的数据。
(2.3) 将原始数据集中的出现的元素,按照出现频率从大到小排列,组成元素集合IS。
(3) 针对元素集合IS,逐个生成备选频繁,并进行检查,符合条件的项集更新到top k结果频繁集合中。具体包含如下步骤:
(3.1) 从元素集合IS中取出当前位置的元素item,形成一个元素个数为1的备选频繁项集S。
(3.2) 将元素集合IS中位于item后面的所有元素,组合成一个备选元素集合ISNew。
(3.2) 将备选频繁项集S和备选元素集合ISNew作为参数,调用算法2,对备选频繁项集S进行扩展与检测。
(3.3) 检测元素集合IS中的所有元素是否已经都执行过上述步骤,若存在未执行的项目,则重复步骤(3.1),否则执行步骤(4)
(4) 输出top k结果频繁集合中的内容。
算法2,频繁项集的扩展与检验程序:
(1) 基本数据信息输入。
(1.1) 读入备选频繁项集S。
(1.2) 读入当前的备选元素集合ISNew。
(2) 初始化局部变量。
(2.1) 初始化新的备选项集ISNewRecursive为空。
(2.2) 初始化阈值t=-1。
(3) 从备选项集ISNew中逐个选取备选元素,将其放入备选频繁项集S中,形成新的频繁项集SNew,进而对该频繁项集SNew进行检验,如果符合要求,则将其更新到top k结果频繁集合中。具体过程如下:
(3.1) 初始化新的频繁项集SNew,内容与S相同。
(3.2) 从备选项集ISNew中取出当前项目元素i,并添加到频繁项集SNew中。
(3.3) 将SNew作为参数,调用算法3,计算SNew的兴趣度。
(3.4) 如果SNew的兴趣度大于阈值t,则执行步骤(3.4.1),否则直接执行步骤(3.5)
(3.4.1) 将SNew更新到top k结果频繁集合中。
(3.4.2) 将项目元素i添加到备选项集ISNewRecursive集合中。
(3.4.3) 将top k结果频繁集合中的元素按照各自的兴趣度值从大到小排序。
(3.4.4) 如果结果集合中的元素数量大于k,则仅仅保留前k个元素,同时更新t值为结果集合中兴趣度的最小值。
(3.5) 检查项目i是否是备选项集IS中的最后元素。如果不是,则重复执行步骤(3);否则,执行步骤(4)。
(4) 从备选项集ISNewRecursive中逐个取出项目元素,添加到备选频繁项集S,形成新的频繁项集,并对该频繁项集进行校验。具体过程如下:
(4.1) 从备选项集ISNewRecursive中取出项目元素j,并追加到备选频繁项集S的最后,形成新的频繁项集SCandidate。
(4.2) 以频繁项集SCandidate和备选项集ISNew为参数,递归调用算法2。
(4.3) 检查项目j是否是从备选项集ISNewRecursive中的最后元素。如果不是,则重复执行步骤(4);否则,执行步骤(5)。
(5) 本段程序正常结束,退出。
算法3,计算频繁项集的兴趣度:
(1) 基本数据信息输入。
(1.1) 读入待计算兴趣度的频繁项集S。
(2) 初始化局部变量。
(2.2) 计算原始样本库中,包含频繁项集S的样本数量sup。
(2.3) 初始化备选数量集合SupSet为空。
(2.4) 计算整个原始样本库中的样本总数total。
(2.5) 初始化兴趣度Interest的值为-1。
(3) 将频繁项集S中的元素分割,形成两个频繁项集SLeft和SRight。对于所有分割,形成集合PartitionSet,其中的元素由{SLeft, SRight}构成。
(4) 针对集合PartitionSet中的所有元素{SLeft, SRight},计算其与原始频繁项集S的Fisher检验值和支持度集合,具体过程如下:
(4.1) 从备选频繁集合PartitionSet中取出当前元素频繁项集集合{SLeft, SRight}。
(4.2) 计算原始频繁样本库中,包含频繁项集SLeft的样本数量sup1。
(4.3) 计算原始频繁样本库中,包含频繁项集SRight的样本数量sup2。
(4.4) 以total,sup,sup1,sup2为参数,使用算法4计算Fisher检验值p。
(4.5) 检查p是否小于阈值0.05,如果满足条件,则执行(4.3.1),否则执行(4.4)
(4.3.1) 计算数值sup-sup1*sup2。
(4.3.2) 将数上述数值加入集合SupSet。
(4.4) 检查条件:当前元素集合{SLeft, SRight}是否为集合PartitionSet的最后一个元素。如果{SLeft, SRight}不是最后一个元素,表示PartitionSet还有元素没有处理,则执行(4.1);否则执行(5)
(5) 计算集合SupSet中的最小值minsup。
(6) 将频繁项集S的兴趣度Interest,设定为minsup,并将该值作为本算法的结果返回。
(7) 本段程序正常结束,退出。
算法4,计算Fisher检验值:
(1) 基本数据信息输入。
(1.1) 读入样本总数量total。
(1.2) 读入频繁项集SLeft的样本数量sup1。
(1.3) 读入频繁项集SRight的样本数量sup2。
(1.3) 读入频繁项集S的样本数量sup。
(2) 初始化局部变量。
(2.1) 初始化p为0。
(2.1) 初始化局部变量a为total-sup1-sup2+sup。
(2.1) 初始化局部变量b为sup1-sup。
(2.1) 初始化局部变量c为sup2-sup。
(2.1) 初始化局部变量d为sup。
(3) 当b大于等于0而且c大于等于0时执行如下循环过程:
(3.1) P加上((a+b)!*(c+d)!*(a+c)!*(b+d)!)/(a!*b!*c!*d!*(a+b+c+d)!)。其中!表示阶乘运算,*表示乘法运算。
(3.2) a赋值为a+1。
(3.3) b赋值为b-1。
(3.4) c赋值为c-1。
(3.5) d赋值为d+1。
(3.6)检查循环条件b大于等于0而且c大于等于0。当条件满足时,执行(3.1);否则执行下一步(4)。
(4) 本段程序正常结束,返回p,即Fisher检验值,并退出。
本发明使用兴趣度度量作为频繁模式挖掘结果的评判依据,提高了挖掘结果的实用性;在算法实用过程中,仅仅需要用户指定所需结果的数量,减少了算法输入参数的数量,方便用户使用;算法得到的结果频繁项集按照兴趣度度量由大到小自动排序,减少了用户对结果的甄别过程,提高了算法的实用性和适用性。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (8)

1.一种基于兴趣度度量的频繁模式挖掘方法,其特征在于,包括如下步骤:
步骤一:用户指定top k结果频繁集合中的元素数量k;
步骤二:用户指定原始数据集,原始数据集即需要进行挖掘的频繁模式数据集;
步骤三:读入原始数据集中的数据;
步骤四:将原始数据集中的出现的元素,按照出现频率从大到小排列,组成元素集合IS;
步骤五:针对元素集合IS,逐个生成备选频繁项集S;并进行检查,检查中符合条件的项集更新到top k结果频繁集合中;
步骤六:输出top k结果频繁集合中的内容。
2.根据权利要求1所述的一种基于兴趣度度量的频繁模式挖掘方法,其特征在于,所述步骤五包括:
步骤5a:从元素集合IS中取出当前位置的元素item,形成一个元素个数为1的备选频繁项集S;
步骤5b:将元素集合IS中位于item后面的所有元素,组合成一个备选元素集合ISNew;
步骤5c:基于备选频繁项集S和备选元素集合ISNew,对备选频繁项集S进行检查,检查中符合条件的项集更新到top k结果频繁集合中;
步骤5d:检测元素集合IS中的所有元素是否已经都执行过上述步骤,若存在未执行的项目,则重复步骤5a,否则执行步骤六。
3.根据权利要求2所述的一种基于兴趣度度量的频繁模式挖掘方法,其特征在于,所述步骤5c包括:
步骤5c1:读入备选频繁项集S和备选元素集合ISNew;
步骤5c2:初始化新的备选项集ISNewRecursive为空;初始化阈值t=-1;
步骤5c3:从备选元素集合ISNew中逐个选取备选元素,将其放入备选频繁项集S中,形成频繁项集SNew,并对所述频繁项集SNew进行检验,如果符合要求,则将其更新到top k结果频繁集合中;
步骤5c4:从备选项集ISNewRecursive中逐个取出项目,添加到备选频繁项集S,形成新的频繁项集,并对该频繁项集进行校验;
步骤5c5:结束退出。
4.根据权利要求3所述的一种基于兴趣度度量的频繁模式挖掘方法,其特征在于,所述步骤5c3包括:
步骤5c3a:初始化新的频繁项集SNew,内容与S相同;
步骤5c3b:从备选项集ISNew中取出当前项目元素i,并添加到频繁项集SNew中;
步骤5c3c:将SNew作为参数,计算SNew的兴趣度;
步骤5c3d:如果SNew的兴趣度大于阈值t,则执行步骤5c3e,否则直接执行步骤步骤5c3i;
步骤5c3e:将SNew更新到top k结果频繁集合中;
步骤5c3f:将项目元素i添加到备选项集ISNewRecursive集合;
步骤5c3g:将top k结果频繁集合中的元素按照各自的兴趣度值从大到小排序;
步骤5c3h:如果top k结果频繁集合中的元素数量大于k,则仅仅保留前k个项目,同时更新t值为结果集合中兴趣度的最小值;
步骤5c3i:检查项目i是否是备选元素集合ISNew中的最后元素;如果不是,则重复执行步骤5c3;否则,执行步骤5c4。
5.根据权利要求4所述的一种基于兴趣度度量的频繁模式挖掘方法,其特征在于,所述步骤5c4包括:
步骤5c4a:从备选项集ISNewRecursive中取出项目元素j,并追加到备选频繁项集S的最后,形成新的频繁项集SCandidate;
步骤5c4b:以频繁项集SCandidate和备选项集ISNew为参数,调用步骤5c1;
步骤5c4c:检查项目j是否是从备选项集ISNewRecursive中的最后元素;如果不是,则重复执行步骤5c4;否则,执行步骤5c5。
6.根据权利要求5所述的一种基于兴趣度度量的频繁模式挖掘方法,其特征在于,步骤5c3c包括:
步骤5c3c1:读入待计算兴趣度的频繁项集S;
步骤5c3c2:计算原始样本库中,包含频繁项集S的样本数量sup;初始化备选数量集合SupSet为空;计算整个原始样本库中的样本总数total;初始化兴趣度Interest的值为-1;
步骤5c3c3:将频繁项集S中的元素分割,形成两个频繁项集SLeft和SRight;对于所有分割,形成集合PartitionSet,其中的元素由{SLeft, SRight}构成;
步骤5c3c4:针对集合PartitionSet中的所有元素{SLeft, SRight},计算其与原始频繁项集S的Fisher检验值和支持度集合;
步骤5c3c5:计算集合SupSet中的最小值minsup;
步骤5c3c6:将频繁项集S的兴趣度Interest,设定为minsup,并将该值作为本算法的结果返回。
7.根据权利要求6所述的一种基于兴趣度度量的频繁模式挖掘方法,其特征在于,步骤5c3c4包括:
步骤5c3c4a:从备选频繁集合PartitionSet中取出当前元素频繁项集集合{SLeft, SRight};
步骤5c3c4b:计算原始频繁样本库中,包含频繁项集SLeft的样本数量sup1;
步骤5c3c4c:计算原始频繁样本库中,包含频繁项集SRight的样本数量sup2;
步骤5c3c4d:以total,sup,sup1,sup2为参数,计算Fisher检验值p;
步骤5c3c4e:检查p是否小于阈值0.05,如果满足条件,则执行步骤5c3c4f,否则执行步骤5c3c4h;
步骤5c3c4f:计算数值sup-sup1*sup2;
步骤5c3c4g:将数上述数值加入集合SupSet;
步骤5c3c4h:检查条件:当前元素集合{SLeft, SRight}是否为集合PartitionSet的最后一个元素;如果{SLeft, SRight}不是最后一个元素,表示PartitionSet还有元素没有处理,则执行(4.1);否则执行(5)。
8.根据权利要求7所述的一种基于兴趣度度量的频繁模式挖掘方法,其特征在于,步骤5c3c4d包括:
步骤5c3c4d1:读入样本总数量total;读入频繁项集SLeft的样本数量sup1;读入频繁项集SRight的样本数量sup2;读入频繁项集S的样本数量sup;
步骤5c3c4d2:初始化p为0;初始化局部变量a为total-sup1-sup2+sup;初始化局部变量b为sup1-sup;初始化局部变量c为sup2-sup;初始化局部变量d为sup;
步骤5c3c4d3:当b大于等于0而且c大于等于0时,依次执行如下:P加上((a+b)!*(c+d)!*(a+c)!*(b+d)!)/(a!*b!*c!*d!*(a+b+c+d)!),其中!表示阶乘运算,*表示乘法运算;a赋值为a+1;) b赋值为b-1;c赋值为c-1;d赋值为d+1;检查循环条件b大于等于0而且c大于等于0;当条件满足时,执行步骤5c3c4d3;否则执行步骤5c3c4d4;
步骤5c3c4d4:结束,返回p,所述p即Fisher检验值,并退出。
CN201510214209.2A 2015-04-29 2015-04-29 一种基于兴趣度度量的频繁模式挖掘方法 Pending CN104834708A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510214209.2A CN104834708A (zh) 2015-04-29 2015-04-29 一种基于兴趣度度量的频繁模式挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510214209.2A CN104834708A (zh) 2015-04-29 2015-04-29 一种基于兴趣度度量的频繁模式挖掘方法

Publications (1)

Publication Number Publication Date
CN104834708A true CN104834708A (zh) 2015-08-12

Family

ID=53812595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510214209.2A Pending CN104834708A (zh) 2015-04-29 2015-04-29 一种基于兴趣度度量的频繁模式挖掘方法

Country Status (1)

Country Link
CN (1) CN104834708A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740458A (zh) * 2016-02-15 2016-07-06 浪潮电子信息产业股份有限公司 一种基于cpu mpi并行深度优先搜索的频繁子图挖掘方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740458A (zh) * 2016-02-15 2016-07-06 浪潮电子信息产业股份有限公司 一种基于cpu mpi并行深度优先搜索的频繁子图挖掘方法

Similar Documents

Publication Publication Date Title
CN103116540B (zh) 基于全局超级块支配图的动态符号执行方法
CN103455396B (zh) 电子设备硬件性能的测试方法及装置
US20150347268A1 (en) Bottleneck Detector Application Programming Interface
US11321512B2 (en) Method for automatic detection of a functional primitive in a model of a hardware system
EP2831740A1 (en) Logical grouping of profile data
CN111367786B (zh) 一种符号执行方法、电子设备以及存储介质
Qiao et al. Dynamic community evolution analysis framework for large-scale complex networks based on strong and weak events
Sopeju et al. Autoscope: Automatic suggestions for code optimizations using perfexpert
CN109344534B (zh) 注采管柱临界冲蚀流速确定方法及装置
CN102298618B (zh) 一种获取匹配度以执行相应操作的方法、装置及设备
CN112087316A (zh) 基于异常数据分析的网络异常根源定位方法
Drebes et al. Interactive visualization of cross-layer performance anomalies in dynamic task-parallel applications and systems
CN112559978B (zh) 基于动态胎记的多线程程序抄袭检测方法及相关设备
CN104834708A (zh) 一种基于兴趣度度量的频繁模式挖掘方法
CN111858927B (zh) 数据测试方法、装置、电子设备及存储介质
CN107276093B (zh) 基于场景削减的电力系统概率潮流计算方法
Noda et al. Identifying core objects for trace summarization using reference relations and access analysis
CN108717444A (zh) 一种基于分布式结构的大数据聚类方法和装置
CN115422201A (zh) 一种层级数据分析方法、装置及电子设备
US9798546B2 (en) Space reduction in processor stressmark generation
Zhai et al. Characterization of flow pattern transitions for horizontal liquid–liquid pipe flows by using multi-scale distribution entropy in coupled 3D phase space
GB2560749A (en) Trace data representation
Cao et al. A maximal common subgraph based method for process retrieval
CN110471954A (zh) 一种数据挖掘方法和装置
CN104021045A (zh) 基于模式融合的cpu负载多步预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150812

RJ01 Rejection of invention patent application after publication