CN110489448A - 基于Hadoop的大数据关联规则的挖掘方法 - Google Patents

基于Hadoop的大数据关联规则的挖掘方法 Download PDF

Info

Publication number
CN110489448A
CN110489448A CN201910672220.1A CN201910672220A CN110489448A CN 110489448 A CN110489448 A CN 110489448A CN 201910672220 A CN201910672220 A CN 201910672220A CN 110489448 A CN110489448 A CN 110489448A
Authority
CN
China
Prior art keywords
node
item
frequent
item collection
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910672220.1A
Other languages
English (en)
Inventor
邢毓华
李明星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN201910672220.1A priority Critical patent/CN110489448A/zh
Publication of CN110489448A publication Critical patent/CN110489448A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Abstract

本发明公开的基于Hadoop的大数据关联规则的挖掘方法,首先输入待挖掘大数据集,对大数据集进行分块;然后使用两阶段MapReduce过程来完成大数据集中关联规则的挖掘任务;最后,使用kulczynski度量和不平衡比对频繁项集进行评估,剔除不满足kulczynski度量和不平衡比阈值要求的频繁项集,确保所挖掘频繁模式具有正相关性。本发明公开的方法避免了一阶段MapReduce过程极大的内存和I/O消耗和多阶段MapReduce过程的效率低下。减小了候选项集的数量,利用十字链表的特性,快速得到候选项集的支持度,不需要多次扫描数据库,并且能够确保了所挖掘项集的正相关性,可以应用到实际决策中。

Description

基于Hadoop的大数据关联规则的挖掘方法
技术领域
本发明属于大规模数据挖掘技术领域,具体涉及一种基于Hadoop的大数据关联规则的挖掘方法。
背景技术
传统的关联规则挖掘算法主要可以分为三类:第一类为“产生-测试”方法,通过迭代产生候选频繁项集并进行分别计数,统计得到频繁项集,第二类为“模式增长”方法,它不用不产生候选项集,而是将所有频繁项压缩成一种特殊的数据结构(一般为树结构),通过在数据结构上进行遍历直接产生频繁项集。第三类为“垂直格式”方法,是将水平格式的数据集转换成垂直格式,通过交运算来得到频繁项集。
随着信息技术的快速发展,需要存储和分析的数据量呈爆炸性增长,人类已经进入了大数据时代,传统的关联规则挖掘算法已经不能适应在大数据挖掘的要求,主要困难是:单一计算机无法存储所需要挖掘的所有数据及挖掘过程中产生的中间结果;挖掘过程所需要的内存远远超过单一机器的存储量,计算时间太长无法忍受等问题。
发明内容
本发明的目的是提供一种基于Hadoop的大数据关联规则的挖掘方法,能够快速高效挖掘出大数据中的关联规则。
本发明所采用的技术方案是,基于Hadoop的大数据关联规则的挖掘方法,具体操作过程包括如下步骤:
步骤1,输入待挖掘大数据集,对大数据集进行分块;
步骤2,使用两阶段MapReduce过程来完成大数据集中关联规则的挖掘任务;
步骤3,使用kulczynski度量和不平衡比对频繁项集进行评估,剔除不满足kulczynski度量和不平衡比阈值要求的频繁项集,确保所挖掘频繁模式具有正相关性。
本发明的其他特点还在于,
步骤1的具体过程如下:使用Hadoop核心组件HDFS对大数据集进行分块,为了保证数据完整性,副本数设置为3。
优选的,步骤2包括如下过程:
步骤2.1,使用Map函数生成局部候选频繁项集,使用Reduce函数合并所有局部候选频繁项集,剔除不符合支持度要求的局部候选频繁项集;
步骤2.2,采用Map函数计算所有局部候选频繁项集在所有数据分块中的支持度,使用Reduce函数合并所有候选项集的支持度,剔除不满足最小支持度要求的项集。
优选的,步骤2.1的具体过程如下:
步骤2.1.1,使用Map函数将分块数据集转化为关系矩阵,使用正交链表对该矩阵进行存储;
步骤2.1.2,采用高效的连接和剪枝操作生成局部候选频繁项集;
步骤2.1.3,利用正交链表快速得到局部候选频繁项集的支持度,并使用Reduce函数将所有局部候选频繁项集进行汇总。
优选的,步骤2.1.1的具体过程如下:
首先,扫描步骤1得到的分块数据集,将分块数据集转化为如下关系矩阵:
其中,|I|为数据库包含的项目数,|D|为事务数据库包含的事务数。
然后利用正交链表对该矩阵进行存储,正交链表包含三种类型的节点,分别为M节点、H节点和E节点;其中,M节点为正交链表的表头节点;H节点为行/列表头节点,是正交链表中行链表或者列链表的表头节点;E节点为关系矩阵中非零元素对应的节点;
每种节点均包含四个域:Tag域、Element域、Right域和Down域;其中,Tag域为标志域,用以区分三种不同类型的节点;Element域为元素域,对正交链表表头节点来说,元素域中的二元组存储的是对应稀疏关系矩阵的行数和列数,即事务数据库D包含的事务数和项目数;对行表头节点来说,元素域中的二元组表示第几行和该行中包含的非零元素个数;对列表头节点来说,元素域中的二元组表示项目或项目集及该列中的非零元素个数;对非零元素节点来说,元素域中的二元组表示项目或项目集及包含该项目或项目集的事务编号;Right域为指针域,对正交链表表头节点来说其指向第一个列表头节点;对行表头节点来说,其指向该行第一个非零元素节点;对列表头节点来说,其指向下一个列表头节点;对非零元素节点来说,其指向该行下一个非零元素节点;Down域也为指针域,对正交链表表头节点来说其指向第一个行表头节点;对行表头节点来说,其指向下一个列表头节点;对列表头节点来说,其指向该列第一个非零元素节点;对非零元素节点来说,其指向该列下一个非零元素节点。
优选的,步骤2.1.2的具体过程如下:
连接操作是将频繁k-1项集组成的集合Lk-1与其自身进行连接,从而产生候选频繁k项集组成的集合Ck
设m1和m2是频繁k-1项集集合Lk-1的任意两个成员,成员中的项目按字典次序排序,即对于成员mi3,有mi3[1]<mi3[2]<…<mi3[k-1],其中mi3[i4]表示成员mi3中的i4个项目,其中i3∈{0,1},i4∈{1,2,…,k-1},如果成员m1和m2中前k-2个项目均相同,成员m1的第k-2个项目小于成员m2的第k-2个项目,即(m1[1]=m2[1])&&(m1[2]=m2[2])&&…&&(m1[k-2]=m2[k-2])&&(m1[k-1]<m2[k-1]),则判定m1和m2是可连接的,连接m1和m2产生的结果是{m1[1].m1[2].……,m1[k-1].m2[k-1]};
剪枝操作是将遍历频繁k-1项集集合对应的正交链表的列表头节点,对候选k项集集合Ck的成员ci1行判断操作,若其包含k-1个元素的所有子集均在列表头节点中,则将成员ci1保留在候选频繁项集集合Ck中,否则将其从Ck中删除。
优选的,步骤2.1.3的具体过程如下:
假设候选频繁k项集集合Ck中成员ci1={I1,I2,…,Ik}={I1,I2,…,Ik-1}∪{Ik},则事务集合T(ci)=T(I1,I2,…,Ik-1,Ik)=T(I1,I2,…,Ik-1)∩T(Ik),即包含项集集合ci1的事务集合T(ci)是包含项集集合{I1,I2,…,Ik-1}的事务集合T(I1,I2,…,Ik-1)与包含项集集合{Ik}的事务集合T(Ik)的交集,遍历频繁k-1项集集合对应的正交链表中项集{I1,I2,…,Ik-1}对应的列,得到事务集合T(I1,I2,…,Ik-1),遍历频繁1项集集合对应的正交链表中项集集合{Ik}对应的列,得到事务集合T(Ik),则通过下式计算k项集集合ci1的支持度:
sup({I1,I2,…,Ik})=N(T(I1,I2,…,Ik-1)∩T(Ik))/|D|
其中,k∈[1,n];N(T(I1,I2,…,Ik-1)∩T(Ik))表示事务集合T(I1,I2,…,Ik-1)和事务集合T(Ik)的交集所包含的事务数;
剔除不符合支持度要求的局部候选频繁项集,将剩余的局部候选频繁项集构建新的正交链表,重复步骤2.12和步骤2.1.3,直到没有新的局部频繁项集产生为止。
优选的,步骤2.2的具体过程如下:
使用Map函数在计算所有局部频繁项集在所有数据分块中的支持度时,使用步骤2.1.3过程中保留的项集支持度,减少对十字链表的扫描。
优选的,步骤3的具体过程如下:
kulczynski度量由于具有零不变性且不受事务个数影响,能够有效评估挖掘的频繁项集之间的相关性,给定两个项集A和B;kulczynski度量公式如下:
其中,P(A|B)表示同时包含项集A和B的事务数占只包含项集A的事务数的比例,P(B|A)表示同时包含项集A和B的事务数占只包含项集B的事务数的比例;
同时使用不平衡比来评估两个项集之间的不平衡程度,不平衡比越小,效果越好,其公式如下:
其中,sup(A)表示项集A的支持度,sup(B)表示项集B的支持度,sup(A∪B)表示项集A与项集B组成的并集的支持度。
本发明的有益效果是,基于Hadoop的大数据关联规则的挖掘方法,使用两阶段MapReduce过程来完成大数据集中关联规则的挖掘任务,既有效避免了一阶段MapReduce过程极大的内存和I/O消耗,又避免了多阶段MapReduce过程的效率低下。用十字链表来压缩数据库,减少了对数据库的扫描。采用的高效连接和剪枝策略,减小了候选项集的数量。利用十字链表的特性,可以快速得到候选项集的支持度,不需要多次扫描数据库。利用kulczynski度量和不平衡比来评估频繁项集,确保了所挖掘项集的正相关性,可以应用到实际决策中。因此,本发明能够快速挖掘出大数据集中具有实际意义的关联规则,能够满足实际需要。
附图说明
图1是本发明的一种基于Hadoop的大数据关联规则的挖掘方法流程示意图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明的基于Hadoop的大数据关联规则的挖掘方法,如图1所示,具体操作过程包括如下步骤:
步骤1,输入待挖掘大数据集,对大数据集进行分块;
步骤1的具体过程如下:使用Hadoop核心组件HDFS对大数据集进行分块,为了保证数据完整性,副本数设置为3。
步骤2,使用两阶段MapReduce程来完成大数据集中关联规则的挖掘任务;
步骤2包括如下过程:
步骤2.1,使用Map函数生成局部候选频繁项集,使用Reduce函数合并所有局部候选频繁项集,剔除不符合支持度要求的局部候选频繁项集;
步骤2.1的具体过程如下:
步骤2.1.1,使用Map函数将分块数据集转化为关系矩阵,使用正交链表对该矩阵进行存储;
首先,扫描步骤1得到的分块数据集,将分块数据集转化为如下关系矩阵:
其中,|I|为数据库包含的项目数,|D|为事务数据库包含的事务数。
然后利用正交链表对该矩阵进行存储,正交链表包含三种类型的节点,分别为M节点、H节点和E节点;其中,M节点为正交链表的表头节点;H节点为行/列表头节点,是正交链表中行链表或者列链表的表头节点;E节点为关系矩阵中非零元素对应的节点;
每种节点均包含四个域:Tag域、Element域、Right域和Down域;其中,Tag域为标志域,用以区分三种不同类型的节点;Element域为元素域,对正交链表表头节点来说,元素域中的二元组存储的是对应稀疏关系矩阵的行数和列数,即事务数据库D包含的事务数和项目数;对行表头节点来说,元素域中的二元组表示第几行和该行中包含的非零元素个数;对列表头节点来说,元素域中的二元组表示项目或项目集及该列中的非零元素个数;对非零元素节点来说,元素域中的二元组表示项目或项目集及包含该项目或项目集的事务编号;Right域为指针域,对正交链表表头节点来说其指向第一个列表头节点;对行表头节点来说,其指向该行第一个非零元素节点;对列表头节点来说,其指向下一个列表头节点;对非零元素节点来说,其指向该行下一个非零元素节点;Down域也为指针域,对正交链表表头节点来说其指向第一个行表头节点;对行表头节点来说,其指向下一个列表头节点;对列表头节点来说,其指向该列第一个非零元素节点;对非零元素节点来说,其指向该列下一个非零元素节点。
步骤2.1.2,采用高效的连接和剪枝操作生成局部候选频繁项集;
步骤2.1.2的具体过程如下:
连接操作是将频繁k-1项集组成的集合Lk-1与其自身进行连接,从而产生候选频繁k项集组成的集合Ck
设m1和m2是频繁k-1项集集合Lk-1的任意两个成员,成员中的项目按字典次序排序,即对于成员mi3,有mi3[1]<mi3[2]<…<mi3[k-1],其中mi3[i4]表示成员mi3中的i4个项目,其中i3∈{0,1},i4∈{1,2,…,k-1},如果成员m1和m2中前k-2个项目均相同,成员m1的第k-2个项目小于成员m2的第k-2个项目,即(m1[1]=m2[1])&&(m1[2]=m2[2])&&…&&(m1[k-2]=m2[k-2])&&(m1[k-1]<m2[k-1]),则判定m1和m2是可连接的,连接m1和m2产生的结果是{m1[1].m1[2].……,m1[k-1].m2[k-1]};
剪枝操作为遍历频繁k-1项集集合对应的正交链表的列表头节点,对候选k项集集合Ck的成员ci1进行判断操作,若其包含k-1个元素的所有子集均在列表头节点中,则将成员ci1保留在候选频繁项集集合Ck中,否则将其从Ck中删除。
步骤2.1.3,利用正交链表快速得到局部候选频繁项集的支持度,并使用Reduce函数将所有局部候选频繁项集进行汇总。
步骤2.1.3的具体过程如下:
假设候选频繁k项集集合Ck中成员ci1={I1,I2,…,Ik}={I1,I2,…,Ik-1}∪{Ik},则事务集合T(ci)=T(I1,I2,…,Ik-1,Ik)=T(I1,I2,…,Ik-1)∩T(Ik),即包含项集集合ci1的事务集合T(ci)是包含项集集合{I1,I2,…,Ik-1}的事务集合T(I1,I2,…,Ik-1)与包含项集集合{Ik}的事务集合T(Ik)的交集,遍历频繁k-1项集集合对应的正交链表中项集{I1,I2,…,Ik-1}对应的列,得到事务集合T(I1,I2,…,Ik-1),遍历频繁1项集集合对应的正交链表中项集集合{Ik}对应的列,得到事务集合T(Ik),则通过下式计算k项集集合ci1的支持度:
sup({I1,I2,…,Ik})=N(T(I1,I2,…,Ik-1)∩T(Ik))/|D|
其中,k∈[1,n];N(T(I1,I2,…,Ik-1)∩T(Ik))表示事务集合T(I1,I2,…,Ik-1)和事务集合T(Ik)的交集所包含的事务数;
剔除不符合支持度要求的局部候选频繁项集,将剩余的局部候选频繁项集构建新的正交链表,重复步骤2.12和步骤2.1.3,直到没有新的局部频繁项集产生为止。
步骤2.2,采用Map函数计算所有局部候选频繁项集在所有数据分块中的支持度,使用Reduce函数合并所有候选项集的支持度,剔除不满足最小支持度要求的项集。
步骤2.2的具体过程如下:
使用Map函数在计算所有局部频繁项集在所有数据分块中的支持度时,使用步骤2.1.3过程中保留的项集支持度,减少对十字链表的扫描。
步骤3,使用kulczynski度量和不平衡比对频繁项集进行评估,剔除不满足kulczynski度量和不平衡比阈值要求的频繁项集,确保所挖掘频繁模式具有正相关性。
步骤3的具体过程如下:
kulczynski度量由于具有零不变性且不受事务个数影响,能够有效评估挖掘的频繁项集之间的相关性,给定两个项集A和B;其kulczynski度量公式如下:
其中,P(A|B)表示同时包含项集A和B的事务数占只包含项集A的事务数的比例,P(B|A)表示同时包含项集A和B的事务数占只包含项集B的事务数的比例;
同时使用不平衡比来评估两个项集之间的不平衡程度,不平衡比越小,效果越好,其公式如下:
其中,sup(A)表示项集A的支持度,sup(B)表示项集B的支持度,sup(A∪B)表示项集A与项集B组成的并集的支持度。

Claims (9)

1.基于Hadoop的大数据关联规则的挖掘方法,其特征在于,具体操作过程包括如下步骤:
步骤1,输入待挖掘大数据集,对大数据集进行分块;
步骤2,使用两阶段MapReduce过程来完成大数据集中关联规则的挖掘任务;
步骤3,使用kulczynski度量和不平衡比对频繁项集进行评估,剔除不满足kulczynski度量和不平衡比阈值要求的频繁项集,确保所挖掘频繁模式具有正相关性。
2.如权利要求1所述的基于Hadoop的大数据关联规则的挖掘方法,其特征在于,所述步骤1的具体过程如下:使用Hadoop核心组件HDFS对大数据集进行分块,为了保证数据完整性,副本数设置为3。
3.如权利要求1所述的基于Hadoop的大数据关联规则的挖掘方法,其特征在于,所述步骤2包括如下过程:
步骤2.1,使用Map函数生成局部候选频繁项集,使用Reduce函数合并所有局部候选频繁项集,剔除不符合支持度要求的局部候选频繁项集;
步骤2.2,采用Map函数计算所有局部候选频繁项集在所有数据分块中的支持度,使用Reduce函数合并所有候选项集的支持度,剔除不满足最小支持度要求的项集。
4.如权利要求3所述的基于Hadoop的大数据关联规则的挖掘方法,其特征在于,所述步骤2.1的具体过程如下:
步骤2.1.1,使用Map函数将分块数据集转化为关系矩阵,使用正交链表对该矩阵进行存储;
步骤2.1.2,采用高效的连接和剪枝操作生成局部候选频繁项集;
步骤2.1.3,利用正交链表快速得到局部候选频繁项集的支持度,并使用Reduce函数将所有局部候选频繁项集进行汇总。
5.如权利要求4所述的基于Hadoop的大数据关联规则的挖掘方法,其特征在于,所述步骤2.1.1的具体过程如下:
首先,扫描步骤1得到的分块数据集,将分块数据集转化为如下关系矩阵:
其中,|I|为数据库包含的项目数,|D|为事务数据库包含的事务数;
然后利用正交链表对该矩阵进行存储,所述正交链表包含三种类型的节点,分别为M节点、H节点和E节点;其中,M节点为正交链表的表头节点;H节点为行/列表头节点,是正交链表中行链表或者列链表的表头节点;E节点为关系矩阵中非零元素对应的节点;
每种节点均包含四个域:Tag域、Element域、Right域和Down域;其中,Tag域为标志域,用以区分三种不同类型的节点;Element域为元素域,对正交链表表头节点来说,元素域中的二元组存储的是对应稀疏关系矩阵的行数和列数,即事务数据库D包含的事务数和项目数;对行表头节点来说,元素域中的二元组表示第几行和该行中包含的非零元素个数;对列表头节点来说,元素域中的二元组表示项目或项目集及该列中的非零元素个数;对非零元素节点来说,元素域中的二元组表示项目或项目集及包含该项目或项目集的事务编号;Right域为指针域,对正交链表表头节点来说其指向第一个列表头节点;对行表头节点来说,其指向该行第一个非零元素节点;对列表头节点来说,其指向下一个列表头节点;对非零元素节点来说,其指向该行下一个非零元素节点;Down域也为指针域,对正交链表表头节点来说其指向第一个行表头节点;对行表头节点来说,其指向下一个列表头节点;对列表头节点来说,其指向该列第一个非零元素节点;对非零元素节点来说,其指向该列下一个非零元素节点。
6.如权利要求4所述的基于Hadoop的大数据关联规则的挖掘方法,其特征在于,所述步骤2.1.2的具体过程如下:
连接操作是将频繁k-1项集组成的集合Lk-1与其自身进行连接,从而产生候选频繁k项集组成的集合Ck
设m1和m2是频繁k-1项集集合Lk-1的任意两个成员,成员中的项目按字典次序排序,即对于成员mi3,有mi3[1]<mi3[2]<…<mi3[k-1],其中mi3[i4]表示成员mi3中的i4个项目,其中i3∈{0,1},i4∈{1,2,…,k-1},如果成员m1和m2中前k-2个项目均相同,成员m1的第k-2个项目小于成员m2的第k-2个项目,即(m1[1]=m2[1])&&(m1[2]=m2[2])&&…&&(m1[k-2]=m2[k-2])&&(m1[k-1]<m2[k-1]),则判定m1和m2是可连接的,连接m1和m2产生的结果是{m1[1].m1[2].……,m1[k-1].m2[k-1]};
剪枝操作是将遍历频繁k-1项集集合对应的正交链表的列表头节点,对候选k项集集合Ck的成员ci1行判断操作,若其包含k-1个元素的所有子集均在列表头节点中,则将成员ci1保留在候选频繁项集集合Ck中,否则将其从Ck中删除。
7.如权利要求6所述的基于Hadoop的大数据关联规则的挖掘方法,其特征在于,所述步骤2.1.3的具体过程如下:
假设候选频繁k项集集合Ck中成员ci1={I1,I2,…,Ik}={I1,I2,…,Ik-1}∪{Ik},则事务集合T(ci)=T(I1,I2,…,Ik-1,Ik)=T(I1,I2,…,Ik-1)∩T(Ik),即包含项集集合ci1的事务集合T(ci)是包含项集集合{I1,I2,…,Ik-1}的事务集合T(I1,I2,…,Ik-1)与包含项集集合{Ik}的事务集合T(Ik)的交集,遍历频繁k-1项集集合对应的正交链表中项集{I1,I2,…,Ik-1}对应的列,得到事务集合T(I1,I2,…,Ik-1),遍历频繁1项集集合对应的正交链表中项集集合{Ik}对应的列,得到事务集合T(Ik),则通过下式计算k项集集合ci1的支持度:
sup({I1,I2,…,Ik})=N(T(I1,I2,…,Ik-1)∩T(Ik))/|D|
其中,k∈[1,n];N(T(I1,I2,…,Ik-1)∩T(Ik))表示事务集合T(I1,I2,…,Ik-1)和事务集合T(Ik)的交集所包含的事务数;
剔除不符合支持度要求的局部候选频繁项集,将剩余的局部候选频繁项集构建新的正交链表,重复步骤2.12和步骤2.1.3,直到没有新的局部频繁项集产生为止。
8.如权利要求3所述的基于Hadoop的大数据关联规则的挖掘方法,其特征在于,所述步骤2.2的具体过程如下:
使用Map函数在计算所有局部频繁项集在所有数据分块中的支持度时,使用步骤2.1.3过程中保留的项集支持度,减少对十字链表的扫描。
9.如权利要求1所述的基于Hadoop的大数据关联规则的挖掘方法,其特征在于,所述步骤3的具体过程如下:
kulczynski度量由于具有零不变性且不受事务个数影响,能够有效评估挖掘的频繁项集之间的相关性,给定两个项集A和B;kulczynski度量公式如下:
其中,P(A|B)表示同时包含项集A和B的事务数占只包含项集A的事务数的比例,P(B|A)表示同时包含项集A和B的事务数占只包含项集B的事务数的比例;
同时使用不平衡比来评估两个项集之间的不平衡程度,不平衡比越小,效果越好,其公式如下:
其中,sup(A)表示项集A的支持度,sup(B)表示项集B的支持度,sup(A∪B)表示项集A与项集B组成的并集的支持度。
CN201910672220.1A 2019-07-24 2019-07-24 基于Hadoop的大数据关联规则的挖掘方法 Pending CN110489448A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910672220.1A CN110489448A (zh) 2019-07-24 2019-07-24 基于Hadoop的大数据关联规则的挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910672220.1A CN110489448A (zh) 2019-07-24 2019-07-24 基于Hadoop的大数据关联规则的挖掘方法

Publications (1)

Publication Number Publication Date
CN110489448A true CN110489448A (zh) 2019-11-22

Family

ID=68548114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910672220.1A Pending CN110489448A (zh) 2019-07-24 2019-07-24 基于Hadoop的大数据关联规则的挖掘方法

Country Status (1)

Country Link
CN (1) CN110489448A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395605A (zh) * 2020-11-23 2021-02-23 国网四川省电力公司信息通信公司 基于关联规则的电力物联网数据融合方法
CN112966283A (zh) * 2021-03-19 2021-06-15 西安电子科技大学 基于多方集合求交集的垂直分区数据pparm方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101799810A (zh) * 2009-02-06 2010-08-11 中国移动通信集团公司 一种关联规则挖掘方法及其系统
CN102567488A (zh) * 2011-12-21 2012-07-11 江苏远为科技有限公司 基于云计算机框架的电动汽车数据挖掘系统与挖掘方法
CN103150163A (zh) * 2013-03-01 2013-06-12 南京理工大学常熟研究院有限公司 一种基于MapReduce模型的并行关联方法
CN105260387A (zh) * 2015-09-10 2016-01-20 江苏省邮电规划设计院有限责任公司 一种面向海量事务数据库的关联规则分析方法
CN105320756A (zh) * 2015-10-15 2016-02-10 江苏省邮电规划设计院有限责任公司 一种基于改进Apriori算法的数据库关联规则挖掘方法
CN106062732A (zh) * 2015-02-06 2016-10-26 华为技术有限公司 数据处理系统、计算节点和数据处理的方法
CN106446016A (zh) * 2016-08-29 2017-02-22 中国电力科学研究院 一种基于并行关联规则挖掘的配电网运行可靠性预测方法
CN107229751A (zh) * 2017-06-28 2017-10-03 济南大学 一种面向流式数据的并行增量式关联规则挖掘方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101799810A (zh) * 2009-02-06 2010-08-11 中国移动通信集团公司 一种关联规则挖掘方法及其系统
CN102567488A (zh) * 2011-12-21 2012-07-11 江苏远为科技有限公司 基于云计算机框架的电动汽车数据挖掘系统与挖掘方法
CN103150163A (zh) * 2013-03-01 2013-06-12 南京理工大学常熟研究院有限公司 一种基于MapReduce模型的并行关联方法
CN106062732A (zh) * 2015-02-06 2016-10-26 华为技术有限公司 数据处理系统、计算节点和数据处理的方法
CN105260387A (zh) * 2015-09-10 2016-01-20 江苏省邮电规划设计院有限责任公司 一种面向海量事务数据库的关联规则分析方法
CN105320756A (zh) * 2015-10-15 2016-02-10 江苏省邮电规划设计院有限责任公司 一种基于改进Apriori算法的数据库关联规则挖掘方法
CN106446016A (zh) * 2016-08-29 2017-02-22 中国电力科学研究院 一种基于并行关联规则挖掘的配电网运行可靠性预测方法
CN107229751A (zh) * 2017-06-28 2017-10-03 济南大学 一种面向流式数据的并行增量式关联规则挖掘方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李校林等: "基于Hadoop的大数据频繁模式挖掘算法", 《微电子学与计算机》 *
赵学健等: "一种正交链表存储的改进 Apriori 算法", 《小型微型计算机系统》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395605A (zh) * 2020-11-23 2021-02-23 国网四川省电力公司信息通信公司 基于关联规则的电力物联网数据融合方法
CN112966283A (zh) * 2021-03-19 2021-06-15 西安电子科技大学 基于多方集合求交集的垂直分区数据pparm方法
CN112966283B (zh) * 2021-03-19 2023-04-18 西安电子科技大学 基于多方集合求交集的垂直分区数据pparm方法

Similar Documents

Publication Publication Date Title
Lin et al. Fast similarity search in the presence of noise, scaling, and translation in time-series databases
Jones et al. Database design for a multi-scale spatial information system
US5845270A (en) Multidimensional input-output modeling for organizing information
Braun et al. Effectively and efficiently mining frequent patterns from dense graph streams on disk
CN106971205A (zh) 一种基于k近邻互信息估计的嵌入式动态特征选择方法
Bracken et al. Towards a typology of geographical information systems
Mahdi et al. FR-Tree: A novel rare association rule for big data problem
CN110489448A (zh) 基于Hadoop的大数据关联规则的挖掘方法
CN106484815B (zh) 一种基于海量数据类sql检索场景的自动识别优化方法
Du et al. Evaluating structural and topological consistency of complex regions with broad boundaries in multi-resolution spatial databases
Sriphaew et al. Fast algorithms for mining generalized frequent patterns of generalized association rules
RU2433467C1 (ru) Способ формирования структуры агрегированных данных и способ поиска данных посредством структуры агрегированных данных в системе управления базами данных
KR101515304B1 (ko) 하둡 기반의 리듀스-사이드 조인 처리 시스템의 리듀스-사이드 조인 질의 처리 방법
WO2023178767A1 (zh) 基于企业征信大数据知识图谱的企业风险检测方法和装置
CN105740371A (zh) 一种基于密度的增量聚类数据挖掘方法及系统
Yu et al. Mining high utility itemsets in large high dimensional data
Xu Deep mining method for high-dimensional big data based on association rule
Li et al. TT-miner: Topology-transaction miner for mining closed itemset
Szathmary et al. An efficient hybrid algorithm for mining frequent closures and generators
Kovács An algorithm using context reduction for efficient incremental generation of concept set
Priyadarshini et al. An approach to graph mining using gspan algorithm
Bogorny et al. Extending the Weka Data Mining Toolkit to support Geographic Data Preprocessing
He et al. Enterprise human resources information mining based on improved Apriori algorithm
Vo et al. Mining frequent closed itemsets from multidimensional databases
Vo et al. Mining frequent itemsets from multidimensional databases

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191122