CN106294715A - 一种基于属性约简的关联规则挖掘方法及装置 - Google Patents

一种基于属性约简的关联规则挖掘方法及装置 Download PDF

Info

Publication number
CN106294715A
CN106294715A CN201610645171.9A CN201610645171A CN106294715A CN 106294715 A CN106294715 A CN 106294715A CN 201610645171 A CN201610645171 A CN 201610645171A CN 106294715 A CN106294715 A CN 106294715A
Authority
CN
China
Prior art keywords
data
attribute
decision
collection
association rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610645171.9A
Other languages
English (en)
Other versions
CN106294715B (zh
Inventor
许鸿文
赵凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN201610645171.9A priority Critical patent/CN106294715B/zh
Publication of CN106294715A publication Critical patent/CN106294715A/zh
Application granted granted Critical
Publication of CN106294715B publication Critical patent/CN106294715B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Abstract

本发明公开了一种基于属性约简的关联规则挖掘方法及装置,所述的方法包括:S1,根据研究对象从数据库中采集对应的数据;S2,对所述数据进行集成规约;S3,对集成规约后的数据采用粗糙集理论进行属性约简;S4,采用改进后的HEclat算法对属性约简后的数据进行关联规则挖掘;S5,对挖掘出的关联规则进行解读和展示。本发明在数据处理的过程中采用粗糙集理论进行属性约简,避免使用大量的不必要属性进行交集运算而增加数据量的计算;在数据挖掘的过程中采用改进的HEclat算法进行关联规则的数据挖掘,只需要扫描一次数据库,减少冗余计算,有效地减少了数据挖掘的时间,降低了系统资源消耗,进而提高了数据挖掘的效率。

Description

一种基于属性约简的关联规则挖掘方法及装置
技术领域
本发明涉及数据挖掘技术,具体涉及一种属性约简的关联规则挖掘方法及装置。
背景技术
KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了13次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到超过千人,论文收录数量也迅速增加,研究重点也从发现方法逐渐转向系统应用直到转向大规模综合系统的开发,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其它内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。
数据挖掘能够从数据库的大量数据中挖掘出隐含的、先前未知的并有潜在价值的信息,关联规则是数据挖掘算法中的一种,能够发现数据库不同数据之间的隐含关系及关联网,实时高效的关联规则更新对于趋势分析、辅助决策、信息推荐等具有重要的研究意义。
由于数据的急速增长,可利用的数据规模增大,使得对大规模数据挖掘的应用需求日益增强。由于数据挖掘任务和数据挖掘方法的多样性,给数据挖掘提出了许多挑战性的课题。理论研究内容从最初的频繁模式挖掘扩展到闭合模式挖掘、最大模式挖掘,增量挖掘、主题兴趣度度量、隐私保护、数据流等多种类型数据上的关联规则挖掘。关联规则挖掘将向着数据挖掘语言的设计、数据挖掘的可视化、web数据挖掘、高效而有效的数据挖掘方法和系统的开发、交互和集成的数据挖掘环境的建立以及应用数据挖掘技术等大型应用领域。
发明内容
本发明提供了一种基于属性约简的关联规则挖掘方法及装置,采用改进的HEclat算法进行数据关联规则的挖掘,能够提高数据挖掘的效率。
本发明解决上述技术问题的技术方案如下:
本发明提供了一种基于属性约简的关联规则挖掘方法,包括以下步骤:
S1,根据研究对象从数据库中采集对应的数据;
S2,对所述数据进行集成规约;
S3,对集成规约后的数据采用粗糙集理论进行属性约简;
S4,采用改进后的HEclat算法对属性约简后的数据进行关联规则挖掘;
S5,对挖掘出的关联规则进行解读和展示。
在上述技术方案的基础上,本发明还可以作如下改进。
进一步的,所述步骤S3之前还包括:
数据预处理步骤:对集成规约后的数据中存在缺省值的数据记录进行清理或者填充,使得整个数据保持完整性和一致性。
进一步的,所述步骤S3具体包括:
S31,根据处理后的数据建立多个决策表;
S32,根据公式(1)计算每一个决策表中决策属性集的信息熵,以及根据公式(2)计算每一个决策表中决策属性集相对条件属性集的信息熵;
公式(1)为:
H ( D ) = - Σ j = 1 m p ( Y j ) l o g p ( Y j ) ;
p ( Y j ) = | Y j | | U | , ( j = 1 , 2 , 3 , ... , m ) ;
式(1)中,D表示决策表中的决策属性集,H(D)表示决策属性集的信息熵,U为决策表的样本对象,Y={Y1,Y2,...,Ym}是决策表的样本对象U中根据决策属性集D分成的等价类的集合;p(Yj)为Yi在样本集上出现的概率;
公式(2)为:
H ( D | C ) = - Σ i = 1 n p ( X i ) Σ j = 1 m p ( Y j | X i ) l o g p ( Y j | X i ) ;
p ( Y j | X i ) = | Y j ∩ X i | | X i | , ( i = 1 , 2 , 3 , ... , n ; j = 1 , 2 , 3 , ... , m ) ;
式(2)中,C表示决策表中的条件属性集,H(D|C)表示决策属性集D相对条件属性集C的信息熵,U为决策表的样本对象,X={X1,X2,...,Xn}是决策表的样本对象U中根据条件属性集C分成的等价类的集合,Y={Y1,Y2,...,Ym}是决策表的样本对象U中根据决策属性集D分成的等价类的集合,∩表示同时包含Yj和Xi;p(Xi)为Xi在样本集上出现的概率;p(Yj|Xi)为Xi出现时,Yi会同时出现的概率;
S33,根据公式(3)计算每一个决策表中条件属性集对决策属性集的互信息量;
公式(3)为:
I(C,D)=H(D)-H(D|C);
式(3)中,I(C,D)代表条件属性集C对决策属性集D的互信息量,H(D)代表决策属性集D的信息熵,H(D|C)代表决策属性集D相对条件属性集C的信息熵;
S34,计算每一个决策表中条件属性集相对决策属性集的核属性集,并记录保存非核条件属性得到非核条件属性集;
S35,针对非核条件属性集中的任意元素,计算对决策属性集的互信息量,找出使得互信息量最大的非核条件属性作为重要属性,得到重要属性集;
S36,计算所述重要属性集对决策属性集的互信息量,如果所述重要属性集对决策属性集的互信息量的值与条件属性集对决策属性集的互信息量的值相等,则将核属性集作为约简后的决策表,并跳转执行步骤S4;否则继续执行步骤S35。
进一步的,所述步骤S4具体包括:
S41,用垂直结构表示事务数据库;
S42,设定最小支持度minSup,扫描一次事务数据库,并初始化候选1项集C1,将支持度小于minSup的候选1项集去掉,得到频繁1项集L1;
S43,由频繁1项集进行连接步产生候选2项集C2,所有的候选2项集的后缀项相同,然后通过候选2项集C2中各频繁1项子集之间取交集得到事务记录的值与最小支持度minSup比较,滤除小于minSup的候选项集,得到频繁2项集L2;
S44,不断重复步骤S43,直到所得的候选m项集为空或者候选项集所对应的各项频繁1项子集之间取交集得到的值小于minSup,m为大于等于1的正整数,得到频繁k项集Lk
S45,设定最小置信度minCon,计算各频繁项集的置信度,置信度高于minCon的各频繁项集输出为强关联规则,并将该关联规则存入关联规则数据库;
其中,A=>B中,支持度是指A、B事件同时发生的概率,置信度是指在A事件发生的条件下,B事件发生的概率。
进一步的,所述步骤S5包括:
将挖掘出的关联规则采用可视化界面进行展示。
为了解决本发明的技术问题,还提供了一种基于属性约简的关联规则挖掘装置,包括:
数据采集模块,用于根据研究对象从数据库中采集对应的数据;
集成规约模块,用于对所述数据进行集成规约;
属性约简模块,用于对集成规约后的数据采用粗糙集理论进行属性约简;
关联规则挖掘模块,用于采用改进后的HEclat算法对属性约简后的数据进行关联规则挖掘;
展示模块,用于对挖掘出的关联规则进行解读和展示。
在上述技术方案的基础上,本发明还可以作如下改进。
进一步的,还包括:
预处理模块,用于对集成规约后的数据中存在缺省值的数据记录进行清理或者填充,使得整个数据保持完整性和一致性。
进一步的,所述展示模块具体用于:
将挖掘出的关联规则采用可视化界面进行展示。
本发明的有益效果为:在数据处理的过程中采用粗糙集理论进行属性约简,避免使用大量的不必要属性进行交集运算而增加数据量的计算;在数据挖掘的过程中采用改进的HEclat算法进行关联规则的数据挖掘,只需要扫描一次数据库,减少冗余计算,有效地减少了数据挖掘的时间,降低了系统资源消耗,进而提高了数据挖掘的效率。
附图说明
图1为本发明实施例1的一种基于属性约简的关联规则挖掘方法流程图;
图2为本发明实施例2的一种基于属性约简的关联规则挖掘装置示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
实施例1、一种基于属性约简的关联规则挖掘方法。
参见图1,本实施例提供的关联规则挖掘方法包括:
S1,根据研究对象从数据库中采集对应的数据;
S2,对所述数据进行集成规约;
S3,对集成规约后的数据采用粗糙集理论进行属性约简;
S4,采用改进后的HEclat算法对属性约简后的数据进行关联规则挖掘;
S5,对挖掘出的关联规则进行解读和展示。
下面进行具体的说明,步骤S1中首先明确研究对象并分析,从数据库中采集与研究对象对应的数据,这些数据可能来自不同的来源,这时需要将不同来源的数据在物理或者逻辑上进行集中,以便于数据共享,即称为数据的集成;并在不影响数据挖掘结果的情况下,尽可能的对数据进行压缩,减小数据的大小,即对数据进行规约。随后,对集成规约后的数据进行预处理,这些数据的数据记录中的某些项可能存在缺省值,会造成数据的不完整和不一致,因此,将这些存在缺省值的数据记录直接删除清理或者将这些缺省项填充,确保整个数据的完整性和一致性。
步骤S3对预处理后的数据采用粗糙集理论进行属性约简,采用基于粗糙集理论的属性约简方法将对数据挖掘无关的属性删除,避免产生大量无效的候选项集,减少系统的资源消耗。
所述步骤S3对集成规约后的数据采用粗糙集理论进行属性约简具体包括:
S31,根据处理后的数据建立多个决策表;
S32,根据公式(1)计算每一个决策表中决策属性集的信息熵,以及根据公式(2)计算每一个决策表中决策属性集相对条件属性集的信息熵;
公式(1)为:
H ( D ) = - Σ j = 1 m p ( Y j ) l o g p ( Y j ) ;
p ( Y j ) = | Y j | | U | , ( j = 1 , 2 , 3 , ... , m ) ;
式(1)中,D表示决策表中的决策属性集,H(D)表示决策属性集的信息熵,U为决策表的样本对象,Y={Y1,Y2,...,Ym}是决策表的样本对象U中根据决策属性集D分成的等价类的集合;p(Yj)为Yi在样本集上出现的概率;
公式(2)为:
H ( D | C ) = - Σ i = 1 n p ( X i ) Σ j = 1 m p ( Y j | X i ) l o g p ( Y j | X i ) ;
p ( Y j | X i ) = | Y j ∩ X i | | X i | , ( i = 1 , 2 , 3 , ... , n ; j = 1 , 2 , 3 , ... , m ) ;
式(2)中,C表示决策表中的条件属性集,H(D|C)表示决策属性集D相对条件属性集C的信息熵,U为决策表的样本对象,X={X1,X2,...,Xn}是决策表的样本对象U中根据条件属性集C分成的等价类的集合,Y={Y1,Y2,...,Ym}是决策表的样本对象U中根据决策属性集D分成的等价类的集合,∩表示同时包含Yj和Xi;p(Xi)为Xi在样本集上出现的概率;p(Yj|Xi)为Xi出现时,Yi会同时出现的概率;
S33,根据公式(3)计算每一个决策表中条件属性集对决策属性集的互信息量;
公式(3)为:
I(C,D)=H(D)-H(D|C);
式(3)中,I(C,D)代表条件属性集C对决策属性集D的互信息量,H(D)代表决策属性集D的信息熵,H(D|C)代表决策属性集D相对条件属性集C的信息熵;
S34,计算每一个决策表中条件属性集相对决策属性集的核属性集,并记录保存非核条件属性得到非核条件属性集;
S35,针对非核条件属性集中的任意元素,计算对决策属性集的互信息量,找出使得互信息量最大的非核条件属性作为重要属性,得到重要属性集;
S36,计算所述重要属性集对决策属性集的互信息量,如果所述重要属性集对决策属性集的互信息量的值与条件属性集对决策属性集的互信息量的值相等,则将核属性集作为约简后的决策表,并跳转执行步骤S4;否则继续执行步骤S35。
本实施例采用粗糙集理论对数据进行属性约简,将对数据挖掘无关的属性删除,避免后续产生大量无效的候选项集,减少系统的资源消耗。
将属性约简后的数据转换为数据挖掘的形式,通常转化为二进制数据,然后采用改进的HEclat算法对形式转换后的数据进行关联规则挖掘,上述步骤S4中关联规则挖掘具体为:
S41,用垂直结构表示事务数据库;
S42,设定最小支持度minSup,扫描一次事务数据库,并初始化候选1项集C1,将支持度小于minSup的候选1项集去掉,得到频繁1项集L1
S43,由频繁1项集进行连接步产生候选2项集C2,所有的候选2项集的后缀项相同,然后通过候选2项集C2中各频繁1项子集之间取交集得到事务记录的值与最小支持度minSup比较,滤除小于minSup的候选项集,得到频繁2项集L2
S44,不断重复步骤S43,直到所得的候选m项集为空或者候选项集所对应的各项频繁1项子集之间取交集得到的值小于minSup,m为大于等于1的正整数,得到频繁k项集Lk
S45,设定最小置信度minCon,计算各频繁项集的置信度,置信度高于minCon的各频繁项集输出为强关联规则,并将该关联规则存入关联规则数据库;
其中,A=>B中,支持度是指A、B事件同时发生的概率,置信度是指在A事件发生的条件下,B事件发生的概率。
下面具体介绍一下利用改进后的HEclat算法来进行数据挖掘的过程,HEclat算法的垂直结构表如下表1:
表1
先设置最小支持度minSup=0.6
1、由数据表可以看出,频繁1项集L1为L1={{I1},{I2},{I3},{I5},{I6}}。
令C1={I1},
2、由L1通过运算可以得到C2={I1,I2},由P(C2)=0.4<minSup可知,{I1,I2}不是频繁项集,由剪枝定理可知,所有{I1,I2}的超集都是非频繁项集,例如{I1,I2,I3}这个超集就是非频繁项集;
3、由数据表得到C3={{I1,I3},{I2,I3},{I1,I2,I3}},其中候选项集合中的每一项集的最后一项不变,即最后一项均为I3,称为集合后缀不变,由剪枝定理可知{I1,I2,I3}是非频繁项集,因此可以滤掉,通过计算只P({I1,I3})=0.8>minSup;P({I2,I3})=0.6>=minSup,则L3={{I1,I3},{I2,I3}};
4、由数据表可得C4={{I1,I5},{I2,I5},{I3,I5},{I1,I2,I5},{I1,I3,I5},{I2,I3,I5},{I1,I2,I3,I5}},由剪枝原理可知,{I1,I2,I5},{I1,I2,I3,I5}是非频繁项集,可以直接滤掉,计算方法同上,由此可知L4={{I1,I5},{I2,I5},{I3,I5},{I1,I3,I5},{I2,I3,I5}}。
5、由数据表可得C5={{I1,I6},{I2,I6},{I3,I6},{I5,I6},{I1,I2,I6},
{I1,I3,I6},{I1,I5,I6},{I2,I3,I6},{I2,I5,I6},{I3,I5,I6},{I1,I2,I3,I6},{I1,I2,I5,I6},{I1,I3,I5,I6},{I2,I3,I5,I6},{I1,I2,I3,I5,I6}},由剪枝原理可知{I1,I2,I6},{I1,I2,I3,I6},{I1,I2,I5,I6},{I1,I2,I3,I5,I6}均为非频繁项集,通过计算得L5={{I1,I6},{I3,I6},{I1,I3,I6}}。
由以上改进后的HEclat算法得到频繁项集,然后设定最小置信度minCon,计算各频繁项集的置信度,高于minCon的各频繁项集输出为强关联规则。本实施例采用改进后的HEclat算法对数据关联规则进行挖掘,通过垂直结构一次性扫描数据库,很好的改善了Eclat算法消耗时间长、占用内存大的问题,改进的HEclat算法(集合后缀)主要是通过改变传统的Eclat算法的搜索方式(集合前缀)来进行频繁模式挖掘,提高数据挖掘的效率。通过改进后的HEclat算法挖掘出关联规则,最后将挖掘出的关联规则以可视化的界面展示。
实施例2、一种基于属性约简的关联规则挖掘装置。
参见图2,本实施例提供的装置包括数据采集模块21、集成规约模块22、预处理模块23、属性约简模块24、关联规则挖掘模块25和展示模块26。
其中,数据采集模块21,用于根据研究对象从数据库中采集对应的数据。
集成规约模块22,用于对所述数据进行集成规约。
预处理模块23,用于对集成规约后的数据中存在缺省值的数据记录进行清理或者填充,使得整个数据保持完整性和一致性。
属性约简模块24,用于对完整性和一致性处理后的数据采用粗糙集理论进行属性约简,并将属性约简后的数据的形式进行转换。
关联规则挖掘模块25,用于采用改进后的HEclat算法对形式转换后的数据进行关联规则挖掘。
展示模块26,用于对挖掘出的关联规则进行解读和展示。
其中,属性约简模块24采用粗糙集理论对数据进行属性约简的具体过程为:
S31,根据处理后的数据建立多个决策表;
S32,根据公式(1)计算每一个决策表中决策属性集的信息熵,以及根据公式(2)计算每一个决策表中决策属性集相对条件属性集的信息熵;
公式(1)为:
H ( D ) = - &Sigma; j = 1 m p ( Y j ) l o g p ( Y j ) ;
p ( Y j ) = | Y j | | U | , ( j = 1 , 2 , 3 , ... , m ) ;
式(1)中,D表示决策表中的决策属性集,H(D)表示决策属性集的信息熵,U为决策表的样本对象,Y={Y1,Y2,...,Ym}是决策表的样本对象U中根据决策属性集D分成的等价类的集合;p(Yj)为Yi在样本集上出现的概率;
公式(2)为:
H ( D | C ) = - &Sigma; i = 1 n p ( X i ) &Sigma; j = 1 m p ( Y j | X i ) l o g p ( Y j | X i ) ;
p ( Y j | X i ) = | Y j &cap; X i | | X i | , ( i = 1 , 2 , 3 , ... , n ; j = 1 , 2 , 3 , ... , m ) ;
式(2)中,C表示决策表中的条件属性集,H(D|C)表示决策属性集D相对条件属性集C的信息熵,U为决策表的样本对象,X={X1,X2,...,Xn}是决策表的样本对象U中根据条件属性集C分成的等价类的集合,Y={Y1,Y2,...,Ym}是决策表的样本对象U中根据决策属性集D分成的等价类的集合,∩表示同时包含Yj和Xi;p(Xi)为Xi在样本集上出现的概率;p(Yj|Xi)为Xi出现时,Yi会同时出现的概率;
S33,根据公式(3)计算每一个决策表中条件属性集对决策属性集的互信息量;
公式(3)为:
I(C,D)=H(D)-H(D|C);
式(3)中,I(C,D)代表条件属性集C对决策属性集D的互信息量,H(D)代表决策属性集D的信息熵,H(D|C)代表决策属性集D相对条件属性集C的信息熵;
S34,计算每一个决策表中条件属性集相对决策属性集的核属性集,并记录保存非核条件属性得到非核条件属性集;
S35,针对非核条件属性集中的任意元素,计算对决策属性集的互信息量,找出使得互信息量最大的非核条件属性作为重要属性,得到重要属性集;
S36,计算所述重要属性集对决策属性集的互信息量,如果所述重要属性集对决策属性集的互信息量的值与条件属性集对决策属性集的互信息量的值相等,则将核属性集作为约简后的决策表,并跳转执行步骤S4;否则继续执行步骤S35。
关联规则挖掘模块24采用改进后的HEclat算法对数据进行关联规则挖掘的具体过程为:
S41,用垂直表示法来表示事务数据库;
S42,设定最小支持度minSup,扫描一次事务数据库,并初始化候选1项集C1,将支持度小于minSup的候选1项集去掉,得到频繁1项集L1
S43,由频繁1项集进行连接步产生候选2项集C2,所有的候选2项集的后缀项相同,然后通过候选2项集C2中各频繁1项子集之间取交集得到事务记录的值与最小支持度minSup比较,滤除小于minSup的候选项集,得到频繁2项集L2
S44,不断重复步骤S43,直到所得的候选m项集为空或者候选项集所对应的各项频繁1项子集之间取交集得到的值小于minSup,m为大于等于1的正整数,得到频繁k项集Lk
S45,设定最小置信度minCon,计算各频繁项集的置信度,置信度高于minCon的各频繁项集输出为强关联,并将强关联规则存入关联规则数据库;
其中,A=>B中,支持度是指A、B事件同时发生的概率,置信度是指在A事件发生的条件下,B事件发生的概率。
本发明提供的一种基于属性约简的关联规则挖掘方法和装置,在数据处理的过程中采用粗糙集理论进行属性约简,避免使用大量的不必要属性进行交集运算而增加数据量的计算;在数据挖掘的过程中采用改进的HEclat算法进行关联规则的数据挖掘,只需要扫描一次数据库,减少冗余计算,有效地减少了数据挖掘的时间,降低了系统资源消耗,进而提高了数据挖掘的效率。
在本说明书的描述中,参考术语“实施例一”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体方法、装置或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、方法、装置或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于属性约简的关联规则挖掘方法,其特征在于,包括以下步骤:
S1,根据研究对象从数据库中采集对应的数据;
S2,对所述数据进行集成规约;
S3,对集成规约后的数据采用粗糙集理论进行属性约简;
S4,采用改进后的HEclat算法对属性约简后的数据进行关联规则挖掘;
S5,对挖掘出的关联规则进行解读和展示。
2.如权利要求1所述的基于属性约简的关联规则挖掘方法,其特征在于,所述步骤S3之前还包括:
数据预处理步骤:对集成规约后的数据中存在缺省值的数据记录进行清理或者填充,使得整个数据保持完整性和一致性。
3.如权利要求2所述的基于属性约简的关联规则挖掘方法,其特征在于,所述步骤S3具体包括:
S31,根据预处理后的数据建立多个决策表;
S32,根据公式(1)计算每一个决策表中决策属性集的信息熵,以及根据公式(2)计算每一个决策表中决策属性集相对条件属性集的信息熵;
公式(1)为:
H ( D ) = - &Sigma; j = 1 m p ( Y j ) log p ( Y j ) ;
p ( Y j ) = | Y j | | U | , ( j = 1 , 2 , 3 , ... , m ) ;
式(1)中,D表示决策表中的决策属性集,H(D)表示决策属性集的信息熵,U为决策表的样本对象,Y={Y1,Y2,...,Ym}是决策表的样本对象U中根据决策属性集D分成的等价类的集合;p(Yj)为Yi在样本集上出现的概率;
公式(2)为:
H ( D | C ) = - &Sigma; i = 1 n p ( X i ) &Sigma; j = 1 m p ( Y j | X i ) log p ( Y j | X i ) ;
p ( Y j | X i ) = | Y j &cap; X i | | X i | , ( i = 1 , 2 , 3 , ... , n ; j = 1 , 2 , 3 , ... , m ) ;
式(2)中,C表示决策表中的条件属性集,H(D|C)表示决策属性集D相对条件属性集C的信息熵,U为决策表的样本对象,X={X1,X2,...,Xn}是决策表的样本对象U中根据条件属性集C分成的等价类的集合,Y={Y1,Y2,...,Ym}是决策表的样本对象U中根据决策属性集D分成的等价类的集合,∩表示同时包含Yj和Xi;p(Xi)为Xi在样本集上出现的概率;p(Yj|Xi)为Xi出现时,Yi会同时出现的概率;
S33,根据公式(3)计算每一个决策表中条件属性集对决策属性集的互信息量;
公式(3)为:
I(C,D)=H(D)-H(D|C);
式(3)中,I(C,D)代表条件属性集C对决策属性集D的互信息量,H(D)代表决策属性集D的信息熵,H(D|C)代表决策属性集D相对条件属性集C的信息熵;
S34,计算每一个决策表中条件属性集相对决策属性集的核属性集,并记录保存非核条件属性得到非核条件属性集;
S35,针对非核条件属性集中的任意元素,计算对决策属性集的互信息量,找出使得互信息量最大的非核条件属性作为重要属性,得到重要属性集;
S36,计算所述重要属性集对决策属性集的互信息量,如果所述重要属性集对决策属性集的互信息量的值与条件属性集对决策属性集的互信息量的值相等,则将核属性集作为约简后的决策表,并跳转执行步骤S4;否则继续执行步骤S35。
4.如权利要求3所述的基于属性约简的关联规则挖掘方法,其特征在于,所述步骤S4具体包括:
S41,用垂直结构表示事务数据库;
S42,设定最小支持度minSup,扫描一次事务数据库,并初始化候选1项集C1,将支持度小于minSup的候选1项集去掉,得到频繁1项集L1
S43,由频繁1项集进行连接步产生候选2项集C2,所有的候选2项集的后缀项相同,然后通过候选2项集C2中各频繁1项子集之间取交集得到事务记录的值与最小支持度minSup比较,滤除小于minSup的候选项集,得到频繁2项集L2
S44,不断重复步骤S43,直到所得的候选m项集为空或者候选项集所对应的各项频繁1项子集之间取交集得到的值小于minSup,m为大于等于1的正整数,得到频繁k项集Lk
S45,设定最小置信度minCon,计算各频繁项集的置信度,置信度高于minCon的各频繁项集输出为强关联规则,并将该关联规则存入关联规则数据库;
其中,A=>B中,支持度是指A、B事件同时发生的概率,置信度是指在A事件发生的条件下,B事件发生的概率。
5.如权利要求4所述的基于属性约简的关联规则挖掘方法,其特征在于,所述步骤S5包括:
将挖掘出的关联规则采用可视化界面进行展示。
6.一种基于属性约简的关联规则挖掘装置,其特征在于,包括:
数据采集模块,用于根据研究对象从数据库中采集对应的数据;
集成规约模块,用于对所述数据进行集成规约;
属性约简模块,用于对集成规约后的数据采用粗糙集理论进行属性约简;
关联规则挖掘模块,用于采用改进后的HEclat算法对属性约简后的数据进行关联规则挖掘;
展示模块,用于对挖掘出的关联规则进行解读和展示。
7.如权利要求6所述的基于属性约简的关联规则挖掘装置,其特征在于,还包括:
预处理模块,用于对集成规约后的数据中存在缺省值的数据记录进行清理或者填充,使得整个数据保持完整性和一致性。
8.如权利要求6所述的基于属性约简的关联规则挖掘装置,其特征在于,所述展示模块具体用于:
将挖掘出的关联规则采用可视化界面进行展示。
CN201610645171.9A 2016-08-09 2016-08-09 一种关联规则数据挖掘方法及装置 Expired - Fee Related CN106294715B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610645171.9A CN106294715B (zh) 2016-08-09 2016-08-09 一种关联规则数据挖掘方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610645171.9A CN106294715B (zh) 2016-08-09 2016-08-09 一种关联规则数据挖掘方法及装置

Publications (2)

Publication Number Publication Date
CN106294715A true CN106294715A (zh) 2017-01-04
CN106294715B CN106294715B (zh) 2020-01-03

Family

ID=57666859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610645171.9A Expired - Fee Related CN106294715B (zh) 2016-08-09 2016-08-09 一种关联规则数据挖掘方法及装置

Country Status (1)

Country Link
CN (1) CN106294715B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688653A (zh) * 2017-09-01 2018-02-13 武汉倚天剑科技有限公司 基于网络浅层数据的用户行为数据挖掘系统及其方法
CN108319658A (zh) * 2018-01-04 2018-07-24 内蒙古物通天下网络科技有限责任公司 一种基于荒漠草原的改进Apriori算法
CN108446375A (zh) * 2018-03-16 2018-08-24 湘潭大学 一种基于Spark平台的多尺度关联规则方法
CN109636660A (zh) * 2018-10-22 2019-04-16 广东精点数据科技股份有限公司 一种基于信息熵的农业气象数据冗余消除方法及系统
CN110825788A (zh) * 2019-11-07 2020-02-21 成都康赛信息技术有限公司 基于数据质量检测规则挖掘结果的规则约简方法
CN111738620A (zh) * 2020-07-17 2020-10-02 西南石油大学 一种基于关联规则的井漏风险预测与堵漏决策系统及方法
CN113052629A (zh) * 2021-03-10 2021-06-29 浙江工商大学 基于cecu体系智能算法模型的网络用户画像方法
CN113505127A (zh) * 2021-06-22 2021-10-15 侍意(厦门)网络信息技术有限公司 对有关联性对象的数据的存储结构及方法、检索和可视化展示方法
CN113672589A (zh) * 2021-04-23 2021-11-19 国网浙江省电力有限公司金华供电公司 一种智慧物流仓储园区安全感知系统
CN116662412A (zh) * 2023-07-24 2023-08-29 云南电网能源投资有限责任公司 一种电网配用电大数据的数据挖掘方法
CN117114116A (zh) * 2023-08-04 2023-11-24 北京杰成合力科技有限公司 一种基于机器学习的根因分析方法、介质和设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488802A (zh) * 2013-10-16 2014-01-01 国家电网公司 一种基于粗糙集关联规则的超高压电网故障规则挖掘方法
CN104731966A (zh) * 2015-04-07 2015-06-24 河海大学 一种基于数据挖掘的地铁故障诊断方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488802A (zh) * 2013-10-16 2014-01-01 国家电网公司 一种基于粗糙集关联规则的超高压电网故障规则挖掘方法
CN104731966A (zh) * 2015-04-07 2015-06-24 河海大学 一种基于数据挖掘的地铁故障诊断方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
冯培恩 等: "提高Eclat算法效率的策略", 《浙江大学学报》 *
刘井莲: "Eclat与Eclat+算法的比较分析", 《绥化学院学报》 *
刘井莲: "一种改进的Eclat算法", 《科学技术与工程》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688653A (zh) * 2017-09-01 2018-02-13 武汉倚天剑科技有限公司 基于网络浅层数据的用户行为数据挖掘系统及其方法
CN108319658A (zh) * 2018-01-04 2018-07-24 内蒙古物通天下网络科技有限责任公司 一种基于荒漠草原的改进Apriori算法
CN108446375A (zh) * 2018-03-16 2018-08-24 湘潭大学 一种基于Spark平台的多尺度关联规则方法
CN109636660A (zh) * 2018-10-22 2019-04-16 广东精点数据科技股份有限公司 一种基于信息熵的农业气象数据冗余消除方法及系统
CN110825788A (zh) * 2019-11-07 2020-02-21 成都康赛信息技术有限公司 基于数据质量检测规则挖掘结果的规则约简方法
CN111738620A (zh) * 2020-07-17 2020-10-02 西南石油大学 一种基于关联规则的井漏风险预测与堵漏决策系统及方法
CN113052629A (zh) * 2021-03-10 2021-06-29 浙江工商大学 基于cecu体系智能算法模型的网络用户画像方法
CN113052629B (zh) * 2021-03-10 2024-02-13 浙江工商大学 基于cecu体系智能算法模型的网络用户画像方法
CN113672589A (zh) * 2021-04-23 2021-11-19 国网浙江省电力有限公司金华供电公司 一种智慧物流仓储园区安全感知系统
CN113505127A (zh) * 2021-06-22 2021-10-15 侍意(厦门)网络信息技术有限公司 对有关联性对象的数据的存储结构及方法、检索和可视化展示方法
CN116662412A (zh) * 2023-07-24 2023-08-29 云南电网能源投资有限责任公司 一种电网配用电大数据的数据挖掘方法
CN116662412B (zh) * 2023-07-24 2023-10-03 云南电网能源投资有限责任公司 一种电网配用电大数据的数据挖掘方法
CN117114116A (zh) * 2023-08-04 2023-11-24 北京杰成合力科技有限公司 一种基于机器学习的根因分析方法、介质和设备

Also Published As

Publication number Publication date
CN106294715B (zh) 2020-01-03

Similar Documents

Publication Publication Date Title
CN106294715A (zh) 一种基于属性约简的关联规则挖掘方法及装置
AU2019214077B2 (en) Method for dividing ecological and geological environment types based on coal resource development
CN102222092B (zh) 一种MapReduce平台上的海量高维数据聚类方法
CN112434169A (zh) 一种知识图谱的构建方法及其系统和计算机设备
CN101727391B (zh) 一种软件漏洞特征操作序列的提取方法
CN107480789A (zh) 一种深度学习模型的高效转换方法及装置
CN106682986A (zh) 一种基于大数据的复杂金融交易网络活动图的构造方法
CN103761236A (zh) 一种增量式频繁模式增长数据挖掘方法
CN108985542A (zh) 一种科技项目评价方法及系统
CN105893483A (zh) 大数据挖掘过程模型总体框架的构造方法
CN103150163A (zh) 一种基于MapReduce模型的并行关联方法
CN104217013A (zh) 基于项加权和项集关联度的课程正负模式挖掘方法及系统
CN108536825A (zh) 一种识别房源数据是否重复的方法
CN108170799A (zh) 一种海量数据的频繁序列挖掘方法
CN105183785B (zh) 一种保护原交易数据集关联规则的数据挖掘方法及系统
CN106021413A (zh) 基于主题模型的自展式特征选择方法及系统
CN109325092A (zh) 融合短语信息的非参数并行化层次狄利克雷过程主题模型系统
CN104239430A (zh) 基于项权值变化的教育数据关联规则挖掘方法及其系统
CN109542936A (zh) 一种基于因果分割的递归式因果推断方法
CN104268270A (zh) 基于MapReduce挖掘海量社交网络数据中三角形的方法
CN104657473A (zh) 一种保证质量单调性的大规模数据挖掘方法
CN106952198A (zh) 一种基于Apriori算法的学生就业数据分析方法
CN106503039A (zh) 一种可视化实时数据挖掘系统及方法
CN112000389A (zh) 一种配置推荐方法、系统、装置及计算机存储介质
CN114595610B (zh) 基于Revit二次开发结合Ansys命令流创建隧道有限元模型的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200103

Termination date: 20200809

CF01 Termination of patent right due to non-payment of annual fee