CN111309787A - 一种基于Apriori算法挖掘二维数据间关联规则的方法 - Google Patents

一种基于Apriori算法挖掘二维数据间关联规则的方法 Download PDF

Info

Publication number
CN111309787A
CN111309787A CN202010136449.6A CN202010136449A CN111309787A CN 111309787 A CN111309787 A CN 111309787A CN 202010136449 A CN202010136449 A CN 202010136449A CN 111309787 A CN111309787 A CN 111309787A
Authority
CN
China
Prior art keywords
data
dimensional
association rules
rule
data table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010136449.6A
Other languages
English (en)
Other versions
CN111309787B (zh
Inventor
仇晶
方拓迁
方滨兴
田志宏
殷丽华
顾钊铨
韩伟红
李树栋
李默涵
唐可可
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN202010136449.6A priority Critical patent/CN111309787B/zh
Publication of CN111309787A publication Critical patent/CN111309787A/zh
Application granted granted Critical
Publication of CN111309787B publication Critical patent/CN111309787B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于Apriori算法挖掘二维数据间关联规则的方法,通过获取关系型数据库中的二维连续型数据表,对二维连续型数据表进行离散化处理,得到二维离散化数据表,然后通过Apriori算法挖掘出二维离散化数据表中各数据之间的频繁项集,并生成频繁项集的关联规则,同时计算每一条规则的置信度,最后根据亲密度计算公式、每一条规则的置信度以及频繁项集的关联规则,计算得到二层级数据的关联规则,可以挖掘二维数据表属性之间的关联规则,从而确定属性间的亲密关系。

Description

一种基于Apriori算法挖掘二维数据间关联规则的方法
技术领域
本发明涉及计算机科学技术领域,尤其涉及一种基于Apriori算法挖掘二维数据间关联规则的方法。
背景技术
Apriori算法是常用的用于挖掘出数据关联规则的算法,它用来找出数据值中频繁出现的数据集合,找出这些集合的模式有助于做出决策。比如在常见的超市购物数据集,或者电商的网购数据集中,如果找到了频繁出现的数据集,那么对于超市,就可以优化产品的位置摆放,对于电商,就可以优化商品所在的仓库位置,达到节约成本,增加经济效益的目的。
然而现有技术只考虑了商品之间的关联,并没有往上一层去考虑商品类别(货架)之间的关系,从而将有关联的商品直接放在一起,这就会造成商品摆放的混乱。在应用的过程中发现,经典的Apriori算法并不适用于发现二维数据表中属性与属性(列)之间的关系,只能用来挖掘数据值之间的关系。
发明内容
本发明实施例的目的是提供一种基于Apriori算法挖掘二维数据间关联规则的方法,可以挖掘二维数据表属性之间的关联规则,从而确定属性间的亲密关系,应用在商场管理时,可使得商品的摆放更加有序合理。
为实现上述目的,本发明实施例提供了一种基于Apriori算法挖掘二维数据间关联规则的方法,包括以下步骤:
获取关系型数据库中的二维连续型数据表,对所述二维连续型数据表进行离散化处理,得到二维离散化数据表;
通过Apriori算法挖掘出所述二维离散化数据表中各数据之间的频繁项集,并生成所述频繁项集的关联规则,同时计算每一条规则的置信度;
根据亲密度计算公式、每一条规则的置信度以及所述频繁项集的关联规则,计算得到二层级数据的关联规则。
进一步的,所述亲密度计算公式为:
Figure BDA0002397492890000021
其中,A、B为二维数据表中的属性,t为可能存在的关联规则总数,pi是关联规则i的置信度,
Figure BDA0002397492890000022
为实际挖掘出的带权重的关联规则数。
进一步的,所述频繁项集通过以下方式获得:
获取所述二维离散化数据表中的所有数据得到第一候选集,并计算所述第一候选集中的每个数据在所述第一候选集中的支持度;
判断所述第一候选集中的每个数据的支持度是否大于预设的第一支持度,并将大于所述预设的第一支持度的数据作为第一项集;
通过所述第一项集进行自连接操作得到第二候选集,并计算所述第二候选集中的每个数据在所述第二候选集中的支持度;
判断所述第二候选集中的每个数据的支持度是否大于预设的第一支持度,并将大于所述预设的第一支持度的数据作为频繁项集。
进一步的,所述支持度的计算公式为:
Figure BDA0002397492890000023
其中,I(I={i1,i2,...,ij,...,ik})为数据集合。
进一步的,所述频繁项集的置信度计算公式为:
Figure BDA0002397492890000024
与现有技术相比,具有如下有益效果:
本发明实施例提供的基于Apriori算法挖掘二维数据间关联规则的方法,通过获取关系型数据库中的二维连续型数据表,对二维连续型数据表进行离散化处理,得到二维离散化数据表,然后通过Apriori算法挖掘出二维离散化数据表中各数据之间的频繁项集,并生成频繁项集的关联规则,同时计算每一条规则的置信度,最后根据亲密度计算公式、每一条规则的置信度以及频繁项集的关联规则,计算得到二层级数据的关联规则,可以挖掘二维数据表属性之间的关联规则,从而确定属性间的亲密关系。
附图说明
图1是本发明提供的基于Apriori算法挖掘二维数据间关联规则的方法的一个实施例的流程示意图;
图2是本发明提供的基于Apriori算法挖掘二维数据间关联规则的方法的另一个实施例的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
请参见图1,本发明实施例提供了一种基于Apriori算法挖掘二维数据间关联规则的方法,包括以下步骤:S1-S3;
S1,获取关系型数据库中的二维连续型数据表,对所述二维连续型数据表进行离散化处理,得到二维离散化数据表。
需要说明的是,离散化的方法包括但不限于为等宽离散化、等频离散化、聚类离散化,还可以根据数据的特点及意义设置离散的规则。
S2,通过Apriori算法挖掘出所述二维离散化数据表中各数据之间的频繁项集,并生成所述频繁项集的关联规则,同时计算每一条规则的置信度。
在本发明实施例中,所述频繁项集通过以下方式获得:
获取所述二维离散化数据表中的所有数据得到第一候选集,并计算所述第一候选集中的每个数据在所述第一候选集中的支持度;判断所述第一候选集中的每个数据的支持度是否大于预设的第一支持度,并将大于所述预设的第一支持度的数据作为第一项集;通过所述第一项集进行自连接操作得到第二候选集,并计算所述第二候选集中的每个数据在所述第二候选集中的支持度;判断所述第二候选集中的每个数据的支持度是否大于预设的第一支持度,并将大于所述预设的第一支持度的数据作为频繁项集。
在本实施例中,所述支持度的计算公式为:
Figure BDA0002397492890000041
其中,I(I={i1,i2,...,ij,...,ik})为数据集合。
所述频繁项集的置信度计算公式为:
Figure BDA0002397492890000042
S3,根据亲密度计算公式、每一条规则的置信度以及所述频繁项集的关联规则,计算得到二层级数据的关联规则。
在本实施例中,Apriori算法中涉及到置信度与支持度,正是通过这两个公式计算的关联规则。本发明为了挖掘二层级的关联规则,定义了一个亲密度计算公式(relationship),用以计算两个属性间联系的紧密程度:
设属性A的取值范围(域)为m个离散型数据类别{a1,a2,a3,…,am},属性B的取值范围为n个离散型数据类别{b1,b2,b3,…,bn},经Apriori算法挖掘出的从A中数据类ai到B中数据类bj的关联规则一共有k条,则定义A与B之间的亲密度为:
Figure BDA0002397492890000043
作为本发明的优选实施例,由于每一条被挖掘出的关联规则的置信度一般都不相同,因此在计算亲密度时将它们同等看待是“不公平”的,因为一条置信度为0.89的关联规则显然要比置信度为0.2的关联规则“重要”,所以亲密度计算公式需重新定义为:
Figure BDA0002397492890000051
其中,A、B为二维数据表中的属性,t为可能存在的关联规则总数,pi是关联规则i的置信度,
Figure BDA0002397492890000052
为实际挖掘出的带权重的关联规则数。
采用本发明提供的带有置信度的亲密度计算公式,可确定二维数据表中两个属性的亲密度,从而得到该二维数据表的二层级数据的关联规则。
实施例2:
为了更好的说明本发明方法的工作原理,以下为本发明方法的具体算法流程:
需要说明的是,在实施本发明实施例之前需要确定二维数据表,支持度阈值s,置信度阈值c,亲密度阈值r。通常,它们的取值范围取决于我们希望算法输出的关联规则条数,是可调的超参数,在本实施例中各阈值的取值范围为:0.1~1.0,如果想多输出几条关联规则,那么就可以把参数适当调小一些,如果想输出很强的关联规则,就可以把参数调大一些,具体的操作可在实施本发明实施例之前实现。
请参见图2,图2是本发明提供的基于Apriori算法挖掘二维数据间关联规则的方法的一个实施例的流程示意图,具体的流程步骤如下:
1)离散化:如果表中数据是连续型,则使用离散化方法进行处理,得到离散化后的二维表;如果表中数据是离散型,则不需要离散化。
2)求频繁项集:首先扫描离散化后的数据表,将表的每一行看作一个购物清单,得到所有的第一候选集的集合C1,再计算集合C1中各项集的支持度并与s比较,大于等于s的项集成为第一频繁项集,删去支持度小于s的项集后得到第一频繁项集L1,接着用第一频繁项集L1进行自连接操作,得到所有的第二候选集,重复上述操作得到第二频繁项集L2
需要说明的是,两个项集能够进行连接的条件是他们有且仅有一项是不同的。当两个项集可以进行连接时,就将这两个集合求并集,得到连接后的结果项集。
3)求关联规则:在第二频繁项集L2中每次取出一条项集,令一个项作为规则前项,另一个项作为规则后项,得到一条由规则前项到规则后项的关联规则。并计算每一条规则的置信度,大于等于c的成为强关联规则。
4)求亲密度:若要求属性Ai,Aj间的亲密度,首先遍历所有的关联规则,找出所有属于这两个属性的关联规则(即规则的前项和后项分别在这两个属性的域中),然后计算这两个属性间生成的实际带权重的关联规则数,除以可能生成的规则总数,得到两个属性间的(带权)亲密度。
5)求属性间的关联规则:将4)步得到的(带权)亲密度与亲密度阈值r比较,如果大于等于r,则可得到两个属性间的关联规则,此时我们可以认为它们之间具有较强的联系。
实施例3:
将本发明提供的基于Apriori算法挖掘二维数据间关联规则的方法应用于商场管理时,将关联规则的挖掘重点从单个的商品转移到商品的类别(货架)上,进而帮助商场的管理者更好地布局货架的位置,使得商品的摆放更加有序合理。
具体的实施过程如下:
1)离散化:获取二维数据库表中的原始数据,并对其进行离散化处理,得到离散后的数据,如下表所示:
Figure BDA0002397492890000061
Figure BDA0002397492890000071
2)求频繁项集:预先定义支持度阈值为0.3,计算每一件商品的支持度,得到六件商品的支持度除了商品1和商品4为0.25(2/8=0.25),其余均为0.375(3/8=0.375),因此将商品1与商品4删除,此时得到所有的第一项集,分别是{商品2}、{商品3}、{商品5}和{商品6},然后再将第一项集进行自连接,得到所有第二候选集为:{商品2,商品3}、{商品2,商品5}、{商品2,商品6}、{商品3,商品5}、{商品3,商品6}和{商品5,商品6},计算它们的支持度,发现只有{商品2,商品5}(0.375=3/8)和{商品3,商品6}(0.375=3/8)的支持度大于预先定义支持度阈值0.3,因此得到所有的频繁项集为{商品2,商品5}和{商品3,商品6},此时这俩集合已经不满足连接的要求(当两个集合有且仅有一个元素不相同,其余都相同时,才可进行连接)。
3)求关联规则:根据上一步得到的频繁项集,可以得到4条规则:(商品2商品5)、(商品5商品2)、(商品3商品6)和(商品6商品3),其中以货架A中商品作为规则前项的有两条,分别是(商品2商品5)和(商品3商品6)。计算它俩的置信度,CON(商品2商品5)=0.375/0.375=1.0,同理CON(商品3商品6)=1.0,假使预先定义的置信度阈值为0.4,则最终得到两条从货架A到货架B的规则。
4)计算亲密度:货架A和货架B之间总共可能的关联规则数为3×3=9,而实际上得到2条规则,若计算出货架A和货架B之间的亲密度r大于预先定义的亲密度,则可以认为货架A与货架B具有亲密关系,在摆放货架时可以将货架A和货架B放在一起。
作为优选实施例,还可以计算出所有货架与货架A的亲密度,然后按照亲密度大小排序,亲密度越大则摆放位置距货架A越近。
综上所述,实施本发明实施例,具有如下有益效果:
本发明实施例提供了一种基于Apriori算法挖掘二维数据间关联规则的方法,通过获取关系型数据库中的二维连续型数据表,对二维连续型数据表进行离散化处理,得到二维离散化数据表,然后通过Apriori算法挖掘出二维离散化数据表中各数据之间的频繁项集,并生成频繁项集的关联规则,同时计算每一条规则的置信度,最后根据亲密度计算公式、每一条规则的置信度以及频繁项集的关联规则,计算得到二层级数据的关联规则,可以挖掘二维数据表属性之间的关联规则,从而确定属性间的亲密关系。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (5)

1.一种基于Apriori算法挖掘二维数据间关联规则的方法,其特征在于,包括以下步骤:
获取关系型数据库中的二维连续型数据表,对所述二维连续型数据表进行离散化处理,得到二维离散化数据表;
通过Apriori算法挖掘出所述二维离散化数据表中各数据之间的频繁项集,并生成所述频繁项集的关联规则,同时计算每一条规则的置信度;
根据亲密度计算公式、每一条规则的置信度以及所述频繁项集的关联规则,计算得到二层级数据的关联规则。
2.如权利要求1所述的基于Apriori算法挖掘二维数据间关联规则的方法,其特征在于,所述亲密度计算公式为:
Figure FDA0002397492880000011
其中,A、B为二维数据表中的属性,t为可能存在的关联规则总数,pi是关联规则i的置信度,
Figure FDA0002397492880000012
为实际挖掘出的带权重的关联规则数。
3.如权利要求1所述的基于Apriori算法挖掘二维数据间关联规则的方法,其特征在于,所述频繁项集通过以下方式获得:
获取所述二维离散化数据表中的所有数据得到第一候选集,并计算所述第一候选集中的每个数据在所述第一候选集中的支持度;
判断所述第一候选集中的每个数据的支持度是否大于预设的第一支持度,并将大于所述预设的第一支持度的数据作为第一项集;
通过所述第一项集进行自连接操作得到第二候选集,并计算所述第二候选集中的每个数据在所述第二候选集中的支持度;
判断所述第二候选集中的每个数据的支持度是否大于预设的第一支持度,并将大于所述预设的第一支持度的数据作为频繁项集。
4.如权利要求3所述的基于Apriori算法挖掘二维数据间关联规则的方法,其特征在于,所述支持度的计算公式为:
Figure FDA0002397492880000021
其中,I(I={i1,i2,...,ij,...,ik})为数据集合。
5.如权利要求4所述的基于Apriori算法挖掘二维数据间关联规则的方法,其特征在于,所述频繁项集的置信度计算公式为:
Figure FDA0002397492880000022
CN202010136449.6A 2020-03-02 2020-03-02 一种基于Apriori算法挖掘二维数据间关联规则的方法 Active CN111309787B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010136449.6A CN111309787B (zh) 2020-03-02 2020-03-02 一种基于Apriori算法挖掘二维数据间关联规则的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010136449.6A CN111309787B (zh) 2020-03-02 2020-03-02 一种基于Apriori算法挖掘二维数据间关联规则的方法

Publications (2)

Publication Number Publication Date
CN111309787A true CN111309787A (zh) 2020-06-19
CN111309787B CN111309787B (zh) 2021-10-19

Family

ID=71145463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010136449.6A Active CN111309787B (zh) 2020-03-02 2020-03-02 一种基于Apriori算法挖掘二维数据间关联规则的方法

Country Status (1)

Country Link
CN (1) CN111309787B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858245A (zh) * 2020-07-17 2020-10-30 北京奇艺世纪科技有限公司 一种异常数据的分析方法、装置、电子设备及存储介质
CN112132659A (zh) * 2020-09-25 2020-12-25 泰康保险集团股份有限公司 信息的推荐方法、装置、电子设备及计算机可读介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810371A (zh) * 2013-06-28 2014-05-21 电子科技大学 海量数据集上主观兴趣度的关联规则优化算法
CN103916260A (zh) * 2013-01-08 2014-07-09 中国移动通信集团浙江有限公司 一种告警关联的装置及方法
CN110287382A (zh) * 2019-05-30 2019-09-27 武汉理工大学 一种面向电池生产数据的关联规则的挖掘方法
US20200012851A1 (en) * 2018-07-03 2020-01-09 Neural Vision Technologies LLC Clustering, classifying, and searching documents using spectral computer vision and neural networks
CN111949843A (zh) * 2020-07-21 2020-11-17 江苏海洋大学 一种基于概念图构建的智能学习诊断方法
CN113254726A (zh) * 2021-06-07 2021-08-13 北京达佳互联信息技术有限公司 账号分组方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103916260A (zh) * 2013-01-08 2014-07-09 中国移动通信集团浙江有限公司 一种告警关联的装置及方法
CN103810371A (zh) * 2013-06-28 2014-05-21 电子科技大学 海量数据集上主观兴趣度的关联规则优化算法
US20200012851A1 (en) * 2018-07-03 2020-01-09 Neural Vision Technologies LLC Clustering, classifying, and searching documents using spectral computer vision and neural networks
CN110287382A (zh) * 2019-05-30 2019-09-27 武汉理工大学 一种面向电池生产数据的关联规则的挖掘方法
CN111949843A (zh) * 2020-07-21 2020-11-17 江苏海洋大学 一种基于概念图构建的智能学习诊断方法
CN113254726A (zh) * 2021-06-07 2021-08-13 北京达佳互联信息技术有限公司 账号分组方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858245A (zh) * 2020-07-17 2020-10-30 北京奇艺世纪科技有限公司 一种异常数据的分析方法、装置、电子设备及存储介质
CN112132659A (zh) * 2020-09-25 2020-12-25 泰康保险集团股份有限公司 信息的推荐方法、装置、电子设备及计算机可读介质

Also Published As

Publication number Publication date
CN111309787B (zh) 2021-10-19

Similar Documents

Publication Publication Date Title
Hadi et al. A new fast associative classification algorithm for detecting phishing websites
CN111309787B (zh) 一种基于Apriori算法挖掘二维数据间关联规则的方法
Yun et al. Mining recent high average utility patterns based on sliding window from stream data
WO2018059298A1 (zh) 模式挖掘方法、高效用项集挖掘方法及相关设备
Chen et al. A fuzzy coherent rule mining algorithm
CN110020918B (zh) 一种推荐信息生成方法和系统
KR100427603B1 (ko) 데이터 분류체계 구축방법
Rani et al. Outlier detection for dynamic data streams using weighted k-means
Tan Different types of association rules mining review
Lin et al. A new adaptive-support algorithm for association rule mining
JPWO2011061890A1 (ja) 情報処理装置
Georgoulas et al. User-centric similarity search
Man et al. An association rule on edisiplin case study: an educational data mining approach
Arora et al. Improved association mining algorithm for large dataset
Amin et al. Feature selection using multivariate adaptive regression splines in telecommunication fraud detection
Wan et al. Mining multilevel association rules with dynamic concept hierarchy
Kousari et al. Improvement of mining fuzzy multiple-level association rules from quantitative data
US20040220901A1 (en) System and method for association itemset mining
Arvind et al. Discovery of certain association rules from an uncertain database
Li et al. Privacy-preserving bin-packing with differential privacy
Ishii et al. Incremental Reducts Based on Nearest Neighbor Relations and Linear Classifications
Rao et al. An association rule hiding algorithm for privacy preserving data mining
Wu et al. Robust fuzzy association rule mining based on neighbors-considered clustering with amended membership function
Wang et al. WC-clustering: Hierarchical clustering using the weighted confidence affinity measure
Gajera et al. Improvisation in frequent pattern mining technique

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant