CN111309787A

CN111309787A - 一种基于Apriori算法挖掘二维数据间关联规则的方法

Info

Publication number: CN111309787A
Application number: CN202010136449.6A
Authority: CN
Inventors: 仇晶; 方拓迁; 方滨兴; 田志宏; 殷丽华; 顾钊铨; 韩伟红; 李树栋; 李默涵; 唐可可
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2020-03-02
Filing date: 2020-03-02
Publication date: 2020-06-19
Anticipated expiration: 2040-03-02
Also published as: CN111309787B

Abstract

本发明公开了一种基于Apriori算法挖掘二维数据间关联规则的方法，通过获取关系型数据库中的二维连续型数据表，对二维连续型数据表进行离散化处理，得到二维离散化数据表，然后通过Apriori算法挖掘出二维离散化数据表中各数据之间的频繁项集，并生成频繁项集的关联规则，同时计算每一条规则的置信度，最后根据亲密度计算公式、每一条规则的置信度以及频繁项集的关联规则，计算得到二层级数据的关联规则，可以挖掘二维数据表属性之间的关联规则，从而确定属性间的亲密关系。

Description

一种基于Apriori算法挖掘二维数据间关联规则的方法

技术领域

本发明涉及计算机科学技术领域，尤其涉及一种基于Apriori算法挖掘二维数据间关联规则的方法。

背景技术

Apriori算法是常用的用于挖掘出数据关联规则的算法，它用来找出数据值中频繁出现的数据集合，找出这些集合的模式有助于做出决策。比如在常见的超市购物数据集，或者电商的网购数据集中，如果找到了频繁出现的数据集，那么对于超市，就可以优化产品的位置摆放，对于电商，就可以优化商品所在的仓库位置，达到节约成本，增加经济效益的目的。

然而现有技术只考虑了商品之间的关联，并没有往上一层去考虑商品类别(货架)之间的关系，从而将有关联的商品直接放在一起，这就会造成商品摆放的混乱。在应用的过程中发现，经典的Apriori算法并不适用于发现二维数据表中属性与属性(列)之间的关系，只能用来挖掘数据值之间的关系。

发明内容

本发明实施例的目的是提供一种基于Apriori算法挖掘二维数据间关联规则的方法，可以挖掘二维数据表属性之间的关联规则，从而确定属性间的亲密关系，应用在商场管理时，可使得商品的摆放更加有序合理。

为实现上述目的，本发明实施例提供了一种基于Apriori算法挖掘二维数据间关联规则的方法，包括以下步骤：

获取关系型数据库中的二维连续型数据表，对所述二维连续型数据表进行离散化处理，得到二维离散化数据表；

通过Apriori算法挖掘出所述二维离散化数据表中各数据之间的频繁项集，并生成所述频繁项集的关联规则，同时计算每一条规则的置信度；

根据亲密度计算公式、每一条规则的置信度以及所述频繁项集的关联规则，计算得到二层级数据的关联规则。

进一步的，所述亲密度计算公式为：

其中，A、B为二维数据表中的属性，t为可能存在的关联规则总数，p_i是关联规则i的置信度，

为实际挖掘出的带权重的关联规则数。

进一步的，所述频繁项集通过以下方式获得：

获取所述二维离散化数据表中的所有数据得到第一候选集，并计算所述第一候选集中的每个数据在所述第一候选集中的支持度；

判断所述第一候选集中的每个数据的支持度是否大于预设的第一支持度，并将大于所述预设的第一支持度的数据作为第一项集；

通过所述第一项集进行自连接操作得到第二候选集，并计算所述第二候选集中的每个数据在所述第二候选集中的支持度；

判断所述第二候选集中的每个数据的支持度是否大于预设的第一支持度，并将大于所述预设的第一支持度的数据作为频繁项集。

进一步的，所述支持度的计算公式为：

其中，I(I＝{i₁,i₂,...,i_j,...,i_k})为数据集合。

进一步的，所述频繁项集的置信度计算公式为：

与现有技术相比，具有如下有益效果：

本发明实施例提供的基于Apriori算法挖掘二维数据间关联规则的方法，通过获取关系型数据库中的二维连续型数据表，对二维连续型数据表进行离散化处理，得到二维离散化数据表，然后通过Apriori算法挖掘出二维离散化数据表中各数据之间的频繁项集，并生成频繁项集的关联规则，同时计算每一条规则的置信度，最后根据亲密度计算公式、每一条规则的置信度以及频繁项集的关联规则，计算得到二层级数据的关联规则，可以挖掘二维数据表属性之间的关联规则，从而确定属性间的亲密关系。

附图说明

图1是本发明提供的基于Apriori算法挖掘二维数据间关联规则的方法的一个实施例的流程示意图；

图2是本发明提供的基于Apriori算法挖掘二维数据间关联规则的方法的另一个实施例的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

请参见图1，本发明实施例提供了一种基于Apriori算法挖掘二维数据间关联规则的方法，包括以下步骤：S1-S3；

S1，获取关系型数据库中的二维连续型数据表，对所述二维连续型数据表进行离散化处理，得到二维离散化数据表。

需要说明的是，离散化的方法包括但不限于为等宽离散化、等频离散化、聚类离散化，还可以根据数据的特点及意义设置离散的规则。

S2，通过Apriori算法挖掘出所述二维离散化数据表中各数据之间的频繁项集，并生成所述频繁项集的关联规则，同时计算每一条规则的置信度。

在本发明实施例中，所述频繁项集通过以下方式获得：

获取所述二维离散化数据表中的所有数据得到第一候选集，并计算所述第一候选集中的每个数据在所述第一候选集中的支持度；判断所述第一候选集中的每个数据的支持度是否大于预设的第一支持度，并将大于所述预设的第一支持度的数据作为第一项集；通过所述第一项集进行自连接操作得到第二候选集，并计算所述第二候选集中的每个数据在所述第二候选集中的支持度；判断所述第二候选集中的每个数据的支持度是否大于预设的第一支持度，并将大于所述预设的第一支持度的数据作为频繁项集。

在本实施例中，所述支持度的计算公式为：

其中，I(I＝{i₁,i₂,...,i_j,...,i_k})为数据集合。

所述频繁项集的置信度计算公式为：

S3，根据亲密度计算公式、每一条规则的置信度以及所述频繁项集的关联规则，计算得到二层级数据的关联规则。

在本实施例中，Apriori算法中涉及到置信度与支持度，正是通过这两个公式计算的关联规则。本发明为了挖掘二层级的关联规则，定义了一个亲密度计算公式(relationship)，用以计算两个属性间联系的紧密程度：

设属性A的取值范围(域)为m个离散型数据类别{a₁,a₂,a₃,…,a_m}，属性B的取值范围为n个离散型数据类别{b₁,b₂,b₃,…,b_n}，经Apriori算法挖掘出的从A中数据类a_i到B中数据类b_j的关联规则一共有k条，则定义A与B之间的亲密度为：

作为本发明的优选实施例，由于每一条被挖掘出的关联规则的置信度一般都不相同，因此在计算亲密度时将它们同等看待是“不公平”的，因为一条置信度为0.89的关联规则显然要比置信度为0.2的关联规则“重要”，所以亲密度计算公式需重新定义为：

为实际挖掘出的带权重的关联规则数。

采用本发明提供的带有置信度的亲密度计算公式，可确定二维数据表中两个属性的亲密度，从而得到该二维数据表的二层级数据的关联规则。

实施例2：

为了更好的说明本发明方法的工作原理，以下为本发明方法的具体算法流程：

需要说明的是，在实施本发明实施例之前需要确定二维数据表，支持度阈值s，置信度阈值c，亲密度阈值r。通常，它们的取值范围取决于我们希望算法输出的关联规则条数，是可调的超参数，在本实施例中各阈值的取值范围为：0.1～1.0，如果想多输出几条关联规则，那么就可以把参数适当调小一些，如果想输出很强的关联规则，就可以把参数调大一些，具体的操作可在实施本发明实施例之前实现。

请参见图2，图2是本发明提供的基于Apriori算法挖掘二维数据间关联规则的方法的一个实施例的流程示意图，具体的流程步骤如下：

1)离散化：如果表中数据是连续型，则使用离散化方法进行处理，得到离散化后的二维表；如果表中数据是离散型，则不需要离散化。

2)求频繁项集：首先扫描离散化后的数据表，将表的每一行看作一个购物清单，得到所有的第一候选集的集合C₁，再计算集合C₁中各项集的支持度并与s比较，大于等于s的项集成为第一频繁项集，删去支持度小于s的项集后得到第一频繁项集L₁，接着用第一频繁项集L₁进行自连接操作，得到所有的第二候选集，重复上述操作得到第二频繁项集L₂。

需要说明的是，两个项集能够进行连接的条件是他们有且仅有一项是不同的。当两个项集可以进行连接时，就将这两个集合求并集，得到连接后的结果项集。

3)求关联规则：在第二频繁项集L₂中每次取出一条项集，令一个项作为规则前项，另一个项作为规则后项，得到一条由规则前项到规则后项的关联规则。并计算每一条规则的置信度，大于等于c的成为强关联规则。

4)求亲密度：若要求属性A_i,A_j间的亲密度，首先遍历所有的关联规则，找出所有属于这两个属性的关联规则(即规则的前项和后项分别在这两个属性的域中)，然后计算这两个属性间生成的实际带权重的关联规则数，除以可能生成的规则总数，得到两个属性间的(带权)亲密度。

5)求属性间的关联规则：将4)步得到的(带权)亲密度与亲密度阈值r比较，如果大于等于r，则可得到两个属性间的关联规则，此时我们可以认为它们之间具有较强的联系。

实施例3：

将本发明提供的基于Apriori算法挖掘二维数据间关联规则的方法应用于商场管理时，将关联规则的挖掘重点从单个的商品转移到商品的类别(货架)上，进而帮助商场的管理者更好地布局货架的位置，使得商品的摆放更加有序合理。

具体的实施过程如下：

1)离散化：获取二维数据库表中的原始数据，并对其进行离散化处理，得到离散后的数据，如下表所示：

2)求频繁项集：预先定义支持度阈值为0.3，计算每一件商品的支持度，得到六件商品的支持度除了商品1和商品4为0.25(2/8＝0.25)，其余均为0.375(3/8＝0.375)，因此将商品1与商品4删除，此时得到所有的第一项集，分别是{商品2}、{商品3}、{商品5}和{商品6}，然后再将第一项集进行自连接，得到所有第二候选集为：{商品2，商品3}、{商品2，商品5}、{商品2，商品6}、{商品3，商品5}、{商品3，商品6}和{商品5，商品6}，计算它们的支持度，发现只有{商品2，商品5}(0.375＝3/8)和{商品3，商品6}(0.375＝3/8)的支持度大于预先定义支持度阈值0.3，因此得到所有的频繁项集为{商品2，商品5}和{商品3，商品6}，此时这俩集合已经不满足连接的要求(当两个集合有且仅有一个元素不相同，其余都相同时，才可进行连接)。

3)求关联规则：根据上一步得到的频繁项集，可以得到4条规则：(商品2商品5)、(商品5商品2)、(商品3商品6)和(商品6商品3)，其中以货架A中商品作为规则前项的有两条，分别是(商品2商品5)和(商品3商品6)。计算它俩的置信度，CON(商品2商品5)＝0.375/0.375＝1.0，同理CON(商品3商品6)＝1.0，假使预先定义的置信度阈值为0.4，则最终得到两条从货架A到货架B的规则。

4)计算亲密度：货架A和货架B之间总共可能的关联规则数为3×3＝9，而实际上得到2条规则，若计算出货架A和货架B之间的亲密度r大于预先定义的亲密度，则可以认为货架A与货架B具有亲密关系，在摆放货架时可以将货架A和货架B放在一起。

作为优选实施例，还可以计算出所有货架与货架A的亲密度，然后按照亲密度大小排序，亲密度越大则摆放位置距货架A越近。

综上所述，实施本发明实施例，具有如下有益效果：

本发明实施例提供了一种基于Apriori算法挖掘二维数据间关联规则的方法，通过获取关系型数据库中的二维连续型数据表，对二维连续型数据表进行离散化处理，得到二维离散化数据表，然后通过Apriori算法挖掘出二维离散化数据表中各数据之间的频繁项集，并生成频繁项集的关联规则，同时计算每一条规则的置信度，最后根据亲密度计算公式、每一条规则的置信度以及频繁项集的关联规则，计算得到二层级数据的关联规则，可以挖掘二维数据表属性之间的关联规则，从而确定属性间的亲密关系。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于Apriori算法挖掘二维数据间关联规则的方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于Apriori算法挖掘二维数据间关联规则的方法，其特征在于，所述亲密度计算公式为：

为实际挖掘出的带权重的关联规则数。

3.如权利要求1所述的基于Apriori算法挖掘二维数据间关联规则的方法，其特征在于，所述频繁项集通过以下方式获得：

4.如权利要求3所述的基于Apriori算法挖掘二维数据间关联规则的方法，其特征在于，所述支持度的计算公式为：

其中，I(I＝{i₁,i₂,...,i_j,...,i_k})为数据集合。

5.如权利要求4所述的基于Apriori算法挖掘二维数据间关联规则的方法，其特征在于，所述频繁项集的置信度计算公式为：