CN103593400A

CN103593400A - 一种基于改进Apriori算法的雷电活动数据统计方法

Info

Publication number: CN103593400A
Application number: CN201310480978.8A
Authority: CN
Inventors: 王卫民; 李婧; 雷欣; 田社教; 高莹
Original assignee: SHAANXI PROVINCIAL METEOROLOGICAL BUREAU
Current assignee: SHAANXI PROVINCIAL METEOROLOGICAL BUREAU
Priority date: 2013-12-13
Filing date: 2013-12-13
Publication date: 2014-02-19

Abstract

本发明提供的一种基于改进Apriori算法的雷电活动数据统计方法，通过：1）计算加权支持度与加权置信度；2)垂直位矢量格式转换；3)频繁二项图生成；4）候选项集挖掘这四个步骤，结合实际需求对各项目赋予适当权值，将原有支持度与置信度改进为更符合实际的加权支持度与加权置信度。另外，算法使用位矢量垂直数据格式存储项目信息，节省存储空间并提高I/O效率，改进后的算法基于自顶向下的思想，利用频繁二项有向图首先找到满足支持度与置信度要求的最长频繁项集，再根据频繁集性质生成所有符合要求的频繁集。该算法不仅在空间和时间上提高Apriori算法的效率，还更贴合实际需求。

Description

一种基于改进Apriori算法的雷电活动数据统计方法

技术领域

本发明属于激光技术领域，具体涉及一种基于改进Apriori算法的雷电活动数据统计方法。

背景技术

随着计算机网络的迅速发展和数据库技术日渐成熟，人们采集利用数据的能力得到了极大提高，为了从这些大量的、随机的实际应用数据中，抽取出能为人们所利用的信息，数据挖掘技术就应运而生。数据挖掘又称为知识发现，是目前数据库的主要研究方向，是指从大量的、不完整的、有噪声的、模糊的、随机的大型数据中寻找潜在的、不为人们事先知道的、具有潜在价值的模式或知识的过程。

由R.Agrawal等人于1993年提出的关联规则是数据挖掘领域的一个重要内容。关联规则挖掘是指从大量的数据集项间挖掘出有意义的关联关系，从而为各种决策提供有价值的信息。现有的各种关联规则挖掘算法大致可分为层次法、抽样法、搜索法、数据集划分法等。

Apriori算法是挖掘完全频繁项集中最具有影响力的方法之一，主要有两个关键步骤：一是根据最小支持度在大量事务中寻找所有的频繁项集；二是根据最小置信度生成频繁项集强关联规则。其核心思想是通过项目集数目不断增长来逐步完成频繁项目集的发现，搜索出用于求得关联规则的频繁项目集L。

Apriori算法具体步骤为：在第一趟扫描数据库时，搜索出所有支持度大于等于最小支持度的项集组成频繁1项集L₁，然后是频繁2项集L₂，直到有某个值使L_r为空时算法结束。在第k趟扫描中，首先以K-1趟扫描中所发现的频繁集L_k-1作为种子集来生成新的潜在的K-强项集的集合，即候选集C_k，C_k中的每一个项集是对两个只有一个项不同的属于L_k-1的频集做一个（k-2）连接来产生的，计算这些候选集的支持度，最后从候选集C_k确定出满足最小支持度的频繁K项集L_k，并将L_k作为下一趟扫描的种子集。

Apriori算法中候选项集是逐层迭代产生的，而产生每一层的频集必须要扫描整个数据库一次, 然后再结合频集产生下一层级的候选项集合，直到频集无法结合产生候选项集。整个过程需要很大的I/O开销。在实际应用中数据量很大，故而每个阶段会产生大量候选项集（尤其是2-项集），多次扫描庞大的数据，效率往往比较低。为了提高Apriori算法的效率，国内外数据挖掘领域的专家、学者不断对其理论及方法进行优化和改进，提出了很多计算效率高、适用性强的新型挖掘算法，例如：Savasere 提出的 Partition 算法、Toivonen 提出的 Sampling 算法、Park提出的利用 DHP 哈希技术的改进算法和Jiawei Han提出的FP-Growth算法等。这些算法虽然对Apriori的改进都大有裨益，但依然还存在一些不足。

发明内容

本发明的目的在于针对现有Apriori算法的不足，提出一种基于改进Apriori算法的雷电活动数据统计方法。该算法不仅在空间和时间上提高Apriori算法的效率，还更贴合实际需求。为实现上述目的，本发明采用基于有向图与加权关联规则的优化策略对Apriori算法进行改进。

为达上述目的，本发明提供了本发明结合实际需求对各项目赋予适当权值，将原有支持度与置信度改进为更符合实际的加权支持度与加权置信度。并利用频繁二项有向图寻找所有符合要求的频繁集，即基于有向图与加权关联规则的Apriori算法的优化方法，主要实现步骤是：

步骤1，计算加权支持度与加权置信度子算法：为每个项目赋予[0,1]之间一个非负实数作为权值，以体现该项目的重要度，并根据该权值计算各项集的权重，进而推出项集的加权支持度与加权置信度。

本发明中所涉及的支持度与置信度定义如下：项目集合I={ i1, i2, …, im}是由m个不同的项组成。交易数据库D中每一笔交易都是I的一个子集.关联规则的形式为X =>Y，其中X∈I，Y∈I，且X∩Y=

Figure 2013104809788100002DEST_PATH_IMAGE001

，它的支持度sup(XUY)为XUY在交易数据库中出现的概率，它的信任度conf( XUY)为在某交易中包含X前提下同对也包含Y的概率．也就是说，关联规则X =>Y的支持度为数据库中包含XUY的交易数与总交易数之比；关联规则的信任度为数据库中包含XUY的交易数与包含X的交易数之比。

步骤2，垂直位矢量格式转换子算法：将原水平数据格式{事务标志：事务项集}转化为垂直数据格式{项：事务集}，然后扫描数据库一次，计算出符合加权支持度与加权置信度的频繁项，并设置它们相应的位矢量。具体做法为：如果该事务中存在对应的项免则设置对应项为1，否则设置对应项为0，当检查完所有事务集合每个项对应一个二进制位串。然后按照支持数从高到低排序将数据库中的项目（节点）映射到位图。

步骤3，频繁二项图生成子算法：根据频繁项计算出符合关联规则的频繁2项集，以各个满足频繁2项集的项目作为节点，绘制出表示各个项目之间关系的有向图。具体方法为：将得到的位图中1出现次数最多的节点放在最上层，若某两项在一次事务中同时出现，并且出现的次数满足最小支持度要求（大于或等于最小支持度），则在有向图中这两个节点之间画一条边。边上用二进制字符串表示（二进制字符串通过两个节点求与运算得到，其中串中1的个数表示这两个节点同时出现的次数）。

步骤4，候选项集挖掘子算法：通过对频繁2项图的深度优先遍历，找到该图的最长路径，即为最长频繁项集，继而根据任何强项集的子集必定是强项集的性质，找出所有频繁集。

本发明和现有技术相比，具有以下优点：

本发明中优化的新算法结合实际需求对各项目赋予适当权值，克服了将数据库中的各个项目按照平等的方式进行处理的缺陷，将原有支持度与置信度改进为更符合实际的加权支持度与加权置信度。能够挖掘出能带来更大利润的项目，使得挖掘出的关联规则更加满足决策者的需求，也更加符合实际需要。

本发明使用位矢量垂直数据格式存储项目信息，整个过程只需扫描数据库一次。解决原始算法中多次迭代重复扫描数据库大量数据并消耗I/O的问题，极大提高计算机执行效率。

本发明改进后的算法基于自顶向下的思想，利用频繁二项有向图首先找到满足支持度与置信度要求的最长频繁项集，再根据频繁集性质生成所有符合要求的频繁集。基于图的频繁项集挖掘不需对侯选项目集进行存储，因此极大节省了系统的存储开销。

下面，结合实施例及其附图，对本算法做进一步详细说明。

附图说明

图1是垂直位矢量转换流程图。

图2是根据具体事务集得到的有向图。

图3是从有向图中寻找候选项集的流程图。

具体实施方式

实施例1

本发明采用基于有向图与加权关联规则的优化策略对Apriori算法进行改进，即基于有向图与加权关联规则的Apriori算法的优化方法，首先要计算加权支持度与加权置信度：

设I={ i1, i2, …, im}，对应i的权值向量W={ w1, w2, …, wm },第 i个事务ti是I的一个子集，ti中第j个项目（记作ti [ij]）都有一个权值w。这样每一个项目都与W中的一个值对应起来。

项集事务权值是一个数据库中项目集中各项目的权值汇总，项目集X在事务ti中的项目权值计算为：

加权支持度是事务数据库中包含该项目的事务项集权值的汇总：

Figure 2013104809788100002DEST_PATH_IMAGE003

其中NX是X在数据库中出现的计数；n是总记录数。

加权置信度是事务数据库中满足X∪Y 的加权支持度与包含X的加权支持度的比值

实施例2

本发明采用基于有向图与加权关联规则的优化策略对Apriori算法进行改进。算法采用位矢量结构存储，对于每个频繁集有一个位矢量与之对应，故位矢量的位数就是数据库的事务总数。算法只扫描数据库一次，计算出频繁项并设置它们对应的位矢量。

例如：事务数据库为{<T1(I1,I2, I5)>，<T2(I2, I4)>，<T3(I2, I3)>，<T4(I1,I2, I4)>，<T5(I1, I3)>，<T6(I2, I3)>，<T7(I1,I3)>，<T8(I1,I2,I3,I5)>，<T9(I1,I2,I3)>}

参照图2. 具体做法为：

如果该事务中存在对应的项则设置对应项为1，否则设置对应项为0，当检查完所有事务集合每个项对应一个二进制位串。然后按照支持数从高到低排序将数据库中的项目（节点）映射到位图。设最小支持度计数是2，则在本数据库中频繁项是i₁，i₂，i₃，i₄，i₅。对应B_i1=(100110111)，B_i2=(111101011)，B_i3=(0010lllll)，B_i4=(010100000)，B_i5=(100000010)。

整个过程只扫描一次数据库之后将不再扫描，对频繁项集的挖掘都集中在位矢量上，从而大大提高了速度。

实施例3

基于有向图与加权关联规则的Apriori算法优化对进行改进构造矢量位图的方法同实施例2。在步骤3中所述建立频繁二项图。本例中结合图1，具体介绍有向图的构造方法。将得到的位图中1出现次数最多的节点放在最上层，若某两项在一次事务中同时出现，并且出现的次数满足最小支持度要求（大于或等于最小支持度），则在有向图中这两个节点之间画一条边。边上用二进制字符串表示（二进制字符串通过两个节点求与运算得到，其中串中1的个数表示这两个节点同时出现的次数）。结合实施例2中的事务数据库实例，建立频繁有项图见图2.

实施例4

基于有向图与加权关联规则的Apriori算法优化建立频繁二项图同实施例3。图中的每一个顶点代表一个频繁1项集，利用频繁l项集生成有向图，图中的每一条边代表一个频繁2项集，根据频繁项集理论，所求的频繁项集必然包含这些频繁2项集。频繁项集是由这些频繁2项集扩展而来的，所以频繁项集只存在于图2的连通路径中，因此可以从图中最长的连通路径开始向下寻找候选项集，具体步骤为：

1)对图2做深度优先遍历，并记录最长路径D(可能有多条)；

2)D中路径长度为l，如果l=0，说明找不到频繁项集，否则，当l>0时，执行3)；

3)计算D中每一条路径的加权支持度，找出所有满足最小支持度的路径，若存在，它们就是频繁项集，算法到此结束。否则执行4)；

4)对于D中的每一条路径，找出所有路径的长度为l-1的子集，并利用图1验证它们是否连通，若为连通路径，将该路径记录在D中，返回2)。

以上例举仅仅是对本发明的举例说明，并不构成对本发明的保护范围的限制，凡是与本发明相同或相似的设计均属于本发明的保护范围之内。

Claims

1.一种基于改进Apriori算法的雷电活动数据统计方法，其特征在于,包括以下步骤：

1）、计算加权支持度与加权置信度：为每个项目赋予[0,1]之间一个非负实数作为权值，以体现该项目的重要度，并根据该权值计算各项集的权重，进而推出项集的加权支持度与加权置信度，所述支持度与置信度定义是：项目集合I={ i₁, i₂, …, i_m}是由m个不同的项组成，交易数据库D中每一笔交易都是I的一个子集，关联规则的形式为X =>Y，其中X∈I，Y∈I，且X∩Y=，X的支持度sup(XUY)为XUY在交易数据库中出现的概率，X的信任度conf( XUY)为在某交易中包含X前提下同对也包含Y的概率．也就是说，关联规则X =>Y的支持度为数据库中包含XUY的交易数与总交易数之比；关联规则的信任度为数据库中包含XUY的交易数与包含X的交易数之比；

2)、垂直位矢量格式转换：将原水平数据格式{事务标志：事务项集}转化为垂直数据格式{项：事务集}，然后扫描数据库一次，计算出符合加权支持度与加权置信度的频繁项，并设置它们相应的位矢量；

3)、频繁二项图生成：根据频繁项计算出符合关联规则的频繁2项集，以各个满足频繁2项集的项目作为节点，绘制出表示各个项目之间关系的有向图；

4）候选项集挖掘：通过对频繁2项图的深度优先遍历，找到该图的最长路径，即为最长频繁项集，继而根据任何强项集的子集必定是强项集的性质，找出所有频繁集。

2.如权利要求1所述基于改进Apriori算法的雷电活动数据统计方法，其特征在，所述步骤2）的具体过程是：如果该事务中存在对应的项免则设置对应项为1，否则设置对应项为0，当检查完所有事务集合每个项对应一个二进制位串，然后按照支持数从高到低排序将数据库中的项目映射到位图。

3.如权利要求1所述基于改进Apriori算法的雷电活动数据统计方法，其特征在，所述步骤3）的具体过程是：将得到的位图中1出现次数最多的节点放在最上层，若某两项在一次事务中同时出现，并且出现的次数满足最小支持度要求，大于或等于最小支持度，则在有向图中这两个节点之间画一条边，边上用二进制字符串表示，二进制字符串通过两个节点求与运算得到，其中串中1的个数表示这两个节点同时出现的次数。

4.如权利要求1所述基于改进Apriori算法的雷电活动数据统计方法，其特征在，加权支持度与加权置信度的具体计算过程是：

设I={ i1, i2, …, im}，对应i的权值向量W={ w1, w2, …, wm },第 i个事务ti是I的一个子集，ti中第j个项目（记作ti [ij]）都有一个权值w，

这样每一个项目都与W中的一个值对应起来，项集事务权值是一个数据库中项目集中各项目的权值汇总，项目集X在事务ti中的项目权值计算为：

其中NX是X在数据库中出现的计数；n是总记录数；

加权置信度是事务数据库中满足X∪Y 的加权支持度与包含X的加权支持度的比值：

。

5.如权利要求2所述基于改进Apriori算法的雷电活动数据统计方法，其特征在，所述步骤2）的具体过程是：于有向图与加权关联规则的Apriori算法的优化方法，其特征在，如果该事务中存在对应的项则设置对应项为1，否则设置对应项为0，当检查完所有事务集合每个项对应一个二进制位串，然后按照支持数从高到低排序将数据库中的项目节点映射到位图，设最小支持度计数是2，则在本数据库中频繁项是i₁，i₂，i₃，i₄，i₅；

对应B_i1=(100110111)，B_i2=(111101011)，B_i3=(0010lllll)，B_i4=(010100000)，B_i5=(100000010)。

6.如权利要求1所述基于改进Apriori算法的雷电活动数据统计方法，其特征在，所述步骤4）的具体过程是，（1）频繁2项集做深度优先遍历，并记录最长路径D；

（2)D中路径长度为l，如果l=0，说明找不到频繁项集，否则，当l>0时，执行（3)；

（3)计算D中每一条路径的加权支持度，找出所有满足最小支持度的路径，若存在，它们就是频繁项集，算法到此结束；

否则执行（4)；

（4)对于D中的每一条路径，找出所有路径的长度为l-1的子集，并利用图1验证它们是否连通，若为连通路径，将该路径记录在D中，返回（2)。