CN112131285A

CN112131285A - 一种动态时序数据的关联规则挖掘方法及装置

Info

Publication number: CN112131285A
Application number: CN202011138075.8A
Authority: CN
Inventors: 郭成; 李胜男; 王加富; 段军鹏
Original assignee: Electric Power Research Institute of Yunnan Power Grid Co Ltd
Current assignee: Electric Power Research Institute of Yunnan Power Grid Co Ltd
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2020-12-25
Anticipated expiration: 2040-10-22
Also published as: CN112131285B

Abstract

本申请提供一种动态时序数据的关联规则挖掘方法及装置，包括：获取指标对应的动态时序数据，对动态时序数据进行预处理得到待挖掘数据；根据指标构建指标网络；根据指标网络及待挖掘数据计算指标的支持度及置信度；根据支持度及置信度的计算结果判断指标是否存在关联，将存在关联的指标对应的支持度及置信度的计算结果存储至规则‑挖掘矩阵；根据置信度计算kulc度及不平衡度；根据kulc度及不平衡度的计算结果更新规则‑挖掘矩阵。本申请提供的动态时序数据的关联规则挖掘方法，能够通过构建指标网络进行挖掘，避免对数据进行区间划分，实现关联规则的挖掘，具有挖掘准确、运行迅速以及输出的关联规则更具意义的特点。

Description

一种动态时序数据的关联规则挖掘方法及装置

技术领域

本申请涉及数据挖掘领域，尤其涉及一种动态时序数据的的关联规则挖掘方法及装置。

背景技术

从大规模数据中挖掘对象之间的隐含关系被称为关联规则挖掘。关联规则可以从侧面揭示事物之间的联系，常用的关联挖掘算法均是基于频繁项集的思想进行挖掘，例如FP-growth算法和Apriori算法等。

FP-growth算法和Apriori算法在开始挖掘时，需要对数据进行转换，即对数据进行离散处理，具体的，将包括连续数据的数据集进行区间划分。

在实际应用中，区间划分的不同，往往会导致挖掘结果的不同。例如，等宽区间划分会存在因区间宽度不同而影响挖掘结果的问题，区间宽度过小，则可能导致难以挖掘出频繁项，区间宽度过大，则可能导致挖掘结果偏差较大。等频区间划分则可能导致两个相同的数值被分进了不同的区间，对挖掘结果的准确性有影响。

发明内容

本申请提供一种动态时序数据的关联规则挖掘方法及装置，以解决传统关联规则挖掘方法区间划分对挖掘结果准确性有影响的问题。

一方面，本申请提供一种动态时序数据的关联规则挖掘方法，包括：

获取指标对应的动态时序数据，对所述动态时序数据进行预处理得到待挖掘数据；

根据所述指标构建指标网络；

根据所述指标网络及所述待挖掘数据计算所述指标的支持度及置信度；

根据支持度及置信度的计算结果判断所述指标是否存在关联，将存在关联的指标对应的支持度及置信度的计算结果存储至规则-挖掘矩阵；

根据所述置信度计算kulc度及不平衡度；

根据所述kulc度及所述不平衡度的计算结果更新所述规则-挖掘矩阵。

可选的，根据所述支持度及所述置信度的计算结果判断所述指标是否存在关联的步骤包括：将支持度计算结果与支持度阈值进行对比，将置信度计算结果与置信度阈值进行对比，如果支持度计算结果满足支持度阈值且置信度计算结果满足置信度阈值，则所述指标存在关联，如果支持度计算结果不满足支持度阈值和/或置信度计算结果不满足置信度阈值，则所述指标不存在关联。

可选的，根据所述kulc度及所述不平衡度的计算结果更新所述规则-挖掘矩阵的步骤包括：将kulc度计算结果与kulc度阈值进行对比，将不平衡度计算结果与不平衡度阈值进行对比，如果kulc度计算结果不满足kulc度阈值和/或不平衡度计算结果不满足不平衡度阈值，则将kulc度对应的支持度及置信度的计算结果从规则-挖掘矩阵中删除。

可选的，所述挖掘方法限制最大频繁项阶数为2阶。

可选的，所述支持度计算公式为：

S(A,B)＝s(+A+B)+s(+A-B)+s(-A+B)+s(-A-B)+s(*A*B)；

其中，S(A,B)表示指标A及指标B的支持度，+A、-A、+B、-B、*A、*B表示经过预处理的待挖掘数据。

可选的，所述置信度计算公式为：

C(A-＞B)＝c(+A+B)+c(+A-B)+c(-A+B)+c(-A-B)+c(*A*B)；

其中，C(A-＞B)表示指标A指向指标B的置信度，+A、-A、+B、-B、*A、*B表示经过预处理的待挖掘数据。

可选的，所述规则-挖掘矩阵如下：

T＝f(R,S,C)；

其中，R为规则矩阵，S、C分别为支持度矩阵合集、置信度矩阵合集；

又有：

其中，如果指标A及指标B存在关联，则r_AB＝1，如果指标A及指标B不存在关联，则r_AB＝0；

又有：

S＝{S_AB,S_AC,S_AD...}；

C＝{C_AB,C_AC,C_AD...}；

其中：S_AB为指标A及指标B的支持度矩阵，S_AC指标A及指标C的支持度矩阵，S_AD为指标A及指标D的支持度矩阵，C_AB为指标A及指标B的置信度矩阵，C_AC为指标A及指标C的置信度矩阵，C_AD为指标A及指标D的置信度矩阵；

又有：

S_AB＝{s_+A+B,s_+A-B,s_+A*B,s_-A+B,s_-A-B,s_-A*B,s_*A+B,s_*A-B,s_*A*B}；

C_AB＝{c_+A+B,c_+A-B,c_+A*B,c_-A+B,c_-A-B,c_-A*B,c_*A+B,c_*A-B,c_*A*B}；

其中：s_+A+B,s_+A-B,s_+A*B,s_-A+B,s_-A-B,s_-A*B,s_*A+B,s_*A-B,s_*A*B表示支持度的值，c_+A+B,c_+A-B,c_+A*B,c_-A+B,c_-A-B,c_-A*B,c_*A+B,c_*A-B,c_*A*B表示置信度的值。

可选的，kulc度的计算公式如下：

其中：kulc(A,B)表示指标A及指标B的kulc度，C(A-＞B)为A指向B的置信度，C(B-＞A)为B指向A的置信度。

可选的，不平衡度的计算公式如下：

其中：IR(A,B)表示指标A及指标B的不平衡度，C(A-＞B)为A指向B的置信度，C(B-＞A)为B指向A的置信度。

另一方面，本申请还提供一种动态时序数据的关联规则挖掘装置，包括：

预处理模块，用于获取指标对应的动态时序数据，对所述动态时序数据进行预处理得到待挖掘数据；

指标网络构建模块，用于根据所述指标构建指标网络；

第一计算模块，用于根据所述指标网络及所述待挖掘数据计算所述指标的支持度及置信度；

矩阵输出模块，用于根据支持度及置信度的计算结果判断所述指标是否存在关联，将存在关联的指标对应的支持度及置信度的计算结果存储至规则-挖掘矩阵；

第二计算模块，用于根据所述置信度计算kulc度及不平衡度；

矩阵更新模块，用于根据所述kulc度及所述不平衡度的计算结果更新所述规则-挖掘矩阵。

由以上技术方案可知，本申请提供一种动态时序数据的关联规则挖掘方法及装置，包括：获取指标对应的动态时序数据，对动态时序数据进行预处理得到待挖掘数据；根据指标构建指标网络；根据指标网络及待挖掘数据计算指标的支持度及置信度；根据支持度及置信度的计算结果判断指标是否存在关联，将存在关联的指标对应的支持度及置信度的计算结果存储至规则-挖掘矩阵；根据置信度计算kulc度及不平衡度；根据kulc度及不平衡度的计算结果更新规则-挖掘矩阵。本申请提供的动态时序数据的关联规则挖掘方法，能够通过构建指标网络进行挖掘，避免对数据进行区间划分，实现关联规则的挖掘，具有挖掘准确、运行迅速以及输出的关联规则更具意义的特点。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一种动态时序数据的关联规则挖掘方法流程示意图；

图2为本申请指标网络一种实施例示意图；

图3为本申请一种动态时序数据的关联规则挖掘方法测试结果图；

图4为本申请一种动态时序数据的关联规则挖掘方法又一测试结果图；

图5为本申请一种动态时序数据的关联规则挖掘装置结构示意图。

具体实施方式

下面将详细地对实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的系统和方法的示例。

本申请提供一种动态时序数据的关联规则挖掘方法及装置，具体的，所述挖掘方法及装置基于频繁项集的思想。项的集合称为项集(数据集)，包含k个项的项集称为k-项集。项集的出现频率(支持计数)是项集的事务数，简称为项集的频率、支持度、支持率计数或者计数。如果项集I的相对出现频率大于等于预定义的最小支持度阈值，则I是频繁项集。

参见图1，为本申请一种动态时序数据的关联规则挖掘方法流程示意图。由图1可知。本申请提供的一种动态时序数据的关联规则挖掘方法，包括以下步骤：

S1：获取指标对应的动态时序数据，对所述动态时序数据进行预处理得到待挖掘数据。

动态时序数据是指随着时间的变化而改变的数据。以指标A为例，对于指标A对应的动态时序数据，预处理过程即为，如果所述动态时序数据某一时刻的数值大小相对于前一时刻增加，则记为“+”，相对于前一时刻减小，则记为“-”，相对于前一时刻相同，则记为“*”。对所述动态时序数据进行预处理后，即可得到待挖掘数据。在实际应用中，对动态时序数据的预处理还包括数据清洗及数据去耦合等步骤，本申请不作具体限定。

S2：根据所述指标构建指标网络。

参见图2，为本申请指标网络一种实施例示意图。由图2可知，本申请构建的指标网络为无向全连接网络，把所有待挖掘的指标均压缩进指标网络，可以实现指标之间的连接，即每个指标之间均存在连接关系。例如，图中示出了A～P共16个指标，每个指标之间均实现了连接，在挖掘过程中，可以达到每两个指标均进行挖掘的目的。压缩进指标网络的指标数可以根据实际需要进行设计，因此无向全连接网络具有使用灵活，连接效果好的特点，并且通过指标网络可以避免对数据进行离散化处理，减少了离散化处理对挖掘产生的影响。

S3：根据所述指标网络及所述待挖掘数据计算所述指标的支持度及置信度；

支持度，可以理解为支持的程度，表示前项与后项在一个数据集中出现的频率。置信度，也称可靠度、置信水平或置信系数，具体指总体参数值落在样本统计值某一区内的概率。在实际应用中，通过所述指标网络可以计算任意指标之间的支持度与置信度。具体的，所述挖掘方法限制最大频繁项阶数为2阶，即限制指标网络挖掘阶数为2。即，计算每两个指标之间的支持度与置信度。对最大频繁项进行阶数进行限制，可以避免规则的冗余。

以指标A及指标B为例，所述支持度的计算公式为：

S(A,B)＝s(+A+B)+s(+A-B)+s(-A+B)+s(-A-B)+s(*A*B)；

所述置信度的计算公式为：

C(A-＞B)＝c(+A+B)+c(+A-B)+c(-A+B)+c(-A-B)+c(*A*B)；

对于指标A及指标B，增大、减小和相同三种情况随机且互斥，只有当发生指标A增大且指标B也增大、指标A增大指标B减小、指标A增大指标B不变、指标A减小指标B增大、指标A减小且指标B也减小、指标A减小指标B不变、指标A不变指标B增大、指标A不变指标B减小以及指标A不变且指标B也不变几种情况时，才能判断两指标之间可能存在关联。对几种情况进行表示即是支持度计算公式示出的+A+B、+A-B、+A*B、-A+B、-A-B、-A*B、*A+B、*A-B、*A*B。

S4：根据支持度及置信度的计算结果判断所述指标是否存在关联，将存在关联的指标对应的支持度及置信度的计算结果存储至规则-挖掘矩阵。

具体还包括如下步骤：将支持度计算结果与支持度阈值进行对比，将置信度计算结果与置信度阈值进行对比，如果支持度计算结果满足支持度阈值且置信度计算结果满足置信度阈值，则所述指标存在关联，如果支持度计算结果不满足支持度阈值和/或置信度计算结果不满足置信度阈值，则所述指标不存在关联。即，只有当支持度的计算结果和置信度的计算结果均满足相应阈值时，才能得出两个指标存在关联。在实际应用中，所述支持度阈值以及所述置信度阈值的具体数值可以根据实际需要进行设计。

进一步的，所述规则-挖掘矩阵如下：

T＝f(R,S,C)；

其中，R为规则矩阵，S、C分别为支持度矩阵合集、置信度矩阵合集。

又有：

其中，如果指标A及指标B存在关联，则r_AB＝1，如果指标A及指标B不存在关联，则r_AB＝0；在实际应用中，根据两指标是否存在关联填充所述规则矩阵R即可。

又有：

S＝{S_AB,S_AC,S_AD...}；

C＝{C_AB,C_AC,C_AD...}；

又有：

S_AB＝{s_+A+B,s_+A-B,s_+A*B,s_-A+B,s_-A-B,s_-A*B,s_*A+B,s_*A-B,s_*A*B}；

C_AB＝{c_+A+B,c_+A-B,c_+A*B,c_-A+B,c_-A-B,c_-A*B,c_*A+B,c_*A-B,c_*A*B}；

通过支持度与置信度建立的规则-挖掘矩阵还存在一些意义较小的关联规则，需要进一步的进行筛选。具体如下：

S5：根据所述置信度计算kulc度及不平衡度。

具体的，kulc度的计算公式如下：

不平衡度的计算公式如下：

在实际应用中，上述计算过程避开了支持度的计算，因此不会受零和事务的影响。不平衡度通过计算两个指标相互影响的情况能较好的筛去不平衡的规则。

S6：根据所述kulc度及所述不平衡度的计算结果更新所述规则-挖掘矩阵。

具体还包括如下步骤：将kulc度计算结果与kulc度阈值进行对比，将不平衡度计算结果与不平衡度阈值进行对比，如果kulc度计算结果不满足kulc度阈值和/或不平衡度计算结果不满足不平衡度阈值，则将kulc度对应的支持度及置信度的计算结果从规则-挖掘矩阵中删除。即，如果kulc度及不平衡度的计算结果存在不符合阈值的情况，其对应的规则即为不平衡规则，需要将所述kulc度计算结果对应的指标从规则-挖掘矩阵中删除。随着指标网络的挖掘，规则-挖掘矩阵也不断更新，直至挖掘结束。在实际应用中，所述kulc度阈值以及所述不平衡度阈值可以根据实际情况进行确定。通过输出规则-挖掘矩阵即可实现关联规则的挖掘。随着挖掘的进行不断更新规则-挖掘矩阵，直至挖掘结束。

参见图3，为本申请一种动态时序数据的关联规则挖掘方法测试结果图。参见图4，为本申请一种动态时序数据的关联规则挖掘方法又一测试结果图。将本申请提供的关联规则挖掘方法与FP-growth算法及Apriori算法进行对比，将本申请的挖掘方法命名为DBARMA算法，各算法的参数设置如下：

(1)DBARMA：S_min＝0.5％，C_min＝75％，Kluc＝35％；

(2)Apriori：S_min＝0.5％，C_min＝75％，Kluc＝35％；

(3)FP-growth：S_min＝0.5％，C_min＝75％，Kluc＝35％；

其中，S_min表示支持度阈值，C_min表示置信度阈值，Kluc表示kulc度阈值。

在相同条件下，采用包含1382000条数据的数据库，取S_min＝0.5％，对算法进行运行速度测试。由图3可知，在小规模数据的情况下，由于DBARMA算法需要构建指标网络，因此相对于FP-growth算法及Apriori算法速度较慢，但随着数据量的增大，DBARMA算法在运行速度方面体现出了一定的优势。在相同条件下，采用包含1382000条数据的数据库，取S_min＝0.5％，C_min＝75％，采用Kluc＝35％，不平衡度{0.6～2}对关联规则进行过滤，进而对算法进行性能测试。由图4可知，在小规模数据下集中算挖的挖掘结果经过kulc度和所述不平衡度的过滤得到的规则数量无太大差别，但随着数据规模的增大，基于指标网络的DBARMA算法与其余两种算法相比，在相同参数、相同过滤条件下，能够得到较多有意义的关联规则。

基于上述动态时序数据的关联规则挖掘方法，本申请还提供一种动态时序数据的关联规则挖掘装置。参见图5，为本申请一种动态时序数据的关联规则挖掘装置结构示意图。由图5可知，所述装置包括：

指标网络构建模块，用于根据所述指标构建指标网络；

第二计算模块，用于根据所述置信度计算kulc度及不平衡度；

由以上技术方案可知，本申请提供一种动态时序数据的关联规则挖掘方法及装置，包括：获取指标对应的动态时序数据，对所述动态时序数据进行预处理得到待挖掘数据；根据所述指标构建指标网络；根据所述指标网络及所述待挖掘数据计算所述指标的支持度及置信度；根据支持度及置信度的计算结果判断所述指标是否存在关联，将存在关联的指标对应的支持度及置信度的计算结果存储至规则-挖掘矩阵；根据所述置信度计算kulc度及不平衡度；根据所述kulc度及所述不平衡度的计算结果更新所述规则-挖掘矩阵。本申请提供的动态时序数据的关联规则挖掘方法，能够通过构建指标网络进行数据挖掘，避免对数据进行区间划分，在不断挖掘过程中更新并输出规则-挖掘矩阵，以实现关联规则的挖掘。在实际应用中，具有挖掘准确、运行迅速以及输出的关联规则更具意义的特点。

本申请提供的实施例之间的相似部分相互参见即可，以上提供的具体实施方式只是本申请总的构思下的几个示例，并不构成本申请保护范围的限定。对于本领域的技术人员而言，在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

Claims

1.一种动态时序数据的关联规则挖掘方法，其特征在于，包括：

根据所述指标构建指标网络；

根据所述置信度计算kulc度及不平衡度；

2.根据权利要求1所述的动态时序数据的关联规则挖掘方法，其特征在于，根据所述支持度及所述置信度的计算结果判断所述指标是否存在关联的步骤包括：将支持度计算结果与支持度阈值进行对比，将置信度计算结果与置信度阈值进行对比，如果支持度计算结果满足支持度阈值且置信度计算结果满足置信度阈值，则所述指标存在关联，如果支持度计算结果不满足支持度阈值和/或置信度计算结果不满足置信度阈值，则所述指标不存在关联。

3.根据权利要求1所述的动态时序数据的关联规则挖掘方法，其特征在于，根据所述kulc度及所述不平衡度的计算结果更新所述规则-挖掘矩阵的步骤包括：将kulc度计算结果与kulc度阈值进行对比，将不平衡度计算结果与不平衡度阈值进行对比，如果kulc度计算结果不满足kulc度阈值和/或不平衡度计算结果不满足不平衡度阈值，则将kulc度对应的支持度及置信度的计算结果从规则-挖掘矩阵中删除。

4.根据权利要求1所述的动态时序数据的关联规则挖掘方法，其特征在于，所述挖掘方法限制最大频繁项阶数为2阶。

5.根据权利要求1所述的动态时序数据的关联规则挖掘方法，其特征在于，所述支持度计算公式为：

S(A,B)＝s(+A+B)+s(+A-B)+s(-A+B)+s(-A-B)+s(*A*B)；

6.根据权利要求1所述的动态时序数据的关联规则挖掘方法，其特征在于，所述置信度计算公式为：

C(A-＞B)＝c(+A+B)+c(+A-B)+c(-A+B)+c(-A-B)+c(*A*B)；

7.根据权利要求1所述的动态时序数据的关联规则挖掘方法，其特征在于，所述规则-挖掘矩阵如下：

T＝f(R,S,C)；

又有：

又有：

S＝{S_AB,S_AC,S_AD...}；

C＝{C_AB,C_AC,C_AD...}；

又有：

S_AB＝{s_+A+B,s_+A-B,s_+A*B,s_-A+B,s_-A-B,s_-A*B,s_*A+B,s_*A-B,s_*A*B}；

C_AB＝{c_+A+B,c_+A-B,c_+A*B,c_-A+B,c_-A-B,c_-A*B,c_*A+B,c_*A-B,c_*A*B}；

8.根据权利要求1所述的动态时序数据的关联规则挖掘方法，其特征在于，kulc度的计算公式如下：

9.根据权利要求1所述的动态时序数据的关联规则挖掘方法，其特征在于，不平衡度的计算公式如下：

10.一种动态时序数据的关联规则挖掘装置，其特征在于，包括：

指标网络构建模块，用于根据所述指标构建指标网络；

第二计算模块，用于根据所述置信度计算kulc度及不平衡度；