CN107562865A

CN107562865A - 基于Eclat的多元时间序列关联规则挖掘方法

Info

Publication number: CN107562865A
Application number: CN201710763342.2A
Authority: CN
Inventors: 张春慨
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2017-08-30
Filing date: 2017-08-30
Publication date: 2018-01-09
Also published as: WO2019041628A1

Abstract

本发明提出了一种基于Eclat的多元时间序列关联规则挖掘方法，包括：(1)生成垂直数据集；(2)生成MINHASH矩阵，MINHASH矩阵需要指定参数k；(3)利用MINHASH矩阵估计原始数据集中的候选项集；(4)根据最小支持度把候选集剪枝后得到频繁项集1；(5)在哈希频繁1项集两两合并生成新的频繁2项集；(6)循环步骤(5)直到无法合并，结束算法。本发明显著的加快关联规则挖掘速度，达到及时获取时间序列数据分析结果的目标，虽然牺牲了挖掘的精确性，但可以大大的提高挖掘效率、节约机器内存。

Description

基于Eclat的多元时间序列关联规则挖掘方法

技术领域

本发明属于数据挖掘技术领域，具体涉及一种大规模数据下的进行关联规则挖掘的方法。

背景技术

目前国内外都有一些关于近似关联规则挖掘研究，由于他们研究的侧重点不同，用的关联规则的挖掘算法不同，挖掘到的关联规则的特点也不同。一般的近似关联规则挖掘的步骤分为两个阶段，先进行预处理操作，在海量的原始数据上进行压缩，平滑，去噪，线性化近似，分割时间序列，聚类等，然后在已经处理过的数据集上进行近似关联规则挖掘算法的实施。

传统的关联规则挖掘算法针对的是离散数据，挖掘出的关联规则并不能体现时间的先后顺序。第一次应用在时间序列上的关联规则的挖掘算法的提出是在1998年Das提出的。研究对象是从单时间序列挖掘的关联规则开始，后来扩展到多时间序列的挖掘。在处理时间序列数据时，把时间序列划分成长度相等的子序列，然后为每个趋势不同的子序列分配一个符号表示。这种算法关注的子序列的趋势主要有三种，上升，下降，平衡。因此，对于不同时间长度，趋势相同的子序列并不能区分。后来学者把FP-growth算法应用在时间序列关联规则挖掘方面。FP-growth算法是一种高效可扩展的算法，通过模式增长的方式，用扩展前缀树结构FP-tree，这个概要存储结构用于存储关于频繁模式的压缩和关键信息，在很多情况下都比Apriori效果更好。后来在此基础上又出现了很多改良的算法。CFP-mine算法是基于压缩的FP树，基于约束子树的方法，减少内存的调用，并且用了数组的方法，减少了遍历次数。

最经典的关联规则挖掘算法是Agrawal于1993年提出的Apriori算法，Apriori算法是一种挖掘关联规则的频繁项集算法，通过逐层搜索的迭代算法，在每次生成候选的频繁项集的时候都要经过扫描，计数，比较，连接，剪枝这几个步骤。但是利用Apriori算法挖掘关联规则在验证候选频繁K项集的时候要对整个数据集进行扫描不止一遍，其时间效率很低。EH-Apriori挖掘算法在Apriori算法的基础上进行了两点改进，一是挖掘过程进行了预处理，二是将数据集的数据Hash到一个很大的表。后来Han等学者于2000年研究了关联规则的相关性质提出了FP-growth算法。FP-growth算法是通过建立具有前缀性质的FP-tree来仅仅遍历一遍数据库，就可以挖掘到频繁模式，从而提高挖掘效率。实验证明FP-growth算法的性能比Apriori快了一个数量级。Apriori与FP-growth均采用水平项集来挖掘数据，ZAKI于2000年提出Eclat算法，该算法采用垂直数据表示来挖掘关联规则。垂直数据表示数据集由项目和所有包含该项目的事务的标识的集合组成算法采用交叉计数的方式使得候选集的生成与支持度计数的计算可以同时完成。实践证明采用垂直数据表示的算法的性能一般优于采用水平数据表示的算法。

由于时间序列数据量大，实时产生等特点，传统数据挖掘算法无法及时有效的挖掘到所需的知识。取样是一种在普通的资源上获取近似规则的有效手段，以其在处理大规模数据集中表现出的良好性能而得到了广泛深入的研究，是提高关联规则算法效率和可扩展性的一种简单、有效的方式。常用的设计方法有直方图方法、取样方法和小波方法等。由于取样方法良好的伸缩性和灵活性使其成为构建数据流概要的一个非常重要的方法。所有这些研究的最终目标都是利用尽可能小的样本集最佳地近似原始数据集上的信息(找到合适的样本大小和最优样本集)，但这一结果的获得离不开对取样误差(数据集之间差异)的有效度量。目前缺乏系统的研究和统一、有效的模型。基于取样策略的关联规则挖掘算法，乃至整个数据挖掘算法的样本集与原始数据集之间、样本集与样本集之间包含兴趣信息差异的计算是整个取样过程的一个中心问题。

近些年一种使用局部敏感哈希(LSH)技术辅助关联规则挖掘的方法逐渐开始流行。这种方法借鉴了信息检索领域快速计算相似度的手段来优化关联规则挖掘中的步骤，从而达到快速挖掘的目的。这种方式采用哈希函数对数据进行压缩，能够比较好的处理海量数据。并且经过理论和实践的验证，数据压缩带来的信息损失可以控制在一定范围内，挖掘规则的精准性也可以得到保障。在保证一定精确度的前提下,取样方法显著减小了所处理数据集的规模，使得众多数据挖掘算法得以应用到大数据集以及数据流数据上。

发明内容

为解决现有技术中存在的问题，本发明设计了一种基于Eclat的关联规则挖掘方法，显著的加快关联规则挖掘速度，达到及时获取时间序列数据分析结果的目标，虽然牺牲了挖掘的精确性，但可以大大的提高挖掘效率、节约机器内存。

本发明具体通过如下技术方案实现：

一种基于Eclat的关联规则挖掘方法，其特征在于：所述方法包括：(1)生成垂直数据集；(2)生成MINHASH矩阵，MINHASH矩阵需要指定参数k，其意义是矩阵最多有k行；(3)利用MINHASH矩阵估计原始数据集中的候选项集；(4)根据最小支持度把候选集剪枝后得到频繁项集1；(5)在哈希频繁1项集两两合并生成新的频繁2项集；(6)循环步骤(4)、(5)直到无法合并，结束算法；其中，步骤(3)中使用MinHash估计集合交集大小，对于多个集合S₁,S₂,…S_i,…,S_m，包含最多元素的集合大小为n_max＝max_i|S_i|，集合交集大小估计值为

其中∩kmin(S_i)表示使用MinHash方法抽样形成的哈希矩阵中集合S_i的交集。

进一步地，所述步骤(1)中，在原始事务集上经过倒排得到垂直数据集。

进一步地，步骤(2)还包括释放垂直数据集以节省内存。

进一步地，所述最小支持度使用MinHash估计。

进一步地，所述方法应用于多元时间序列的关联规则挖掘。

附图说明

图1是倒排过程的示意图；

图2是生成频繁1项集的示意图；

图3是抽样过程的示意图；

图4是生成频繁2项集的示意图；

图5是MinHash计算集合交集的示意图；

图6是MinHash计算集合交集的误差示意图；

图7是固定最小元素K、调整误差E得到HashEclat的速度与准确率；

图8是固定误差E、调整最小元素K得到HashEclat的速度与准确率；

图9是在T10I4D100K上HashEclat与Eclat速度内存比较结果；

图10是在T40I10D100K上HashEclat与Eclat速度内存比较结果；

图11是在Online Retail上HashEclat与Eclat速度内存比较结果。

具体实施方式

下面结合附图说明及具体实施方式对本发明进一步说明。

由于时间序列数据量大，实时产生等特点，在挖掘关联规则之前需要对数据进行压缩，也即特征表示。时间序列的特征表示是提取数据的特征，转换数据的维度。这样能达到对特征降维的作用。同时，在低维空间中的数据还可以尽可能的保留原始时间序列的信息。

首先，本发明研究了TEO这种特征表示方法。分析时间序列的数据特点，在分段点的两边往往会有不同的变化趋势类比图像处理中图像的边缘的灰度的变化。在图像的边缘处，图像点的灰度变化率会发生变化。若时间序列上某点之前的数据有增长的趋势，该点之后的数据有减小的趋势，则在一定程度上可以认为这个点是分段点，也就是时间序列的边缘点。时间序列的TEO表示是将图像处理中的边缘检测算子与时间序列数据特点结合的一种分段线性化表示，根据设计的时间序列边缘算子与原始的时间序列数据进行卷积的计算结果。然后根据确定的选择原理从计算的边缘度结果中选择分段点，连结分段点来表示时间序列。时间序列的表示形式是X＝<x₁,x₂,…,x_n>，TEO定义如式(1)：

TEO(t.u)＝{w(i)*(x_t+i-x_t)|i＝-1,-2,...-u,0,u,...,2,1} (1)

其中2u+1表示检测窗口的长度，w(i)表示的权重函数，选择的依据是数据的特征。本发明实验采用的权重设置方法是越靠近检测窗口中心权重设置的越高。

传统的数据挖掘算法多采用水平数据表示，在水平数据表示中，数据库的一条事务由事务标识符(TID)和项目(Item)组成。事务由TID唯一标识，一条事务可以包含一个项目或多个项目。HashEclat算法使用垂直数据集来做算法的基本数据结构。这种垂直数据集是在原始事务集上经过“倒排”而成的，“倒排”构建过程如图1所示。数据库中的每一条记录由一个项目及其所出现过的所有事务记录的列表(Tidset)构成。这样使得任何一个频繁项集的支持度计数都可以通过对Tidset交集运算求得。

在形成垂直数据集之后，算法首先根据最小支持度对进行剪枝，产生频繁项集的候选1项集。这时算法需要保存每一个项目I的事务集大小，为后续计算步骤做准备。设例子的最小支持度为3，生成频繁1项集的剪枝过程如图2所示。

此时如果一个Tidset中的事务集过多，会使后续交集计算效率显著下降，并且会占用大量内存。HashEclat算法将Tidset使用MinHash方法抽样，使整个“倒排表”形成一个哈希矩阵，其抽样过程如图3所示。

图3使用哈希函数h(x)＝(x+2)mod 6，其中x为行号，相当于对矩阵行随机变化。出现1的最小行号称为最小哈希值，如I5的最小哈希值为hmin(I5)＝3。MinHash的方法需要指定参数K，其意义是选择哈希矩阵最多有K行。下图例子K等于3。因为后续步骤都是用这个哈希矩阵计算，此时就可以释放原始的“倒排表”以节省内存。

接下来，算法使用哈希频繁1项集来生成频繁2项集，先在哈希频繁1项集两两合并生成新的频繁2项集，生成过程如图4所示。(1)生成垂直数据集；(2)根据最小支持度把候选集剪枝后得到频繁项集1，在哈希频繁1项集两两合并生成新的频繁2项集；(3)循环步骤(1)(2)直到无法合并。

由于使用MinHash产生的哈希矩阵计算的交集，所以想要对原始集合的交集大小进行估计。使用MinHash估计的原理如下面的定义1可知。

定义1：使用MinHash估计交集大小。有多个集合S₁,S₂,…S_i,…,S_m，包含最多元素的集合大小为n_max＝max_i|S_i|，集合交集大小为t＝|S₁,S₁,…,S_m|，k为MinHash算法参数，当0＜ε＜1，时集合交集大小估计值，其中∩kmin(S_i)表示使用MinHash方法抽样形成的哈希矩阵中集合S_i的交集。

至少有概率满足

这种方法使我们可以在最小概率下，或者得到一个集合交集的(ε,δ)估计值，或者得到集合交集大小的上限。本发明先估算的交集大小是X＝|∩kmin(si)|n_max/k，再得到ε＝|X-A|，其中A为最小支持度，k为MinHash参数，n_max为两个集合中较大的集合与元素个数。如果估算结果X大于则估算误差是可以保证的，否则只能使用原始集合计算交集大小。

我们可以使用结果继续重复计算出所有频繁项集。最后还需要把存在误差的整体计算一遍。

(1)生成垂直数据集；(2)生成MINHASH矩阵，MINHASH矩阵需要指定参数k，其意义是矩阵最多有k行；(3)利用MINHASH矩阵估计原始数据集中的候选项集；(4)根据最小支持度把候选集剪枝后得到频繁项集1；(5)在哈希频繁1项集两两合并生成新的频繁2项集；(6)循环步骤(4)(5)直到无法合并，停止算法。

由于HashEclat算法在计算频繁项集时是通过MinHash估算的交集，所以会产生两种误差。第一种误差是原本为频繁的项集被估计为不频繁的，第二种是原本不频繁项集被估计成频繁的。不妨计算出的X为不频繁的项集(如图6：X小于A)，第一种误差为图6的Zone2，第二种误差为0，总误差为Zone2。由定理1可得，我们估计值在图6的Zone3的概率至少为所以处于Zone1(我们定义的错误)的概率至多为由图6可知Zone1>Zone2。所以我们是保守估计。可以保证估计错误的误差上界时最多是当X为频繁项集时，同理可得误差上界时最多是

由于本发明设计的近似关联规则挖掘算法是一种通用算法，不止能应用在时间序列上，所以实验采用的数据集是采用来自UCI网站的三个非序列数据集，如表1所示。

表1实验数据集

由于HashEclat需要设置误差上限E和MinHash参数最小元素数K，这两个参数对算法的计算效率和准确度都有影响。因此本发明首先在T10I4D100K数据集上设计一组实验——固定HashEclat的其中一个参数，调整另一个参数，然后观察本发明算法的速度和准确率。准确度使用F1值作为衡量标准。调整好HashEclat参数后，本发明然后在三个数据与原始Eclat算法计算速度进行了比较。

在数据集T10I4D100K上，使用最小支持度阈值为350，固定最小元素数K为100、调整误差E，F1与时间按值如图7所示。

在数据集T10I4D100K上，使用最小支持度阈值为350，固定误差E为0.8、调整最小元素数K，F1与时间按值如图8所示。

由实验可以看出来，K越小代表矩阵压缩率高，计算的数据量小。所以误差会提高(F1值降低)。正常情况下K越小，计算速度加快，但K取较小值时HashEclat不命中太多，使用原始数据合并次数多，导致时速度减慢。E代表一次合并所允许的最大容忍错误，这样E越小就命中的机会就高，命中之后使用估算的算法，所以误差高，速度快。

本发明然后在三个数据与原始Eclat算法在计算速度、运行内存进行了比较，如图9至图11所示。

通过实验验证，HashEclat算法更适宜于数据海量和时间序列流数据这类实时产生的数据。该算法可以显著的加快关联规则挖掘速度，达到及时获取时间序列数据分析结果的目标。由此可见，HashEclat算法虽然牺牲了挖掘的精确性，但可以大大的提高挖掘效率、节约机器内存。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于Eclat的关联规则挖掘方法，其特征在于：所述方法包括：(1)生成垂直数据集；(2)生成MINHASH矩阵，MINHASH矩阵需要指定参数k，其意义是矩阵最多有k行；(3)利用MINHASH矩阵估计原始数据集中的候选项集；(4)根据最小支持度把候选集剪枝后得到频繁项集1；(5)在哈希频繁1项集两两合并生成新的频繁2项集；(6)循环步骤(4)、(5)直到无法合并，结束算法；其中，步骤(3)中使用MinHash估计集合交集大小，对于多个集合S₁,S₂,…S_i,…,S_m，包含最多元素的集合大小为n_max＝max_i|S_i|，集合交集大小估计值为

2.根据权利要求1所述的方法，其特征在于：所述步骤(1)中，在原始事务集上经过倒排得到垂直数据集。

3.根据权利要求1所述的方法，其特征在于：步骤(2)还包括释放垂直数据集以节省内存。

4.根据权利要求1所述的方法，其特征在于：所述最小支持度使用MinHash估计。

5.根据权利要求1所述的方法，其特征在于：所述方法应用于多元时间序列的关联规则挖掘。