CN101667197A

CN101667197A - 基于滑动窗口的数据流关联规则挖掘方法

Info

Publication number: CN101667197A
Application number: CN200910152876A
Authority: CN
Inventors: 寿黎但; 胡天磊; 陈珂; 陈刚; 严澄
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2009-09-18
Filing date: 2009-09-18
Publication date: 2010-03-10

Abstract

本发明公开了一种基于滑动窗口的数据流关联规则挖掘方法。利用流数据库管理系统的输入输出机制，将应用产生的原始数据流接入流数据库管理系统。在流数据库管理系统中建立数据流预处理应用环境，并将处理后的输出数据流传递给关联规则挖掘系统。使用关联规则挖掘系统时，用户通过设置滑动窗口大小、步长，关联规则的最小支持度、置信度及其相应的误差值确定关联规则查询条件。关联规则挖掘系统将产生的关联规则实时输出给外部设备。利用数据流上关联规则挖掘的现有研究及实现成果，提出基于滑动窗口的数据流关联规则方法，在已有的流数据库管理系统上，使用者可以根据应用需求选择合适的查询参数，获得最好的性能。

Description

基于滑动窗口的数据流关联规则挖掘方法

技术领域

本发明涉及流数据库管理系统、数据流挖掘及关联规则挖掘，特别是涉及一种基于滑动窗口的数据流关联规则挖掘方法。

背景技术

随着互联网技术的发展，数据信息呈现爆炸式增长。在这些数据背后，往往蕴含着丰富的信息和知识，可以广泛用于各种应用，如商务管理、市场分析、科学探索等。而当数据信息以一种连续、无限的形式到达时，其蕴含的知识便会随着时间的推移而不断更新。

数据挖掘领域的关联规则挖掘技术在传统应用中已经相当成熟，其基于事务数据模型的各种挖掘方法可以快速发现海量存储中的数据相关性。随着新的应用环境的变化，特别是在基于数据流的大量应用中，关联规则挖掘的研究逐渐受到人们的重视。数据流应用有别于传统应用的显著特点是数据的高速、实时性，同时在存储代价昂贵的约束下不可避免地存在易失性。此外，时间上最新的数据往往蕴含着更高的价值，如证券金融市场的交易分析等。

在数据流上的关联规则挖掘研究方面，如Top-k，频繁项以及基于事务模型的频繁项集挖掘等都取得了很多有益的成果。但是，由于很多数据流应用中并不存在明确的事务概念，目前还缺乏针对最近时间内数据流关联规则挖掘的有效解决方案。而现有的流数据库管理系统如StreamBase，Coral8等，都只是提供一系列针对数据流处理的基本功能，如属性域的数值计算，滑动窗口，数据流的Join等，无法完成复杂的数据挖掘功能。

基于滑动窗口的数据流关联规则挖掘方法，是结合现有流数据库管理系统，并在改进数据流关联规则挖掘方法基础上的一种实现。

发明内容

本发明的目的在于提供一种基于滑动窗口的数据流关联规则挖掘方法。

本发明解决其技术问题采用的技术方案的步骤如下：

1)根据应用对数据流的实时性、可靠性以及吞吐率的要求，选择一个满足数据流预处理的流数据库管理系统；

2)开发一个数据流关联规则挖掘系统实现与上述步骤1)中选取的流数据库管理系统的交互；

3)分析应用主题域，根据要进行关联规则挖掘的原始数据项特征，确定数据抽象和归一化的预处理方法，部署在步骤1)选定的流数据库管理系统；

4)根据应用对关联规则挖掘的需求，确定滑动窗口和滑动步长的大小，确定关联规则挖掘的最小支持度和置信度以及相应允许的误差值；

5)数据流关联规则挖掘系统根据可视化配置参数对最近一段时间内的数据流进行关联规则挖掘，并实时输出挖掘得到的关联规则。

所述步骤1)中选用的流数据库管理系统应满足以下条件：a)支持数据流的多源输入输出控制；b)支持数据流域值的数值计算；c)支持数据流的连续查询；d)支持数据流的滑动窗口操作。

所述步骤2)中关联规则挖掘系统负责以下三个任务：a)接收流数据库管理系统预处理后提供的数据源；b)挖掘数据源中项与项之间存在的关联规则；c)根据用户设定的控制参数，实时发布已挖掘的所有关联规则。

所述步骤2)中关联规则挖掘系统的实现方法如下：a)实现流数据库管理系统数据流订阅的subscribe接口，接收数据预处理的输出作为输入源；b)不遗漏地挖掘最近一段时间内数据流中满足用户自定义的所有关联规则c)提供数据结果集的对外发布的publish接口，用于实时、动态地向外部设备输出更新。

所述步骤3)中的数据预处理需要满足以下需求：a)预处理数据后必须保证原始数据流的顺序不发生变化，即先到达的数据总是先处理先输出；b)抽象数据的结构特征，定义合理的数据格式；c)对数据进行归一化，确定数据之间的比较准则。

所述步骤4)中的滑动窗口和滑动步长的大小、最小支持度、置信度和误差的设定：

a)根据应用实际对最近多久时间内数据流的需求以及关联规则挖掘的更新频率，确定系统中滑动窗口和滑动步长的大小；

b)从应用实际需求出发，确定最小支持度s为0≤s≤1，则在数据流中出现频率超过s％的数据项定义为频繁项；确定最小置信度c为0≤c≤1，则在数据流中某个频繁项x出现后t时间内出现，且频率大于频繁项x出现总次数的c％的数据项y，与数据项x构成关联规则x→y；

c)确定支持度误差∈和置信度误差η：关联规则挖掘系统保证，当∈＜＜s并且η＜＜c时，滑动窗口W中挖掘到的关联规则x→y满足i)数据项x出现次数的估计值f(x)与实际值F(x)的误差小于∈W；ii)数据项y出现次数的估计值f(y)与实际值F(y)的误差小于ηW。

所述步骤5)中使用数据流关联规则挖掘系统需要满足以下要求：a)实现可视化的参数配置界面，确定关联规则挖掘系统的模型；b)实现基于滑动窗口的关联规则挖掘方法c)实现数据结果集输出的publish接口，可用于多种外置监控设备。

所述步骤5)中基于滑动窗口的关联规则挖掘方法如下：

a)根据步骤4)中设定的滑动窗口W的大小，将整个滑动窗口划分成N个子窗口，即每个窗口的大小为W/N；

b)当数据流进入子窗口时，根据步骤4)中设定的最小支持度误差∈，利用Space-Saving方法挖掘子窗口内的频繁项；Space-Saving方法在误差允许的范围内，至多过高地估算频繁项x的出现次数error(x)；

c)根据步骤4)中设定的最小置信度误差η，分别对步骤b)中已发现的频繁项x紧随出现的所有数据项y采用Probabilistic Lossy Counting(PLC)方法，PLC方法在误差允许的范围内，至多过低地估算频繁项y的出现次数error(y)；

d)对窗口进行查询时，将窗口内所有子窗口中发现的关联组(x，y)的出现次数和误差分别进行累加，根据步骤4)中设定的最小支持度和最小置信度以及误差值，则满足f(x)-error(x)＞(s-∈)W且f(y)+error(y)+error(x)＞c(f(x)-error(x))的关联组(x，y)构成有效的关联规则x→y；

e)当窗口滑动过一个子窗口大小时，抛弃时间上最早的一个子窗口的数据，并加入最新时间的一个子窗口数据进行重构。

本发明具有的有益效果是：

充分利用了利用数据流上关联规则挖掘的现有研究及实现成果，提出的基于滑动窗口的数据流关联规则方法，在已有的流数据库管理系统上，使用者可以根据应用需求选择合适的查询参数，获得最好的性能。

附图说明

图1是本发明实施步骤流程图。

图2是融合查询系统工作原理示意图。

图3是关联规则挖掘原理示意图。

具体实施方式

现结合附图和实施例对本发明作进一步说明。

1、如图1与图2所示，本发明具体实施过程和工作原理如下：

3)分析应用主题域，确定要进行关联规则挖掘的原始数据项特征，确定数据抽象和归一化的预处理方法；

步骤1)中选用的流数据库管理系统应满足以下条件：a)支持数据流的多源输入输出控制；b)支持数据流域值的数值计算；c)支持数据流的连续查询；d)支持滑动窗口操作。常用的流数据库管理系统可以考虑StreamBase或者Coral8，它作为图2所示的数据流预处理系统。

步骤2)中数据流关联规则挖掘系统负责以下三个任务：a)接收流数据库管理系统预处理后提供的数据源；b)挖掘数据源中项与项之间存在的关联规则；c)根据用户设定的控制参数，实时发布已挖掘的所有关联规则。

步骤2)中数据流关联规则挖掘系统需要实现方法如下：a)实现流数据库管理系统数据流订阅的subscribe接口，接收数据预处理的输出作为输入源；b)不遗漏地挖掘最近一段时间内数据流中满足用户自定义的所有关联规则；c)提供数据结果集的对外发布的publish接口，用于实时、动态地向外部设备输出更新。

步骤3)中的数据预处理需要满足以下需求：a)预处理数据后必须保证原始数据流的顺序不发生变化，即先到达的数据总是先处理先输出；b)抽象数据的结构特征，定义合理的数据格式；c)对数据进行归一化，确定数据之间的比较准则。

以文件服务器为例，根据历史访问记录挖掘文件下载之间的关联性而进行合理预取和缓存，可以有效提高服务器的效率。因此，文件下载的关联规则即为图2所示的应用程序。假定每条历史记录包含如下属性：<用户名><IP地址><文件地址><文件大小><开始时间><结束时间><状态>。若我们需要的数据属性中要求有IP地址进行区域划分，文件地址识别具体的文件，状态信息标明文件是否被正确获取。在对数据进行归一化时，IP地址可以根据子网进行划分，用一个整数标识；文件地址因为包含有很长的路径前缀，可以用哈希函数对字符串进行映射；状态信息可以用一个字符进行标识(Y或N)。同时，可以定义比较规则如下：IP地址所在区域的整数值相差不超过10，文件地址经哈希映射后相同，状态信息是Y的两条记录视为相等。所有文件访问历史记录可构成图2所示的原始数据集，并作为数据流预处理系统的输入流。

步骤4)中的参数设定需要考虑以下要求：

a)根据应用实际对最近多久时间内数据流的需求以及关联规则挖掘的更新频率，确定系统中滑动窗口的大小和滑动步长；

b)从应用实际需求出发，确定最小支持度s(0≤s≤1)，则在数据流中出现频率超过s％的数据项定义为频繁项；确定最小置信度c(0≤c≤1)，则在数据流中某个频繁项x出现后t时间内出现，且频率大于频繁项x出现总次数的c％的数据项y，与数据项x构成关联规则x→y；

c)确定支持度误差∈和置信度误差η。关联规则挖掘系统保证，当∈＜＜s并且η＜＜c时，滑动窗口W中挖掘到的关联规则x→y满足i)数据项x出现次数的估计值f(x)与实际值F(x)的误差小于∈W；ii)数据项y出现次数的估计值f(y)与实际值F(y)的误差小于(η-∈)W。

以上面的文件服务器为例，假定需要了解最近12小时内被下载文件的相关性信息，并且每隔1小时要更新结果集。当文件A在整个窗口的数据中出现超过5％，而文件B在文件A出现后10s内出现的频率超过15％，则相信文件A与文件B之间存在相关性。根据以上情境，设定滑动窗口的大小W为12小时，滑动步长为1小时，最小支持度s＝0.05，最小置信度c＝0.15。在此基础上，可以设定允许的支持度误差∈为0.001，置信度误差η为0.005。该步骤完成图2所示的参数设定。

步骤5)需要提供以下功能：a)实现可视化的参数配置界面，确定关联规则挖掘系统的模型；b)实现基于滑动窗口的关联规则挖掘方法c)实现数据结果集输出的publish接口，可用于多种外置监控设备。

步骤5)中基于滑动窗口的关联规则挖掘方法如下：

a)根据步骤4)中设定的滑动窗口W的大小，将整个滑动窗口划分成N个子窗口，即每个窗口的大小为W/N。

b)当数据流进入子窗口时，根据步骤4)中设定的最小支持度误差∈，利用Space-Saving方法挖掘子窗口内的频繁项。Space-Saving方法在误差允许的范围内，至多过高地估算频繁项x的出现次数error(x)。

c)根据步骤4)中设定的最小置信度误差η，分别对步骤b)中已发现的频繁项x紧随出现的所有数据项y采用Probabilistic Lossy Counting(PLC)方法。PLC方法在误差允许的范围内，至多过低地估算频繁项y的出现次数error(y)。

d)对窗口进行查询时，将窗口内所有子窗口中发现的关联组(x，y)的出现次数和误差分别进行累加，根据步骤4)中设定的最小支持度和最小置信度以及误差值，则满足f(x)-error(x)＞(s-∈)W且f(y)+error(y)+error(x)＞c(f(x)-error(x))的关联组(x，y)构成有效的关联规则x→y。

以前述文件服务器为例，已知滑动窗口W的大小为12小时，考虑将N设置为12，即每个子窗口的大小为1小时。当数据进入子窗口时，通过Space-Saving方法构造频繁项序列x_i，对每个x_i通过PLC方法构造频繁项序列y_i。在Space-Saving方法中，m＝1/∈＝1/0.001＝1000，n＝1/(η-∈)＝1/(0.005-0.001)＝250，如图3所示。假定窗口12小时内文件记录项W为5,000,000项，文件x的估计出现次数f(x)为400,000次，估计误差为error(x)为3000次，在文件x被访问后10s内文件y被访问次数的估计值f(y)为53,000次，估计误差error(y)为5000次，则根据公式

f(x)-error(x)＞(s-∈)W且f(y)+error(y)+error(x)＞c(f(x)-error(x))

可知，文件x与文件y之间存在关联规则x→y。所有这些关联规则可以输出到图2所示的输出设备。

Claims

1、一种基于滑动窗口的数据流关联规则挖掘方法，其特征在于，该方法的步骤如下：

2、根据权利要求1所述的一种基于滑动窗口数据流关联规则挖掘方法，其特征在于：所述步骤1)中选用的流数据库管理系统应满足以下条件：a)支持数据流的多源输入输出控制；b)支持数据流域值的数值计算；c)支持数据流的连续查询；d)支持数据流的滑动窗口操作。

3、根据权利要求1所述的一种基于滑动窗口数据流关联规则挖掘方法，其特征在于：所述步骤2)中关联规则挖掘系统负责以下三个任务：a)接收流数据库管理系统预处理后提供的数据源；b)挖掘数据源中项与项之间存在的关联规则；c)根据用户设定的控制参数，实时发布已挖掘的所有关联规则。

4、根据权利要求1所述的一种基于滑动窗口数据流关联规则挖掘方法，其特征在于：所述步骤2)中关联规则挖掘系统的实现方法如下：a)实现流数据库管理系统数据流订阅的subscribe接口，接收数据预处理的输出作为输入源；b)不遗漏地挖掘最近一段时间内数据流中满足用户自定义的所有关联规则c)提供数据结果集的对外发布的publish接口，用于实时、动态地向外部设备输出更新。

5、根据权利要求1所述的一种基于滑动窗口数据流关联规则挖掘方法，其特征在于：所述步骤3)中的数据预处理需要满足以下需求：a)预处理数据后必须保证原始数据流的顺序不发生变化，即先到达的数据总是先处理先输出；b)抽象数据的结构特征，定义合理的数据格式；c)对数据进行归一化，确定数据之间的比较准则。

6、根据权利要求1所述的一种基于滑动窗口数据流关联规则挖掘方法，其特征在于：所述步骤4)中的滑动窗口和滑动步长的大小、最小支持度、置信度和误差的设定：

7、根据权利要求1所述的一种基于滑动窗口数据流关联规则挖掘方法，其特征在于：所述步骤5)中使用数据流关联规则挖掘系统需要满足以下要求：a)实现可视化的参数配置界面，确定关联规则挖掘系统的模型；b)实现基于滑动窗口的关联规则挖掘方法c)实现数据结果集输出的publish接口，可用于多种外置监控设备。

8、根据权利要求1所述的一种基于滑动窗口数据流关联规则挖掘方法，其特征在于：所述步骤5)中基于滑动窗口的关联规则挖掘方法如下：

c)根据步骤4)中设定的最小置信度误差η，分别对步骤b)中已发现的频繁项x紧随出现的所有数据项y采用PLC方法，PLC方法在误差允许的范围内，至多过低地估算频繁项y的出现次数error(y)；