CN101667197A - 基于滑动窗口的数据流关联规则挖掘方法 - Google Patents

基于滑动窗口的数据流关联规则挖掘方法 Download PDF

Info

Publication number
CN101667197A
CN101667197A CN200910152876A CN200910152876A CN101667197A CN 101667197 A CN101667197 A CN 101667197A CN 200910152876 A CN200910152876 A CN 200910152876A CN 200910152876 A CN200910152876 A CN 200910152876A CN 101667197 A CN101667197 A CN 101667197A
Authority
CN
China
Prior art keywords
data stream
data
error
window
association rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910152876A
Other languages
English (en)
Inventor
寿黎但
胡天磊
陈珂
陈刚
严澄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN200910152876A priority Critical patent/CN101667197A/zh
Publication of CN101667197A publication Critical patent/CN101667197A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于滑动窗口的数据流关联规则挖掘方法。利用流数据库管理系统的输入输出机制,将应用产生的原始数据流接入流数据库管理系统。在流数据库管理系统中建立数据流预处理应用环境,并将处理后的输出数据流传递给关联规则挖掘系统。使用关联规则挖掘系统时,用户通过设置滑动窗口大小、步长,关联规则的最小支持度、置信度及其相应的误差值确定关联规则查询条件。关联规则挖掘系统将产生的关联规则实时输出给外部设备。利用数据流上关联规则挖掘的现有研究及实现成果,提出基于滑动窗口的数据流关联规则方法,在已有的流数据库管理系统上,使用者可以根据应用需求选择合适的查询参数,获得最好的性能。

Description

基于滑动窗口的数据流关联规则挖掘方法
技术领域
本发明涉及流数据库管理系统、数据流挖掘及关联规则挖掘,特别是涉及一种基于滑动窗口的数据流关联规则挖掘方法。
背景技术
随着互联网技术的发展,数据信息呈现爆炸式增长。在这些数据背后,往往蕴含着丰富的信息和知识,可以广泛用于各种应用,如商务管理、市场分析、科学探索等。而当数据信息以一种连续、无限的形式到达时,其蕴含的知识便会随着时间的推移而不断更新。
数据挖掘领域的关联规则挖掘技术在传统应用中已经相当成熟,其基于事务数据模型的各种挖掘方法可以快速发现海量存储中的数据相关性。随着新的应用环境的变化,特别是在基于数据流的大量应用中,关联规则挖掘的研究逐渐受到人们的重视。数据流应用有别于传统应用的显著特点是数据的高速、实时性,同时在存储代价昂贵的约束下不可避免地存在易失性。此外,时间上最新的数据往往蕴含着更高的价值,如证券金融市场的交易分析等。
在数据流上的关联规则挖掘研究方面,如Top-k,频繁项以及基于事务模型的频繁项集挖掘等都取得了很多有益的成果。但是,由于很多数据流应用中并不存在明确的事务概念,目前还缺乏针对最近时间内数据流关联规则挖掘的有效解决方案。而现有的流数据库管理系统如StreamBase,Coral8等,都只是提供一系列针对数据流处理的基本功能,如属性域的数值计算,滑动窗口,数据流的Join等,无法完成复杂的数据挖掘功能。
基于滑动窗口的数据流关联规则挖掘方法,是结合现有流数据库管理系统,并在改进数据流关联规则挖掘方法基础上的一种实现。
发明内容
本发明的目的在于提供一种基于滑动窗口的数据流关联规则挖掘方法。
本发明解决其技术问题采用的技术方案的步骤如下:
1)根据应用对数据流的实时性、可靠性以及吞吐率的要求,选择一个满足数据流预处理的流数据库管理系统;
2)开发一个数据流关联规则挖掘系统实现与上述步骤1)中选取的流数据库管理系统的交互;
3)分析应用主题域,根据要进行关联规则挖掘的原始数据项特征,确定数据抽象和归一化的预处理方法,部署在步骤1)选定的流数据库管理系统;
4)根据应用对关联规则挖掘的需求,确定滑动窗口和滑动步长的大小,确定关联规则挖掘的最小支持度和置信度以及相应允许的误差值;
5)数据流关联规则挖掘系统根据可视化配置参数对最近一段时间内的数据流进行关联规则挖掘,并实时输出挖掘得到的关联规则。
所述步骤1)中选用的流数据库管理系统应满足以下条件:a)支持数据流的多源输入输出控制;b)支持数据流域值的数值计算;c)支持数据流的连续查询;d)支持数据流的滑动窗口操作。
所述步骤2)中关联规则挖掘系统负责以下三个任务:a)接收流数据库管理系统预处理后提供的数据源;b)挖掘数据源中项与项之间存在的关联规则;c)根据用户设定的控制参数,实时发布已挖掘的所有关联规则。
所述步骤2)中关联规则挖掘系统的实现方法如下:a)实现流数据库管理系统数据流订阅的subscribe接口,接收数据预处理的输出作为输入源;b)不遗漏地挖掘最近一段时间内数据流中满足用户自定义的所有关联规则c)提供数据结果集的对外发布的publish接口,用于实时、动态地向外部设备输出更新。
所述步骤3)中的数据预处理需要满足以下需求:a)预处理数据后必须保证原始数据流的顺序不发生变化,即先到达的数据总是先处理先输出;b)抽象数据的结构特征,定义合理的数据格式;c)对数据进行归一化,确定数据之间的比较准则。
所述步骤4)中的滑动窗口和滑动步长的大小、最小支持度、置信度和误差的设定:
a)根据应用实际对最近多久时间内数据流的需求以及关联规则挖掘的更新频率,确定系统中滑动窗口和滑动步长的大小;
b)从应用实际需求出发,确定最小支持度s为0≤s≤1,则在数据流中出现频率超过s%的数据项定义为频繁项;确定最小置信度c为0≤c≤1,则在数据流中某个频繁项x出现后t时间内出现,且频率大于频繁项x出现总次数的c%的数据项y,与数据项x构成关联规则x→y;
c)确定支持度误差∈和置信度误差η:关联规则挖掘系统保证,当∈<<s并且η<<c时,滑动窗口W中挖掘到的关联规则x→y满足i)数据项x出现次数的估计值f(x)与实际值F(x)的误差小于∈W;ii)数据项y出现次数的估计值f(y)与实际值F(y)的误差小于ηW。
所述步骤5)中使用数据流关联规则挖掘系统需要满足以下要求:a)实现可视化的参数配置界面,确定关联规则挖掘系统的模型;b)实现基于滑动窗口的关联规则挖掘方法c)实现数据结果集输出的publish接口,可用于多种外置监控设备。
所述步骤5)中基于滑动窗口的关联规则挖掘方法如下:
a)根据步骤4)中设定的滑动窗口W的大小,将整个滑动窗口划分成N个子窗口,即每个窗口的大小为W/N;
b)当数据流进入子窗口时,根据步骤4)中设定的最小支持度误差∈,利用Space-Saving方法挖掘子窗口内的频繁项;Space-Saving方法在误差允许的范围内,至多过高地估算频繁项x的出现次数error(x);
c)根据步骤4)中设定的最小置信度误差η,分别对步骤b)中已发现的频繁项x紧随出现的所有数据项y采用Probabilistic Lossy Counting(PLC)方法,PLC方法在误差允许的范围内,至多过低地估算频繁项y的出现次数error(y);
d)对窗口进行查询时,将窗口内所有子窗口中发现的关联组(x,y)的出现次数和误差分别进行累加,根据步骤4)中设定的最小支持度和最小置信度以及误差值,则满足f(x)-error(x)>(s-∈)W且f(y)+error(y)+error(x)>c(f(x)-error(x))的关联组(x,y)构成有效的关联规则x→y;
e)当窗口滑动过一个子窗口大小时,抛弃时间上最早的一个子窗口的数据,并加入最新时间的一个子窗口数据进行重构。
本发明具有的有益效果是:
充分利用了利用数据流上关联规则挖掘的现有研究及实现成果,提出的基于滑动窗口的数据流关联规则方法,在已有的流数据库管理系统上,使用者可以根据应用需求选择合适的查询参数,获得最好的性能。
附图说明
图1是本发明实施步骤流程图。
图2是融合查询系统工作原理示意图。
图3是关联规则挖掘原理示意图。
具体实施方式
现结合附图和实施例对本发明作进一步说明。
1、如图1与图2所示,本发明具体实施过程和工作原理如下:
1)根据应用对数据流的实时性、可靠性以及吞吐率的要求,选择一个满足数据流预处理的流数据库管理系统;
2)开发一个数据流关联规则挖掘系统实现与上述步骤1)中选取的流数据库管理系统的交互;
3)分析应用主题域,确定要进行关联规则挖掘的原始数据项特征,确定数据抽象和归一化的预处理方法;
4)根据应用对关联规则挖掘的需求,确定滑动窗口和滑动步长的大小,确定关联规则挖掘的最小支持度和置信度以及相应允许的误差值;
5)数据流关联规则挖掘系统根据可视化配置参数对最近一段时间内的数据流进行关联规则挖掘,并实时输出挖掘得到的关联规则。
步骤1)中选用的流数据库管理系统应满足以下条件:a)支持数据流的多源输入输出控制;b)支持数据流域值的数值计算;c)支持数据流的连续查询;d)支持滑动窗口操作。常用的流数据库管理系统可以考虑StreamBase或者Coral8,它作为图2所示的数据流预处理系统。
步骤2)中数据流关联规则挖掘系统负责以下三个任务:a)接收流数据库管理系统预处理后提供的数据源;b)挖掘数据源中项与项之间存在的关联规则;c)根据用户设定的控制参数,实时发布已挖掘的所有关联规则。
步骤2)中数据流关联规则挖掘系统需要实现方法如下:a)实现流数据库管理系统数据流订阅的subscribe接口,接收数据预处理的输出作为输入源;b)不遗漏地挖掘最近一段时间内数据流中满足用户自定义的所有关联规则;c)提供数据结果集的对外发布的publish接口,用于实时、动态地向外部设备输出更新。
步骤3)中的数据预处理需要满足以下需求:a)预处理数据后必须保证原始数据流的顺序不发生变化,即先到达的数据总是先处理先输出;b)抽象数据的结构特征,定义合理的数据格式;c)对数据进行归一化,确定数据之间的比较准则。
以文件服务器为例,根据历史访问记录挖掘文件下载之间的关联性而进行合理预取和缓存,可以有效提高服务器的效率。因此,文件下载的关联规则即为图2所示的应用程序。假定每条历史记录包含如下属性:<用户名><IP地址><文件地址><文件大小><开始时间><结束时间><状态>。若我们需要的数据属性中要求有IP地址进行区域划分,文件地址识别具体的文件,状态信息标明文件是否被正确获取。在对数据进行归一化时,IP地址可以根据子网进行划分,用一个整数标识;文件地址因为包含有很长的路径前缀,可以用哈希函数对字符串进行映射;状态信息可以用一个字符进行标识(Y或N)。同时,可以定义比较规则如下:IP地址所在区域的整数值相差不超过10,文件地址经哈希映射后相同,状态信息是Y的两条记录视为相等。所有文件访问历史记录可构成图2所示的原始数据集,并作为数据流预处理系统的输入流。
步骤4)中的参数设定需要考虑以下要求:
a)根据应用实际对最近多久时间内数据流的需求以及关联规则挖掘的更新频率,确定系统中滑动窗口的大小和滑动步长;
b)从应用实际需求出发,确定最小支持度s(0≤s≤1),则在数据流中出现频率超过s%的数据项定义为频繁项;确定最小置信度c(0≤c≤1),则在数据流中某个频繁项x出现后t时间内出现,且频率大于频繁项x出现总次数的c%的数据项y,与数据项x构成关联规则x→y;
c)确定支持度误差∈和置信度误差η。关联规则挖掘系统保证,当∈<<s并且η<<c时,滑动窗口W中挖掘到的关联规则x→y满足i)数据项x出现次数的估计值f(x)与实际值F(x)的误差小于∈W;ii)数据项y出现次数的估计值f(y)与实际值F(y)的误差小于(η-∈)W。
以上面的文件服务器为例,假定需要了解最近12小时内被下载文件的相关性信息,并且每隔1小时要更新结果集。当文件A在整个窗口的数据中出现超过5%,而文件B在文件A出现后10s内出现的频率超过15%,则相信文件A与文件B之间存在相关性。根据以上情境,设定滑动窗口的大小W为12小时,滑动步长为1小时,最小支持度s=0.05,最小置信度c=0.15。在此基础上,可以设定允许的支持度误差∈为0.001,置信度误差η为0.005。该步骤完成图2所示的参数设定。
步骤5)需要提供以下功能:a)实现可视化的参数配置界面,确定关联规则挖掘系统的模型;b)实现基于滑动窗口的关联规则挖掘方法c)实现数据结果集输出的publish接口,可用于多种外置监控设备。
步骤5)中基于滑动窗口的关联规则挖掘方法如下:
a)根据步骤4)中设定的滑动窗口W的大小,将整个滑动窗口划分成N个子窗口,即每个窗口的大小为W/N。
b)当数据流进入子窗口时,根据步骤4)中设定的最小支持度误差∈,利用Space-Saving方法挖掘子窗口内的频繁项。Space-Saving方法在误差允许的范围内,至多过高地估算频繁项x的出现次数error(x)。
c)根据步骤4)中设定的最小置信度误差η,分别对步骤b)中已发现的频繁项x紧随出现的所有数据项y采用Probabilistic Lossy Counting(PLC)方法。PLC方法在误差允许的范围内,至多过低地估算频繁项y的出现次数error(y)。
d)对窗口进行查询时,将窗口内所有子窗口中发现的关联组(x,y)的出现次数和误差分别进行累加,根据步骤4)中设定的最小支持度和最小置信度以及误差值,则满足f(x)-error(x)>(s-∈)W且f(y)+error(y)+error(x)>c(f(x)-error(x))的关联组(x,y)构成有效的关联规则x→y。
e)当窗口滑动过一个子窗口大小时,抛弃时间上最早的一个子窗口的数据,并加入最新时间的一个子窗口数据进行重构。
以前述文件服务器为例,已知滑动窗口W的大小为12小时,考虑将N设置为12,即每个子窗口的大小为1小时。当数据进入子窗口时,通过Space-Saving方法构造频繁项序列xi,对每个xi通过PLC方法构造频繁项序列yi。在Space-Saving方法中,m=1/∈=1/0.001=1000,n=1/(η-∈)=1/(0.005-0.001)=250,如图3所示。假定窗口12小时内文件记录项W为5,000,000项,文件x的估计出现次数f(x)为400,000次,估计误差为error(x)为3000次,在文件x被访问后10s内文件y被访问次数的估计值f(y)为53,000次,估计误差error(y)为5000次,则根据公式
f(x)-error(x)>(s-∈)W且f(y)+error(y)+error(x)>c(f(x)-error(x))
可知,文件x与文件y之间存在关联规则x→y。所有这些关联规则可以输出到图2所示的输出设备。

Claims (8)

1、一种基于滑动窗口的数据流关联规则挖掘方法,其特征在于,该方法的步骤如下:
1)根据应用对数据流的实时性、可靠性以及吞吐率的要求,选择一个满足数据流预处理的流数据库管理系统;
2)开发一个数据流关联规则挖掘系统实现与上述步骤1)中选取的流数据库管理系统的交互;
3)分析应用主题域,根据要进行关联规则挖掘的原始数据项特征,确定数据抽象和归一化的预处理方法,部署在步骤1)选定的流数据库管理系统;
4)根据应用对关联规则挖掘的需求,确定滑动窗口和滑动步长的大小,确定关联规则挖掘的最小支持度和置信度以及相应允许的误差值;
5)数据流关联规则挖掘系统根据可视化配置参数对最近一段时间内的数据流进行关联规则挖掘,并实时输出挖掘得到的关联规则。
2、根据权利要求1所述的一种基于滑动窗口数据流关联规则挖掘方法,其特征在于:所述步骤1)中选用的流数据库管理系统应满足以下条件:a)支持数据流的多源输入输出控制;b)支持数据流域值的数值计算;c)支持数据流的连续查询;d)支持数据流的滑动窗口操作。
3、根据权利要求1所述的一种基于滑动窗口数据流关联规则挖掘方法,其特征在于:所述步骤2)中关联规则挖掘系统负责以下三个任务:a)接收流数据库管理系统预处理后提供的数据源;b)挖掘数据源中项与项之间存在的关联规则;c)根据用户设定的控制参数,实时发布已挖掘的所有关联规则。
4、根据权利要求1所述的一种基于滑动窗口数据流关联规则挖掘方法,其特征在于:所述步骤2)中关联规则挖掘系统的实现方法如下:a)实现流数据库管理系统数据流订阅的subscribe接口,接收数据预处理的输出作为输入源;b)不遗漏地挖掘最近一段时间内数据流中满足用户自定义的所有关联规则c)提供数据结果集的对外发布的publish接口,用于实时、动态地向外部设备输出更新。
5、根据权利要求1所述的一种基于滑动窗口数据流关联规则挖掘方法,其特征在于:所述步骤3)中的数据预处理需要满足以下需求:a)预处理数据后必须保证原始数据流的顺序不发生变化,即先到达的数据总是先处理先输出;b)抽象数据的结构特征,定义合理的数据格式;c)对数据进行归一化,确定数据之间的比较准则。
6、根据权利要求1所述的一种基于滑动窗口数据流关联规则挖掘方法,其特征在于:所述步骤4)中的滑动窗口和滑动步长的大小、最小支持度、置信度和误差的设定:
a)根据应用实际对最近多久时间内数据流的需求以及关联规则挖掘的更新频率,确定系统中滑动窗口和滑动步长的大小;
b)从应用实际需求出发,确定最小支持度s为0≤s≤1,则在数据流中出现频率超过s%的数据项定义为频繁项;确定最小置信度c为0≤c≤1,则在数据流中某个频繁项x出现后t时间内出现,且频率大于频繁项x出现总次数的c%的数据项y,与数据项x构成关联规则x→y;
c)确定支持度误差∈和置信度误差η:关联规则挖掘系统保证,当∈<<s并且η<<c时,滑动窗口W中挖掘到的关联规则x→y满足i)数据项x出现次数的估计值f(x)与实际值F(x)的误差小于∈W;ii)数据项y出现次数的估计值f(y)与实际值F(y)的误差小于ηW。
7、根据权利要求1所述的一种基于滑动窗口数据流关联规则挖掘方法,其特征在于:所述步骤5)中使用数据流关联规则挖掘系统需要满足以下要求:a)实现可视化的参数配置界面,确定关联规则挖掘系统的模型;b)实现基于滑动窗口的关联规则挖掘方法c)实现数据结果集输出的publish接口,可用于多种外置监控设备。
8、根据权利要求1所述的一种基于滑动窗口数据流关联规则挖掘方法,其特征在于:所述步骤5)中基于滑动窗口的关联规则挖掘方法如下:
a)根据步骤4)中设定的滑动窗口W的大小,将整个滑动窗口划分成N个子窗口,即每个窗口的大小为W/N;
b)当数据流进入子窗口时,根据步骤4)中设定的最小支持度误差∈,利用Space-Saving方法挖掘子窗口内的频繁项;Space-Saving方法在误差允许的范围内,至多过高地估算频繁项x的出现次数error(x);
c)根据步骤4)中设定的最小置信度误差η,分别对步骤b)中已发现的频繁项x紧随出现的所有数据项y采用PLC方法,PLC方法在误差允许的范围内,至多过低地估算频繁项y的出现次数error(y);
d)对窗口进行查询时,将窗口内所有子窗口中发现的关联组(x,y)的出现次数和误差分别进行累加,根据步骤4)中设定的最小支持度和最小置信度以及误差值,则满足f(x)-error(x)>(s-∈)W且f(y)+error(y)+error(x)>c(f(x)-error(x))的关联组(x,y)构成有效的关联规则x→y;
e)当窗口滑动过一个子窗口大小时,抛弃时间上最早的一个子窗口的数据,并加入最新时间的一个子窗口数据进行重构。
CN200910152876A 2009-09-18 2009-09-18 基于滑动窗口的数据流关联规则挖掘方法 Pending CN101667197A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910152876A CN101667197A (zh) 2009-09-18 2009-09-18 基于滑动窗口的数据流关联规则挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910152876A CN101667197A (zh) 2009-09-18 2009-09-18 基于滑动窗口的数据流关联规则挖掘方法

Publications (1)

Publication Number Publication Date
CN101667197A true CN101667197A (zh) 2010-03-10

Family

ID=41803813

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910152876A Pending CN101667197A (zh) 2009-09-18 2009-09-18 基于滑动窗口的数据流关联规则挖掘方法

Country Status (1)

Country Link
CN (1) CN101667197A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662642A (zh) * 2012-04-20 2012-09-12 浪潮电子信息产业股份有限公司 一种基于嵌套滑动窗口和遗传算法的并行处理方法
CN103309966A (zh) * 2013-06-04 2013-09-18 中国科学院信息工程研究所 基于时间滑动窗口的数据流点连接查询方法
CN103336771A (zh) * 2013-04-02 2013-10-02 江苏大学 基于滑动窗口的数据相似检测方法
CN104346751A (zh) * 2014-11-11 2015-02-11 苏州晨川通信科技有限公司 一种半自动算法交易方法
CN105095673A (zh) * 2015-08-26 2015-11-25 中国人民解放军军事医学科学院放射与辐射医学研究所 一种基于医疗大数据挖掘的慢性病风险模型的构建方法
CN105302879A (zh) * 2015-10-12 2016-02-03 百度在线网络技术(北京)有限公司 用于确定用户需求的方法与装置
CN105989095A (zh) * 2015-02-12 2016-10-05 香港理工大学深圳研究院 顾及数据不确定性的关联规则显著性检验方法及装置
CN106528313A (zh) * 2016-10-24 2017-03-22 中国银联股份有限公司 一种主机变量异常检测方法及系统
CN106598800A (zh) * 2015-10-14 2017-04-26 中兴通讯股份有限公司 一种硬件故障分析系统和方法
CN106709829A (zh) * 2015-08-03 2017-05-24 科大讯飞股份有限公司 基于在线题库的学情诊断方法及系统
CN107133370A (zh) * 2017-06-19 2017-09-05 南京邮电大学 一种基于关联规则的标签推荐方法
CN108073700A (zh) * 2017-12-12 2018-05-25 清华大学 一种基于滑动窗口的数据可视化方法和系统
CN109033419A (zh) * 2018-08-06 2018-12-18 西北工业大学 一种多源数据流频繁情节挖掘方法及装置
CN109165522A (zh) * 2018-07-26 2019-01-08 安徽师范大学 一种基于数据流的敏感数据挖掘保护方法
CN109376339A (zh) * 2018-08-02 2019-02-22 浙江大学 一种基于用户行为的文本转换候选规则信息提取方法
CN110018670A (zh) * 2019-03-28 2019-07-16 浙江大学 一种基于动态关联规则挖掘的工业过程异常工况预测方法
CN110222528A (zh) * 2019-05-22 2019-09-10 广西师范大学 数据流中频繁情节挖掘的差分隐私保护方法
CN110750561A (zh) * 2018-07-20 2020-02-04 深圳市诚壹科技有限公司 一种关联应用程序挖掘的方法及装置
CN112818030A (zh) * 2021-01-21 2021-05-18 北京理工大学 一种自适应的分布式流数据关联规则挖掘方法

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662642A (zh) * 2012-04-20 2012-09-12 浪潮电子信息产业股份有限公司 一种基于嵌套滑动窗口和遗传算法的并行处理方法
CN102662642B (zh) * 2012-04-20 2016-05-25 浪潮电子信息产业股份有限公司 一种基于嵌套滑动窗口和遗传算法的并行处理方法
CN103336771B (zh) * 2013-04-02 2016-12-28 江苏大学 基于滑动窗口的数据相似检测方法
CN103336771A (zh) * 2013-04-02 2013-10-02 江苏大学 基于滑动窗口的数据相似检测方法
CN103309966A (zh) * 2013-06-04 2013-09-18 中国科学院信息工程研究所 基于时间滑动窗口的数据流点连接查询方法
CN103309966B (zh) * 2013-06-04 2016-02-24 中国科学院信息工程研究所 基于时间滑动窗口的数据流点连接查询方法
CN104346751A (zh) * 2014-11-11 2015-02-11 苏州晨川通信科技有限公司 一种半自动算法交易方法
CN105989095B (zh) * 2015-02-12 2019-09-06 香港理工大学深圳研究院 顾及数据不确定性的关联规则显著性检验方法及装置
CN105989095A (zh) * 2015-02-12 2016-10-05 香港理工大学深圳研究院 顾及数据不确定性的关联规则显著性检验方法及装置
CN106709829A (zh) * 2015-08-03 2017-05-24 科大讯飞股份有限公司 基于在线题库的学情诊断方法及系统
CN106709829B (zh) * 2015-08-03 2020-06-02 科大讯飞股份有限公司 基于在线题库的学情诊断方法及系统
CN105095673B (zh) * 2015-08-26 2018-03-13 中国人民解放军军事医学科学院放射与辐射医学研究所 一种基于医疗大数据挖掘的慢性病风险模型的构建方法
CN105095673A (zh) * 2015-08-26 2015-11-25 中国人民解放军军事医学科学院放射与辐射医学研究所 一种基于医疗大数据挖掘的慢性病风险模型的构建方法
CN105302879B (zh) * 2015-10-12 2019-03-08 百度在线网络技术(北京)有限公司 用于确定用户需求的方法与装置
CN105302879A (zh) * 2015-10-12 2016-02-03 百度在线网络技术(北京)有限公司 用于确定用户需求的方法与装置
CN106598800A (zh) * 2015-10-14 2017-04-26 中兴通讯股份有限公司 一种硬件故障分析系统和方法
CN106528313A (zh) * 2016-10-24 2017-03-22 中国银联股份有限公司 一种主机变量异常检测方法及系统
CN107133370A (zh) * 2017-06-19 2017-09-05 南京邮电大学 一种基于关联规则的标签推荐方法
CN108073700A (zh) * 2017-12-12 2018-05-25 清华大学 一种基于滑动窗口的数据可视化方法和系统
CN108073700B (zh) * 2017-12-12 2019-06-18 清华大学 一种基于滑动窗口的数据可视化方法和系统
CN110750561A (zh) * 2018-07-20 2020-02-04 深圳市诚壹科技有限公司 一种关联应用程序挖掘的方法及装置
CN109165522A (zh) * 2018-07-26 2019-01-08 安徽师范大学 一种基于数据流的敏感数据挖掘保护方法
CN109376339A (zh) * 2018-08-02 2019-02-22 浙江大学 一种基于用户行为的文本转换候选规则信息提取方法
CN109376339B (zh) * 2018-08-02 2020-07-03 浙江大学 一种基于用户行为的文本转换候选规则信息提取方法
CN109033419A (zh) * 2018-08-06 2018-12-18 西北工业大学 一种多源数据流频繁情节挖掘方法及装置
CN109033419B (zh) * 2018-08-06 2022-03-11 西北工业大学 一种多源数据流频繁情节挖掘方法及装置
CN110018670A (zh) * 2019-03-28 2019-07-16 浙江大学 一种基于动态关联规则挖掘的工业过程异常工况预测方法
CN110018670B (zh) * 2019-03-28 2020-07-10 浙江大学 一种基于动态关联规则挖掘的工业过程异常工况预测方法
CN110222528A (zh) * 2019-05-22 2019-09-10 广西师范大学 数据流中频繁情节挖掘的差分隐私保护方法
CN110222528B (zh) * 2019-05-22 2022-07-05 广西师范大学 数据流中频繁情节挖掘的差分隐私保护方法
CN112818030A (zh) * 2021-01-21 2021-05-18 北京理工大学 一种自适应的分布式流数据关联规则挖掘方法
CN112818030B (zh) * 2021-01-21 2022-11-04 北京理工大学 一种自适应的分布式流数据关联规则挖掘方法

Similar Documents

Publication Publication Date Title
CN101667197A (zh) 基于滑动窗口的数据流关联规则挖掘方法
US11086289B2 (en) Control interface for metric definition specification for assets driven by search-derived asset tree hierarchy
KR101002451B1 (ko) 색인 지정 및 검색 방법, 이를 위한 소프트웨어를 포함하는 컴퓨터 판독가능 기록 매체, 및 이에 의한 검색 결과들을 렌더링하는 컴퓨터 디스플레이
KR101691243B1 (ko) 검색 결과 통합 기법
Ali et al. The extensibility framework in Microsoft StreamInsight
CN103676645B (zh) 一种时间序列数据流中的关联规则的挖掘方法
JP5092165B2 (ja) データ構築方法とシステム
WO2017186774A1 (en) Systems and methods for querying databases
CN103324718A (zh) 基于海量搜索日志挖掘话题脉络的方法和系统
US11210278B1 (en) Asset group interface driven by search-derived asset tree hierarchy
CN102902800A (zh) 基于Agent的智能元搜索引擎系统
CN114218218A (zh) 基于数据仓库的数据处理方法、装置、设备及存储介质
CN111752993B (zh) 一种自动变速器离合器数据分析系统及方法
CN110489652B (zh) 基于用户行为检测的新闻推荐方法、系统及计算机设备
CN112270628A (zh) 一种知识产权专题库管理方法及系统
CN106055629A (zh) 一种单井信息管理系统
CN103107919A (zh) 一种网络资源建模方法和系统
Nasution Social network mining: A discussion
You et al. Multi-source data stream online frequent episode mining
CN109977138A (zh) 一种基于Kafka和SQL的数据查询方法
CN109213909A (zh) 一种融合搜索与计算的大数据分析系统及其分析方法
CN103336865B (zh) 一种动态通信网络构建方法及装置
CN103927613A (zh) 流程检索系统及其使用方法
CN112507213B (zh) 一种基于行为大数据分析的推荐优化的系统方案的方法
CN101425061B (zh) 概念关联网络的数据标签建构方法与系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20100310