CN104881467A - 基于频繁项集的数据关联性分析和预读取方法 - Google Patents

基于频繁项集的数据关联性分析和预读取方法 Download PDF

Info

Publication number
CN104881467A
CN104881467A CN201510275426.2A CN201510275426A CN104881467A CN 104881467 A CN104881467 A CN 104881467A CN 201510275426 A CN201510275426 A CN 201510275426A CN 104881467 A CN104881467 A CN 104881467A
Authority
CN
China
Prior art keywords
rule
data
sub
subset
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510275426.2A
Other languages
English (en)
Other versions
CN104881467B (zh
Inventor
唐飞龙
张健桐
栾志坤
张杨
王玉凤
房新宇
唐灿
过敏意
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201510275426.2A priority Critical patent/CN104881467B/zh
Publication of CN104881467A publication Critical patent/CN104881467A/zh
Application granted granted Critical
Publication of CN104881467B publication Critical patent/CN104881467B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/214Database migration support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于频繁项集的数据关联性分析和预读取方法,包括步骤如下:云平台每处理一个作业,将该次作业中每一个子任务处理的数据块作为一条记录存入资料库中;每隔一定时间利用集群的空闲资源对资料库中的频繁项集进行挖掘,找出数据块之间的关联性;在之后作业的执行过程中,根据预测的置信度,结合数据与任务所在节点的位置关系,提前读取所需要的数据块,从而达到提升整个集群吞吐率的目的。

Description

基于频繁项集的数据关联性分析和预读取方法
技术领域
本发明涉及一种分布式系统中数据关联性分析以及数据预读取技术领域,具体的,涉及一种通过挖掘频繁项集找到数据的关联性,提前读取数据,从而提升整个系统的运行速度。
背景技术
在分布式系统中,一个文件通常被分割为多个等大的数据块,分布在集群中的各台机器上,在进行计算时,系统会将一个大的作业拆分为多个子任务,部署到不同的机器上同时运行,每个子任务通常会处理一至多个数据块。在任务执行过程中,需要读取相应的数据块,按照任务所在节点与数据所在节点二者的位置关系,读取方式可以分为三类:
(i)二者在同一节点上,通过本地磁盘I/O读取数据;
(ii)二者不在同一节点但在同一机架上,通过机架内的网络传输数据;
(iii)二者不在同一机架上,通过机架间的网络传输数据。
在数据密集型作业中,数据的读取往往成为系统效率的瓶颈,由于上述三种读取方式的速度依次递减,因此如何降低网络传输所占的比例,将成为提升系统性能的关键所在。
以目前广泛使用的分布式计算平台Hadoop为例,它的文件系统HDFS(HadoopDistributed File System)会将一个文件拆分为多个等大的数据块(Block)分布在集群中的各个节点上,数据块大小通常为64MB。为了保证数据的可用性,在默认情况下每个数据块有三个备份,其中两个在同一机架的不同节点上,第三个在其他机架上,HDFS现有的解决方案是根据磁盘的负载情况选择存放的节点。
然而,这种选择方式并没有考虑到数据之间的关联性,有些数据在逻辑上关系很紧密,在同一个子任务中往往会被一起处理,如果在物理位置上将他们分开存放,在执行过程中需要将数据迁移到子任务所在的节点,从而影响整个系统的吞吐率。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于频繁项集的数据关联性分析和预读取方法。本发明的目的在于克服现有技术中的不足,针对云计算中数据分布的独特性,在频繁项集的基础上,提供一种数据预读取的机制,可以有效解避免数据传输成为计算的瓶颈,从而加快计算的速度。
根据本发明提供的一种基于频繁项集的数据关联性分析和预读取方法,包括如下步骤:
步骤1:对于用户提交到云平台中的第i个作业Jobi,云平台根据作业Jobi中的每个子任务Taskij涉及到的数据块生成一条记录Tij,并将记录Tij存入资料库D中;
其中,Taskij表示作业Jobi的第j个子任务;i为正整数,j为正整数;所述记录Tij,是指作业Jobi中的子任务Taskij涉及到的数据块的集合;
步骤2:每隔时间间隔Interval,对资料库D中的数据进行挖掘,找到频繁项集中所有的关联规则L,关联规则L中大小为m的子规则集合记为Lm,关联子规则集合Lm中的子规则Lmk的支持度定义为Support(Lmk);
其中,;Lmk表示关联子规则集合Lm中的第k条记录;Support(Lmk)=|Lmk|/|D|,其中,|Lmk|表示关联规则L中的子规则Lmk出现的次数,|D|表示资料库D中关联规则L的数量;时间间隔Interval根据资料库D的变化速率进行调整,Interval∝|D|/|ΔD|,其中,|ΔD|表示单位时间内关联规则L变化的数量;
步骤3、在作业Jobi的执行过程中,每个子任务Taskij根据已经处理过的数据块集合A,依照关联规则L,预测在接下来的计算中可能用到的数据块集合B,并提前加载进内存;按照如下方式决定预测是否可信:
预测置信度的计算方式为Confidence(A→B)=Support(A∪B)/Support(B)
其中,Confidence(A→B)表示处理数据块集合A后,在接下来的计算中会使用到数据块集合B的置信度,Support(B)表示关联规则L中出现数据块集合B的次数,Support(A∪B)表示关联规则L中同时出现数据块集合A和数据块集合B的次数;
设置三个置信度阈值CsameNode、CsameRack、Cglobal,分别表示数据块集合B所在节点NodeB与子任务Taskij所在节点Nodetask两者之间的位置关系为两者在同一节点、两者不在同一节点但在同一机架、两者不在同一机架上时应该选取的置信度阈值,并有CsameNode<CsameRack<Cglobal
根据节点NodeB与节点Nodetask两者之间的位置关系在CsameNode、CsameRack以及Cglobal中选取对应的置信度阈值作为阈值C,当且仅当Confidence(A→B)≥C时,认为该预测有效,并进行数据的预读取。
优选地,所述对资料库D中的数据进行挖掘,采用的如下频繁项集挖掘算法:
步骤A0:设置阈值θ,其中,0<θ<1;设置缓冲区Buffer与关联规则L,并将缓冲区Buffer与关联规则L的初始状态均设置为空集;其中Buffer为一个集合,用于存储最近使用的记录;
对资料库D中的每一条记录Tij执行如下步骤:
步骤A1:将一记录放入缓冲区Buffer中;
步骤A2:使用该记录更新关联规则L;
将在关联规则L中出现频率高于阈值θ的记录认定为频繁项集;如果关联规则L中涉及到的数据块个数为2的频繁项集的数量大于则进入步骤3,否则返回步骤1对下一条记录进行处理;
步骤A3:令m=2,对关联规则L进行约简;
步骤A4:设置m初始值为2,反复执行如下步骤A4.1至A4.3,直到Lm为空集时进入步骤A5:
步骤A4.1:将m的值增加1;
步骤A4.2:使用缓冲区Buffer中的每一条记录更新关联规则L;
步骤A4.3:对关联规则L进行约简;
步骤A5:清空缓冲区。
优选地,所述更新关联规则L,具体如下:
对记录Tij每一个大小为m的子集subsetmTij执行如下步骤:
-如果子集subsetmTij在关联子规则集合Lm中,则令该子集subsetmTij的计数变量countSet的值增加1;其中,记录Tij的任意子集subsetTij包含一个计数变量countSet,计数变量countSet表示子集subsetTij在关联规则L中出现的次数;
-如果子集subsetmTij不在关联子规则集合Lm中且m≤2,则将该子集subsetmTij加入关联子规则集合Lm中;
-如果subsetmTij的任意大小为m-1的子集均在关联子规则集合Lm-1中,则将该子集subsetmTij加入关联子规则集合Lm中;其中,Lm-1表示表示关联规则L中大小为m-1的子规则集合。
优选地,所述对关联规则L进行约简,具体为:
对关联子规则集合Lm中每一条子规则Lmk执行如下步骤:
令该子规则Lmk的计数变量countRecord的值减1,如果计数变量countRecord归零,则将该子规则Lmk在关联子规则集合Lm中删除;其中,关联子规则集合Lm中的每一个子规则Lmk包含一个计数变量countRecord,计数变量countRecord表示子规则Lmk在关联规则L中出现的次数。
与现有技术相比,本发明具有如下的有益效果:
1、本发明只需对资料库进行一遍扫描,占用额外内存小,避免了影响集群的整体性能。
2、本发明可以方便的找出数据块之间的关联性,提前将逻辑关系比较紧密的数据读取到同一节点中,从而有效减少数据迁移占用的时间,提升整个系统的吞吐率。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明公开一种基于频繁项集的数据关联性分析和预读取方法,包括步骤如下:云平台每处理一个作业,将该次作业中每一个子任务处理的数据块作为一条记录存入资料库中;每隔一定时间利用集群的空闲资源对资料库中的频繁项集进行挖掘,找出数据块之间的关联性;在之后作业的执行过程中,根据预测的置信度,结合数据与任务所在节点的位置关系,提前读取所需要的数据块,从而达到提升整个集群吞吐率的目的。
本发明所提供的方法,具体如下:
步骤1、云平台每处理一个作业Jobi,则根据该次作业Jobi中的每个子任务Taskij涉及到的数据块生成一条记录Tij,并将记录Tij存入资料库D中,其中,Taskij∈Jobi,Tij={Blockk|Blockk∈Taskij},Blockk为数据块在文件系统中的唯一标识符。
所述作业Jobi,是指用户提交到云平台中的第i个特定应用(即作业),它通常可以分解为一个或多个子任务Taskij,Taskij表示作业Jobi的第j个子任务,这些子任务经过调度器的调度后分布在多个节点上并行执行,其中每个子任务负责处理指定的数据块。
所述数据块,是指在云平台的文件系统中,通常把一个大文件拆分成多个等大的数据块,分布的存储在集群中不同节点上,为了提高数据的可用性,每个数据块可以有多个备份。按照子任务所在节点与数据块所在节点的物理位置关系,可以分为三种:
(i)二者在同一节点上,通过本地磁盘I/O读取数据;
(ii)二者不在同一节点但在同一机架上,通过机架内的网络传输数据;
(iii)二者不在同一机架上,通过机架间的网络传输数据。
在这三种位置关系中,程序读取数据的速率依次递减。
所述的一条记录Tij,是指一个子任务涉及到的数据块的集合;资料库为一个二维数据结构,长度为所有子任务数量之和,用来存储产生的所有记录。
步骤2、每隔时间间隔Interval,根据资料库D中的数据使用下面提出的频繁项集挖掘算法进行挖掘,找到频繁项集中所有的关联规则L,每个关联规则L都具有相应的支持度,关联规则L中的子规则Lmk的支持度定义为Support(Lmk),其中,Lm表示关联规则L中大小为m的关联子规则集合,Lmk表示关联子规则集合Lm中的第k条记录,Lmk∈Lm。Support(Lmk)=|Lmk|/|D|,其中|Lmk|表示关联规则L中的子规则Lmk出现的次数,|D|表示资料库D中规则的数量。为了不影响云平台的用户体验,这项操作通常在集群中有空闲资源时进行,时间间隔Interval根据资料库的变化速率进行调整,Interval∝|D|/|ΔD|,其中,|ΔD|表示单位时间内规则变化的数量,即资料库变化的越快,进行挖掘的时间间隔越短,避免资料库未更新时进行冗余的计算,同时可以尽快根据资料库的变化调整关联规则。
所述频繁项集,是指在挖掘布尔关联规则的过程中,产生的所有支持度大于最小支持度的项集,它不关心项目的次序,仅考虑项目的组合。
步骤3、在作业的执行过程中,每个子任务根据已经处理过的数据块集合A,依照关联规则L,预测在接下来的计算中可能用到的数据块集合B,并提前加载进内存。按照如下方式决定预测是否可信:
预测置信度的计算方式为Confidence(A→B)=Support(A∪B)/Support(B)
其中,Confidence(A→B)表示处理数据块A后,在接下来的计算中会使用到数据块B的置信度,Support(B)表示关联规则中出现B的次数,Support(A∪B)表示关联规则中同时出现A和B的次数;
设置三个置信度阈值CsameNode、CsameRack和Cglobal,分别表示数据块集合B所在节点NodeB与子任务所在节点Nodetask两者之间,两者为同一节点、两者不在同一节点但在同一机架、两者不在同一机架上时应该选取的置信度阈值,并有CsameNode<CsameRack<Cglobal
根据节点NodeB与节点Nodetask两者位置关系在CsameNode、CsameRack和Cglobal选取合适者作为阈值C,当且仅当Confidence(A→B)≥C时,认为该预测有效,并进行数据的预读取。
所述预测置信度,是指根据频繁项集的结果推导出的关联规则的可信程度,只有在该值高于一定阈值的情况下,才会进行数据的预读取。
本发明采用的频繁项集挖掘算法,具体如下:
输入:资料库D以及阈值θ,其中0<θ<1,出现频率高于阈值θ表示该记录Tij为频繁项集
输出:关联规则L,其中Lm表示关联规则L中大小为m的子规则集合
数据结构:该频繁项集挖掘算法需要维护两个变量,缓冲区Buffer与关联规则L,其中Buffer为一个集合,存储最近使用的记录
初始状态:Buffer与L均为空集
对资料库中的每一条记录Tij执行如下步骤:
步骤1:将记录Tij放入缓冲区Buffer中,Buffer=Buffer∪{Tij}
步骤2:使用记录Tij更新关联规则L,L=update(Tij,2)
如果关联规则L中数据块个数为2的频繁项集的数量大于则继续执行步骤3至步骤5,否则返回步骤1对下一条记录进行处理;
步骤3:对关联规则L进行约简,L=eliminate(2)
步骤4:初始时m=2,当Lm不为空集时,反复执行如下步骤
步骤4.1:令m的值增加1;
步骤4.2:使用缓冲区Buffer中的每一条记录Tij更新L,L=update(Tij,2);
步骤4.3:对关联规则L进行约简,L=eliminate(m);
步骤5:清空缓冲区Buffer,
上述步骤中提到的更新关联规则L的子程序update具体如下:
输入:一条记录Tij以及数据块个数m
数据结构:记录Tij的任意子集subsetTij包含一个计数变量countSet,计数变量countSet表示subsetTij在关联规则L中出现的次数
对记录Tij每一个大小为m的子集subsetmTij执行如下步骤:
如果subsetmTij在关联规则Lm中,那么该子集的计数变量countSet的值增加1;
如果subsetmTij不在关联规则Lm中且m≤2,将该子集加入Lm中,Lm=Lm∪subsetmTij
如果subsetmTij的任意大小为m-1的子集均在关联规则Lm-1中,那么将该子集加入Lm中,Lm=Lm∪subsetmTij,其中,Lm-1表示表示关联规则L中大小为m-1的子规则集合。
上述步骤中提到的对关联规则L进行约简的子程序eliminate具体如下:
输入:数据块个数m
数据结构:关联子规则集合Lm中的每一个子规则Lmk包含一个计数变量countRecord,计数变量countRecord表示子规则Lmk在关联规则L中出现的次数
对关联子规则集合Lm每一条记录Lmk执行如下步骤:
令该子规则Lmk的计数变量countRecord的值减1,如果计数变量countRecord归零,则将该子规则Lmk在关联子规则集合Lm中删除。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。

Claims (4)

1.一种基于频繁项集的数据关联性分析和预读取方法,其特征在于,包括如下步骤:
步骤1:对于用户提交到云平台中的第i个作业Jobi,云平台根据作业Jobi中的每个子任务Taskij涉及到的数据块生成一条记录Tij,并将记录Tij存入资料库D中;
其中,Taskij表示作业Jobi的第j个子任务;i为正整数,j为正整数;所述记录Tij,是指作业Jobi中的子任务Taskij涉及到的数据块的集合;
步骤2:每隔时间间隔Interval,对资料库D中的数据进行挖掘,找到频繁项集中所有的关联规则L,关联规则L中大小为m的子规则集合记为Lm,关联子规则集合Lm中的子规则Lmk的支持度定义为Support(Lmk);
其中,Lmk表示关联子规则集合Lm中的第k条记录;Support(Lmk)=|Lmk|/|D|,|Lmk|表示关联规则L中的子规则Lmk出现的次数,|D|表示资料库D中关联规则L的数量;时间间隔Interval根据资料库D的变化速率进行调整,Interval∝|D|/|ΔD|,其中,|ΔD|表示单位时间内关联规则L变化的数量;
步骤3、在作业Jobi的执行过程中,每个子任务Taskij根据已经处理过的数据块集合A,依照关联规则L,预测在接下来的计算中可能用到的数据块集合B,并提前加载进内存;按照如下方式决定预测是否可信:
预测置信度的计算方式为Confidence(A→B)=Support(A∪B)/Support(B)
其中,Confidence(A→B)表示处理数据块集合A后,在接下来的计算中会使用到数据块集合B的置信度,Support(B)表示关联规则L中出现数据块集合B的次数,Support(A∪B)表示关联规则L中同时出现数据块集合A和数据块集合B的次数;
设置三个置信度阈值CsameNode、CsameRack、Cglobal,分别表示数据块集合B所在节点NodeB与子任务Taskij所在节点Nodetask两者之间的位置关系为两者在同一节点、两者不在同一节点但在同一机架、两者不在同一机架上时应该选取的置信度阈值,并有CsameNode<CsameRack<Cglobal
根据节点NodeB与节点Nodetask两者之间的位置关系在CsameNode、CsameRack以及Cglobal中选取对应的置信度阈值作为阈值C,当且仅当Confidence(A→B)≥C时,认为该预测有效,并进行数据的预读取。
2.根据权利要求1所述的基于频繁项集的数据关联性分析和预读取方法,其特征在于,所述对资料库D中的数据进行挖掘,采用的如下频繁项集挖掘算法:
步骤A0:设置阈值θ,其中,0<θ<1;设置缓冲区Buffer与关联规则L,并将缓冲区Buffer与关联规则L的初始状态均设置为空集;其中Buffer为一个集合,用于存储最近使用的记录;
对资料库D中的每一条记录Tij执行如下步骤:
步骤A1:将一记录放入缓冲区Buffer中;
步骤A2:使用该记录更新关联规则L;
将在关联规则L中出现频率高于阈值θ的记录认定为频繁项集;如果关联规则L中涉及到的数据块个数为2的频繁项集的数量大于,则进入步骤3,否则返回步骤1对下一条记录进行处理;
步骤A3:令m=2,对关联规则L进行约简;
步骤A4:设置m初始值为2,反复执行如下步骤A4.1至A4.3,直到Lm为空集时进入步骤A5:
步骤A4.1:将m的值增加1;
步骤A4.2:使用缓冲区Buffer中的每一条记录更新关联规则L;
步骤A4.3:对关联规则L进行约简;
步骤A5:清空缓冲区。
3.根据权利要求2所述的基于频繁项集的数据关联性分析和预读取方法,其特征在于,所述更新关联规则L,具体如下:
对记录Tij每一个大小为m的子集subsetmTij执行如下步骤:
-如果子集subsetmTij在关联子规则集合Lm中,则令该子集subsetmTij的计数变量countSet的值增加1;其中,记录Tij的任意子集subsetTij包含一个计数变量countSet,计数变量countSet表示子集subsetTij在关联规则L中出现的次数;
-如果子集subsetmTij不在关联子规则集合Lm中且m≤2,则将该子集subsetmTij加入关联子规则集合Lm中;
-如果subsetmTij的任意大小为m-1的子集均在关联子规则集合Lm-1中,则将该子集subsetmTij加入关联子规则集合Lm中;其中,Lm-1表示表示关联规则L中大小为m-1的子规则集合。
4.根据权利要求2所述的基于频繁项集的数据关联性分析和预读取方法,其特征在于,所述对关联规则L进行约简,具体为:
对关联子规则集合Lm中每一条子规则Lmk执行如下步骤:
令该子规则Lmk的计数变量countRecord的值减1,如果计数变量countRecord归零,则将该子规则Lmk在关联子规则集合Lm中删除;其中,关联子规则集合Lm中的每一个子规则Lmk包含一个计数变量countRecord,计数变量countRecord表示子规则Lmk在关联规则L中出现的次数。
CN201510275426.2A 2015-05-26 2015-05-26 基于频繁项集的数据关联性分析和预读取方法 Active CN104881467B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510275426.2A CN104881467B (zh) 2015-05-26 2015-05-26 基于频繁项集的数据关联性分析和预读取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510275426.2A CN104881467B (zh) 2015-05-26 2015-05-26 基于频繁项集的数据关联性分析和预读取方法

Publications (2)

Publication Number Publication Date
CN104881467A true CN104881467A (zh) 2015-09-02
CN104881467B CN104881467B (zh) 2018-08-31

Family

ID=53948960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510275426.2A Active CN104881467B (zh) 2015-05-26 2015-05-26 基于频繁项集的数据关联性分析和预读取方法

Country Status (1)

Country Link
CN (1) CN104881467B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844740A (zh) * 2017-02-14 2017-06-13 华南师范大学 基于内存对象缓存系统的数据预读方法
CN107887033A (zh) * 2017-10-25 2018-04-06 青岛海信医疗设备股份有限公司 为终端预传输数据的方法、装置及服务器
CN107967306A (zh) * 2017-11-13 2018-04-27 华中科技大学 一种存储系统中关联块的快速挖掘方法
CN109617962A (zh) * 2018-12-11 2019-04-12 电子科技大学 一种基于内容关联度的车联网雾节点内容缓存方法
CN111309257A (zh) * 2020-02-10 2020-06-19 西安奥卡云数据科技有限公司 恒定速率读文件的预读方法、装置及计算机可读存储介质
CN117114116A (zh) * 2023-08-04 2023-11-24 北京杰成合力科技有限公司 一种基于机器学习的根因分析方法、介质和设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120182891A1 (en) * 2011-01-19 2012-07-19 Youngseok Lee Packet analysis system and method using hadoop based parallel computation
CN103593400A (zh) * 2013-12-13 2014-02-19 陕西省气象局 一种基于改进Apriori算法的雷电活动数据统计方法
CN103605749A (zh) * 2013-11-20 2014-02-26 同济大学 一种基于多参数干扰的隐私保护关联规则数据挖掘方法
CN103838804A (zh) * 2013-05-09 2014-06-04 电子科技大学 一种基于社团划分的社交网络用户兴趣关联规则挖掘方法
CN103995828A (zh) * 2014-04-11 2014-08-20 西安电子科技大学宁波信息技术研究院 一种云存储日志数据分析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120182891A1 (en) * 2011-01-19 2012-07-19 Youngseok Lee Packet analysis system and method using hadoop based parallel computation
CN103838804A (zh) * 2013-05-09 2014-06-04 电子科技大学 一种基于社团划分的社交网络用户兴趣关联规则挖掘方法
CN103605749A (zh) * 2013-11-20 2014-02-26 同济大学 一种基于多参数干扰的隐私保护关联规则数据挖掘方法
CN103593400A (zh) * 2013-12-13 2014-02-19 陕西省气象局 一种基于改进Apriori算法的雷电活动数据统计方法
CN103995828A (zh) * 2014-04-11 2014-08-20 西安电子科技大学宁波信息技术研究院 一种云存储日志数据分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIAO-GAO YU: "The research on association rules algorithm based on minimum item supports", 《WICOM"08.4TH INTERNATIONAL CONFERENCE》 *
张云涛 等: "关联规则中频繁项集高效挖掘的研究", 《计算机工程与应用》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844740A (zh) * 2017-02-14 2017-06-13 华南师范大学 基于内存对象缓存系统的数据预读方法
CN107887033A (zh) * 2017-10-25 2018-04-06 青岛海信医疗设备股份有限公司 为终端预传输数据的方法、装置及服务器
CN107967306A (zh) * 2017-11-13 2018-04-27 华中科技大学 一种存储系统中关联块的快速挖掘方法
CN107967306B (zh) * 2017-11-13 2020-07-03 华中科技大学 一种存储系统中关联块的快速挖掘方法
CN109617962A (zh) * 2018-12-11 2019-04-12 电子科技大学 一种基于内容关联度的车联网雾节点内容缓存方法
CN111309257A (zh) * 2020-02-10 2020-06-19 西安奥卡云数据科技有限公司 恒定速率读文件的预读方法、装置及计算机可读存储介质
CN117114116A (zh) * 2023-08-04 2023-11-24 北京杰成合力科技有限公司 一种基于机器学习的根因分析方法、介质和设备

Also Published As

Publication number Publication date
CN104881467B (zh) 2018-08-31

Similar Documents

Publication Publication Date Title
CN104881467A (zh) 基于频繁项集的数据关联性分析和预读取方法
EP3238106B1 (en) Compaction policy
Gautam et al. A survey on job scheduling algorithms in big data processing
Li et al. A platform for scalable one-pass analytics using mapreduce
US10049049B2 (en) Method and system for caching data managed by plural information processing apparatuses
US10860245B2 (en) Method and apparatus for optimizing data storage based on application
Li et al. SCALLA: A platform for scalable one-pass analytics using MapReduce
US10540355B1 (en) ACID database
Chen et al. Distributed and scalable sequential pattern mining through stream processing
US11880364B2 (en) Predictive resource allocation for distributed query execution
WO2012005728A1 (en) Resource assignment for jobs in a system having a processing pipeline
Deshai et al. Processing real world datasets using big data hadoop tools
US20210263780A1 (en) Autoscaling nodes of a stateful application based on role-based autoscaling policies
Chai et al. Adaptive lower-level driven compaction to optimize LSM-tree key-value stores
CN108595251B (zh) 动态图更新方法、装置、存储引擎接口和程序介质
US11347416B1 (en) Compacting data streams in a streaming data storage platform
EP3555767B1 (en) Partial storage of large files in distinct storage systems
Yan et al. Efficient processing of very large graphs in a small cluster
CN107346342A (zh) 一种基于存储计算的文件调用方法与系统
Mukherjee Non-replicated dynamic fragment allocation in distributed database systems
CN109558376A (zh) 一种面向MapReduce框架的有效计算与数据传输重叠执行方法
US11860835B1 (en) Efficient drop column requests in a non-relational data store
Lei et al. Redoop: Supporting Recurring Queries in Hadoop.
US11762860B1 (en) Dynamic concurrency level management for database queries
Liu et al. A survey of speculative execution strategy in MapReduce

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant