CN104331464A - 一种基于MapReduce的监控数据优先预取处理方法 - Google Patents

一种基于MapReduce的监控数据优先预取处理方法 Download PDF

Info

Publication number
CN104331464A
CN104331464A CN201410604052.XA CN201410604052A CN104331464A CN 104331464 A CN104331464 A CN 104331464A CN 201410604052 A CN201410604052 A CN 201410604052A CN 104331464 A CN104331464 A CN 104331464A
Authority
CN
China
Prior art keywords
node
task
data
mapreduce
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410604052.XA
Other languages
English (en)
Inventor
廖福玮
罗开明
张新坡
刘岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XJ Electric Co Ltd
Xuchang XJ Software Technology Co Ltd
Original Assignee
XJ Electric Co Ltd
Xuchang XJ Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XJ Electric Co Ltd, Xuchang XJ Software Technology Co Ltd filed Critical XJ Electric Co Ltd
Priority to CN201410604052.XA priority Critical patent/CN104331464A/zh
Publication of CN104331464A publication Critical patent/CN104331464A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于MapReduce的监控数据优先预取处理方法,属于软件工程技术领域。本发明在原有电网监控系统的基础上改变客户\服务器模式,采用MapReduce对监控数据量进行处理,通过对资源数据的预取,将数据集经过节点预选找到空闲节点作为候选工作计算节点,再通过任务预选,预先选出待预取的map任务,综合前两个预选完成数据的优先预选,提高了系统的运行效率,并且利用该方法可以实现方便、灵活的拓展,而不需要对原有的系统进行改造,在使用的便利性上也有了很大的进步。

Description

一种基于MapReduce的监控数据优先预取处理方法
技术领域
本发明涉及一种基于MapReduce的监控数据优先预取处理方法,属于软件工程技术领域。
背景技术
随着分布式电源,微电网的发展,在电网监控系统中需要接入的设备数量以及需要监测的量测数据将爆发式的增长,伴随智能化需求的增多,电网监控系统需要采集存储的数据量也将急剧增多,数据流的快速存储和处理分析能力在传统的客户\服务器加数据库技术方式下面临着存储容量不足,数据处理效率低下等问题。
发明内容
本发明的目的是提供一种基于MapReduce的监控数据优先预取处理方法,
以解决现有MapReduce方法效率低、在电网监控系统中由于监控数据急剧增加导致监控数据流处理能力不足的问题。
本发明为解决上述技术问题而提供一种基于MapReduce的监控数据优先预取处理方法,该处理方法包括以下步骤:
1)构建Hadoop分布式系统,包括主节点和从节点,主节点和从节点上均安装JDK和Hadoop软件,并添加有JAVA环境变量;
2)将数据集进行节点预选找到空闲节点作为候选工作计算节点;
3)在确定候选计算节点集之后,在预先选出待预取的map任务;
4)根据筛选出的候选节点和待预取map任务对数据进行预取。
所述步骤1)中主节点和从节点计算机安装Hadoop软件时,需对conf目录下的6个核心配置文件进行相应配置,这6个配置文件分别是hadoop-env.sh、core-site.xml、mapred-site.xml、hdfs-site.xml、masters和slaves文件。
所述hadoop-env.sh文件用于配置所使用的JDK版本及所处位置;core-site.xml文件用于配置HDFS文件系统的名称、访问入口地址及端口信息;mapred-site.xml文件用于配置JobTracker的入口地址及端口;hdfs-site.xml文件用于配置HDFS副本数;而masters和slaves文件分别用于指定主节点和从节点所对应的机器。
所述主节点主要负责Hadoop两个关键功能模块HDFS、MapReduce的监督,当JobTracker使用MapReduce进行监控和调度数据的并行处理时,NameNode则负责HDFS监视和调度,从节点负责机器运行的绝大部分,担当所有数据储存和指令计算,每个从节点既扮演者数据节点的角色又承担与它们主节点通信的守护进程。
所述步骤2)如果在选中的候选节点上进行资源预取操作,需要保证在当前正在运行的任务结束之前就完成预取。
所述步骤2)中节点预选的具体过程如下:
(a)利用计算节点上当前正在运行任务的执行进度来推测其最大剩余执行时间estimatedLeftTime;
(b)根据网络设备的理论传输速率计算出节点间传输一个文件块所需要的时间timePerBlock;
(c)依据正在该节点上运行的任务中存在剩余完成时间小于传输一个数据块所需时间的map任务,判断该节点马上就会释放忙碌计算槽(slots),意味着在预取完成之前此计算节点就会变为空闲节点,无需再执行后续的预取操作;
(d)对节点上每个map任务的剩余完成时间estimatedLeftTime与节点间传输一个文件块所需时间进行比较,若计算节点存在estimatedLeftTime<timePerBlock的map任务,则退出本次预取操作;反之,则选取estimatedLeftTime<timePerBlock的计算节点加入candidateTTs集合中,作为候选节点的备选集。
所述步骤3)中任务预选的过程如下:
a.读取最新的candidateTTs列表,并从中选取排列在第一位的TaskTracker,即接下来最有可能释放忙碌计算槽(slots)且可在其释放前有充足时间完成预取操作的计算节点,作为待进行预取操作的候选节点,记为targetTT;
b.如果集合不为空,则对其中失败次数最多的任务严格按其相对于步骤a中选出的数据本地性进行筛选,如果为node-local任务,则中断整个算法的执行,反之,则选择该失败次数最多的任务作为候选map任务,记为toPrefetchMap;
c.如果执行完步骤b以后toPrefetchMap仍为空,则查询当前队列中正在运行的作业是否还有剩余map任务没有完成,即nonRunningMapCache是否不为空,为空则从中严格按照本地性策略依次查找关于targetTT节点本地性分别为node-local、rack-local和off-switch的map任务,若nonRunningMapCache中尚存在关于targetTT节点为node-local级别本地性的任务,则退出本次预取操作;否则,从nonRunningMapCache中依次优先选择一个rack-local或off-switch级别任务作为toPrefetchMap。
所述步骤4)中数据预取的具体过程如下:
A.从toPrefetchMap任务对应的TasklnProgress对象中读取相应元数据信息,获取输入数据所在位置,以确定候选源节点,记为sourceTTs;
B.通过读取conf目录下的topology.data文件,获取当前Hadoop集群所配置的网络拓扑结构信息,确定sourceTTs中节点与目标节点targetTT间的距离,选取距离最近的节点作为预取的源节点,记为sourceTT;
C.根据步骤B中的计算,在离候选目标节点targetTT距离最近的sourceTT节点上,将toPrefetchMap任务的输入数据通过网络传输到目标节点targetTT上并存储于本地磁盘;
D.更新JobTracker上相应的元信息文件;
E.在完成一个任务之后,会释放之前忙碌的slot,并会随着发送的“心跳”告知JobTracker,请求分配新的任务,此时toPrefetchMap则会被分配给该节点,由于其输入数据己经预先存储到该节点的磁盘上,任务执行相当于在本地性节点上执行。
本发明的有益效果是:本发明在原有电网监控系统的基础上改变客户\服务器模式,采用MapReduce对监控数据量进行处理,通过对资源数据的预取,将数据集经过节点预选找到空闲节点作为候选工作计算节点,再通过任务预选,预先选出待预取的map任务,综合前两个预选完成数据的优先预选,提高了系统的运行效率,并且利用该方法可以实现方便、灵活的拓展,而不需要对原有的系统进行改造,在使用的便利性上也有了很大的进步。
附图说明
图1是基于MapRduce的监控数据优先预取处理方法流程图;
图2是节点预选流程图;
图3是任务预选流程图;
图4是系统配置图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的说明。
本发明提供了基于MapRduce的监控数据优先预取处理方法,本方法基于利用MapReduce处理大数据集,采用将数据集经过节点预选找到空闲节点作为候选工作计算节点,再通过任务预选,预先选出待预取的map任务,综合前两个预选完成数据的优先预选,提高了系统的运行效率,并且利用该方法可以实现方便、灵活的拓展。该方法的具体过程如下:
1.在所有机器上安装JDK,并添加JAVA环境变量;
2.在所有机器上安装SSH并完成配置。
SSH(Secure Shel l)是用来启动和停止各个DataNode上的各守护进程,Hadoop运行过程中需要管理远端Hadoop守护进程,这就必须在各节点之间执行指令的时候不需要输入密码,所以需要配置SSH运用无密码公钥认证的形式,这样NameNode使用SSH无密码登陆并启动DataNode进程。SSH无密码原理在于主节点(NameNode\JobTracker)作为客户端,要实现无密码公钥认证,连接到服务器从节点(DataNode\Tasktracker)上时,需要在Master上生成一对密钥对,包括一个公钥和一个私钥,而后将公钥复制到所有的从节点上。当主节点通过SSH连接到从节点时,从节点就会生成一个随机数并用主节点的公钥对随机数进行加密,并发给主节点。主节点收到加密数之后再用私钥解密,并将解密数回传给从节点,从节点确认密数无误之后就允许主节点进行连接。这就是一个公钥认证的过程,期间不需要用户手工输入密码。
3.在主节点和从节点计算机安装Hadoop软件,然后对conf目录下的6个核心配置文件进行相应配置,即可完成安装。这6个配置文件分别是hadoop-env.sh、core-site.xml、mapred-site.xml、hdfs-site.xml、masters和slaves文件。
hadoop-env.sh文件主要用于配置所使用的JDK版本及所处位置;core-site.xml文件主要配置HDFS文件系统的名称、访问入口地址及端口等信息;mapred-site.xml文件则主要配置JobTracker的入口地址及端口;hdfs-site.xml文件主要配置HDFS副本数;而masters和slaves文件分别用于指定主节点和从节点所对应的机器。
4.节点预选,根据当前节点的工作情况,在有空闲节点的情况下,将空闲节点作为候选工作计算节点,如果没有空闲节点,则计算节点上当前释放忙碌计算槽(slots)的可能性大小,具体来说就是计算节点上任务执行进度的快慢程度,任务执行进度最快的节点当前最有可能释放忙碌计算槽(slot),则计算节点上任务的执行进度快慢程度,找出执行进度最快的节点,并确保在当前正在运行的任务结束之前完成预取。
如果在选中的候选节点上进行资源预取操作,需要保证在当前正在运行的任务结束之前就完成预取,具体做法则是分别计算出各计算节点上当前正在运行任务的剩余执行时间,再通过将此时间与在节点间传输一个数据块所需的时间进行比较,最后才确定是否预选该节点作为候选的计算节点。节点预选过程步骤,如图2所示。选取过程步骤如下:
(a)利用计算节点上当前正在运行任务的执行进度来推测其最大剩余执行时间estimatedLeftTime。
(b)根据网络设备的理论传输速率计算出节点间传输一个文件块所需要的时间timePerBlock。
(c)依据正在该节点上运行的任务中存在剩余完成时间小于传输一个数据块所需时间的map任务,判断该节点马上就会释放忙碌计算槽(slots),意味着在预取完成之前此计算节点就会变为空闲节点,无需再执行后续的预取操作。
(d)对节点上每个map任务的剩余完成时间estimatedLeftTime与节点间传输一个文件块所需时间进行比较,如果出现以下情况:此计算节点存在estimatedLeftTime<timePerBlock的map任务,则退出本次预取操作;反之,则选取estimatedLeftTime<timePerBlock的计算节点加入candidateTTs集合中,作为候选节点的备选集。
5.任务预选,在确定候选计算节点集之后,在预先选出待预取的map任务。根据步骤4中预选出的候选计算节点情况,和当前正在运行作业的未运行任务情况,在集群中尚无TaskTracker向JobTracker请求任务的情况下,根据当前未运行任务相对于候选计算节点的数据本地性预先选出待分配的map任务,以针对该map任务完成后续的资源预取操作。任务预选过程如图3所示,具体步骤如下:
a读取最新的candidateTTs列表,并从中选取排列在第一位的TaskTracker,即接下来最有可能释放忙碌计算槽(slots)且可在其释放前有充足时间完成预取操作的计算节点,作为待进行预取操作的候选节点,记为targetTT。
b为了保证当前作业已有的失败任务享有一定的优先级,可以快速被重新调度,对于当前运行作业,如果集合不为空,则对其中失败次数最多的任务严格按其相对于步骤a中选出的数据本地性进行筛选,如果为node-local任务,则中断整个算法的执行,因为接下来即将执行的map本身即为本地性任务;反之,则选择该失败次数最多的任务作为候选map任务,记为toPrefetchMap。
c如果执行完步骤b以后toPrefetchMap仍为空,则查询当前队列中正在运行的作业是否还有剩余map任务没有完成,即nonRunningMapCache是否不为空,为空则从中严格按照本地性策略依次查找关于targetTT节点本地性分别为node-local、rack-local和off-switch的map任务。若nonRunningMapCache中尚存在关于targetTT节点为node-local级别本地性的任务,则退出本次预取操作;否则,从nonRunningMapCache中依次优先选择一个rack-local或off-switch级别任务作为toPrefetchMap。
6.数据预取,在经过上述两个阶段——预选节点阶段和预选任务阶段之后,候选节点及待预取map任务已经被遴选出来。读取toPrefetchMap对应的元数据信息,获取所需输入数据副本所在节点;读取配置文件目录下的网络拓扑结构信息,计算源节点与目标节点之间的距离;根据计算结果选取距离最近的节点作为源节点;从源节点读取输入数据传输到目标节点并更新元数据信息;在目标节点上的当前map任务完成时请求调度新的任务即toPrefetchMap。数据预选过程如图1所示,具体步骤如下:
(A)从toPrefetchMap任务对应的TasklnProgress对象中读取相应元数据信息,获取输入数据所在位置,以确定候选源节点,记为sourceTTs。
(B)通过读取conf目录下的topology.data文件,即可获取当前Hadoop集群所配置的网络拓扑结构信息,由此可以确定sourceTTs中节点与目标节点targetTT间的距离,选取距离最近的节点作为预取的源节点,记为sourceTT。
(C)根据步骤(B)中的计算,在离候选目标节点targetTT距离最近的sourceTT节点上,将toPrefetchMap任务的输入数据通过网络传输到目标节点targetTT上并存储于本地磁盘。
(D)更新JobTracker上相应的元信息文件。
(E)在完成一个任务之后,会释放之前忙碌的slot,并会随着发送的“心跳”告知JobTracker,请求分配新的任务,此时toPrefetchMap则会被分配给该节点,由于其输入数据己经预先存储到该节点的磁盘上,任务执行相当于在本地性节点上执行
7.首先启动Hadoop服务平台,为MapReduce提供主节点和从节点。再建立与监控系统数据库的连接,获取作业ID。保证节点能够动态从监控数据库发送数据调用请求。然后MapReduce将预取的资源数据调用任务进行对应的分析处理。
构建基于MapRduce的监控数据优先预取处理系统的步骤如下:
1.在主节点,数据节点先预装操作系统,在此基础上安装JAVA工作环境,分别在主节点和数据节点安装Hadoop软件。
基于MapRduce的监控数据优先预取处理系统的典型应用过程如下:
(a)如图4所示,根据实际业务需求,设置1台Master节点,6台从节点,并配置好网络环境,如下表1所示。
表1
机器名称 IP地址 节点角色
Master 192.168.100.1 JobTracker、NameNode、SecondaryNameNode
Slave1 192.168.100.2 TaskTracker、DataNode
Slave2 192.168.100.3 TaskTracker、DataNode
Slave3 192.168.100.4 TaskTracker、DataNode
Slave4 192.168.100.5 TaskTracker、DataNode
Slave5 192.168.100.6 TaskTracker、DataNode
Slave6 192.168.100.7 TaskTracker、DataNode
(b)首先在主调度机中启动Hadoop服务平台,在平台中包括以下五个节点:NameNode、SecondaryNameNode、DataNode、JobTracker和TaskTracker。其中在主节点中运行NameNode、SecondaryNameNode和JobTracker三个节点,从节点运行DataNode和TaskTracker节点。
(c)运行作业,例如在这里主要是考察改进后的基于数据预取的办法相对于经典方法的改善,可以运行最经典的单词计数程序WordCount作为基准测试程序。表2为经典方法与数据预取方法的数据比较。从表中可以看出,在对数据预取后,效率相对Fair方法有了6%-15%的提高。
表2经典方法与数据预取方法的比较表
序号 Fair方法 数据预取方法
1 50% 62.5%
2 50% 56.5%
3 50% 57.3%
4 50% 64.7%
5 42.8% 57.4%
6 50% 63.6%
7 46.1% 54.3%
本发明在七台计算机中安装操作系统,按照Hadoop云计算的架构,分为一个主节点和六个从节点,主节点既充当HDFS的名称节点和备份名称节点又充当负责作业管理的JobTracker,从节点同样负责两个任务,分别是负责执行任务的TaskTracker和负责所有数据储存和指令计算的DataNode角色。Hadoop为一个分布式系统基础架构,HDFS全称为Hadoop Distributed Fi le System,为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。本发明通过对监控数据所在节点的位置和任务分析,把所需要的资源优先预取,使得监控数据集在进行处理之前就能归集到本地最方便获取的位置。通过优先预取技术取得了相比未经处理方式下,系统具有更高的处理效率,并且具有更好的可拓展性和可靠性。

Claims (8)

1.一种基于MapReduce的监控数据优先预取处理方法,其特征在于,该处理方法包括以下步骤:
1)构建Hadoop分布式系统,包括主节点和从节点,主节点和从节点上均安装JDK和Hadoop软件,并添加有JAVA环境变量;
2)将数据集进行节点预选找到空闲节点作为候选工作计算节点;
3)在确定候选计算节点集之后,在预先选出待预取的map任务;
4)根据筛选出的候选节点和待预取map任务对数据进行预取。
2.根据权利要求1所述的基于MapReduce的监控数据优先预取处理方法,其特征在于,所述步骤1)中主节点和从节点计算机安装Hadoop软件时,需对conf目录下的6个核心配置文件进行相应配置,这6个配置文件分别是hadoop-env.sh、core-site.xml、mapred-site.xml、hdfs-site.xml、masters和slaves文件。
3.根据权利要求2所述的基于MapReduce的监控数据优先预取处理方法,其特征在于,所述hadoop-env.sh文件用于配置所使用的JDK版本及所处位置;core-site.xml文件用于配置HDFS文件系统的名称、访问入口地址及端口信息;mapred-site.xml文件用于配置JobTracker的入口地址及端口;hdfs-site.xml文件用于配置HDFS副本数;而masters和slaves文件分别用于指定主节点和从节点所对应的机器。
4.根据权利要求3所述的基于MapReduce的监控数据优先预取处理方法,其特征在于,所述主节点主要负责Hadoop两个关键功能模块HDFS、MapReduce的监督,当JobTracker使用MapReduce进行监控和调度数据的并行处理时,NameNode则负责HDFS监视和调度,从节点负责机器运行的绝大部分,担当所有数据储存和指令计算,每个从节点既扮演者数据节点的角色又承担与它们主节点通信的守护进程。
5.根据权利要求4所述的基于MapReduce的监控数据优先预取处理方法,其特征在于,所述步骤2)如果在选中的候选节点上进行资源预取操作,需要保证在当前正在运行的任务结束之前就完成预取。
6.根据权利要求5所述的基于MapReduce的监控数据优先预取处理方法,其特征在于,所述步骤2)中节点预选的具体过程如下:
(a)利用计算节点上当前正在运行任务的执行进度来推测其最大剩余执行时间estimatedLeftTime;
(b)根据网络设备的理论传输速率计算出节点间传输一个文件块所需要的时间timePerBlock;
(c)依据正在该节点上运行的任务中存在剩余完成时间小于传输一个数据块所需时间的map任务,判断该节点马上就会释放忙碌计算槽(slots),意味着在预取完成之前此计算节点就会变为空闲节点,无需再执行后续的预取操作;
(d)对节点上每个map任务的剩余完成时间estimatedLeftTime与节点间传输一个文件块所需时间进行比较,若计算节点存在estimatedLeftTime<timePerBlock的map任务,则退出本次预取操作;反之,则选取estimatedLeftTime<timePerBlock的计算节点加入candidateTTs集合中,作为候选节点的备选集。
7.根据权利要求6所述的基于MapReduce的监控数据优先预取处理方法,其特征在于,所述步骤3)中任务预选的过程如下:
a.读取最新的candidateTTs列表,并从中选取排列在第一位的TaskTracker,即接下来最有可能释放忙碌计算槽(slots)且可在其释放前有充足时间完成预取操作的计算节点,作为待进行预取操作的候选节点,记为targetTT;
b.如果集合不为空,则对其中失败次数最多的任务严格按其相对于步骤a中选出的数据本地性进行筛选,如果为node-local任务,则中断整个算法的执行,反之,则选择该失败次数最多的任务作为候选map任务,记为toPrefetchMap;
c.如果执行完步骤b以后toPrefetchMap仍为空,则查询当前队列中正在运行的作业是否还有剩余map任务没有完成,即nonRunningMapCache是否不为空,为空则从中严格按照本地性策略依次查找关于targetTT节点本地性分别为node-local、rack-local和off-switch的map任务,若nonRunningMapCache中尚存在关于targetTT节点为node-local级别本地性的任务,则退出本次预取操作;否则,从nonRunningMapCache中依次优先选择一个rack-local或off-switch级别任务作为toPrefetchMap。
8.根据权利要求7所述的基于MapReduce的监控数据优先预取处理方法,其特征在于,所述步骤4)中数据预取的具体过程如下:
A.从toPrefetchMap任务对应的TasklnProgress对象中读取相应元数据信息,获取输入数据所在位置,以确定候选源节点,记为sourceTTs;
B.通过读取conf目录下的topology.data文件,获取当前Hadoop集群所配置的网络拓扑结构信息,确定sourceTTs中节点与目标节点targetTT间的距离,选取距离最近的节点作为预取的源节点,记为sourceTT;
C.根据步骤B中的计算,在离候选目标节点targetTT距离最近的sourceTT节点上,将toPrefetchMap任务的输入数据通过网络传输到目标节点targetTT上并存储于本地磁盘;
D.更新JobTracker上相应的元信息文件;
E.在完成一个任务之后,会释放之前忙碌的slot,并会随着发送的“心跳”告知JobTracker,请求分配新的任务,此时toPrefetchMap则会被分配给该节点,由于其输入数据己经预先存储到该节点的磁盘上,任务执行相当于在本地性节点上执行。
CN201410604052.XA 2014-10-31 2014-10-31 一种基于MapReduce的监控数据优先预取处理方法 Pending CN104331464A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410604052.XA CN104331464A (zh) 2014-10-31 2014-10-31 一种基于MapReduce的监控数据优先预取处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410604052.XA CN104331464A (zh) 2014-10-31 2014-10-31 一种基于MapReduce的监控数据优先预取处理方法

Publications (1)

Publication Number Publication Date
CN104331464A true CN104331464A (zh) 2015-02-04

Family

ID=52406191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410604052.XA Pending CN104331464A (zh) 2014-10-31 2014-10-31 一种基于MapReduce的监控数据优先预取处理方法

Country Status (1)

Country Link
CN (1) CN104331464A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933110A (zh) * 2015-06-03 2015-09-23 电子科技大学 一种基于MapReduce的数据预取方法
CN105610621A (zh) * 2015-12-31 2016-05-25 中国科学院深圳先进技术研究院 一种分布式系统架构任务级参数动态调整的方法及装置
WO2016177279A1 (zh) * 2015-05-04 2016-11-10 阿里巴巴集团控股有限公司 数据处理的方法及系统
CN106909319A (zh) * 2017-02-17 2017-06-30 武汉盛信鸿通科技有限公司 一种基于虚拟存储盘的Hadoop架构及调度策略
CN108664331A (zh) * 2018-05-22 2018-10-16 腾讯大地通途(北京)科技有限公司 分布式数据处理方法及装置、电子设备、存储介质
CN111406250A (zh) * 2017-11-30 2020-07-10 思科技术公司 无服务器计算环境中的使用经预取的数据的配设

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102170440A (zh) * 2011-03-24 2011-08-31 北京大学 适用于存储云间数据安全迁移的方法
US20120182891A1 (en) * 2011-01-19 2012-07-19 Youngseok Lee Packet analysis system and method using hadoop based parallel computation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120182891A1 (en) * 2011-01-19 2012-07-19 Youngseok Lee Packet analysis system and method using hadoop based parallel computation
CN102170440A (zh) * 2011-03-24 2011-08-31 北京大学 适用于存储云间数据安全迁移的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
万兵: "MapReduce作业调度算法优化与改进研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016177279A1 (zh) * 2015-05-04 2016-11-10 阿里巴巴集团控股有限公司 数据处理的方法及系统
US10592491B2 (en) 2015-05-04 2020-03-17 Alibaba Group Holding Limited Distributed data processing
US10872070B2 (en) 2015-05-04 2020-12-22 Advanced New Technologies Co., Ltd. Distributed data processing
CN104933110A (zh) * 2015-06-03 2015-09-23 电子科技大学 一种基于MapReduce的数据预取方法
CN104933110B (zh) * 2015-06-03 2018-02-09 电子科技大学 一种基于MapReduce的数据预取方法
CN105610621A (zh) * 2015-12-31 2016-05-25 中国科学院深圳先进技术研究院 一种分布式系统架构任务级参数动态调整的方法及装置
CN105610621B (zh) * 2015-12-31 2019-04-26 中国科学院深圳先进技术研究院 一种分布式系统架构任务级参数动态调整的方法及装置
CN106909319A (zh) * 2017-02-17 2017-06-30 武汉盛信鸿通科技有限公司 一种基于虚拟存储盘的Hadoop架构及调度策略
CN106909319B (zh) * 2017-02-17 2019-11-26 武汉盛信鸿通科技有限公司 一种基于虚拟存储盘的Hadoop架构及调度策略
CN111406250A (zh) * 2017-11-30 2020-07-10 思科技术公司 无服务器计算环境中的使用经预取的数据的配设
CN111406250B (zh) * 2017-11-30 2024-02-20 思科技术公司 无服务器计算环境中的使用经预取的数据的配设
CN108664331A (zh) * 2018-05-22 2018-10-16 腾讯大地通途(北京)科技有限公司 分布式数据处理方法及装置、电子设备、存储介质

Similar Documents

Publication Publication Date Title
CN104331464A (zh) 一种基于MapReduce的监控数据优先预取处理方法
CA2981521C (en) Distributed data set storage and retrieval
US9038068B2 (en) Capacity reclamation and resource adjustment
Carretero et al. Introduction to cloud computing: platforms and solutions
CN107291536B (zh) 一种云计算环境下应用任务流调度方法
CN105187512A (zh) 一种虚拟机集群负载均衡方法及系统
EP2335151A1 (en) Method and system for sharing performance data between different information technology product/solution deployments
WO2015058578A1 (zh) 一种分布式计算框架参数优化方法、装置及系统
CN105103506A (zh) 用于为云计算网络中的非均匀带宽请求分配带宽的方法和系统
Heintz et al. Cross-phase optimization in mapreduce
WO2023040538A1 (zh) 一种数据迁移的方法、装置、设备、介质和计算机产品
Wang et al. Hybrid pulling/pushing for i/o-efficient distributed and iterative graph computing
CN104754008A (zh) 网络存储节点、网络存储系统以及用于网络存储节点的装置和方法
Thakkar et al. Renda: resource and network aware data placement algorithm for periodic workloads in cloud
Lu et al. A genetic algorithm-based job scheduling model for big data analytics
CN107465717B (zh) 一种密码按需服务的方法、装置与设备
CN115277692A (zh) 边缘网络计算终端设备自动运维方法、装置和系统
Saldanha et al. Towards a hybrid federated cloud platform to efficiently execute bioinformatics workflows
Heintz et al. Optimizing mapreduce for highly distributed environments
Sha et al. Optimizing data placement of mapreduce on ceph-based framework under load-balancing constraint
Roman et al. Understanding spark performance in hybrid and multi-site clouds
Polato et al. Hybrid HDFS: Decreasing energy consumption and speeding up hadoop using SSDs
Wei et al. PIVOT: An adaptive information discovery framework for computational grids
Yang et al. Implementation of a distributed data storage system with resource monitoring on cloud computing
Reddy et al. A novel entropy-based dynamic data placement strategy for data intensive applications in Hadoop clusters

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150204

RJ01 Rejection of invention patent application after publication