CN104331464A

CN104331464A - 一种基于MapReduce的监控数据优先预取处理方法

Info

Publication number: CN104331464A
Application number: CN201410604052.XA
Authority: CN
Inventors: 廖福玮; 罗开明; 张新坡; 刘岩
Original assignee: XJ Electric Co Ltd; Xuchang XJ Software Technology Co Ltd
Current assignee: XJ Electric Co Ltd; Xuchang XJ Software Technology Co Ltd
Priority date: 2014-10-31
Filing date: 2014-10-31
Publication date: 2015-02-04

Abstract

本发明涉及一种基于MapReduce的监控数据优先预取处理方法，属于软件工程技术领域。本发明在原有电网监控系统的基础上改变客户\服务器模式，采用MapReduce对监控数据量进行处理，通过对资源数据的预取，将数据集经过节点预选找到空闲节点作为候选工作计算节点，再通过任务预选，预先选出待预取的map任务，综合前两个预选完成数据的优先预选，提高了系统的运行效率，并且利用该方法可以实现方便、灵活的拓展，而不需要对原有的系统进行改造，在使用的便利性上也有了很大的进步。

Description

一种基于MapReduce的监控数据优先预取处理方法

技术领域

本发明涉及一种基于MapReduce的监控数据优先预取处理方法，属于软件工程技术领域。

背景技术

随着分布式电源，微电网的发展，在电网监控系统中需要接入的设备数量以及需要监测的量测数据将爆发式的增长，伴随智能化需求的增多，电网监控系统需要采集存储的数据量也将急剧增多，数据流的快速存储和处理分析能力在传统的客户\服务器加数据库技术方式下面临着存储容量不足，数据处理效率低下等问题。

发明内容

本发明的目的是提供一种基于MapReduce的监控数据优先预取处理方法，

以解决现有MapReduce方法效率低、在电网监控系统中由于监控数据急剧增加导致监控数据流处理能力不足的问题。

本发明为解决上述技术问题而提供一种基于MapReduce的监控数据优先预取处理方法，该处理方法包括以下步骤：

1)构建Hadoop分布式系统，包括主节点和从节点，主节点和从节点上均安装JDK和Hadoop软件，并添加有JAVA环境变量；

2)将数据集进行节点预选找到空闲节点作为候选工作计算节点；

3)在确定候选计算节点集之后，在预先选出待预取的map任务；

4)根据筛选出的候选节点和待预取map任务对数据进行预取。

所述步骤1)中主节点和从节点计算机安装Hadoop软件时，需对conf目录下的6个核心配置文件进行相应配置,这6个配置文件分别是hadoop-env.sh、core-site.xml、mapred-site.xml、hdfs-site.xml、masters和slaves文件。

所述hadoop-env.sh文件用于配置所使用的JDK版本及所处位置；core-site.xml文件用于配置HDFS文件系统的名称、访问入口地址及端口信息；mapred-site.xml文件用于配置JobTracker的入口地址及端口；hdfs-site.xml文件用于配置HDFS副本数；而masters和slaves文件分别用于指定主节点和从节点所对应的机器。

所述主节点主要负责Hadoop两个关键功能模块HDFS、MapReduce的监督，当JobTracker使用MapReduce进行监控和调度数据的并行处理时，NameNode则负责HDFS监视和调度，从节点负责机器运行的绝大部分，担当所有数据储存和指令计算，每个从节点既扮演者数据节点的角色又承担与它们主节点通信的守护进程。

所述步骤2)如果在选中的候选节点上进行资源预取操作,需要保证在当前正在运行的任务结束之前就完成预取。

所述步骤2)中节点预选的具体过程如下：

(a)利用计算节点上当前正在运行任务的执行进度来推测其最大剩余执行时间estimatedLeftTime；

(b)根据网络设备的理论传输速率计算出节点间传输一个文件块所需要的时间timePerBlock；

(c)依据正在该节点上运行的任务中存在剩余完成时间小于传输一个数据块所需时间的map任务，判断该节点马上就会释放忙碌计算槽(slots)，意味着在预取完成之前此计算节点就会变为空闲节点，无需再执行后续的预取操作；

(d)对节点上每个map任务的剩余完成时间estimatedLeftTime与节点间传输一个文件块所需时间进行比较,若计算节点存在estimatedLeftTime<timePerBlock的map任务,则退出本次预取操作；反之，则选取estimatedLeftTime<timePerBlock的计算节点加入candidateTTs集合中,作为候选节点的备选集。

所述步骤3)中任务预选的过程如下：

a.读取最新的candidateTTs列表，并从中选取排列在第一位的TaskTracker，即接下来最有可能释放忙碌计算槽(slots)且可在其释放前有充足时间完成预取操作的计算节点，作为待进行预取操作的候选节点，记为targetTT；

b.如果集合不为空，则对其中失败次数最多的任务严格按其相对于步骤a中选出的数据本地性进行筛选，如果为node-local任务，则中断整个算法的执行，反之，则选择该失败次数最多的任务作为候选map任务，记为toPrefetchMap；

c.如果执行完步骤b以后toPrefetchMap仍为空，则查询当前队列中正在运行的作业是否还有剩余map任务没有完成，即nonRunningMapCache是否不为空，为空则从中严格按照本地性策略依次查找关于targetTT节点本地性分别为node-local、rack-local和off-switch的map任务，若nonRunningMapCache中尚存在关于targetTT节点为node-local级别本地性的任务，则退出本次预取操作；否则，从nonRunningMapCache中依次优先选择一个rack-local或off-switch级别任务作为toPrefetchMap。

所述步骤4)中数据预取的具体过程如下：

A.从toPrefetchMap任务对应的TasklnProgress对象中读取相应元数据信息，获取输入数据所在位置，以确定候选源节点，记为sourceTTs；

B.通过读取conf目录下的topology.data文件，获取当前Hadoop集群所配置的网络拓扑结构信息，确定sourceTTs中节点与目标节点targetTT间的距离，选取距离最近的节点作为预取的源节点，记为sourceTT；

C.根据步骤B中的计算，在离候选目标节点targetTT距离最近的sourceTT节点上,将toPrefetchMap任务的输入数据通过网络传输到目标节点targetTT上并存储于本地磁盘；

D.更新JobTracker上相应的元信息文件；

E.在完成一个任务之后，会释放之前忙碌的slot，并会随着发送的“心跳”告知JobTracker，请求分配新的任务，此时toPrefetchMap则会被分配给该节点，由于其输入数据己经预先存储到该节点的磁盘上，任务执行相当于在本地性节点上执行。

本发明的有益效果是:本发明在原有电网监控系统的基础上改变客户\服务器模式，采用MapReduce对监控数据量进行处理，通过对资源数据的预取，将数据集经过节点预选找到空闲节点作为候选工作计算节点，再通过任务预选，预先选出待预取的map任务，综合前两个预选完成数据的优先预选，提高了系统的运行效率，并且利用该方法可以实现方便、灵活的拓展，而不需要对原有的系统进行改造，在使用的便利性上也有了很大的进步。

附图说明

图1是基于MapRduce的监控数据优先预取处理方法流程图；

图2是节点预选流程图；

图3是任务预选流程图；

图4是系统配置图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的说明。

本发明提供了基于MapRduce的监控数据优先预取处理方法，本方法基于利用MapReduce处理大数据集，采用将数据集经过节点预选找到空闲节点作为候选工作计算节点，再通过任务预选，预先选出待预取的map任务，综合前两个预选完成数据的优先预选，提高了系统的运行效率，并且利用该方法可以实现方便、灵活的拓展。该方法的具体过程如下：

1.在所有机器上安装JDK，并添加JAVA环境变量；

2.在所有机器上安装SSH并完成配置。

SSH(Secure Shel l)是用来启动和停止各个DataNode上的各守护进程，Hadoop运行过程中需要管理远端Hadoop守护进程，这就必须在各节点之间执行指令的时候不需要输入密码，所以需要配置SSH运用无密码公钥认证的形式，这样NameNode使用SSH无密码登陆并启动DataNode进程。SSH无密码原理在于主节点(NameNode\JobTracker)作为客户端，要实现无密码公钥认证，连接到服务器从节点(DataNode\Tasktracker)上时，需要在Master上生成一对密钥对，包括一个公钥和一个私钥，而后将公钥复制到所有的从节点上。当主节点通过SSH连接到从节点时，从节点就会生成一个随机数并用主节点的公钥对随机数进行加密，并发给主节点。主节点收到加密数之后再用私钥解密，并将解密数回传给从节点，从节点确认密数无误之后就允许主节点进行连接。这就是一个公钥认证的过程，期间不需要用户手工输入密码。

3.在主节点和从节点计算机安装Hadoop软件，然后对conf目录下的6个核心配置文件进行相应配置,即可完成安装。这6个配置文件分别是hadoop-env.sh、core-site.xml、mapred-site.xml、hdfs-site.xml、masters和slaves文件。

hadoop-env.sh文件主要用于配置所使用的JDK版本及所处位置；core-site.xml文件主要配置HDFS文件系统的名称、访问入口地址及端口等信息；mapred-site.xml文件则主要配置JobTracker的入口地址及端口；hdfs-site.xml文件主要配置HDFS副本数；而masters和slaves文件分别用于指定主节点和从节点所对应的机器。

4.节点预选，根据当前节点的工作情况，在有空闲节点的情况下，将空闲节点作为候选工作计算节点，如果没有空闲节点，则计算节点上当前释放忙碌计算槽(slots)的可能性大小,具体来说就是计算节点上任务执行进度的快慢程度,任务执行进度最快的节点当前最有可能释放忙碌计算槽(slot)，则计算节点上任务的执行进度快慢程度，找出执行进度最快的节点，并确保在当前正在运行的任务结束之前完成预取。

如果在选中的候选节点上进行资源预取操作,需要保证在当前正在运行的任务结束之前就完成预取,具体做法则是分别计算出各计算节点上当前正在运行任务的剩余执行时间,再通过将此时间与在节点间传输一个数据块所需的时间进行比较,最后才确定是否预选该节点作为候选的计算节点。节点预选过程步骤，如图2所示。选取过程步骤如下：

(a)利用计算节点上当前正在运行任务的执行进度来推测其最大剩余执行时间estimatedLeftTime。

(b)根据网络设备的理论传输速率计算出节点间传输一个文件块所需要的时间timePerBlock。

(c)依据正在该节点上运行的任务中存在剩余完成时间小于传输一个数据块所需时间的map任务，判断该节点马上就会释放忙碌计算槽(slots)，意味着在预取完成之前此计算节点就会变为空闲节点，无需再执行后续的预取操作。

(d)对节点上每个map任务的剩余完成时间estimatedLeftTime与节点间传输一个文件块所需时间进行比较,如果出现以下情况:此计算节点存在estimatedLeftTime<timePerBlock的map任务,则退出本次预取操作；反之，则选取estimatedLeftTime<timePerBlock的计算节点加入candidateTTs集合中,作为候选节点的备选集。

5.任务预选，在确定候选计算节点集之后，在预先选出待预取的map任务。根据步骤4中预选出的候选计算节点情况，和当前正在运行作业的未运行任务情况，在集群中尚无TaskTracker向JobTracker请求任务的情况下，根据当前未运行任务相对于候选计算节点的数据本地性预先选出待分配的map任务，以针对该map任务完成后续的资源预取操作。任务预选过程如图3所示，具体步骤如下：

a读取最新的candidateTTs列表，并从中选取排列在第一位的TaskTracker，即接下来最有可能释放忙碌计算槽(slots)且可在其释放前有充足时间完成预取操作的计算节点，作为待进行预取操作的候选节点,记为targetTT。

b为了保证当前作业已有的失败任务享有一定的优先级，可以快速被重新调度,对于当前运行作业，如果集合不为空，则对其中失败次数最多的任务严格按其相对于步骤a中选出的数据本地性进行筛选，如果为node-local任务，则中断整个算法的执行，因为接下来即将执行的map本身即为本地性任务；反之，则选择该失败次数最多的任务作为候选map任务，记为toPrefetchMap。

c如果执行完步骤b以后toPrefetchMap仍为空，则查询当前队列中正在运行的作业是否还有剩余map任务没有完成，即nonRunningMapCache是否不为空，为空则从中严格按照本地性策略依次查找关于targetTT节点本地性分别为node-local、rack-local和off-switch的map任务。若nonRunningMapCache中尚存在关于targetTT节点为node-local级别本地性的任务，则退出本次预取操作；否则，从nonRunningMapCache中依次优先选择一个rack-local或off-switch级别任务作为toPrefetchMap。

6.数据预取，在经过上述两个阶段——预选节点阶段和预选任务阶段之后,候选节点及待预取map任务已经被遴选出来。读取toPrefetchMap对应的元数据信息,获取所需输入数据副本所在节点；读取配置文件目录下的网络拓扑结构信息,计算源节点与目标节点之间的距离；根据计算结果选取距离最近的节点作为源节点；从源节点读取输入数据传输到目标节点并更新元数据信息；在目标节点上的当前map任务完成时请求调度新的任务即toPrefetchMap。数据预选过程如图1所示，具体步骤如下：

(A)从toPrefetchMap任务对应的TasklnProgress对象中读取相应元数据信息，获取输入数据所在位置，以确定候选源节点，记为sourceTTs。

(B)通过读取conf目录下的topology.data文件，即可获取当前Hadoop集群所配置的网络拓扑结构信息，由此可以确定sourceTTs中节点与目标节点targetTT间的距离，选取距离最近的节点作为预取的源节点，记为sourceTT。

(C)根据步骤(B)中的计算,在离候选目标节点targetTT距离最近的sourceTT节点上,将toPrefetchMap任务的输入数据通过网络传输到目标节点targetTT上并存储于本地磁盘。

(D)更新JobTracker上相应的元信息文件。

(E)在完成一个任务之后,会释放之前忙碌的slot，并会随着发送的“心跳”告知JobTracker，请求分配新的任务，此时toPrefetchMap则会被分配给该节点，由于其输入数据己经预先存储到该节点的磁盘上，任务执行相当于在本地性节点上执行

7.首先启动Hadoop服务平台，为MapReduce提供主节点和从节点。再建立与监控系统数据库的连接，获取作业ID。保证节点能够动态从监控数据库发送数据调用请求。然后MapReduce将预取的资源数据调用任务进行对应的分析处理。

构建基于MapRduce的监控数据优先预取处理系统的步骤如下：

1.在主节点，数据节点先预装操作系统，在此基础上安装JAVA工作环境，分别在主节点和数据节点安装Hadoop软件。

基于MapRduce的监控数据优先预取处理系统的典型应用过程如下：

(a)如图4所示，根据实际业务需求，设置1台Master节点，6台从节点，并配置好网络环境，如下表1所示。

表1

机器名称	IP地址	节点角色
			Master	192.168.100.1	JobTracker、NameNode、SecondaryNameNode
Slave1	192.168.100.2	TaskTracker、DataNode
			Slave2	192.168.100.3	TaskTracker、DataNode
Slave3	192.168.100.4	TaskTracker、DataNode
			Slave4	192.168.100.5	TaskTracker、DataNode
Slave5	192.168.100.6	TaskTracker、DataNode
			Slave6	192.168.100.7	TaskTracker、DataNode

(b)首先在主调度机中启动Hadoop服务平台，在平台中包括以下五个节点：NameNode、SecondaryNameNode、DataNode、JobTracker和TaskTracker。其中在主节点中运行NameNode、SecondaryNameNode和JobTracker三个节点，从节点运行DataNode和TaskTracker节点。

(c)运行作业，例如在这里主要是考察改进后的基于数据预取的办法相对于经典方法的改善，可以运行最经典的单词计数程序WordCount作为基准测试程序。表2为经典方法与数据预取方法的数据比较。从表中可以看出，在对数据预取后，效率相对Fair方法有了6％-15％的提高。

表2经典方法与数据预取方法的比较表

序号	Fair方法	数据预取方法
			1	50％	62.5％
2	50％	56.5％
			3	50％	57.3％
4	50％	64.7％
			5	42.8％	57.4％

6	50％	63.6％
			7	46.1％	54.3％

本发明在七台计算机中安装操作系统，按照Hadoop云计算的架构，分为一个主节点和六个从节点，主节点既充当HDFS的名称节点和备份名称节点又充当负责作业管理的JobTracker，从节点同样负责两个任务，分别是负责执行任务的TaskTracker和负责所有数据储存和指令计算的DataNode角色。Hadoop为一个分布式系统基础架构，HDFS全称为Hadoop Distributed Fi le System，为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。本发明通过对监控数据所在节点的位置和任务分析，把所需要的资源优先预取，使得监控数据集在进行处理之前就能归集到本地最方便获取的位置。通过优先预取技术取得了相比未经处理方式下，系统具有更高的处理效率，并且具有更好的可拓展性和可靠性。

Claims

1.一种基于MapReduce的监控数据优先预取处理方法，其特征在于，该处理方法包括以下步骤：

4)根据筛选出的候选节点和待预取map任务对数据进行预取。

2.根据权利要求1所述的基于MapReduce的监控数据优先预取处理方法，其特征在于，所述步骤1)中主节点和从节点计算机安装Hadoop软件时，需对conf目录下的6个核心配置文件进行相应配置,这6个配置文件分别是hadoop-env.sh、core-site.xml、mapred-site.xml、hdfs-site.xml、masters和slaves文件。

3.根据权利要求2所述的基于MapReduce的监控数据优先预取处理方法，其特征在于，所述hadoop-env.sh文件用于配置所使用的JDK版本及所处位置；core-site.xml文件用于配置HDFS文件系统的名称、访问入口地址及端口信息；mapred-site.xml文件用于配置JobTracker的入口地址及端口；hdfs-site.xml文件用于配置HDFS副本数；而masters和slaves文件分别用于指定主节点和从节点所对应的机器。

4.根据权利要求3所述的基于MapReduce的监控数据优先预取处理方法，其特征在于，所述主节点主要负责Hadoop两个关键功能模块HDFS、MapReduce的监督，当JobTracker使用MapReduce进行监控和调度数据的并行处理时，NameNode则负责HDFS监视和调度，从节点负责机器运行的绝大部分，担当所有数据储存和指令计算，每个从节点既扮演者数据节点的角色又承担与它们主节点通信的守护进程。

5.根据权利要求4所述的基于MapReduce的监控数据优先预取处理方法，其特征在于，所述步骤2)如果在选中的候选节点上进行资源预取操作,需要保证在当前正在运行的任务结束之前就完成预取。

6.根据权利要求5所述的基于MapReduce的监控数据优先预取处理方法，其特征在于，所述步骤2)中节点预选的具体过程如下：

7.根据权利要求6所述的基于MapReduce的监控数据优先预取处理方法，其特征在于，所述步骤3)中任务预选的过程如下：

8.根据权利要求7所述的基于MapReduce的监控数据优先预取处理方法，其特征在于，所述步骤4)中数据预取的具体过程如下：

D.更新JobTracker上相应的元信息文件；