CN102130950A

CN102130950A - 基于Hadoop集群的分布式监控系统及其监控方法

Info

Publication number: CN102130950A
Application number: CN2011100603081A
Authority: CN
Inventors: 周学海; 吕松武; 杨峰; 代栋; 孙明明; 陈涛
Original assignee: Suzhou Institute for Advanced Study USTC
Current assignee: Suzhou Institute for Advanced Study USTC
Priority date: 2011-03-14
Filing date: 2011-03-14
Publication date: 2011-07-20
Anticipated expiration: 2031-03-14
Also published as: CN102130950B

Abstract

本发明公开了一种基于 Hadoop 集群的分布式监控系统及其监控方法，该系统包括客户端 Client 、主控计算机 Master 和从属计算机 Slave ，其特征在于所述系统中主控计算机 Master 和从属计算机 Slave 基于 Hadoop 集群的 MapReduce 框架构建，所述客户端 Client 负责向主控计算机 Master 提交监控作业请求；所述主控计算机 Master 响应监控作业请求后，将监控作业进行划分后分配给从属计算机 Slave 独立完成；所述从属计算机 Slave 负责完成独立的监控作业任务后，将其结果通过主控计算机 Master 进行整合后回传数据给客户端 Client 。本发明能有效地对分布式计算网络 MapReduce 的任务进度等数据进行有效地监控，且能实时准确地获取监控结果，并在不影响作业执行的前提下实现了独立的动态开关。

Description

基于Hadoop集群的分布式监控系统及其监控方法

技术领域

本发明属于分布式计算技术领域，涉及一种应用于Hadoop分布式作业系统之上的监控系统，特别涉及到对运行MapReduce程序的大规模分布式集群的监控以及控制系统。

背景技术

Hadoop是一个开源的运行MapReduce任务的分布式中间件，作为重要技术组件被广泛应用于当前各种云计算后台系统中。一般商用的Hadoop集群数目从几百台到上千台不等，随着Hadoop所管理集群规模越来越大，其管理难度也越来越大。一般可将Hadoop集群运行中产生的错误按照来源分为硬件错误、操作系统错误、中间件错误以及用户程序错误。错误来源繁多、集群中各个因素互相影响、错误暴露点和源点往往不在同一台服务器上以及用户程序中的bug导致系统出错等因素使得Hadoop集群的管理开销和难度呈指数增长，因此应用于Hadoop这样的运行MapReduce程序的分布式作业系统之上的监控框架是目前学术界和工业界亟待解决的问题。

现在应用于Hadoop上的监控框架主要有以下三种：1、以Ganesha为代表的黑盒架构，该类架构主要通过监控集群之间的数据交换以及服务器的性能来获得集群状态，并且通过学习算法来估计错误的发生地；2、X-Trace；X-Trace是一种应用于调试互联网程序的网络诊断工具，研究人员将其应用于Hadoop平台，主要用于监控集群内部的网络状态。3、Mochi；Mochi是一种基于Hadoop的日志的监控系统。利用服务器本地的Log信息，Mochi可以分析出Hadoop集群的各种行为，并且反映给用户，以供用户日后分析程序。

目前已存的监控系统在实际应用中具有非常明显的缺点。首先，监控框架所得到的数据不够精确，存在大量的干扰数据，无论是使用黑盒或者白盒方法，对于具有数千台服务器的计算机集群来说，监控的数据量过大，即便在自学习或者分类算法的帮助下，对这些数据的分析工作量也很大。其次，监控行为无法在不改变集群状态的情况下启动或者停止，在实际生产环境中，调试或者监控行为越丰富对系统性能影响越大，不能动态改变监控框架的行为就无法很好的应用于生产环境中。综上，目前仍缺少对上述问题有效解决的工具。本发明因此而来。

发明内容

为了克服背景技术中所提到的多种不足，本发明的一个目的在于提供一种灵活的、在线的、精准的分布式作业监控系统。

为了解决现有技术中的这些问题，本发明提供的技术方案是：

一种基于Hadoop集群的分布式监控系统，包括客户端Client、主控计算机Master和从属计算机Slave，其特征在于所述系统中主控计算机Master和从属计算机Slave基于Hadoop集群的MapReduce框架构建，所述客户端Client负责向主控计算机Master提交监控作业请求；所述主控计算机Master响应监控作业请求后，将监控作业进行划分后分配给从属计算机Slave独立完成；所述从属计算机Slave负责完成独立的监控作业任务后，将其结果通过主控计算机Master进行整合后回传数据给客户端Client。

优选的，所述主控计算机Master设置有响应服务模块、数据聚合模块、数据返回模块和管理模块；所述响应服务模块负责响应Client的监控控制指令，并由此向Slave发送监控作业指令；所述数据聚合模块用于对所有反馈的数据信息进行计算整合；所述数据返回模块用于将整理计算后作业任务级别的任务信息返回给请求的Client；所述管理模块用于监控Slave的工作状态。

优选的，所述从属计算机Slave设置监控作业模块，所述监控作业模块用于根据主控计算机Master进行监控作业，并将监控作业结果反馈给主控计算机Master进行整合；所述主控计算机Master与从属计算机Slave间通过心跳协议维持分发、同步用户的监控作业请求。

优选的，所述Slave和Master上均设置有本地监控入口探针Probe，所述探针Probe根据Master的监控作业指令启闭，获取当前集群中Master和Slave节点上的工作任务信息，并反馈给Master上的数据聚合模块。

优选的，所述客户端Client设置有预定义的监控脚本和监控行为程序，所述客户端Client和Master通讯获取当前集群中所有处于监控状态的节点的探针插入点处的信息。

本发明的另一目的在于提供一种基于Hadoop集群的分布式监控方法，其特征在于所述方法包括以下步骤：

(1)Master建立用于隔离待记录的监控数据与其他数据的数据空间后监听Client的监听作业请求；

(2)Client向Master发出监控控制指令，要求返回当前集群的作业信息；Master响应Client发出的请求，判断该请求是开启请求还是关闭请求；如果是开启请求，则Master发送指令给相关Slave，以激活指定Slave上的探针，并维护该Slave的状态；如果是关闭请求，则Master将发送关闭指令给指定Slave，以关闭Slave上的探针；

(3)Slave上的监控作业模块接收Master的指令，获取并统计当前Slave的作业信息，并反馈给Master；

(4)Master确认收到有效的Slave反馈的程序运行任务信息，保存在已建立的数据空间中，同时根据Client发送的监控作业请求，整合数据空间中的信息，以请求中的格式将结果信息返回给Client；根据监控作业请求继续循环监控。

优选的，所述方法步骤(2)中Master通过心跳机制对所有处于监控状态中的Slave同步和发布监控控制指令；所述Slave周期性通过远程调用机制把自身的状态信息发送给Master，Master在获取并处Slave的状态信息后，将需要发送给Slave的最新监控控制指令状态作为远程调用的返回值发送给Slave。

优选的，所述方法中Master数据空间内维护全局监控指令表，所述全局监控指令表存储所有Client递交的监控作业指令，并根据指令的时间先后顺序更改监控作业指令的版本信息；Slave通过远程调用协议传递的状态信息中包含有本地保存的指令表的版本标签，Master在接收到Slave的状态信息后，将Slave发送过来版本标签和其自身的版本标签进行比对；若两者的指令表版本标签一致，则Master将空指令表作为远程调用的返回值发送给Slave；若Master的指令表版本标签较新，则Master将两版本指令表的差作为远程调用的返回值发送给Slave；Slave保存从Master收到的监控指令表，并按照该指令表更新本地指令集。

优选的，所述方法中探针Probe设置在Hadoop集群系统内与MapReduce作业相关的方法中，MapReduce作业的内部数据为探针所监控；探针激活时探针实时获取MapReduce作业的Cluster、Job、Task、Thread、Round、UserKey状态数据，并记录后提交返回。

优选的，所述方法步骤(4)中Master返回给Client的监控作业的级别由Client自定义。

本发明技术方案基于Apache组织的Hadoop平台下开源分布式计算网络MapReduce系统，本发明进行分布式监控的状态监控系统主要由三部分组成，包括一个或若干个客户端，一个主控计算机和一个或若干个从属计算机。所述客户端用于和主控计算机通讯，发送请求及显示结果等；所述的主控计算机包括响应服务模块、数据聚合模块、数据返回模块和管理模块；所述的从属计算机包括监控作业模块。

本发明可以实现由一台或多台客户端(Client)、一台主控计算机(Master)和多台从属计算机(Slave)组成的监控框架，基于Hadoop的开源分布式计算系统的MapReduce框架，客户端向主控服务器提交作业任务请求，主控服务器响应该请求，并将作业任务划分，分配给一部分从属计算机独立完成(Map)，从属计算机完成各自的作业任务后，将其结果分配给另外一部分从属计算机，该部分从属计算机负责将分配到的计算结果进行整合(Reduce)，并输出最终结果。本发明可以反映在主控计算机及从属计算机上监控并记录反馈正在运行的计算任务各种性能数据。具体的本发明的监控框架包含以下特征：

(1)所述的多个Slave和Master上均包含有本地监控入口，称为探针(Probe)，探针的启动和关闭受来自Master的监控作业指令影响。以此控制监控作业程序的开启、关闭，并获取当前集群中Master和Slave节点上的工作任务信息，并反馈给Master上的数据聚合模块；

(2)所述的Client向所述的Master提交作业请求并接受反馈；Client可以向Master发送监控控制指令，提交监控作业。该监控控制指令包括两部分，监控脚本和监控动作程序。通过提交监控作业，Client端用户可以获取当前分布式系统中所有处于监控状态中的节点的各种信息。所述的各种信息所指为探针插入点处的信息，该信息不仅包括节点信息、作业信息、任务信息还可包含更为细节的程序运行信息。

(3)所述的Master上包含有响应服务模块，可以响应Client的监控控制指令，并由此向Slave发送监控作业指令；还包含数据聚合模块，用于对所有反馈的数据信息进行计算整理；还包含数据返回模块，用于将整理计算后作业任务级别的任务信息返回给请求的Client；还包含有管理模块，用于监控Slave的工作状态。

本发明还可以实现在集群中所有服务器上监控并记录反馈关于数据计算任务性能数据的方法，包含以下步骤：

(1)建立数据空间供Master将记录的监控数据与其他数据区分开，该数据空间记录关于正在运行作业任务的Slave的相关程序运行级别信息，包括网络信息、当前任务信息、运行的线程信息、任务运行的回合数(Round)以及用户自定义Key等；

(2)从Client向Master发出监控控制指令，要求返回当前集群的作业信息，该结果基于Master建立的数据空间，是对数据空间的较高层次(MapReduce层次的)抽象；

(3)Master响应Client发出的请求，判断该请求是开启请求还是关闭请求，如果是开启请求，则Master发送指令给相关Slave，以激活指定Slave上的探针，并维护该Slave的状态；如果是关闭请求，则Master将发送关闭指令给指定Slave，以关闭Slave上的探针；

(4)Slave上的监控模块接收Master的指令，获取并统计当前Slave的作业信息，并反馈给Master；

(5)Master确认收到有效的Slave反馈的程序运行任务信息，保存在已建立的数据空间中，同时根据步骤B中Client发送的任务请求，整合数据空间中的信息，以请求中的格式将结果信息返回给Client；

(6)按照需要，可重复步骤B-E.

其中，Client获取Master反馈的作业任务级别的信息是可以由Client自定义的，定义的基础是建立在Master上的数据空间，是Master对数据空间的有效分类和一定程度的概括。Master对所有处于监控状态中的Slave同步和发布监控控制指令，是通过心跳机制来实现，即在Slave中包含有一个定时器，每过一定的时间间隔，Slave将使用远程调用机制把自身的状态信息发送给Master，而Master在获取并处理Slave的状态信息后，把需要发送给Slave的最新监控控制指令作为远程调用的返回值发送给Slave。

Master要维护一个全局监控指令表，该表具有一个版本标签，Master将所有的指令(包括已经发送的和尚未发送的)保存在表内，对指令表的变更都会按时间先后顺序更改版本标签；Slave通过远程调用(心跳协议)传递的状态信息中包含有本地保存的指令表的版本标签，则Master在接收到Slave的状态信息后，将Slave发送过来版本标签和其自身的版本标签进行比对，若两者的指令表版本标签一致，则Master将空指令表作为远程调用的返回值发送给Slave；若Master的指令表版本标签较新，则Master将两版本指令表的差作为远程调用(心跳协议)的返回值发送给Slave。Slave需要保存刚从Master收到的监控指令表，并按照该指令表更新本地指令集。

在Slave获取到其需要监控的任务信息后，将使用远程调用机制(心跳协议)把获取到的信息发送给Master，Master在收到信息后将保存在数据空间中；在Master整合计算出作业任务信息后，同样使用远程调用机制把信息发送给Client。所有运行在Slave上的探针仅获取作业任务的相关信息，不能对其进行修改，因此，探针不会对作业任务的运行结果产生影响；探针的开启关闭操作独立于Slave的作业任务运行，因此探针可以动态地运行，即可以按需进行开启关闭等操作；当探针处于开启状态时，探针激活后执行用户指定行为，获取信息并将其返回，当探针处于关闭状态时，探针不再获取信息也不会获得执行权限；探针中所执行的用户行为，不得包括循环、IO访问等耗时和耗资源的行为，探针抛出的异常会被探针的处理模块完全处理，而不会继续抛出。

本发明中探针(Probe)安装在整个Hadoop系统里与MapReduce作业相关的方法处，作业处的内部数据被暴露给探针代码。探针激活时，用户即可实时获取MapReduce作业的Cluster，Job，Task，Thread，Round，UserKey等状态数据，并按类别记录这些数据，用于提交返回。探针收集到的数据提交给Master的数据聚合模块，该模块将原始数据进行进一步的整理(包括分类和划分等)，并将最终结果返回给Client.

从上，本发明得到一种能够有效的对运行MapReduce作业的Hadoop集群进行监控的方法，该方法能够准确的按照使用者的需求搜集运行在各个机器上的MapReduce作业的工作信息，并将这些信息进行抽象和对应，最终抽象为MapReduce层级的数据提供给使用者，使用者可以根据需要随时启动、停止任意的监控行为，并且根据这些信息有效掌握Hadoop集群的运行状态。灵活的监控系统主要是指本系统允许用户随时提交监控脚本，该脚本包括了用户需要监控的行为点、匹配条件以及行为及条件匹配时需要执行的动作。脚本一旦提交，该项监控就自动启动，用户退出该监控时，系统监控行为就停止。

为了减少监控对生产环境下的Hadoop集群性能的影响，在没有用户提交监控脚本的情况下，系统中不存在任何监控行为，本监控框架对系统的影响非常小。用户可以监控的行为点，是本发明的重要部分。通过对Hadoop和MapReduce系统的分析，本发明提出了Hadoop系统中的重要监控行为点：即MapReduce行为相关的方法的入口和出口点。

用户在监控的行为点可以指定匹配条件，行为点处的变量被暴露给用户脚本，用户可以利用这些变量进行匹配，来选择是否激活指定的动作。用户脚本中指定的动作是Java类中所定义的行为，该行为只能使用Java语言的一个子集实现。不能使用循环、IO等行为。这有助于限制用户动作的执行时间和占用的资源。

用户编写动作程序可以使用本发明所提供的数据搜集类，该类帮助用户对其所搜集到的数据进行归总。在线的监控系统主要是指本系统允许用户随时提交、开始、停止监控行为而不会影响Hadoop集群的正常执行。

用户可以通过监控脚本，指明所要监控的任务。这个监控行为的开始和停止，不会影响所监控的任务的执行。监控脚本提交到集群中后，将根据脚本所指，将监控行为点数据发送到集群中所有相关服务器中。本地服务器将激活监控行为点，相关数据存放在运行时环境中。作业执行的过程中，在监控行为点处会检查该点是否已经激活，若激活则执行用户指定行为。

用户随时可以停止监控脚本执行，停止行为发送到集群中相关服务器中，本地服务器收到该消息后，将关闭该监控行为点。作业执行过程中，在监控行为点处发现并未激活，则不会执行任何用户行为。本发明可以允许精确搜集到用户指定的数据，本系统允许用户根据所需明确的指定需要搜集的数据。用户所搜集的数据都是来源于用户行为。

在监控行为点，本发明将Hadoop内部的数据暴露给用户行为程序。本发明提供一个InstrumentCollection类库为用户行为中使用。用户可以将任意行为程序中获得的数据通过本类库搜集。该类库将用户数据按照时空进行分类，分为集群、作业、任务、线程、轮、用户Key。相同时空的数据会在服务器端进行整合。

与现有技术相比，本发明具有以下显著的优点：

本发明的系统能有效地对分布式计算网络MapReduce的任务进度等数据进行有效地监控，且能实时准确地获取监控结果，并在不影响作业执行的前提下实现了独立的动态开关。具体说来，包括：

1.动态。本发明允许用户在生产环境下的运行着的Hadoop集群上增加、删除、修改它们的监控请求，不会影响到集群的执行和集群中作业的执行。

2.在线。任何用户的行为都不会打断当前正在执行的Hadoop作业或者任务，也不会对集群的运行状态产生影响。

3.用户自定义监控和行为。本发明允许用户自定义监控的系统行为，并且在监控动作点激活的情况狂下调用用户自定义的行为。用户的自定义行为受到严格的限制。

4.MapReduce层次的抽象。本发明通过向Hadoop代码中插入监控点的方法来加入监控行为点。这些监控点都加在MapReduce层级事件处。基于这些监控点，得到的数据是MapReduce层次的数据。

5.对Hadoop系统影响小。本发明使用源代码级别的本地监控，在监控点未激活的情况下，每一个监控点对系统的负荷为一条Java语句。而在监控点激活的情况下，由于本发明限制了用户行为，对系统执行的影响也被限制在一个可控的范围内。

附图说明

下面结合附图及实施例对本发明作进一步描述：

图1是本发明基于Hadoop集群的分布式监控系统的架构示意图。

图2是本发明基于Hadoop集群的分布式监控方法的工作流程图；其中按照Hadoop集群的概念共分为3个模块，Client端、Master端和Slave端。

图3是本发明的本地监控的流程图。

具体实施方式

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下结合具体实施例对上述方案做进一步说明。应理解，这些实施例是用于说明本发明而不限于限制本发明的范围。

实施例

如图1所示是本发明基于Hadoop集群的分布式监控系统的架构示意图。包含了一个或者多个Client节点，一个Master节点，多个Slave节点。其中Master节点对应着Hadoop后台系统中的Master节点，Slave节点对应着Hadoop中的多个Slave节点，Client节点是集群允许的监控提交服务器。

每一台Client节点服务器上所需要的模块如下：

1、ProbeClient模块

用户通过ProbeClient模块提交监控，其是本发明中任务提交模块的重要组成部分。用户在本发明的框架下进行系统监控至少需要提供两个文件，一个脚本文件probe.xml，其格式和Hadoop本身的配置脚本完全相同。该脚本指明了本次监控的监控点以及监控点激活时触发的动作。另一个文件为jar包文件，其中定义了激活触发的动作。

配置文件(probe.xml)和动作文件(action.jar)在本模块中被上传到Hadoop的分布式文件系统(HDFS)中，可供集群内的任意服务器访问。

2、ProbeProtocol通讯接口

用户通过Client端的ProbeClient模块提交监控，该行为通过ProbeProtocol协议传送给Master节点。并且通过该协议得到来自Master搜集处理后的监控数据。

本发明的Master节点根据具体的实际需要，包括：

1、响应服务模块(Master模块)

响应服务模块和Hadoop本身的JobTracker模块一起启动，仅仅运行在Master节点上。来自Client端的监控请求到达后，通过管理模块管理这个监控请求，并且从HDFS中读出用户提交的两个文件，放入本地工作目录。

2、管理模块(ProbeManager模块)

管理模块用于分发同步用户的监控请求。Hadoop系统本身采用心跳协议来维持集群中Slave和Master之间的通讯，本发明利用该协议分发、同步用户的监控请求。本发明采用基于版本号的分发方案，减少了无效数据的传输。本发明采用传差的同步方案，进一步减少了冗余数据的传输。

3、数据聚合模块(InstrumentCollect模块)

该模块是数据搜集的核心模块。用户在动作代码中利用该模块进行数据搜集，因此该模块运行于Hadoop集群的所有服务器中。

数据写入时，按照{集群，作业，任务，线程，轮，用户Key}进行聚类。数据搜集以心跳协议为周期进行聚合。数据聚合到Master节点。由ContextReport模块进行处理。

4、数据返回模块(ContextReport模块)

该模块收集所有节点上InstrumentCollect模块发送的数据，聚类后生成可读结果，通过ProbeProtocl发送给Client。

Slave节点内设置有：

监控作业模块(LocalInstrument模块)，该模块是本发明中进行本地监控的重要模块。

首先本发明对Hadoop代码中与MapReduce任务执行相关的方法进行编号，并将方法的完整名(包括包名)和该编号的对应关系记录下来。用户在指定监控点时，所使用的为监控点的全名，而在本模块中会自动转化为编号，加快执行速度。

然后，在Hadoop中需要插入监控点的地方插入桩代码。桩代码可以采用ASM等库直接插入到字节码中，也可以以源代码的形式插入到Hadoop代码中。本发明采用源代码修改的方式插入到Hadoop代码中。桩代码的主要功能就是检查询问本地的ProbeManager模块，是否存在编号为本方法的监控任务。如果没有，则继续执行Hadoop的原代码。

如果有，意味着此监控点被激活，通过查询ProbeManager，获取需要执行的动作类。实例化，并且执行该动作。

图2是一个完整的用户监控的流程示意图。

1.用户使用本架构进行监控，需指定一个xml的配置文件，文件中需指定用户行为类的打包文件，以及指定动作所指定的打包文件中的类名。本工具将用户文件上传到Hadoop的分布式文件系统HDFS中。

2.上传完成后，读取XML文件，构建一个新的监控对象，并使用ProbeProtocol接口提交该监控对象。由图中可见，Client和Master之间通过一个双工的RPC接口通讯。提交完本监控对象后，Client端进程在本地挂起，轮询Master的回传数据，暂停10s进行一次轮询，直到用户手动结束本次监控。

3.Master接收到来自Client端的请求，首先判断该请求是新建一个监控还是结束已有监控。如果是新建监控任务，则根据Client端传来的监控，读出HDFS中的XML配置和动作文件，存放在本地的工作目录中。紧接着就加载用户动作文件，并且利用ProbeManager模块新建调试。如果收到来自Client端的停止监控的请求，则从ProbeManager中删除该监控。最后增加ProbeManager的版本号。

4.由图中可知，Slave节点通过心跳协议访问Master。访问中会加上Slave节点当前的ProbeManager的版本号。Master在收到该版本号后进行比较。若Master节点的版本号较新，则根据Master节点的版本号历史，传送两个版本号的差给Slave节点。

5.Slave节点在收到来自Master的心跳回复后，判断ProbeManager是否由更新。若有更新，则接收新的监控对象，读出XML配置文件，下载动作文件到本地，并加载之，通过ProbeManger加载新的监控，更新ProbeManger的版本号到最新版本。

上文描述了一个用户监控行为在本发明的架构中执行的流程图。图3描述了用户的监控行为是如何被触发的。

在正常的Hadoop代码的执行流中，必然会进入到本发明插入到Hadoop源代码的桩入口中，进入桩函数，需要判断本地的ProbeManager中是否有已经激活的此桩入口。如果没有，继续回到正常的Hadoop代码执行流中。如果有，则加载XML文件中指定的用户动作，并执行之。执行完成之后还是回到正常的Hadoop代码执行流中。

上述实例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人是能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于Hadoop集群的分布式监控系统，包括客户端Client、主控计算机Master和从属计算机Slave，其特征在于所述系统中主控计算机Master和从属计算机Slave基于Hadoop集群的MapReduce框架构建，所述客户端Client负责向主控计算机Master提交监控作业请求；所述主控计算机Master响应监控作业请求后，将监控作业进行划分后分配给从属计算机Slave独立完成；所述从属计算机Slave负责完成独立的监控作业任务后，将其结果通过主控计算机Master进行整合后回传数据给客户端Client。

2.根据权利要求1所述的基于Hadoop集群的分布式监控系统，其特征在于所述主控计算机Master设置有响应服务模块、数据聚合模块、数据返回模块和管理模块；所述响应服务模块负责响应Client的监控控制指令，并由此向Slave发送监控作业指令；所述数据聚合模块用于对所有反馈的数据信息进行计算整合；所述数据返回模块用于将整理计算后作业任务级别的任务信息返回给请求的Client；所述管理模块用于监控Slave的工作状态。

3.根据权利要求2所述的基于Hadoop集群的分布式监控系统，其特征在于所述从属计算机Slave设置监控作业模块，所述监控作业模块用于根据主控计算机Master进行监控作业，并将监控作业结果反馈给主控计算机Master进行整合；所述主控计算机Master与从属计算机Slave间通过心跳协议维持分发、同步用户的监控作业请求。

4.根据权利要求3所述的基于Hadoop集群的分布式监控系统，其特征在于所述Slave和Master上均设置有本地监控入口探针Probe，所述探针Probe根据Master的监控作业指令启闭，获取当前集群中Master和Slave节点上的工作任务信息，并反馈给Master上的数据聚合模块。

5.根据权利要求3所述的基于Hadoop集群的分布式监控系统，其特征在于所述客户端Client设置有预定义的监控脚本和监控行为程序，所述客户端Client和Master通讯获取当前集群中所有处于监控状态的节点的探针插入点处的信息。

6.一种基于Hadoop集群的分布式监控方法，其特征在于所述方法包括以下步骤：

（1）Master建立用于隔离待记录的监控数据与其他数据的数据空间后监听Client的监听作业请求；

（2）Client向Master发出监控控制指令，要求返回当前集群的作业信息；Master响应Client发出的请求，判断该请求是开启请求还是关闭请求；如果是开启请求，则Master发送指令给相关Slave，以激活指定Slave上的探针，并维护该Slave的状态；如果是关闭请求，则Master将发送关闭指令给指定Slave，以关闭Slave上的探针；

（3）Slave上的监控作业模块接收Master的指令，获取并统计当前Slave的作业信息，并反馈给Master；

（4）Master确认收到有效的Slave反馈的程序运行任务信息，保存在已建立的数据空间中，同时根据Client发送的监控作业请求，整合数据空间中的信息，以请求中的格式将结果信息返回给Client；根据监控作业请求继续循环监控。

7.根据权利要求6所述的监控方法，其特征在于所述方法步骤（2）中Master通过心跳机制对所有处于监控状态中的Slave同步和发布监控控制指令；所述 Slave周期性通过远程调用机制把自身的状态信息发送给Master，Master在获取并处理Slave的状态信息后，将需要发送给Slave的最新监控控制指令状态作为远程调用的返回值发送给Slave。

8.根据权利要求7所述的监控方法，其特征在于所述方法中Master数据空间内维护全局监控指令表，所述全局监控指令表存储所有Client递交的监控作业指令，并根据指令的时间先后顺序更改监控作业指令的版本信息；Slave通过远程调用协议传递的状态信息中包含有本地保存的指令表的版本标签，Master在接收到Slave的状态信息后，将Slave发送过来版本标签和其自身的版本标签进行比对；若两者的指令表版本标签一致，则Master将空指令表作为远程调用的返回值发送给Slave；若Master的指令表版本标签较新，则Master将两版本指令表的差作为远程调用的返回值发送给Slave；Slave保存从Master收到的监控指令表，并按照该指令表更新本地指令集。

9.根据权利要求6所述的监控方法，其特征在于所述方法中探针Probe设置在Hadoop集群系统内与MapReduce作业相关的方法中，MapReduce作业的内部数据为探针所监控；探针激活时探针实时获取MapReduce作业的Cluster、Job、Task、Thread、Round、UserKey状态数据，并记录后提交返回。

10.根据权利要求6所述的监控方法，其特征在于所述方法步骤（4）中Master返回给Client的监控作业的级别由Client自定义。