CN105703940B

CN105703940B - 一种面向多级调度分布式并行计算的监控系统及监控方法

Info

Publication number: CN105703940B
Application number: CN201510917999.0A
Authority: CN
Inventors: 周智强; 刘娜娜; 何春江; 秦长锋; 陈继林; 佟德江; 孙永峰; 张亮; 郭中华; 陈勇; 裘微江; 田芳; 李亚楼; 李勤新; 刘琳; 罗春青; 宫春明; 邹卫美
Original assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; Electric Power Research Institute of State Grid Ningxia Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; Electric Power Research Institute of State Grid Ningxia Electric Power Co Ltd
Priority date: 2015-12-10
Filing date: 2015-12-10
Publication date: 2021-08-20
Anticipated expiration: 2035-12-10
Also published as: CN105703940A

Abstract

本发明涉及一种面向多级调度分布式并行计算的监控系统及监控方法，所述系统包括为本地集群监控模块和多级共享集群的监控模块。前者实现了对每台服务器节点信息的监视和控制，集群调度节点通过可配置模块可接受来自监控客户端的命令并正确响应；后者实现了对基于Zookeeper架构模式的多级共享分布式并行计算集群资源池的统一管理和控制，通过网关节点服务器的管理客户端，都可以清晰的查看资源池中已注册的多个集群信息。本发明技术方案能够通过界面高效准确的观察应用运行的状态，精准衡量应用的运行状态，从而对应用能够准确计量其使用的消耗量；灵活可扩展的监控系统具有强大的容错能力，从而提高了系统的可靠性和服务性。

Description

一种面向多级调度分布式并行计算的监控系统及监控方法

技术领域

本发明涉及集群监控领域，具体涉及一种面向多级调度分布式并行计算的监控系统及监控方法。

背景技术

分布式系统是由多个分散的计算机经互连网络构成的统一计算机系统。其中各个物理的和逻辑的资源既相互配合又高度自治，能在全系统范围内实现资源管理和数据共享，动态地实现任务分配和功能分配，且能并行的运行分布式程序，它强调资源、任务、功能、数据和控制的全面分布，它们分布于各个物理上分散的计算机节点中，各个节点经过互连网络相互通信，构成统一的处理系统。

任何分布式系统都会涉及到数据的一致性问题，进行数据一致性分析和处理主要出于两个目的：可靠性和性能。数据一旦被更改或复制，就会带来一致性的问题。

分布式系统的一个重要问题是数据的复制，对数据的复制一般有两个原因：

1、增加系统的可靠性，防止单点失效的问题；

2、提高系统性能，利用不同地理位置的副本迅速响应用户需求。

数据复制的主要难题是保持各个副本的一致性。即在更新一个副本时，必须确保更新其他副本，否则数据的各个副本将不再相同。

一致性模型实质上是进程和数据之间的一个约定，正常情况下，一个数据项上执行读操作时，它期待该操作返回的是该数据在其最后一次写操作之后的结果。在没有全局时钟的情况下，精确的定义哪次写操作时最后一次写操作是十分困难的。

分布式并行计算集群(也称为分布式并行计算平台)聚合了大量物理资源、虚拟资源，并采用虚拟化技术实现动态伸缩服务量，按需提供服务。而监控在提高分布式并行计算平台服务质量方面扮演重要角色；为使得平台可以顺利提供服务且正确运转，需要多方位监控。

发明内容

本发明的目的是提供一种面向多级调度分布式并行计算的监控系统及监控方法，能够通过界面高效准确的观察应用运行的状态，精准衡量应用的运行状态，从而对应用能够准确计量其使用的消耗量；灵活可扩展的监控系统具有强大的容错能力，从而提高了系统的可靠性和服务性。

为实现上述目的，本发明采用以下技术方案：一种面向多级调度分布式并行计算的监控系统，包括：

本地集群监控模块和多级共享集群监控模块；

本地集群监控模块包括集群调度节点、可配置模块和监控处理模块；本地集群调度节点用于定时将本地集群的资源信息发送到连接该集群的监控客户端，供客户端统计和展示；可配置模块用于将监控客户端的控制命令发送至本地集群调度节点，本地集群调度节点判断控制命令中的消息类型并将控制消息发送至监控处理模块；监控处理模块根据控制消息对本地集群节点进行处理，并将处理结果发送至本地集群调度节点，本地集群调度节点通过监控响应模块对控制命令进行响应；

多级共享集群监控模块包括分布式的群集调度节点、多级共享集群资源池和管理客户端；所述分布式的群集调度节点将本地集群信息发送至本地集群网关节点监控应用模块；多级共享集群资源池通过本地集群网关节点监控应用模块将本地集群信息写入多级共享集群资源池中，集中管理；管理客户端用于查看资源池中已注册的多个本地集群信息并控制和调整其中一个集群的相应属性。

所述监控系统还包括监控服务器，维护通过群集调度节点定时接收到的每个本地集群的资源信息并采用心跳机制检测集群状态；

通过整个广域网各分布式并行计算平台调度服务器定时接收该平台的集群信息；

当其中一个集群信息的资源不够用时，首先向监控服务器请求共享集群信息资源，根据当前广域网内可用信息资源向适合的集群发送任务联合调度请求；

当请求联合调度的集群计算完成后将计算信息上报到监控服务器。

所述本地集群的资源信息包括每台本地集群服务器的节点类型、主机名称、CPU核总数、磁盘总量、内存总量、主机IP、已用CPU核数、磁盘使用量、内存使用量、正在计算的工程ID号、正在计算的任务ID号和主机信息更新时间；所述本地集群服务器的节点类型包括调度节点、数据节点和计算节点。

所述监控处理模块对本地集群节点进行的处理包括删除一个或多个计算节点目录功能和生成节点信息并打包上传给监控客户端、查询其中一个或多个计算节点进程信息、结束一个或多个计算节点的一个或多个进程、启动一个或多个计算节点的一个或多个进程。

所述集群信息包括本集群的计算节点数量、集群总核数、集群已用核数、集群可用核数、集群可用磁盘空间、集群级别、集群区域地名信息、集群上级区域名称、支持的计算类型个数及列表、是否同意共享调度和本集群用于外部连接的IP地址。

所述管理客户端为由Zookeeper组成的集群网关节点服务器的管理客户端；不会因其中一个Zookeeper节点失效导致连接到该失效节点的管理客户端获取信息失败，因为当节点失效时Zookeeper在底层自动将该管理客户端与其他有效网关节点建立起了可靠的连接。

所述多级共享集群资源池的建立是按照paxos算法，由Zookeeper框架组成的集群资源池树状结构；Server节点代表每个集群的网关服务器节点，每个网关服务器自由的加入或者退出资源池，当资源池建立后，其内部会从Server中选一个作为领导者Leader用于进行投票的发起和决议，更新系统状态，paxos算法原理内部核心机制是原子广播机制，该机制保证各个Server之间的状态和数据同步，实现该机制的协议为Zab协议；Zab协议有两种模式，是恢复模式和广播模式；当服务启动或者在领导者Leader奔溃后，Zab就进入了恢复模式；当领导者被选举出来，且Server完成了和新Leader的状态同步后，恢复模式就结束了；

每个本地集群都只向自己的网关节点上报集群信息，然后通过网关服务器上调用资源池开放接口将自己的信息记入资源池，实现所有网关服务器的实时共享。

所述监控服务器的总体框架采用了glib的消息触发机制。

一种面向多级调度分布式并行计算的监控方法，包括：

本地集群监控：定时将本集群的资源信息发送到连接该集群的监控客户端，供客户端统计和展示；将监控客户端的控制命令发送至本地集群调度节点，本地集群调度节点判断控制命令中的消息类型并将控制消息发送至监控处理模块；监控处理模块根据控制消息对本地集群节点进行处理，并将处理结果发送至本地集群调度节点，本地集群调度节点通过监控响应模块对控制命令进行响应；

多级共享集群监控：将本地集群信息发送至本地集群网关节点监控应用模块；通过本地集群网关节点监控应用模块将本地集群信息写入多级共享集群资源池中，集中管理；查看资源池中已注册的多个本地集群信息并控制和调整其中一个集群的相应属性。

所述方法还包括：

维护监视服务器通过群集调度节点定时接收到的每个本地集群的资源信息并采用心跳机制检测集群状态；

定时接收整个广域网各分布式并行计算平台的集群信息；

对本地集群节点进行的处理包括删除一个或多个计算节点目录功能和生成节点信息并打包上传给监控客户端、查询其中一个或多个计算节点进程信息、结束一个或多个计算节点的一个或多个进程、启动一个或多个计算节点的一个或多个进程。

按照paxos算法，由Zookeeper框架组成的集群资源池树状结构；Server节点代表每个集群的网关服务器节点，每个网关服务器自由的加入或者退出资源池，当资源池建立后，其内部会从Server中选一个作为领导者Leader用于进行投票的发起和决议，更新系统状态，paxos算法原理内部核心机制是原子广播机制，该机制保证各个Server之间的状态和数据同步，实现该机制的协议为Zab协议；Zab协议有两种模式，是恢复模式和广播模式；当服务启动或者在领导者Leader奔溃后，Zab就进入了恢复模式；当领导者被选举出来，且Server完成了和新Leader的状态同步后，恢复模式就结束了；

和最接近的现有技术比，本发明提供技术方案具有以下优异效果

1、本发明技术方案采用TCP、UDP通信协议及分布式一致性算法原理实现对本地集群的监控以及多级共享集群的监控，解决分布式计算的实时信息获取、计算任务的动态分布情况以及服务器节点性能的实时情况；

2、本发明技术方案通过消息协议解析以及全局资源池技术实现全国各地分布式计算集群平台统一集中管理和维护，实现单个集群平台各服务器性能监视、任务计算状态信息实时获取，高效获取错误故障信息；

3、本发明技术方案减少分布式计算运维成本，提高系统运行效率；

4、本发明技术方案通过对本地集群的监控以及对多级共享集群的管控既能完成对单个分布式计算平台的cpu、磁盘、内存等信息的获取，也能完成对资源池中的多个分布式共享集群的服务器节点数、当前任务数、当前cpu等资源信息的获取和管理；

5、本发明技术方案从用户和分布式并行计算服务的两个角度，对集群进行监控和管理；

6、本发明技术方案结合现有监控技术的优势，利用zookeeper分布式框架方案，具有很好的可扩展性、实时性、准确性、低干预性。能更好的为上层资源调度和按需服务提供资源管理属性和状态支持。

附图说明

图1为本发明实施例的本地集群监控处理过程示意图；

图2为本发明实施例的多级共享集群监控处理过程示意图；

图3为本发明实施例的多级监控示意图；

图4为本发明实施例的监控服务器处理流程示意图；

图5为本发明实施例的平台监控信息图；

图6为本发明实施例的Zookeeper维护数据结构示意图；

图7为本发明实施例的配置管理过程示意图；

图8为本发明实施例的集群管理过程示意图；

图9为本发明实施例的资源池原理示意图。

具体实施方式

下面结合实施例对发明作进一步的详细说明。

实施例1：

本例的发明一种面向多级调度分布式并行计算的监控系统及监控方法，所述系统包括：本地集群监控模块和多级共享集群监控模块；

本地集群监控模块包括集群调度节点、可配置模块和监控处理模块；

本地集群监控

1、集群调度节点每隔一段时间(可在配置文件中配置)将本集群的资源信息，包括每台服务器节点类型(分为调度节点、数据节点、计算节点等)、主机名称、CPU核总数、磁盘总量、内存总量、主机IP、已用CPU核数、磁盘使用量、内存使用量、正在计算的工程ID号(为0表示没有任务)、正在计算的任务ID号(为0表示当前节点空闲)、主机信息更新时间，通过消息的形式发送到连接该集群的监控客户端，供客户端统计和展示，用户通过使用这些信息来实现资源的均衡分配，业务预测，和实时调度决策。

2、集群调度节点通过可配置模块(和任务调度模块区分)可接受来自监控客户端的命令并正确响应。本地集群调度节点判断控制命令中的消息类型并将控制消息发送至监控处理模块；监控处理模块根据控制消息对本地集群节点进行处理，并将处理结果发送至本地集群调度节点，本地集群调度节点通过监控响应模块对控制命令进行响应；

3、监控处理模块根据命令协议可实现多个功能，包括删除一个或多个计算节点特定目录功能、生成节点信息(dmesg、ps–edf、ls)并打包上传给监控客户端、实现查询某个或多个计算节点进程详细信息、实现结束一个或多个计算节点一个或多个特定进程功能、实现启动一个或多个计算节点一个或多个特定进程功能。

监控方法的本地集群监控处理过程如图1所示：

本地集群监控：定时将本集群的资源信息发送到连接该集群的监控客户端，供客户端统计和展示；将监控客户端的控制命令发送至本地集群调度节点，本地集群调度节点判断控制命令中的消息类型并将控制消息发送至监控处理模块；监控处理模块根据控制消息对本地集群节点进行处理，并将处理结果发送至本地集群调度节点，本地集群调度节点通过监控响应模块对控制命令进行响应。

多级共享集群监控模块包括分布式的群集调度节点、多级共享集群资源池和管理客户端；如图3所示：

1、每个分布式集群调度节点每隔一定时间(可在配置文件中配置)将本集群计算节点数量、集群总核数、集群已用核数、集群可用核数、集群可用磁盘空间、集群级别、集群区域地名信息、集群上级区域名称、支持的计算类型个数及列表、是否同意共享调度、本集群用于外部连接的IP地址等信息发送给本地集群网关节点监控应用程序，再由监控应用程序将本集群的这些信息写入由Zookeeper框架组成的集群资源池树状结构中，便于集中管理。

2、连接到由Zookeeper组成的任一集群网关节点服务器的管理客户端，都可以清晰的查看资源池中已注册的多个集群信息，比如集群规模、是否空闲、级别、区域名、可计算的类型、可用核数等信息，并可以控制和调整某个集群的相应属性，而且不会因为某个Zookeeper节点失效导致连接到该失效节点的管理客户端获取信息失败，因为当节点失效时Zookeeper在底层自动将该管理客户端与其他有效网关节点建立起了可靠的连接。通过这些信息，用户可以实时、准确的了解整个系统的资源分布和应用运行情况，提高了系统的监控效率和为按需服务提供资源管理属性和状态支持。

监控方法的多级共享集群监控处理过程如图2所示：

监控服务器

监控服务器的总体框架采用了glib的消息触发机制。glib库是linux平台下一个常用的c语言函数库，它具有很好的可移植性和实用性。glib是gtk+库和gnome的基础。glib的各种实用程序具有一致的接口。glib为许多标准的、常用的C语言结构提供了相应的替代物。它的编码风格是半面向对象，标识符加了一个前缀“g”，这也是一种通行的命名约定。这里主要介绍glib库的消息机制。

从总体上看是一个大的循环，当某个特定的事件发生后，触发一个消息，系统会用已经注册的回调函数对该事件进行响应。这个大循环就GMainLoop，GMainLoop的主要部件是GMainContext，GMainContext可以在多个GMainLoop间共享，但要求这些GMainLoop都在同一个线程中运行，常见的模态对话框就属于这一类。GMainContext通常由多个GSource组成，GSource是事件源的抽象，任何事件源只要实现GSource规定的接口，都可以挂到GMainContext中来。

1、每个集群的调度节点定时上报该集群信息到监控服务器，监控服务器维护每个集群资源信息并采用心跳机制检测集群状态。

2、整个广域网各分布式并行计算平台调度服务器负责定时收集和上报该平台资源信息到监控服务器，包括计算节点数量、当前可用核数、磁盘空间、可支持的计算类型，是否同意广域网间联合调度等信息。平台监控的信息如图5所示；

3、当某个集群资源不够用时，可首先向监控服务器请求共享集群资源信息，然后根据当前广域网内可用资源信息向合适的集群发送任务联合调度请求。

4、请求联合调度的机群计算完成后将有关计算信息上报到监控服务器，以便统计共享机群为其他机群提供的共享率。

所述监控服务器的处理过程如图4所示，为：主函数运行，服务器初始化，包括Glib线程初始化和变量初始化；连接通信中间件订阅消息处理函数；信号处理函数初始化，服务器开始运行，运行主循环程序，当处理进程退出信号函数时，服务器退出。

精细化监控目标监控方法还包括：维护监视服务器通过群集调度节点定时接收到的每个本地集群的资源信息并采用心跳机制检测集群状态；

定时接收整个广域网各分布式并行计算平台的集群信息；

1、本地集群cpu核数的监控

通过收集cpu的一些统计信息，了解到对服务器节点对cpu的消耗，及时优化资源，提高当前应用的执行速度。

2、本地集群磁盘空间的监控

通过对磁盘各分区的使用情况，避免由于各种突发情况，造成磁盘空间被消耗殆尽的情况。导致后续日志文件无法归档等问题。

3、本地集群内存空间的监控

通过对内存的使用情况的监控，使用户可以及时释放和压缩系统内存，从而使进程的运行速度和系统崩溃的几率大大降低。

4、多级集群节点数的监控

通过集群节点数的监控，使用户可以知道集群的规模和计算能力，以及计算时间长短等。

5、多级集群级别的监控

通过多级集群级别的监控信息，能够清楚获知集群能否对上或对下提供服务，以及属于国分省调中的哪一类别。

6、多级集群区域名称的监控

通过对集群区域名称的信息，能够准确的判断出该集群所在的位置。

7、多级集群的资源共享标识监控

通过对多级集群的资源共享标识信息的监控，可以准确判断出是否能够对外提供计算功能以及具体提供哪些类计算。

如图9所示，资源池的建立是按照paxos算法原理将逻辑上独立的服务器通过网络互连，运用分布式框架组成一整套能对外提供协调一致性服务的应用，它包含一系列开放的接口，分布式应用程序可以基于它实现同步服务，图中的Server节点代表每个集群的网关服务器节点，每个网关服务器可以自由的加入或者退出资源池，当资源池建立后，内部会从众多Server中选一个作为Leader用于进行投票的发起和决议，更新系统状态，paxos算法原理内部核心机制是原子广播，这个机制保证了各个Server之间的状态和数据同步，实现这个机制的协议叫Zab协议。Zab协议有两种模式，它们分别是恢复模式和广播模式，当服务启动或者在领导者Leader奔溃后，Zab就进入了恢复模式，当领导者被选举出来，且大多数Server完成了和新Leader的状态同步后，恢复模式就结束了。状态同步保证了Leader和Server具有相同的系统状态。

每个集群都只向自己的网关节点上报本地集群的资源信息，然后网关服务器上的应用再调用资源池开放接口将自己的资源信息记入资源池，实现所有网关服务器的实时共享，由于资源池有多个Server，因此实现了网络负载分流和均衡。多级调度分布式并行计算集群以树状结构在网络中形成资源池，每个分布式集群都有两个重要的属性包括级别和区域名，级别和树状层次结构相对应，区域名是独一无二的，比如国调、华北网调、河北省调，这些属性规定了资源池进行资源统一分配的时候按照一定的策略分配，由配置文件或管理客户端指定调度方式，更好的完成了整个集群的管理和控制。

zookeeper分布式框架

Zookeeper提供了包括配置信息集中管理和动态更新，通过分布式命名服务，可以很容易的创建一个全局唯一的path。分布通知和协调功能可以使管理人员在控制台的一些操作，如修改了zookeeper上的某些节点的状态，zookeeper可以把这些变化及时通知给其他客户。使用zookeeper来分布式通知和协调能够大大降低系统之间的耦合。分布式锁的功能可以保证数据的强一致性，即用户只要完全相信每时每刻，zookeeper集群中任意节点上的相同znode的数据是一定相同的。zookeeper的集群管理功能可以实时了解集群机器的存活、增加等情况，zookeeper的强一致性，能够保证在分布式高并发情况下节点创建的全局唯一性，即：同时有多个客户端请求创建节点，最终一定只有一个客户端请求能够创建成功。Zookeeper的分布式与数据复制功能使得系统容错能力得到改善，提高了系统的可扩展能力。所有这些功能强有利的支持了监控系统对资源使用情况、应用运行情况的掌握，为及时做出调度和调整提供依据。

Zookeeper维护一个类似文件系统的数据结构，如图6所示：

每个子目录项如NameService都被称作为znode，和文件系统一样，我们能够自由的增加、删除znode，在一个znode下增加、删除子znode，唯一的不同在于znode是可以存储数据的。

Zookeeper包括以下几类主要功能：

1、命名服务

在zookeeper的文件系统里创建一个目录，即有唯一的path。在我们使用tborg无法确定上游程序的部署机器时即可与下游程序约定好path，通过path即能互相探索发现。

2、配置管理，如图7所示：

配置信息保存在的某个目录节点中，然后所有相关应用程序对这个目录节点进行监听，一旦配置信息发生变化，每个应用程序就会收到Zookeeper的通知，然后从Zookeeper获取新的配置信息应用到系统中。

3、集群管理，如图8所示：

所谓集群管理无在乎两点：是否有机器退出和加入、选举master。对于第一点，所有机器约定在父目录GroupMembers下创建临时目录节点，然后监听父目录节点的子节点变化消息。一旦有机器挂掉，该机器与zookeeper的连接断开，其所创建的临时目录节点被删除，所有其他机器都收到通知：某个兄弟目录被删除，于是，所有人都知道：它上船了。新机器加入也是类似，所有机器收到通知：新兄弟目录加入，highcount又有了。对于第二点，我们稍微改变一下，所有机器创建临时顺序编号目录节点，每次选取编号最小的机器作为master。

面向多级调度的分布式并行计算平台应用和服务的精细管理和监控，能够通过界面高效准确的观察应用运行的状态，包括CPU、内存和磁盘空间占用等，精准衡量应用的运行状态，从而对应用能够准确计量其使用的消耗量；灵活可扩展的监控系统具有强大的容错能力，从而提高了系统的可靠性和服务性。

所述方法是分布式并行计算平台的重要组成部分，它是分布式并行计算平台中系统管理，作业调度，负载均衡，恢复操作的前提。可以帮助分布式并行计算平台动态量化资源使用、检测服务缺陷、发现用户使用模式、辅助资源调度，对提高分布式计算平台的服务质量发挥着重要作用。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，所属领域的普通技术人员尽管参照上述实施例应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，这些未脱离本发明精神和范围的任何修改或者等同替换，均在本发明的权利要求保护范围之内。

Claims

1.一种面向多级调度分布式并行计算的监控系统，其特征在于：包括：

本地集群监控模块和多级共享集群监控模块；

本地集群监控模块包括本地集群调度节点、可配置模块和监控处理模块；本地集群调度节点用于定时将本地集群的资源信息发送到连接该集群的监控客户端，供监控客户端统计和展示；可配置模块用于将监控客户端的控制命令发送至本地集群调度节点，本地集群调度节点判断控制命令中的消息类型并将控制命令发送至监控处理模块；监控处理模块根据控制命令对本地集群节点进行处理，并将处理结果发送至本地集群调度节点，本地集群调度节点通过监控响应模块对控制命令进行响应；

多级共享集群监控模块包括分布式的群集调度节点、多级共享集群资源池和管理客户端；所述分布式的群集调度节点将本地集群信息发送至本地集群网关节点监控应用模块；多级共享集群资源池通过本地集群网关节点监控应用模块将本地集群信息写入多级共享集群资源池中，集中管理；管理客户端用于查看资源池中已注册的多个本地集群信息并控制和调整其中一个集群的相应属性；

当请求联合调度的集群计算完成后将计算信息上报到监控服务器；

所述管理客户端为由Zookeeper组成的集群网关节点服务器的管理客户端；不会因其中一个Zookeeper节点失效导致连接到该失效节点的管理客户端获取信息失败，因为当节点失效时Zookeeper在底层自动将该管理客户端与其他有效网关节点建立起了可靠的连接；

所述多级共享集群资源池的建立是按照paxos算法，由Zookeeper框架组成的集群资源池树状结构；Server节点代表每个集群的网关服务器节点，每个网关服务器节点自由的加入或者退出资源池，当资源池建立后，其内部会从Server中选一个作为领导者Leader用于进行投票的发起和决议，更新系统状态，paxos算法原理内部核心机制是原子广播机制，该机制保证各个Server之间的状态和数据同步，实现该机制的协议为Zab协议；Zab协议有两种模式，是恢复模式和广播模式；当服务启动或者在领导者Leader奔溃后，Zab就进入了恢复模式；当领导者被选举出来，且Server完成了和新Leader的状态同步后，恢复模式就结束了；每个本地集群都只向自己的网关节点上报集群信息，然后通过网关服务器节点上调用资源池开放接口将自己的信息记入资源池，实现所有网关服务器节点的实时共享。

2.如权利要求1所述的一种面向多级调度分布式并行计算的监控系统，其特征在于：所述本地集群的资源信息包括每台本地集群服务器的节点类型、主机名称、CPU核总数、磁盘总量、内存总量、主机IP、已用CPU核数、磁盘使用量、内存使用量、正在计算的工程ID号、正在计算的任务ID号和主机信息更新时间；所述本地集群服务器的节点类型包括调度节点、数据节点和计算节点。

3.如权利要求2所述的一种面向多级调度分布式并行计算的监控系统，其特征在于：所述监控处理模块对本地集群节点进行的处理包括删除一个或多个计算节点目录功能和生成节点信息并打包上传给监控客户端、查询其中一个或多个计算节点进程信息、结束一个或多个计算节点的一个或多个进程、启动一个或多个计算节点的一个或多个进程。

4.如权利要求1所述的一种面向多级调度分布式并行计算的监控系统，其特征在于：所述集群信息包括本集群的计算节点数量、集群总核数、集群已用核数、集群可用核数、集群可用磁盘空间、集群级别、集群区域地名信息、集群上级区域名称、支持的计算类型个数及列表、是否同意共享调度和本集群用于外部连接的IP地址。

5.如权利要求1所述的一种面向多级调度分布式并行计算的监控系统，其特征在于：所述监控服务器的总体框架采用了glib的消息触发机制。

6.一种应用于权利要求1-5任意一项所述面向多级调度分布式并行计算的监控系统的监控方法，其特征在于：包括：

本地集群监控：定时将本集群的资源信息发送到连接该集群的监控客户端，供监控客户端统计和展示；将监控客户端的控制命令发送至本地集群调度节点，本地集群调度节点判断控制命令中的消息类型并将控制命令发送至监控处理模块；监控处理模块根据控制命令对本地集群节点进行处理，并将处理结果发送至本地集群调度节点，本地集群调度节点通过监控响应模块对控制命令进行响应；

7.如权利要求6所述的监控方法，其特征在于：所述方法还包括：

维护监视监控服务器通过群集调度节点定时接收到的每个本地集群的资源信息并采用心跳机制检测集群状态；

定时接收整个广域网各分布式并行计算平台的集群信息；

8.如权利要求7所述的监控方法，其特征在于：对本地集群节点进行的处理包括删除一个或多个计算节点目录功能和生成节点信息并打包上传给监控客户端、查询其中一个或多个计算节点进程信息、结束一个或多个计算节点的一个或多个进程、启动一个或多个计算节点的一个或多个进程。

9.如权利要求7-8任意一项所述的监控方法，其特征在于：所述多级共享集群资源池的建立是按照paxos算法，由Zookeeper框架组成的集群资源池树状结构；Server节点代表每个集群的网关服务器节点，每个网关服务器节点自由的加入或者退出资源池，当资源池建立后，其内部会从Server中选一个作为领导者Leader用于进行投票的发起和决议，更新系统状态，paxos算法原理内部核心机制是原子广播机制，该机制保证各个Server之间的状态和数据同步，实现该机制的协议为Zab协议；Zab协议有两种模式，是恢复模式和广播模式；当服务启动或者在领导者Leader奔溃后，Zab就进入了恢复模式；当领导者被选举出来，且Server完成了和新Leader的状态同步后，恢复模式就结束了；

每个本地集群都只向自己的网关节点上报集群信息，然后通过网关服务器节点上调用资源池开放接口将自己的信息记入资源池，实现所有网关服务器节点的实时共享。