CN103139016A - 一种高可用集群资源监控的方法 - Google Patents

一种高可用集群资源监控的方法 Download PDF

Info

Publication number
CN103139016A
CN103139016A CN2013100533209A CN201310053320A CN103139016A CN 103139016 A CN103139016 A CN 103139016A CN 2013100533209 A CN2013100533209 A CN 2013100533209A CN 201310053320 A CN201310053320 A CN 201310053320A CN 103139016 A CN103139016 A CN 103139016A
Authority
CN
China
Prior art keywords
monitoring
resource
logic
timer
resources
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013100533209A
Other languages
English (en)
Other versions
CN103139016B (zh
Inventor
陈宇龙
孟宪伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201310053320.9A priority Critical patent/CN103139016B/zh
Publication of CN103139016A publication Critical patent/CN103139016A/zh
Application granted granted Critical
Publication of CN103139016B publication Critical patent/CN103139016B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种高可用集群资源监控的方法,其具体监控过程为:资源初始化:完成高可用集群资源监控的初始化工作,将初始化的资源向逻辑调度进行注册,逻辑调度会根据注册的信息来确定后续的监控工作;注册定时器:向逻辑调度进行定时器注册;定时器计时:定时器注册后,触发器开始计时工作;到达指定时间时,启动监控;监控的资源出现异常时,进行异常处理,直至资源正常;进入下阶段监控。该一种高可用集群资源监控的方法和现有技术相比,当集群中有多种类型的资源存在的时候,能够方便、统一、及时的对资源进行监控,在对资源进行监控的时候降低系统资源的消耗,提高对资源监控的稳定性。

Description

一种高可用集群资源监控的方法
技术领域
本发明涉及计算机数据通信技术领域,具体的说是一种可构建自己的监控资源、完成异常处理的高可用集群资源监控方法。
背景技术
高可用集群系统是指能够保证业务7×24小时不中断,在系统出现故障或者应用软件出现故障时能够快速恢复业务,尽可能把业务中断时间控制在分钟级别的系统。高可用集群系统由下至上主要包括以下几个模块:心跳模块、资源监控模块、资源管理模块、分布式控制台模块和web服务模块。其中,资源监控模块负责集群中业务组及业务组中资源的监控,并根据所监控对象的状态进行及时的处理,如发送异常通知,把监控对象恢复到正常状态。目前针对资源的监控主要采用基于网络协议的监控,如基于简单网络管理协议SNMP的监控技术、基于代理的监控技术,这些技术都依赖于TCP/IP协议的实现。由于TCP/IP协议本身存一定的稳定性(如丢包)和较大的性能损耗,无法实时发现监控资源的异常,不能满足高可用集群系统中资源监控的方法。因此,需要一种能够适用于高可用集群的资源监控的方法,能够保证在资源出现异常时及时发现异常,并进行快速的处理。
发明内容
本发明的技术任务是解决现有技术的不足,提供一种高可用集群资源监控的方法。
本发明的技术方案是按以下方式实现的,该一种高可用集群资源监控的方法,包括五个模块:逻辑调度模块、与逻辑调度模块相连通的资源管理模块、定时器、状态监控模块和异常处理模块,其具体监控过程为:
1)资源初始化:完成高可用集群资源监控的初始化工作,将初始化的资源向逻辑调度进行注册,逻辑调度会根据注册的信息来确定后续的监控工作;
2)注册定时器:向逻辑调度进行定时器注册;
3)定时器计时:定时器注册后,触发器开始计时工作;
4)到达指定时间时,启动监控;
5)监控的资源出现异常时,进行异常处理,直至资源正常;
6)进入下阶段监控。
所述逻辑调度模块完成高可用集群资源监控的逻辑调度,启动监控、停止监控,对定时器、状态监控、异常处理部分进行逻辑调度,并对定时器、状态监控、异常处理的反馈信息进行处理。
所述资源管理模块完成集群资源的创建、销毁工作,并完成向逻辑调度模块注册工作。
所述步骤2)与步骤3)中的定时器注册和计时都是由定时器完成。
状态监控模块完成对具体资源的监控工作,该具体资源包括服务资源、网卡资源、应用程序资源、IP资源、网卡资源、磁盘资源,并把监控资源的状态实施反馈给逻辑调度模块,并由逻辑调度模块决策下一步的处理。
所述异常处理模块提供异常处理功能:当监控的资源出现异常时,在状态监控把异常信息上报给逻辑调度模块之后,逻辑调度要求异常处理模块进行异常的处理。
所述处理方式包括对异常的资源进行恢复、请求其它集群中其它节点进行处理、向用户发送紧急通知。
本发明与现有技术相比所产生的有益效果是:
本发明的一种高可用集群资源监控的方法能够满足于高可用集群的资源监控的方法,能够保证在资源出现异常时及时发现异常,并进行快速的处理,从而最大限度的降低业务的中断时间;当集群中有多种类型的资源存在的时候,能够方便、统一、及时的对资源进行监控,在对资源进行监控的时候降低系统资源的消耗,提高对资源监控的稳定性。
附图说明
附图1是本发明的监控部分结构框图。
附图2是本发明的监控过程流程图。
具体实施方式
下面结合附图对本发明的一种高可用集群资源监控的方法作以下详细说明。
为使集群中有多种类型的资源存在的时候,能够方便、统一、及时的对资源进行监控。在对资源进行监控的时候降低系统资源的消耗,提高对资源监控的稳定性。如附图1、图2所示,现提供一种高可用集群资源监控的方法,包括五个模块:逻辑调度模块、与逻辑调度模块相连通的资源管理模块、定时器、状态监控模块和异常处理模块,其具体监控过程为:
1)资源初始化:完成高可用集群资源监控的初始化工作,将初始化的资源向逻辑调度进行注册,逻辑调度会根据注册的信息来确定后续的监控工作。
资源的初始化主要初始化在逻辑调度过程中需要用到的确定运行状态的信息,包括出现异常的处理方式、要进行监控的对象、监控的时间间隔,启动资源监控的具体时间点。
2)注册定时器:向逻辑调度进行定时器注册。
3)定时器计时:定时器注册后,触发器开始计时工作。
4)到达指定时间时,启动监控。
5)监控的资源出现异常时,进行异常处理,直至资源正常。
6)进入下阶段监控。
所述逻辑调度模块完成高可用集群资源监控的逻辑调度,启动监控、停止监控,对定时器、状态监控、异常处理部分进行逻辑调度,并对定时器、状态监控、异常处理的反馈信息进行处理。
所述资源管理模块完成集群资源的创建、销毁工作,并完成向逻辑调度模块注册工作。
所述步骤2)与步骤3)中的注册定时器、计时工作由定时器部分完成。一个定时器注册成功之后,逻辑调度会启动定时器的计时工作。当定时器发现已经到达了预定时间,定时器会主动反馈给逻辑调度,逻辑调度启动监控完成对资源的本次监控,如果在本次监控中发现了资源异常,状态监控部分会反馈异常信息给逻辑调度部分,逻辑调度部分会根据资源注册时的信息来决策对资源的异常处理,具体的异常处理工作由异常处理部分进行。
状态监控模块完成对具体资源的监控工作,该具体资源包括服务资源、网卡资源、应用程序资源、IP资源、网卡资源、磁盘资源,并把监控资源的状态实施反馈给逻辑调度模块,并由逻辑调度模块决策下一步的处理。
所述异常处理模块提供异常处理功能:当监控的资源出现异常时,在状态监控把异常信息上报给逻辑调度模块之后,逻辑调度要求异常处理模块进行异常的处理。
所述处理方式包括对异常的资源进行恢复、请求其它集群中其它节点进行处理、向用户发送紧急通知。
通过上述结构和方法,可以满足高可用集群的资源监控,能够保证在资源出现异常时及时发现异常,并进行快速的处理。从而最大限度的降低业务的中断时间。

Claims (6)

1.一种高可用集群资源监控的方法,其特征在于:包括五个模块:逻辑调度模块、与逻辑调度模块相连通的资源管理模块、定时器、状态监控模块和异常处理模块,其具体监控过程为:
1)资源初始化:完成高可用集群资源监控的初始化工作,将初始化的资源向逻辑调度进行注册,逻辑调度会根据注册的信息来确定后续的监控工作;
2)注册定时器:向逻辑调度进行定时器注册;
3)定时器计时:定时器注册后,触发器开始计时工作;
4)到达指定时间时,启动监控;
5)监控的资源出现异常时,进行异常处理,直至资源正常;
6)进入下阶段监控。
2.根据权利要求1所述的一种高可用集群资源监控的方法,其特征在于:所述逻辑调度模块完成高可用集群资源监控的逻辑调度,启动监控、停止监控,对定时器、状态监控、异常处理部分进行逻辑调度,并对定时器、状态监控、异常处理的反馈信息进行处理。
3.根据权利要求1所述的一种高可用集群资源监控的方法,其特征在于:所述资源管理模块完成集群资源的创建、销毁工作,并完成向逻辑调度模块注册工作。
4.根据权利要求1所述的一种高可用集群资源监控的方法,其特征在于:状态监控模块完成对具体资源的监控工作,该具体资源包括服务资源、网卡资源、应用程序资源、IP资源、网卡资源、磁盘资源,并把监控资源的状态实施反馈给逻辑调度模块,并由逻辑调度模块决策下一步的处理。
5.根据权利要求1所述的一种高可用集群资源监控的方法,其特征在于:所述异常处理模块提供异常处理功能:当监控的资源出现异常时,在状态监控把异常信息上报给逻辑调度模块之后,逻辑调度要求异常处理模块进行异常的处理。
6.根据权利要求5所述的一种高可用集群资源监控的方法,其特征在于:所述处理方式包括对异常的资源进行恢复、请求其它集群中其它节点进行处理、向用户发送紧急通知。
CN201310053320.9A 2013-02-19 2013-02-19 一种高可用集群资源监控的方法 Active CN103139016B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310053320.9A CN103139016B (zh) 2013-02-19 2013-02-19 一种高可用集群资源监控的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310053320.9A CN103139016B (zh) 2013-02-19 2013-02-19 一种高可用集群资源监控的方法

Publications (2)

Publication Number Publication Date
CN103139016A true CN103139016A (zh) 2013-06-05
CN103139016B CN103139016B (zh) 2017-09-22

Family

ID=48498353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310053320.9A Active CN103139016B (zh) 2013-02-19 2013-02-19 一种高可用集群资源监控的方法

Country Status (1)

Country Link
CN (1) CN103139016B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104090832A (zh) * 2014-07-07 2014-10-08 用友软件股份有限公司 云计算平台的高可用性支撑装置及方法
CN111552556A (zh) * 2020-03-24 2020-08-18 合肥中科类脑智能技术有限公司 一种gpu集群服务管理系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120170464A1 (en) * 2008-05-16 2012-07-05 Hitachi, Ltd. Method and Apparatus for Monitoring a Status of Nodes of a Communication Network
CN102932210A (zh) * 2012-11-23 2013-02-13 北京搜狐新媒体信息技术有限公司 一种PaaS云平台的节点监控方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120170464A1 (en) * 2008-05-16 2012-07-05 Hitachi, Ltd. Method and Apparatus for Monitoring a Status of Nodes of a Communication Network
CN102932210A (zh) * 2012-11-23 2013-02-13 北京搜狐新媒体信息技术有限公司 一种PaaS云平台的节点监控方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
庄蓉茹: "集群系统下的通信系统开发", 《中国优秀硕士学位论文全文数据库(2002年) 信息科技辑》 *
朱俊杰: "企业集群任务管理系统的研究与实现", 《中国优秀硕士学位论文全文数据库(2013年) 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104090832A (zh) * 2014-07-07 2014-10-08 用友软件股份有限公司 云计算平台的高可用性支撑装置及方法
CN111552556A (zh) * 2020-03-24 2020-08-18 合肥中科类脑智能技术有限公司 一种gpu集群服务管理系统及方法
CN111552556B (zh) * 2020-03-24 2023-06-09 北京中科云脑智能技术有限公司 一种gpu集群服务管理系统及方法

Also Published As

Publication number Publication date
CN103139016B (zh) 2017-09-22

Similar Documents

Publication Publication Date Title
CN102521044B (zh) 一种基于消息中间件的分布式任务调度方法及系统
CN102457906B (zh) 一种消息队列的负载均衡控制方法及系统
CN109343939B (zh) 一种分布式集群及并行计算任务调度方法
CN106790706B (zh) 一种数据资源优化的方法、平台及系统
CN104991824B (zh) 一种动态切换应用程序数据源的方法及系统
CN103092682A (zh) 异步网络应用程序处理方法
CN105159769A (zh) 一种适用于计算能力异构集群的分布式作业调度方法
CN109766201A (zh) 任务分发方法、服务器、客户端和系统
CN103150241A (zh) 多服务器状态监控管理系统和方法
CN108762952A (zh) 一种分布式异步数据推送方案
US10122602B1 (en) Distributed system infrastructure testing
CN113296914A (zh) 一种基于ZooKeeper的分布式任务调度系统及方法
CN106161652A (zh) 基于Zstack请求的私有云平台及其调度方法
CN103139016A (zh) 一种高可用集群资源监控的方法
CN112910952B (zh) 分布式任务调度方法以及装置、存储介质、电子装置
CN106899659B (zh) 分布式系统及其管理方法和管理装置
CN106843890B (zh) 基于智能决策的传感器网络、节点及其运行方法
CN111475333A (zh) 一种基于openstack的数据库备份方法及装置
CN107948001B (zh) 一种船舶制造车间工业网络智能监控系统及方法
CN110210828A (zh) 一种微服务治理方法
CN100502388C (zh) 边界网关协议模块路由处理方法
CN111309457A (zh) 一种采集订餐商铺信息的方法、终端、采集节点及系统
CN115391058A (zh) 一种基于sdn的资源事件处理方法、资源创建方法及系统
CN103973811A (zh) 一种可动态迁移的高可用集群管理方法
CN102238022A (zh) 一种网络管理系统及数据采集方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant