CN1466056A - 一种机群监控系统和方法 - Google Patents

一种机群监控系统和方法 Download PDF

Info

Publication number
CN1466056A
CN1466056A CNA021421668A CN02142166A CN1466056A CN 1466056 A CN1466056 A CN 1466056A CN A021421668 A CNA021421668 A CN A021421668A CN 02142166 A CN02142166 A CN 02142166A CN 1466056 A CN1466056 A CN 1466056A
Authority
CN
China
Prior art keywords
node
group
computer
planes
computers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA021421668A
Other languages
English (en)
Other versions
CN100547560C (zh
Inventor
程菊生
吴雪丽
金正操
顾光导
胡毅
田宏萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CNB021421668A priority Critical patent/CN100547560C/zh
Publication of CN1466056A publication Critical patent/CN1466056A/zh
Application granted granted Critical
Publication of CN100547560C publication Critical patent/CN100547560C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

一种机群监控系统及方法,该方法采用分级方案,由中间模块代理监控主机与结点机之间的网络通信,从而实现了对多结点的大型机群系统的网络监控。

Description

一种机群监控系统和方法
技术领域
本发明涉及一种计算机机群通信方法和系统,尤其涉及大型机群系统的监控网络的通信方法和系统。
背景技术
计算机在运行过程中,可能会出现各种异常情况,计算机管理员需要随时了解其运行状态,及时得知出现的异常情况,并进行相应的处理,保证计算机系统的安全稳定运行。
计算机机群系统是多台服务器(结点机)组成,它们通过专用高速网络聚合在一起,构成一个超级服务器。在实际应用中,机群系统的安全稳定运行显得尤为重要,因此,有必要对机群系统中的所有结点机软硬件的运行情况进行监控,随时发现问题,并排除故障,而且,人们更希望把整个机群系统作为一个单一映像进行监控。这就需要有一个能够对整个机群系统进行监控的监控系统。
目前,经常使用的一种监控系统采用的通信方案是:监控主机直接与各个结点机通信,获取监控信息(如图1所示)。先由运行于各结点机服务器上的代理程序获取所在结点机2的运行状态信息,然后直接传送给监控主机1,实现监控主机对各服务器的监控。
现有通信方法存在许多明显的缺陷:
首先,现有方案仅适用于结点数较少的情况,当结点数目增大到一定数量时,采用这种直接的通信方式就不能够满足要求。例如,所监控的机群共有256个结点,如果采用TCP(传输控制协议)作为底层通信协议,则监控主机需要维持256个TCP连接,这会占用大量的系统资源,甚至根本不能实现。如果采用UDP(用户数据报协议)作为底层通信协议,则监控主机有可能在同一时间收到大量的UDP包,一旦监控主机未能及时处理这些包,就很有可能出现丢包情况,即出现丢失监控信息的情况。对于这种情况,目前还没有较好的解决办法。
其次,监控系统作为机群系统的重要组成部分,是作为后台服务运行的,它不能占用过多的系统资源而影响机群系统的其他应用的运行。而按照现有的监控系统通信方案,监控系统的运行会占用大量的系统资源,从而干扰机群系统的正常运行。为此,需要一种新的实现方式,尽可能地少占用系统资源,使得监控系统在整个机群系统中的运行开销降至最低。
再次,现有监控系统的通信方案不能很好地保证对各个结点数据采集的同步性,也就是说,不能同步地对各个结点机在同一时刻的运行情况进行收集。这样,就不能够客观、准确地了解机群系统的整体运行情况,而且也不能体现整个机群系统的单一映像特征。
基于现有监控系统通信方案的上述缺陷,我们迫切需要一种新的技术解决方案,能够适用于多结点的大型机群系统,在不占用过多的系统资源的前提下,同步地对各个结点机的运行情况进行监控。
发明内容
为了克服现有技术的不足,本发明的目的在于提供一种新型的监控系统和方法;
本发明的另一个目的在于提供一种新的机群通信系统和方法,该方法可用于大型机群。
本发明的又一个目的在于提供一种新的用于机群的通信和监控系统和方法,该系统和方法易于对机群系统中结点机数量进行扩展。
本发明的再一个目的在于提供一种新的用于机群的通信和监控系统和方法,该系统和方法可以保证对各结点机数据采集的同步性。
本发明的进一步目的在于提供一种新的机群通信和监控系统和方法,该系统和方法可以减少对系统资源的占用,从而降低运行成本。
本发明的另一个目的在于提供一种新的机群的通信和监控系统和方法,该方法可用于机群软件和硬件信息的采集和监控。
本发明的其它目的和优点将通过阅读和理解本发明的以下描述后得出。
本发明提供了一种机群监控系统和方法,该系统和方法用于对大型服务器机群系统的监控,所述系统和方法包括:将被监控的机群系统的所有结点机分为若干个组,在各结点机上运行结点采集模块,由它负责对结点数据的采集,在每个组中的一个结点机上运行结点代理模块,由它负责采集命令及数据的传递,监控主机不直接与所有的结点机通信,而由中间结点代理结点机与监控主机的通信。
本发明还提供了一种用于机群监控网络通信的分级方法,其特征在于:将监控系统的各个模块分为不同的功能级。
附图说明
图1表示现有监控网络的结构。
图2表示根据本发明的监控方案的一个较佳实施例。
图3表示根据本发明的监控方案中采集命令的发送过程。
图4表示根据本发明的监控方案中采集数据的汇总过程。
具体实施方式
以下结合附图详细说明本发明的监控系统和方法。
附图2显示了根据本发明的监控系统的一个较佳实施例。在监控主机上运行着基本服务模块(BSP)11,它负责在需要了解机群系统运行状态时发出数据采集命令,然后等待并接收由结点机返回的数据,对其进行汇总和分析处理。机群系统的所有结点机分为若干个组12,各个组12分别有N个结点机(如附图3和4中所示),但只有一个结点机上运行着结点代理模块(NP)14,而每个节点机上都运行着结点采集模块(NA)13。其中NP模块14负责在收到来自BSP的采集命令后,将采集命令传送给该组中所有结点机的NA模块,然后等待并接收NA模块返回的数据,将其汇总后统一发送给BSP;NA模块13则负责周期性地采集所在结点机的运行状态数据,并在收到采集命令后立即返回最新一次的采集数据。NA模块和NP模块都是运行于结点机操作系统之上的软件或程序。
根据以上所述,我们可以看出,监控系统的模块按照各自的功能分为三级,BSP为第一级,NP为第二级,NA为第三级。处于不同层次级别的模块完成不同的任务,他们相互配合,实现对机群系统的监控。
一次信息采集过程可以分为两个步骤:
一、采集命令的发送。如附图3所示,BSP模块11首先通过UDP广播方式把采集命令广播到所有的NP模块14,这样,采集命令就同步到达所有的NP;NP收到采集命令后,立即以UDP广播方式把采集命令广播到所在组12中的所有NA模块13,同样,采集命令又同步到达所有的NA模块。我们不难看出,BSP发出的采集命令最终同步到达整个机群系统中的所有NA模块。
二、采集数据的汇总。如附图4所示,各个NA模块13周期性地采集所在结点机的运行状态数据,并存储在缓冲区中,当收到NP模块14发出的采集命令时,就将最新一次采集到的数据信息立即传送给NP;各NP接收本组12所有NA返回的采集数据,将其汇总后统一传送给BSP模块11;BSP接收所有NP返回的数据,进行汇总,并插入数据库中。
根据以上所述,由于数据采集命令同步到达所有的NA,NA接到命令立即返回最新一次采集的数据,所以,BSP最终收到的是所有结点机在同一时刻的运行状态数据,能够反映机群系统的整体运行情况。
由于NA模块自身周期性地采集数据,能够快速响应采集命令,保证信息采集过程迅速完成。NA模块的采集周期经过合理设置,既保证了数据的实时性,又最大程度地减少了结点机的资源。从而也降低运行成本。
监控主机的另一个程序GCM(监控显示模块)从数据库中读出数据,并可以以图形化的方式显示出来。
下面作为本发明较佳实施例的一个运用给出一个例子。
一个机群系统由256个结点机(服务器)组成,256个结点机分别安放在16个机柜中,每个机柜中安放16个结点机。这256个结点机通过以太网络设备连接成一个大型机群系统。
为了对该系统每个结点机的运行情况进行监控,根据本发明,我们将这256个结点机按照其物理布局(机柜)分组,每个机柜中的16个结点机为一组,共16个组。在每个结点机上都运行结点采集模块NA,在每组16个结点机的其中一个上还运行着结点代理模块NP。监控主机上运行BSP,它通过以太网络与NP和NA通信。
当监控主机BSP需要了解机群运行状态时,首先将采集命令以UDP广播方式发送到16个组的NP;每个NP在接到该命令后,立即以UDP广播方式将该命令发送到该组的16个NA。这样,BSP发出的采集命令就同步到达全部(256个)结点机的NA。
各个NA周期性地采集所在结点机的数据,存放在缓冲区中,当它收到NP的采集命令后,立即返回最新一次的采集数据;每个NP收到该组中16个NA发回的数据,将其汇总后发送给BSP。
本发明的机群通信方法和系统可以用于对软件信息的采集和监控,软信息包括CPU利用率、内存利用率、网络流量、用户进程等。本发明的机群通信方法和系统也可以用于对硬件信息采集和监控。比如,由于在IO节点机的主板上使用其它类型结点机的采集装置不能正常工作,所以IO节点机的所有信息都是通过以太网获取。IO节点机硬件信息与其他节点机硬件信息的传输方式不同,IO节点机硬件信息的采集方式也不同。下面做一说明。
IO节点机上的代理程序NA除完成采集软件信息的任务外(这一点和普通的NA一样),它还要采集IO节点机的硬件信息。其硬件信息的获取途径是通过主板上的BMC芯片和I2C总线,遵循IPMI规范,读取硬件的信息。在给中间代理层或中间程序NP的传输的过程中,在软件信息后附上硬件信息;NP在接收到IO节点机的信息时,同时也将硬件信息抽取出来,附在整个机柜信息的后面,传输给BSP;BSP在接收到IO节点机所在的机柜的信息时,将硬件信息抽取出来,放在硬件信息的缓冲区中,等待存入数据库中(在这一层次上,BSP的分离软硬件信息,使得数据库和GCM不用关心IO节点机软硬件信息的不同之处,从而达到隐藏的目的)。
从上面对本发明实施例的描述可以看出,本发明的机群监控系统和方法很容易对机群结点机的数量进行扩展。比如,在上述例子中从256个结点机扩展到320个结点机时,对于BSP而言,只增加了4个接受和发送信息的NP模块。关于NA程序和NP程序的内部结构,本技术领域的技术人员根据本发明对其编程是很容易的,这里就不再赘述。
显然,本领域的技术人员可以对本发明的计算机机群监控方法和系统进行各种改动和变型而不脱离本发明的精神和范围。这样倘若本发明的这些修改和变型属于本发明权利要求及其等同技术范围之内,则本发明也意图包含这些改动和变型在内。

Claims (7)

1、一种计算机或服务器机群监控的通信方法,所述机群有多个结点机和一个监控主机,所述方法包括如下步骤:
将被监控机群的所有结点机分为若干个组;
在各结点机上运行一个结点采集模块,负责对结点数据的采集;
在每个所述组中的一个结点机上运行中间结点代理模块,建立与
所述监控主机的通信和与所述组内的所有结点机的结点采集模
块之间的通信,从而将各结点机被采集的结点数据传送给所述监
控主机。
2、如权利要求1所述的通信方法,所述建立与监控主机的通信包括步骤:接收所述监控主机向每个所述组的中间结点代理模块同时下发的数据采集指令。
3、如权利要求2所述的通信方法,所述建立与监控主机的通信进一步包括步骤:由每个所述组的中间结点代理模块向所述监控主机发送所述结点数据。
4、如权利要求1所述的通信方法,所述建立与所述组内的所有结点机之间的通信包括步骤:向组内所有结点机同时发送数据采集指令并接收来自所有结点机的结点数据。
5、一种计算机或服务器机群的监控系统,所述机群有多个结点机,所述系统包括:
一个主监控装置,
在各结点机上的一个结点采集装置,负责采集各结点机上的结点数据;
所有所述结点机分为若干个组的每个所述组中的一个结点机上的中间结点代理装置,负责与所述主监控装置和与组内各结点采集装置的通信。
6、一种计算机或服务器机群的通信方法,所述机群有多个结点机,所述方法包括如下步骤:
在各结点机上运行一个结点采集模块,负责对结点数据的采集;
在每个结点机上运行中间结点代理模块,负责提取所述各结点机采集的结点数据和向外传送所述提取的各结点机采集的结点数据。
7、一种用于计算机或服务器机群的通信方法,所述机群有多个结点机和一个监控主机,所述方法包括如下步骤:在所述机群的多个结点机和监控主机之间建立中间通信结点。
CNB021421668A 2002-06-10 2002-08-27 一种机群监控系统和方法 Expired - Lifetime CN100547560C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB021421668A CN100547560C (zh) 2002-06-10 2002-08-27 一种机群监控系统和方法

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
CN02237849.9 2002-06-10
CN022378499 2002-06-10
CN02237849 2002-06-10
CN021256268 2002-07-25
CN02125626.8 2002-07-25
CN02125626 2002-07-25
CNB021421668A CN100547560C (zh) 2002-06-10 2002-08-27 一种机群监控系统和方法

Publications (2)

Publication Number Publication Date
CN1466056A true CN1466056A (zh) 2004-01-07
CN100547560C CN100547560C (zh) 2009-10-07

Family

ID=34198444

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB021421668A Expired - Lifetime CN100547560C (zh) 2002-06-10 2002-08-27 一种机群监控系统和方法

Country Status (1)

Country Link
CN (1) CN100547560C (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100440159C (zh) * 2005-01-06 2008-12-03 富士通株式会社 提供监控信息的方法和设备
CN101834876A (zh) * 2010-05-27 2010-09-15 哈尔滨工业大学 基于蓝牙、数据库与udp协议的分布式半物理仿真系统及其数据汇总和分发的方法
CN103138961A (zh) * 2011-11-25 2013-06-05 阿里巴巴集团控股有限公司 服务器控制方法、被控服务器及中心控制服务器
CN103327071A (zh) * 2013-05-20 2013-09-25 东莞市富卡网络技术有限公司 云计算网络智能监控模型数据处理分散分载方法及其系统
CN105912439A (zh) * 2016-04-05 2016-08-31 浪潮电子信息产业股份有限公司 一种计算机监控的方法、装置及系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100440159C (zh) * 2005-01-06 2008-12-03 富士通株式会社 提供监控信息的方法和设备
CN101834876A (zh) * 2010-05-27 2010-09-15 哈尔滨工业大学 基于蓝牙、数据库与udp协议的分布式半物理仿真系统及其数据汇总和分发的方法
CN101834876B (zh) * 2010-05-27 2012-11-21 哈尔滨工业大学 基于蓝牙、数据库与udp协议的分布式半物理仿真系统及其数据汇总和分发的方法
CN103138961A (zh) * 2011-11-25 2013-06-05 阿里巴巴集团控股有限公司 服务器控制方法、被控服务器及中心控制服务器
CN103138961B (zh) * 2011-11-25 2015-11-25 阿里巴巴集团控股有限公司 服务器控制方法、被控服务器及中心控制服务器
CN103327071A (zh) * 2013-05-20 2013-09-25 东莞市富卡网络技术有限公司 云计算网络智能监控模型数据处理分散分载方法及其系统
CN103327071B (zh) * 2013-05-20 2016-07-06 东莞市富卡信息科技有限公司 云计算网络智能监控模型数据处理分散分载方法及其系统
CN105912439A (zh) * 2016-04-05 2016-08-31 浪潮电子信息产业股份有限公司 一种计算机监控的方法、装置及系统
CN105912439B (zh) * 2016-04-05 2018-12-14 浪潮电子信息产业股份有限公司 一种计算机监控的方法、装置及系统

Also Published As

Publication number Publication date
CN100547560C (zh) 2009-10-07

Similar Documents

Publication Publication Date Title
CN107508722B (zh) 一种业务监控方法和装置
CN106126346A (zh) 一种大规模分布式数据采集系统及方法
CN1717658A (zh) 集群系统的心跳机构
CN101902497B (zh) 基于云计算的互联网信息监测系统及方法
CN112671560A (zh) 一种高可用的分布式实时告警处理方法及系统
CN110855493B (zh) 用于混合环境的应用拓扑图绘制装置
CN108306955A (zh) 一种车载终端大规模互联集群方法
CN102457578B (zh) 一种基于事件机制的分布式网络监控方法
CN111885439B (zh) 一种光网络综合管理和值勤管理系统
CN105592164B (zh) 一种数据处理的分布式系统及方法
CN112118174A (zh) 软件定义数据网关
CN112865311B (zh) 一种电力系统消息总线监视方法和装置
CN108924228B (zh) 基于边缘计算的工业互联网优化系统
CN1508689A (zh) 一种远程获取被监控计算机信息的系统和方法
CN106407072A (zh) 一种大数据平台的监控系统
Jiang et al. Research on intelligent monitoring scheme for microservice application systems
CN114706675A (zh) 基于云边协同系统的任务部署方法及装置
CN100547560C (zh) 一种机群监控系统和方法
CN108121639A (zh) 一种基于云平台的数据中心综合管理系统设计方法
CN1717659A (zh) 具有互联的集群系统及方法
CN109302319B (zh) 报文池分布式集群及其管理方法
CN107948001B (zh) 一种船舶制造车间工业网络智能监控系统及方法
CN1900869A (zh) 生产自动化服务系统及方法
CN116089079A (zh) 一种基于大数据的计算机资源分配管理系统及方法
CN111786830B (zh) 一种云计算环境下的网络质量仿真方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20091007