CN1270240C - 一种大规模机群系统的监控方法 - Google Patents

一种大规模机群系统的监控方法 Download PDF

Info

Publication number
CN1270240C
CN1270240C CN 200310119410 CN200310119410A CN1270240C CN 1270240 C CN1270240 C CN 1270240C CN 200310119410 CN200310119410 CN 200310119410 CN 200310119410 A CN200310119410 A CN 200310119410A CN 1270240 C CN1270240 C CN 1270240C
Authority
CN
China
Prior art keywords
group
information
planes
status
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CN 200310119410
Other languages
English (en)
Other versions
CN1547121A (zh
Inventor
李博
马捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN 200310119410 priority Critical patent/CN1270240C/zh
Publication of CN1547121A publication Critical patent/CN1547121A/zh
Application granted granted Critical
Publication of CN1270240C publication Critical patent/CN1270240C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

一种大规模机群系统的监控方法,本方法将监控系统分为四个层次、五个器件。方法通过由软、硬件信息采集器(结点信息采集层)周期性采集系统状态信息,组信息管理器(组信息管理层)周期性从软、硬件信息采集器收集、整理每个组成员(结点)状态信息,机群信息管理器(机群信息管理层)周期性的从每个组信息管理器收集、整理,并利用MySQL数据库保存每个组信息管理器管理的状态数据,最后由机群监控终端(机群监控层)从MySQL数据库中将这些状态数据读取出来,并用图形的方式将各种类型的被监控对象的状态数据显示给管理员,从而达到对大规模机群系统运行状态进行监控的目的。

Description

一种大规模机群系统的监控方法
技术领域
本发明涉及高性能机群服务器技术领域,特别是一种大规模机群系统的监控方法。
技术背景
机群是当今高性能计算中一种质优价廉的解决方案,随着机群技术的成熟与成本的降低,它的规模增长也是越来越快。机群庞大的规模和大量的资源都需要我们能够及时有效的了解它们的状态,这对于一个计算环境能否正常运行和形成计算能力有着重要的意义,所以,这就要求我们能够有一套有效的监控方法来监控这样大规模的计算资源。
以往的机群监控方法有着一些不足,首先,以往的机群监控系统一般采用Client/Server(客户机/服务器)模式的两层结构,这样一来对机群本身规模限制过多,一旦机群规模发生变化,特别是规模增长数倍的时候,监控系统很难适应,其次,以往的监控方法大多是从物理视图的角度对机群内部某个(些)结点的运行状态进行描述,而不能从逻辑视图的角度对机群整体内部某一类资源的状态进行描述,第三,以往的机群监控方法往往只监控诸如中央处理器利用率、内存利用率等操作系统软件级别的状态信息,而不对机群环境的温度、电压、风扇转速等状态信息进行监控。
发明内容
鉴于现有的机群监控方法的不足,本发明提供了一种大规模机群系统的监控方法。该方法为大规模机群的监控系统提供了一种施行方案,也同时构造了一个多层次的监控环境,在网络环境中实现了对被监控机群服务器进行状态信息采集、状态信息汇总、状态信息整理、状态信息存储、状态信息显示的功能。
本发明的具体实现方法如下:
a.机群监控方法的框架结构
本方法将监控系统整体从结构上分为4个层次和5个器件,分别是结点信息采集层(软件信息采集器、硬件信息采集器)、组信息管理层(组信息管理器)、机群信息管理层(机群信息管理器)、机群监控层(机群监控终端)。详见Linux机群超级服务器监控系统结构示意图。这种多层次的系统构架使得本监控系统很容易适应各种规模的机群,从几个结点的规模到上千个结点的规模,都可以完成对它们的监控。
b.机群系统状态信息的采集
整个大规模机群系统的状态信息由各个结点的状态信息汇总而成,而每个结点的状态信息的采集工作由结点信息采集层来完成,结点信息采集层由软件信息采集器和硬件信息采集器2个器件构成。
软件信息采集器通过定时读取操作系统参数获取系统状态数据。软件信息采集器模块所需要采集的系统状态数据主要包括:中央处理器使用情况、系统内存容量及使用情况、系统交互分区大小及使用情况、磁盘使用情况(读写操作的繁忙程度)、各套网络的状态(通断)、收发包情况、丢包率、应用程序运行的状态。
硬件信息采集器是个硬件设备,它通过数据监控卡(采集卡)、温度探头、电压测量装置、风扇转速测量装置来完成对机群系统内部硬件设备的状态信息的采集。硬件信息采集器所采集的数据主要包括:各个硬件设备的电压值和工作温度、各个风扇转速等。
c.机群系统状态信息的汇总
本监控方法的体系结构分为4个层次,机群系统状态信息由底层的结点信息采集层采集完成后,分别经过各个层次的整理、汇总而成。
结点信息采集层收集的各个结点的状态信息在组信息管理器处得到第一次汇总。组信息管理器会周期性地向它的组成员(结点)发请求,索取每个结点的软件和硬件的状态信息,每个结点上的软件信息采集器会通过基于socket的通信方式,将该结点软件状态信息汇报给组信息管理器,而每个结点上的硬件信息采集器则通过I2C协议将结点的硬件状态数据由串行口传递到组信息管理器。
各个组信息管理器将自己所管理的所有组成员的状态数据汇报给机群信息管理器,是状态数据在机群内部的第二次汇总。机群信息管理器会周期性地向每个组信息管理器发请求,索取每个组信息管理器保留的各个结点的汇总信息。收到请求后,每个组信息管理器会将自己保留的组内所有成员的状态信息通过基于socket的通信方式发送给机群信息管理器,机群内部所有结点的软件、硬件的状态信息在机群信息管理器得到汇总。
d.机群系统状态信息的保存
结点上的软件信息采集器会在结点操作系统启动成功后,在结点内存中划分出一块儿内存区用来保留该结点的状态数据,该内存中保留的状态数据会周期性地被软件信息采集器刷新。
和软件信息采集器类似,组信息管理器在结点操作系统启动成功后,在结点内存中划分出一块儿内存区用来保留该组所有结点汇报上来的状态数据集合,内存中保留的状态数据会周期性地被组信息管理器刷新。
机群信息管理器管理整个机群的状态数据,其中包括当前状态数据的管理和历史数据的管理,当前状态数据的管理和软件信息采集器类似,在结点操作系统启动成功后,机群信息管理器在结点内存中划分出一块儿内存区用来保留机群内部所有组信息管理器汇报上来的状态数据集合,内存中保留的状态数据会周期性地被机群信息管理器刷新。同时,机群信息管理器也管理着机群历史状态数据,这一工作通过利用(MySQL)数据库来完成。机群信息管理器将每个周期从组信息管理器收集上来的状态数据存入MySQL的表中,表是按天建立,每一天建立一张新表,来存放当天该机群的所有状态数据。
e.机群系统状态信息的显示
机群系统状态信息的显示由机群监控终端来完成,机群监控终端位于机群监控层。
机群监控终端的界面由一组视图组成,它包括静态信息视图、实时信息视图和历史数据分析视图三类。通过图形的方式将被监控机群的信息表示出来,机群监控终端的数据来源于数据库服务器。静态信息视图按照机群为单位显示其中央处理器信息、内存大小、硬盘容量等和机群配置相关的信息。实时信息视图以柱状图或者折线图形式动态显示机群中各节点中央处理器利用率、内存利用率、交互分区利用率、硬盘利用率,以及硬件故障情况,包括电压、电流不稳,风扇停转,温度异常等。历史数据分析视图以时间为序、机群整体为分析对象,给出机群内所有节点的中央处理器使用情况、硬盘工作状态、内存利用率、交互分区利用率的变化趋势,分析当前机群的性能是否能满足当前应用的需求,同时,以时间为序,统计软、硬件故障点及故障频率,以便协助进行软、硬件的升级。视图也是以柱状图和折线图的形式显示。
附图说明
图1是本发明的大规模机群系统监控方法的结构示意图;
图2是图1的应用该方法的机群监控系统的部署示意图;
图3是本发明的大规模机群系统监控方法的流程图。
如图1中所示,将大规模机群系统监控方法从结构上分为4个层次、5个器件,它们分别为结点信息采集层1(软件信息采集器、硬件信息采集器)、组信息管理层2(组信息管理器)、机群信息管理层3(机群信息管理器)、机群监控层4(机群监控终端)。
结点信息采集分为软件信息采集和硬件信息采集两个部分。每个结点上的硬件信息采集器通过I2C专用网络把收集到的结点硬件信息传递到组信息管理器,同样,每个结点上的软件信息采集器也把相应的结点系统状态信息传递给组信息管理器,每个组信息管理器可以管理0~128个结点的信息,若干个组信息管理器的信息汇总到机群信息管理器内,机群信息管理器要收集、处理并利用数据库保存这些不断发送过来的数据,为管理员监控机群内部每个结点状态,了解结点的历史运行信息提供了数据。机群监控终端是一组图形化界面管理工具,它通过从数据库中获取机群内部结点当前以及历史状态信息,并以图形化的界面展示给管理员方式,使得管理员直观、及时、准确的获取被监测机群的当前及历史状态信息。
如图2中所示,应用了本方法的监控系统将每个模块部署在机群中相应的结点上,形成一套完整的监控系统,并协调工作。
软、硬件信息采集器部署在机群内部各个计算结点上,负责收集该结点的软、硬件状态信息;组信息管理器部署在机群内部组管理结点上,负责汇总组内各个结点的状态信息;机群信息管理器部署在机群网络出口(同时拥有外网和内网)的结点上,负责汇总各个组的状态信息,同时将数据存入数据库;机群监控终端部署在和数据库有网络连接的终端上,对数据库中的各种状态信息进行显示。
图3的大规模机群系统监控方法,其步骤如下:步骤S1软件信息采集器和硬件信息采集器分别周期性地收集该结点的软件和硬件的运行状态信息,各个结点的状态信息周期性地汇总于所属组信息管理器,步骤S2各个组信息管理器收集、整理管理的各个结点状态信息周期性地汇总于机群信息管理器,步骤S3机群信息管理器周期性地将所管理的机群状态信息整理并存入数据库,步骤S4机群监控终端从数据库中取得所需信息进行显示。
本发明的效果体现在:
1.本监控方法提出的四个层次的体系结构更容易适应不通规模的机群,特别是大规模机群,较之以往机群监控系统采用的Client/Server模式的两层结构有着更好的可扩展性。
2.本机群监控方法利用数据库技术对大量的状态数据进行管理,定期备份,并为数据分析工具提供源数据,极大的方便了管理人员对被监控机群历史运行状态数据的分析。
3.本机群监控方法提出了视图逻辑层次的可缩放性,为管理员提供了不同的视角来观察被监测格点的各种资源的状态,管理员既可以将机群内所有结点当作一个整体来观察它的某类资源状态,也可以查看格点内任意结点的某种资源使用状况。
4.本机群监控方法不但对中央处理器利用率、内存利用率等操作系统软件级别的状态信息进行监控,而且还对机群环境的温度、电压、风扇转速等硬件状态信息进行监控,这是以往的机群监控系统没有的。

Claims (2)

1、一种大规模机群系统的监控方法,其步骤如下:步骤S1软件信息采集器和硬件信息采集器分别周期性地收集该结点的软件和硬件的运行状态信息,各个结点的状态信息周期性地汇总于所属组信息管理器,步骤S2各个组信息管理器收集、整理管理的各个结点状态信息周期性地汇总于机群信息管理器,步骤S3机群信息管理器周期性地将所管理的机群状态信息整理并存入数据库,步骤S4机群监控终端从数据库中取得所需信息进行显示。
2、如权利要求1所述的大规模机群系统的监控方法,其分为四个层次、五个器件,包括结点信息采集层、组信息管理层、机群信息管理层、机群监控层,其特征在于通过由软件信息采集器、硬件信息采集器周期性采集系统状态信息,组信息管理器周期性地从软、硬件信息采集器收集、整理每个组成员的状态信息,机群信息管理器再周期性地从每个组信息管理器收集、整理、保存,利用数据库每个组信息管理器管理的状态数据,最后由机群监控终端从数据库中将这些状态数据读取出来,并以图形的方式和逻辑视图的角度将各种类型的被监控对象的状态数据显示给管理员,在本方法中,机群监控终端与数据库之间的通信方式采用基于JDBC,数据库连接的通信模式,除此以外不同层次的模块间通信采用基于socket套接字的通信模式来完成。
CN 200310119410 2003-12-10 2003-12-10 一种大规模机群系统的监控方法 Expired - Lifetime CN1270240C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200310119410 CN1270240C (zh) 2003-12-10 2003-12-10 一种大规模机群系统的监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200310119410 CN1270240C (zh) 2003-12-10 2003-12-10 一种大规模机群系统的监控方法

Publications (2)

Publication Number Publication Date
CN1547121A CN1547121A (zh) 2004-11-17
CN1270240C true CN1270240C (zh) 2006-08-16

Family

ID=34338241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200310119410 Expired - Lifetime CN1270240C (zh) 2003-12-10 2003-12-10 一种大规模机群系统的监控方法

Country Status (1)

Country Link
CN (1) CN1270240C (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9265858B2 (en) 2012-06-12 2016-02-23 Ferrosan Medical Devices A/S Dry haemostatic composition
US9533069B2 (en) 2008-02-29 2017-01-03 Ferrosan Medical Devices A/S Device for promotion of hemostasis and/or wound healing

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4700969B2 (ja) * 2005-01-06 2011-06-15 富士通株式会社 監視情報提供装置、監視情報提供方法および監視情報提供プログラム
CN100449326C (zh) * 2005-03-16 2009-01-07 西门子(中国)有限公司 监测日志的记录方法及系统
CN101572631B (zh) * 2008-04-30 2012-03-28 新奥特(北京)视频技术有限公司 一种基于Eclipse RCP的数据传输状态监控方法
CN102141934A (zh) * 2011-02-28 2011-08-03 浪潮(北京)电子信息产业有限公司 一种胖节点上的进程控制方法及装置
CN102662762A (zh) * 2012-03-30 2012-09-12 浪潮电子信息产业股份有限公司 一种有效控制胖节点内存资源使用的方法
CN103825753A (zh) * 2012-11-19 2014-05-28 英业达科技有限公司 服务器系统
CN103345414B (zh) * 2013-07-26 2016-08-24 广州广电运通金融电子股份有限公司 自助终端控制硬件设备的方法、设备管理器和处理器
CN103473164A (zh) * 2013-09-25 2013-12-25 浪潮电子信息产业股份有限公司 一种用于linux服务器的监控预警方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9533069B2 (en) 2008-02-29 2017-01-03 Ferrosan Medical Devices A/S Device for promotion of hemostasis and/or wound healing
US9265858B2 (en) 2012-06-12 2016-02-23 Ferrosan Medical Devices A/S Dry haemostatic composition

Also Published As

Publication number Publication date
CN1547121A (zh) 2004-11-17

Similar Documents

Publication Publication Date Title
US7523349B2 (en) Data visualization for diagnosing computing systems
US20110179160A1 (en) Activity Graph for Parallel Programs in Distributed System Environment
US8175863B1 (en) Systems and methods for analyzing performance of virtual environments
CN1270240C (zh) 一种大规模机群系统的监控方法
Moore et al. Data center workload monitoring, analysis, and emulation
CN111077870A (zh) 一种基于流计算的opc数据实时采集监控智能系统及方法
CN108491861A (zh) 基于多源多参量融合的输变电设备状态异常模式识别方法及装置
Roth et al. On-line automated performance diagnosis on thousands of processes
WO2014143279A1 (en) Bottleneck detector for executing applications
CN101051334A (zh) 结构健康监测和信息管理系统及其方法
KR20090046543A (ko) 전력 계통의 감시데이터 수집 및 운영 시스템과 그 방법
CN1695282A (zh) 用于管理基于对象的群集的系统与方法
CN104243236A (zh) 一种监控系统运维告警数据分析的方法、系统及服务器
EP1895416A1 (en) Data visualization for diagnosing computing systems
WO2014116204A1 (en) Processing data streams
CN117421994A (zh) 一种边缘应用健康度的监测方法和监测系统
Brandt et al. OVIS-2: A robust distributed architecture for scalable RAS
CN111061796A (zh) 一种配电网多源数据质量管控系统
CN1547356A (zh) 一种面向网格的监控系统及方法
Dietrich et al. Pika: Center-wide and job-aware cluster monitoring
CN109474479A (zh) 一种网络设备监控方法及系统
Sivalingam et al. LASSi: metric based I/O analytics for HPC
CN110502424A (zh) 一种应用软件的性能数据处理方法、装置、系统及终端
US9235424B1 (en) Managing the performance of a data processing system through visualization of performance metrics data via a cognitive map
CN113986704A (zh) 基于TS-Decomposition的数据中心高频故障时域预警方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Assignee: Beijing Shidai Shanyuan Automation Control Technology Co.,Ltd.

Assignor: Institute of Computing Technology, Chinese Academy of Sciences

Contract fulfillment period: 2007.10.9 to 2012.10.9

Contract record no.: 2009990000366

Denomination of invention: Method for monitoring large-scale cluster system

Granted publication date: 20060816

License type: Exclusive license

Record date: 20090424

LIC Patent licence contract for exploitation submitted for record

Free format text: EXCLUSIVE LICENSE; TIME LIMIT OF IMPLEMENTING CONTACT: 2007.10.9 TO 2012.10.9; CHANGE OF CONTRACT

Name of requester: BEIJING SHIDAI SHANYUAN AUTOMATION CONTROL TECHNOL

Effective date: 20090424

ASS Succession or assignment of patent right

Owner name: HUAWEI TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: INSTITUTE OF COMPUTING TECHNOLOGY, CHINESE ACADEMY OF SCIENCES

Effective date: 20130605

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100080 HAIDIAN, BEIJING TO: 518129 SHENZHEN, GUANGDONG PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20130605

Address after: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee after: HUAWEI TECHNOLOGIES Co.,Ltd.

Address before: 100080 No. 6 South Road, Zhongguancun Academy of Sciences, Beijing

Patentee before: Institute of Computing Technology, Chinese Academy of Sciences

CX01 Expiry of patent term

Granted publication date: 20060816

CX01 Expiry of patent term