CN1466095A - 采集机群中节点的软件和硬件信息的方法与系统 - Google Patents

采集机群中节点的软件和硬件信息的方法与系统 Download PDF

Info

Publication number
CN1466095A
CN1466095A CNA021419299A CN02141929A CN1466095A CN 1466095 A CN1466095 A CN 1466095A CN A021419299 A CNA021419299 A CN A021419299A CN 02141929 A CN02141929 A CN 02141929A CN 1466095 A CN1466095 A CN 1466095A
Authority
CN
China
Prior art keywords
information
node
node machine
group
central processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA021419299A
Other languages
English (en)
Other versions
CN100410954C (zh
Inventor
程菊生
吴雪丽
胡毅
田宏萍
顾光导
金正操
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CNB021419299A priority Critical patent/CN100410954C/zh
Publication of CN1466095A publication Critical patent/CN1466095A/zh
Application granted granted Critical
Publication of CN100410954C publication Critical patent/CN100410954C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Computer And Data Communications (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种采集监控机群中不同类型节点的软、硬件信息的方法与系统,通过分层分类采集信息,从而可将整个机群作为一个单一映象来加以监控,便于管理维护,因此可提高机群运行的可靠性。

Description

采集机群中节点的软件和硬件信息的方法与系统
技术领域
本发明涉及采集机群信息的方法和系统,尤其涉及采集机群中不同类型节点的软、硬件信息的方法与系统,这些节点包括计算节点、登录节点、I/O节点。
背景技术
机群(Cluster)服务器系统是互相连接的多个独立计算机(节点机)的集合。这些计算机可以是PC,也可以是工作站等,每个节点机都有自己的存储器、I/O设备和操作系统。这些节点机通过高速网络连接在一起,在中间件等配合下,形成一个超级服务器。机群服务器在大规模科学计算,比如石油地质等方面发挥着重要作用。
由于机群节点数众多,如何将机群系统的各部分信息及时而准确地采集,是对机群进行监控和维护的一个重要而紧迫的问题。而机群系统包含多种节点,诸如计算节点、登录节点、I/O节点,这些类型节点的软、硬件结构存在很大的差异。需要对不同类型的节点都加以监控才能保证无遗漏地掌握机群系统的整体运行状态。目前尚缺乏能够对大机群系统的不同节点的软硬件信息统一进行实时监控的好方案。
发明内容
本发明的一个目的是提供一种采集机群中不同类型节点的软件和硬件信息的系统和方法。
本发明的一个目的是提供一种采集机群中不同类型节点的软件和硬件信息的系统和方法,该系统和方法易于对机群系统中结点机数量进行扩展。
本发明的再一个目的在于提供一种新的采集机群中不同类型节点的软件和硬件信息的系统和方法,该系统和方法可以保证对各结点机数据采集的同步性。
本发明的进一步目的在于提供一种新的监控系统和方法,该系统和方法可以减少对系统资源的占用,从而降低运行成本。
本发明的进一步目的在于提供一种新的采集机群中不同类型节点的软件和硬件信息的系统和方法,该系统和方法可以分别有效采集和传送机群软件和硬件信息。
本发明提供了一种机群节点信息采集监控系统,所述机群有至少一组节点机,所述系统包括:节点机的信息采集装置,用于采集节点机的信息,所述组的节点机的信息汇集装置,用于汇集各节点机信息采集装置采集的信息,监控装置,用于接收和汇总所述机群各节点机的信息,通信线路,将所述组的信息汇集装置与所述监控装置相连。
本发明还提供了一种采集机群节点信息的方法,机群有多个节点机并配有机群监控装置,所述方法包括如下步骤:将所述机群的节点机分为节点机组,在节点机组内的各节点机上采集信息,在所述节点机组内汇集所述各节点机采集到的信息,将组内汇集的各节点机信息发送给所述机群监控装置。
本发明的一种采集机群节点信息的方法,通过对不同节点的软件和硬件采用分级采集和分级传送。
本发明的一种采集机群节点信息的方法,通过对不同节点的软件和硬件采用分别采集和分别传送。
附图说明
图1为根据本发明的一个机群节点信息采集监控系统的示意图。
图2为根据本发明的一个机群节点信息采集监控系统在N个机柜上应用的示意图。
图3为根据本发明的一个机群节点信息采集监控系统在N个机柜上应用的一个详细示意图。
图4为根据本发明的机群节点信息采集监控系统在采集监控软件信息方法和结构。
图5和图6为根据本发明的机群节点信息采集监控系统在采集监控软件信息中采集数据和汇总过程。
图7为根据本发明的机群节点信息采集监控系统的采集装置的一个实施例的示意图。
图8为根据本发明的机群节点信息采集监控系统的采集装置的一个实施例的电路图。
图9为根据本发明的机群节点信息采集监控系统的汇集装置的一个实施例的示意图。
图10为根据本发明的机群节点信息采集监控系统的汇集装置的一个实施例的电路图。
具体实施方式
根据本发明的机群节点信息采集监控系统的技术方案,针对机群系统包含的多种结点的差异,诸如计算结点、登录结点、IO结点,以及各结点软硬件结构存在的差异,采取不同的途径获取其配置、运行信息,以便加以统一监控。
对于计算结点,采用两条途径获取其信息。硬件信息(比如风扇转速,CPU温度等)通过一块结点机信息采集装置在结点机获取(比如读取主板上IIC信息),然后通过一个串行总线发送到机柜的信息汇集装置,再由汇集装置将机柜内各结点机的信息汇总后发送给机群系统的监控主机。通过结点机信息采集装置对硬件信息的获取有一大优点,就是不依赖于结点机的操作系统,甚至不依赖于结点机是否处于开机状态,均能采集到硬件信息。同时,通过对传送通信的分级或分层安排,大大节省了资源。另外一些需要经过操作系统才能获取的软件信息,诸如CPU利用率、网络流量等,可以通过以太网络获取。对于这类软件信息的收集传送,首先在每个结点机上运行代理程序进行数据采集,经运行一中间代理层或中间程序把各结点机采集到的数据收集汇总,然后通过以太网统一传递给监控主机上运行的服务程序(BSP)。
对于登录结点,由于其结构与计算节点类似,信息也是通过上述两种途径获取。
对于IO结点,由于不适合采用结点机信息采集装置采集硬件信息,其所有的监控信息通过网络,如以太网获取。每个结点机上运行的代理程序负责查询收集结点机的运行状态信息,中间层或中间级把采集到的数据收集汇总后,通过以太网统一传递给监控主机上运行的服务程序(BSP)。下面对IO对信息采集的特点做详细说明。
由于在IO节点机的主板上使用其它类型结点机的采集装置不能正常工作,所以IO节点机的所有信息都是通过以太网获取。IO节点机硬件信息与其他节点机硬件信息的传输方式不同,IO节点机硬件信息的采集方式也不同。下面做一说明。
IO节点机上的代理程序NA除完成采集软件信息的任务外(这一点和普通的NA一样),它还要采集IO节点机的硬件信息。其硬件信息的获取途径是通过主板上的BMC芯片和I2C总线,遵循IPMI规范,读取硬件的信息。在给中间代理层或中间程序NP的传输的过程中,在软件信息后附上硬件信息;NP在接收到IO节点机的信息时,同时也将硬件信息抽取出来,附在整个机柜信息的后面,传输给BSP;BSP在接收到IO节点机所在的机柜的信息时,将硬件信息抽取出来,放在硬件信息的缓冲区中,等待存入数据库中(在这一层次上,BSP的分离软硬件信息,使得数据库和GCM不用关心IO节点机软硬件信息的不同之处,从而达到隐藏的目的)。
这样,各类型结点的软硬件信息以不同的方式采集后,汇总到监控主机,由监控主机统一进行处理。根据本发明的技术方案,采集的数据丰富全面,涵盖了机群中各种类型结点,另一方面数据集中而便于管理、维护和控制,从而实现了真正将整个机群系统作为一个单一映像进行监控。
图1为根据本发明的机群节点信息采集监控系统一个较佳实施例的示意图。如图1所示,机群中包含至少一个机柜10,机柜中包括至少一个节点机101,机柜10中均设置有一个节点机信息汇集装置102,每个节点机101均设置有一个节点机信息采集装置101A,一个机柜内可能包含多种类型的节点(为清晰起见,未示于图中)。在机柜中,每个节点机101经由串行总线40A连接到节点机信息汇集装置102,而节点机信息汇集装置102经由串行总线40B连接到监控主机401,在本实施例中,串行总线40A和串行总线40B(统称为串行总线40)采用485总线。每个节点机101又通过以太网20而经由交换机30与监控主机401连接。在本实施例中,设有一个监控机柜(未示出)。监控机柜中除了放置监控主机401外,还可以放置其他节点机,I/O节点机等。监控主机401接收汇总来自网络20的各种类型的节点信息。在本发明实施例中,节点则例如有计算节点、登录节点和I/O节点。
监控主机401对于机群信息的获取主要通过两条途径:一条途径是串行总线40;另一途径是以太网20。以下对此分别加以说明。
首先参见图1描述本发明通过串行总线获取机群信息工作过程。通过串行总线40A,各节点机信息采集装置101A所采集到的第一组类型的信息,诸如风扇转速、CPU温度、内存电压这样的硬件信息汇集到机柜内的机柜信息汇集装置102。监控主机401经由串行总线40B,通过轮询方式而将各机柜的节点机信息汇集装置102所汇集的第一组类型的信息加以汇总,并存储在监控主机中的存储装置(图中未示)中,以便进行后续处理。关于监控主机所采用的轮询方式不再赘述,因其为本领域技术人员普遍了解的公知技术。
参见图1描述本发明通过网络20获取机群信息工作过程。各节点机10经由以太网络20连接到交换机30,交换机30再经由以太网20连接到监控机柜50中监控主机401,将第二组类型的信息送至监控主机401,在本实施例中该第二组类型的信息为软件信息。节点机101的操作系统运行代理程序读取采集到的该第二组类型的信息,然后经一个中间层或程序把采集到的数据收集汇总,通过以太网统一传递给监控主机401上运行的服务程序(BSP)。采用这种途径采集的第二组类型的软信息包括CPU利用率、内存利用率、网络流量、用户进程等。
图2显示了根据本发明的机群节点信息采集监控系统的应用于有N个机柜或机组的一个实施例的示意图。其中机群有N个机柜10N,每个机柜中有N个节点机101N,每个机柜中有一个信息汇集装置102,每个节点机101有一个信息采集装置101A,将各机柜的信息汇集装置102与监控主机401通过串行总线40B连接起来,建立第一级的串行通信,又将各机柜内的所有节点机的信息采集装置101A和该柜的信息汇集装置102通过串行总线40A连接起来,建立第二级的串行通信。此外,通过以太网将各节点机101的信息采集装置101A与监控机柜50中的监控主机401相连。在以太网中设置交换机30。监控机柜中除了监控主机401,还可以装有登录节点机和IO节点机,它们也是通过以太网20并经交换机30与监控主机401建立通信。
图3显示了根据本发明的机群节点信息采集监控系统的应用于有N个机柜或机组的一个实施例的更为详细的示意图。其中机群有N个机柜10N,每个机柜中有N个节点机101N,每个机柜中有一个信息汇集装置102,每个节点机101有一个信息采集装置101A,将各机柜的信息汇集装置102与监控主机401通过串行总线40B连接起来,建立第一级的串行通信,又将各机柜内的所有节点机的信息采集装置101A和该柜的信息汇集装置102通过串行总线40A连接起来,建立第二级的串行通信。从而采集第一类信息,即硬件信息。其中,信息采集装置101A可以通过各类传感器或直接在节点机主板上采集节点机的硬件信息。同时,信息汇集装置102也可以通过各类传感器直接采集整个机柜的硬件信息,并将其采集整个机柜的硬件信息和信息采集装置101A采集的各节点机硬件信息,通过串行总线40B发往监控主机401。此外,通过以太网将各节点机101的信息采集装置101A与监控机柜中的监控主机401相连。在以太网中设置交换机30。监控机柜中除了监控主机401,还可以装有登录节点机和IO节点机,它们也是通过以太网20并经交换机30与监控主机401建立通信。从而采集第二类信息,即软件信息。监控主机401、信息采集装置101A和信息汇集装置102都可以设置报警装置,响应监控主机401对汇总的各类信息经过处理后发出的各类故障信号,作出响应的报警。所述系统也可以用于对机群的实施其它控制的用途,比如机群的电源状况的监控和机群顺序上下电的制动控制等。
根据本发明的以太网通信的组织和串口网络类似,也采用了一种分层的结构:一为节点代理(Node Proxy,NP)层,一为节点采集(NodeAgent,NA)层。监控主机401把每个机柜内的节点机101划作一个小组,通过与节点机101的NP进程通信,在每个小组中选出一个节点机作为小组代理(NP)。监控主机401只与NP通信。NA负责采集操作系统的信息,同时监听来自NP的数据收集命令,并将信息数据传输给NP。通过这样的分层结构,使得监控主机401面对的是少数的NP,而不是许多节点机101。同时NP面对的一个机柜10内相对少量的节点机101;这样减少了通信瞬时爆炸的可能性,同时也增强了监控软件结构的弹性。
附图4显示了根据本发明为采集第二组类型的信息,即软件信息(也可包括IO节点的硬件信息)的采集监控系统的一个较佳实施例。在监控主机上运行着基本服务模块或程序(BSP)11,它负责在需要了解机群系统运行状态时发出数据采集命令,然后等待并接收由结点机返回的数据,对其进行汇总和分析处理。机群系统的所有结点机分为若干个组12,各个组12分别有N个结点机(如附图5和6中所示),但只有一个结点机上运行着结点代理模块或程序(NP)14,而每个节点机上都运行着结点采集模块或程序(NA)13。其中NP模块14负责在收到来自BSP的采集命令后,将采集命令传送给该组中所有结点机的NA模块,然后等待并接收NA模块返回的数据,将其汇总后统一发送给BSP;NA模块13则负责周期性地采集所在结点机的运行状态数据,并在收到采集命令后立即返回最新一次的采集数据。NA模块和NP模块都是运行于结点机操作系统之上的软件或程序。
根据以上所述,我们可以看出,监控系统的模块按照各自的功能分为三级,BSP为第一级,NP为第二级,NA为第三级。处于不同层次级别的模块完成不同的任务,他们相互配合,实现对机群系统的监控。其中,NA模块扮演了信息采集装置的功能,而NP模块扮演了信息汇集装置的功能。
一次信息采集过程可以分为两个步骤:
一、采集命令的发送。如附图5所示,BSP模块11首先通过UDP广播方式把采集命令广播到所有的NP模块14,这样,采集命令就同步到达所有的NP;NP收到采集命令后,立即以UDP广播方式把采集命令广播到所在组12中的所有NA模块13,同样,采集命令又同步到达所有的NA模块。我们不难看出,BSP发出的采集命令最终同步到达整个机群系统中的所有NA模块。
二、采集数据的汇总。如附图6所示,各个NA模块13周期性地采集所在结点机的运行状态数据,并存储在缓冲区中,当收到NP模块14发出的采集命令时,就将最新一次采集到的数据信息立即传送给NP;各NP接收本组12所有NA返回的采集数据,将其汇总后统一传送给BSP模块11;BSP接收所有NP返回的数据,进行汇总,并插入数据库中。
根据以上所述,由于数据采集命令同步到达所有的NA,NA接到命令立即返回最新一次采集的数据,所以,BSP最终收到的是所有结点机在同一时刻的运行状态数据,能够反映机群系统的整体运行情况。
由于NA模块自身周期性地采集数据,能够快速响应采集命令,保证信息采集过程迅速完成。NA模块的采集周期经过合理设置,既保证了数据的实时性,又最大程度地减少了结点机的资源。从而也降低运行成本。
监控主机的另一个程序GCM(监控显示模块)从数据库中读出数据,并可以以图形化的方式显示出来。
下面作为本发明较佳实施例的一个运用给出一个例子。
一个机群系统由256个结点机(服务器)组成,256个结点机分别安放在16个机柜中,每个机柜中安放16个结点机。这256个结点机通过以太网络设备连接成一个大型机群系统。
为了对该系统每个结点机的运行情况进行监控,根据本发明,我们将这256个结点机按照其物理布局(机柜)分组,每个机柜中的16个结点机为一组,共16个组。在每个结点机上都运行结点采集模块NA,在每组16个结点机的其中一个上还运行着结点代理模块NP。监控主机上运行BSP,它通过485串口网络和以太网络与NP和NA通信。
当监控主机BSP需要了解机群运行状态时,首先将采集命令以UDP广播方式发送到16个组的NP;每个NP在接到该命令后,立即以UDP广播方式将该命令发送到该组的16个NA。这样,BSP发出的采集命令就同步到达全部(256个)结点机的NA。
各个NA周期性地采集所在结点机的数据,存放在缓冲区中,当它收到NP的采集命令后,立即返回最新一次的采集数据;每个NP收到该组中16个NA发回的数据,将其汇总后发送给BSP。
从上面对本发明实施例的描述可以看出,本发明的机群监控系统和方法很容易对机群结点机的数量进行扩展。比如,在上述例子中从256个结点机扩展到320个结点机时,对于BSP而言,只增加了4个接受和发送信息的NP模块。
图7和图8分别为本发明一实施例所用的节点机信息采集装置101A的一个示意图和电路图。其中设有中央处理器(微处理器),以及与该中央处理器连接并且用于和监控主机401传递信息的通信接口;该中央处理器通过其I2C总线接口与节点机主板连接。在本实施例中,该通信接口为RS-485接口,用于监控节点机主板传递信息。单片机通过其I2C总线接口与节点机主板连接并接收节点机主板传送的检测信息。上述的装置在中央处理器的地址线上还设有用于定本装置ID地址的开关,该装置直接与所在节点机的5VSB电源连接。通过I2C总线接收节点机(主板)传感器所测量节点内的温度及风扇运行状态,并可以根据需要自行设置测温点和安置风扇,可扩展性好;
本实施例的开关和复位信号与单片机连接,可以方便地进行远程开关机等操作,由于节点机信息采集装置101A直接与所在节点机的5VSB电源连接,因此可以独立运行。
参见图8,设有一单片机U1,单片机U1通过其端口P1.6、P1.7组成的I2C总线接口与节点机主板相应的接口连接,读取节点机主板的电压、温度和风扇的检测信息,并且读取控制温度、风扇转速监控芯片。上述的装置还设有用于显示监控状态的指示灯,该指示灯连接到中央处理器的输出端口。单片机U1通过其输出信号LED1-LED6与发光二极管LEDS1及LED4-LED6连接,构成报警灯。
在实施例中,还设有开关控制芯片U6,用于输出单片机U1的主板开关信号、和复位信号RST,因此,可以在出现损坏性故障时自动关闭节点机,以保护节点机不受严重毁坏;另外,上述的装置在单片机U1的地址线上还设有ID地址的开关S1,该开关用于设定本装置在整个监控系统中地地址信息。本实施例中,其电源直接与所在节点机的5VSB电源连接,可以独立于该节点机运行。
本发明实现了对机群系统各节点机的实时监控与报警,保护节点机不受损坏,用户可以快捷地掌握机群当前运行状态,并方便地进行远程开关机等操作;通过485高速串行总线与机柜的节点机信息汇集装置102通信;接受并执行机柜的节点机信息汇集装置102的信息汇集命令、加/断电命令和复位命令等,实现远程信息定位、远程开关机等操作;本发明不依赖于节点机是否启动;并且具有地址自动识别功能。
图9和图10分别为本发明一实施例所用的节点机信息汇集报警装置102的一个示意图电路图。信息汇集装置102位于被监控节点机和监控主机之间,汇集被监控节点机的信息,并与监控主机进行交互,可满足对大规模机群系统进行监控管理的需要,并可以大规模的扩展被监控对象可读取节点机101的各个硬件信息。如图2所示,该监控信息汇集报警装置将来自机柜内各节点机101上的信息采集装置101A的信息加以汇集,并通过485总线与监控主机401通信。
信息汇集装置102至少包括中央处理器、一个以上用于与节点机采集装置102和监控主机进行通信的通信接口和存储单元;该通信接口与中央处理器连接,该中央处理器与该存储单元连接。信息汇集装置102还设有用于直接连接检测机柜整体状况的传感器的接口,如供电电源的传感器的连接接口,该连接接口连接到中央处理器的模数转换输入端。从而信息汇集装置102也可以直接对机柜整体状况进行信息采集和汇集,同时对机柜整体某些运行实施直接的监控和操作,如机柜供电电源的状况信息采集和对机柜上下电的控制。
信息汇集装置102还设有用于设定ID地址的装置,该装置与中央处理器的数据总线连接。它还设有用于设定硬件板卡标识的装置,该装置与中央处理器的数据总线连接。该节点机信息汇集装置还设有用于显示其工作状态以及显示报警信息的指示灯,该指示灯与中央处理器连接。
参见图10,本发明的信息汇集装置102设有中央处理器U1、由RS485串行通信接口U16、U6以及存储器U3、U4构成;其中,该RS485串行通信接口U16与中央处理器U1直接连接,该RS485串行通信接口U6经过串行通信芯片U18与中央处理器U1连接,缓冲地区中央处理器U1与该存储器U3、U4通过数据地址总线连接。中央处理器U1通过其模数转换信号端口P5.0/ADC0、P5.1/ADC1连接一连接接口J9,该接口J9用于检测机柜供电电源的传感器;另外,本实施例中还设有用于设定ID地址的装置SW8,其为一与中央处理器的数据总线连接的多路开关,用于人工设定该本发明的识别地址。中央处理器U1不通过其输出端口P4.2-P4.2分别连接和控制用于显示其工作状态以及显示报警信息的指示灯U7、U8、U9、U10。
信息汇集装置102置于机柜内,可直接采集机柜内的机柜风扇、温度等信息,并可根据需要增放风扇和温度传感器,其接口J1用于与风扇连接,中央处理器U1通过该接口J1连接并控制风扇的转速。本发明的信息汇集装置102对自己采集的信息进行监控;同时通过RS485高速串行总线与设置在节点机的信息采集装置通信,将自己采集的信息和机柜内各节点机运行状态和运行参数送往监控主机。接受监控主机发出的命令,实现远程上信息采集和监控。并根据监控指令控制,如节点机的电源和机柜电源的开关。当出现严重故障时,对单机实施断电保护。
通过以上描述,对本领域技术人员来说显而易见的是,根据本发明而使得硬件信息在采集后汇总到监控主机,由监控主机统一处理,进行定位和报警,从而实现了将整个机群作为一个单一映象来加以监控,因此可提高机群运行的可靠性并可在此基础上进一步扩展机群的应用范围。
由于在IO节点机的主板上使用其它类型结点机的采集装置不能正常工作,所以IO节点机的所有信息都是通过以太网获取。IO节点机硬件信息与其他节点机硬件信息的传输方式不同,IO节点机硬件信息的采集方式也不同。下面做一说明。
IO节点机上的NA除完成采集软件信息的任务外(这一点和普通的NA一样),它还要采集IO节点机的硬件信息。其硬件信息的获取途径是通过主板上的BMC芯片和I2C总线,遵循IPMI规范,读取硬件的信息。在给NP的传输的过程中,在软件信息后附上硬件信息;NP在接收到IO节点机的信息时,同时也将硬件信息抽取出来,附在整个机柜信息的后面,传输给BSP;BSP在接收到IO节点机所在的机柜的信息时,将硬件信息抽取出来,放在硬件信息的缓冲区中,等待存入数据库中(在这一层次上,BSP的分离软硬件信息,使得数据库和GCM不用关心IO节点机软硬件信息的不同之处,从而达到隐藏的目的)。
下面对监控装置(监控主机)-信息汇集装置(汇集卡)-信息采集装置(采集卡)的工作流程举例说明。
监控装置和汇集卡的通信交互是通过BSP进行。下面就讲BSP和汇集卡的传输过程。
BSP按照格式组成如下的包:(发送的顺序是由低到高)
低字节                                                                                                            高字节
包起始标志 目标机柜地址   包类型 包序列号 目标节点机地址 状态值 检验和 包终止标志
然后BSP等待汇集卡的回复。汇集卡在监听串口网络数据的过程中,发现串口线有信号,就试图找到“包起始标志”和“包终止标志”,然后判断其中的目标地址是否和自己的ID相同,如果不同,那么就丢弃该数据包,继续监听串口网络。如果目标地址和自己的ID相同,那么检查检验和,如果不对,那么也丢弃该数据包,继续监听串口网络。
如果上述的检查都对,那么汇集卡将根据包的类型做相应的操作(收集数据,上电或下电等)。如果是收集数据,那么将保存在缓冲区的一个完整机柜数据传输给BSP,数据格式如下:
低字节                                                                                                 高字节
包起始标志   目标机柜地址   包类型   包序列号   数据长度高字节 数据长度低地址   检验和
低字节                                                                                                 高字节
节点机1数据 节点机16数据 机柜数据 校验和 包终止标志
BSP在等待汇集卡回复的过程中,如果超过一定的时间还没有汇集卡的回复,那么重新发送命令。在接收到汇集卡的回复之后,首先检查数据包的格式,如果不对,那么重新发送命令,并等待新的回复。如果通过检查,那么将数据包中的信息抽取出来,存入BSP自己维护的缓冲区中。
如果BSP收到的是汇集卡对上/下电操作的回复,那么这个回复需要传达给CMS的(因为CMS是上/下电操作的发起者)。
低字节                                                                                                                高字节
包起始标志 目标机柜地址 包类型 包序列号 目标节点机地址 状态值 检验和 包终止标志
BSP通过包中的状态值,就可以知道该操作是否被汇集卡成功执行。无论汇集卡执行该操作成功与否,BSP根据成功与否,返回执行的结果给CMS。
下面对采集卡和汇集卡之间采集数据到报警工作过程举例说明。
1.采集命令通信过程如下:发出结点机地址,符合地址的采集卡回复结点机地址。汇集卡发出采集数据命令(命令类型0x03),该采集卡收到后回复命令类型0x03。汇集卡再发出命令命令类型0x03,该采集卡就把查询的数据发出。
采集卡采集数据的发送格式:
节点机地址+CPU电压+CPU1温度+CPU1风扇+CPU2温度+CPU2风扇+机箱温度+系统风扇1+系统风扇2+节点机电源3.3V+节点机电源5V+节点机电源12V+校验和;
加上校验和,每个节点机传送数据为13个字节。
2.采集卡报警(故障显示)
汇集卡发出结点机地址,符合地址的采集卡回复结点机地址。汇集卡发出故障显示命令(命令类型0x01),该采集卡收到后回复命令类型0x01,汇集卡再次发出故障显示命令,该采集卡收到后发动报警装置(使相应的故障显示灯亮、闪),并返回命令类型0x01,如果通信过程中出错,则恢复初始状态。
显然,本技术领域的技术人员可以根据不同情况或习惯等原因,对上面例子中的数据格式或字节多少进行调整或改变。此外,结点机信息采集装置负责采集硬件部分的信息,包括温度电压风扇等,以约定的协议格式将数据发给信息汇集装置,再由信息汇集装置发给监控装置。监控装置再按照协议规定的顺序将数据归位。比如第一个数据是CPU电压,第二个数据是风扇转速,是这样来确定数据的含义。所以这个地方的信息类型可以在通信传输的内容中明确示出,也可以只传输数据,而在通信协议中隐含给出。
同时通过上述描述不难看出,对于各类型节点的软件信息和IO节点的硬件信息的采集和监控过程与上述硬件信息的采集和监控过程类似,但是是NA程序(另一种采集装置)和NP程序(另一种汇集装置)通过以太网与监控主机间进行的。此外,关于NA程序(采集装置)和NP程序(汇集装置)的内部结构,本技术领域的技术人员根据本发明对其编程是很容易的,这里就不再赘述。
这样,对于各类型节点的软、硬件信息,使用不同的方式加以采集,再汇总到监控主机,由其统一进行处理。因此,本发明实现了对机群中所有的类型节点信息的采集。
通过以上描述,对本领域技术人员来说显而易见的是,根据本发明而使得不同类型节点的软、硬件信息在采集后汇总到监控主机,由监控主机统一处理,从而实现了将整个机群作为一个单一对象来加以监控,因此可提高机群运行的可靠性并可在此基础上进一步扩展机群的应用范围。
最后所应说明的是,以上实施例仅用以说明本发明而并非限制本发明所描述的技术方案;因此,尽管本说明书参照上述的各个实施例而对本发明进行了详细的说明,但是,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或者等同地替换;而一切不脱离本发明的精神和范围的技术方案及其改进,其均应涵盖在本发明的权利要求范围当中。

Claims (21)

1.一种机群节点信息采集监控系统,所述机群有至少一组节点机,所述系统包括:
节点机的信息采集装置,用于采集节点机的信息,
所述组的节点机的信息汇集装置,用于汇集各节点机信息采集装置采集的信息,
监控装置,用于接收和汇总所述机群各节点机的信息。
2.如权利要求1的机群节点信息采集监控系统,其中所述节点机的信息汇集装置也用于直接采集与所述组整体有关的信息。
3.如权利要求1或2的机群节点信息采集监控系统,其中所述采集的信息是硬件信息。
4.如权利要求1或2的机群节点信息采集监控系统,其中所述采集的信息是软件信息。
5.如权利要求1的机群节点信息采集监控系统,进一步包括一个通信线路。
6.如权利要求5的机群节点信息采集监控系统,其中所述通信线路包括串行总线。
7.如权利要求5的机群节点信息采集监控系统,其中所述通信线路包括以太网。
8.如权利要求6的机群节点信息采集监控系统,所述串行总线进一步包括一个串行总线,用以将所述组的所述节点机的信息采集装置与所述信息汇集装置相连。
9.如权利要求8的机群节点信息采集监控系统,其中所述串行总线进一步包括一个串行总线,用以将所述组的所述节点机的信息汇集装置与所述监控装置相连。
10.如权利要求7的机群节点信息采集监控系统,其中所述以太网将所述组的各节点机与所述监控装置相连。
11.一种采集机群节点信息的方法,机群有多个节点机并配有机群监控装置,所述方法包括如下步骤:
将所述机群的节点机分为至少一个节点机组,
在节点机组内的各节点机上采集信息,
在所述节点机组内汇集所述各节点机采集到的信息,
将组内汇集的各节点机信息发送给所述机群监控装置。
12.如权利要求11的采集机群节点信息的方法,还包括直接采集和产生与所述组有关的信息,并在所述汇集步骤中汇集起来。
13.如权利要求11的采集机群节点信息的方法,其中所述信息包括软件信息和硬件信息。
14.一种节点机信息采集装置,它设有中央处理器,与该中央处理器连接,并且用于监控节点机传递信息的通信接口,该中央处理器通过其I2C总线接口与节点机主板连接。
15.如权利要求14的节点机信息采集装置,其中所述通信接口为RS-485接口(采用半双工方式)。
16.如权利要求14的节点机信息采集装置,还进一步设有用于显示监控状态的指示灯,该指示灯连接到中央处理器的输出端口。
17.如权利要求14的节点机信息采集装置,在所述中央处理器的地址线上还设有用于设定本装置ID地址的开关。
18.一种用于权利要求1的机群节点信息采集监控系统的节点机信息汇集装置,它至少包括中央处理器、一个以上用于与节点机采集装置和监控主机进行通信的通信接口和存储单元,该通信接口与该中央处理器连接,该中央处理器与该存储单元连接。
19.如权利要求18的节点机信息汇集装置,它还设有用于连接检测机柜供电电源的传感器的连接接口,该连接接口连接到所述中央处理器的模数转换输入端。
20.如权利要求18的节点机信息汇集装置,还设有用于设定本装置ID地址的装置,该装置与所述中央处理器的数据总线连接。
21.如权利要求18的节点机信息汇集装置,还进一步设有用于显示工作状态以及显示报警信息的的指示灯,该指示灯与中央处理器连接。
CNB021419299A 2002-06-10 2002-08-27 采集机群中节点的软件和硬件信息的方法与系统 Expired - Fee Related CN100410954C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB021419299A CN100410954C (zh) 2002-06-10 2002-08-27 采集机群中节点的软件和硬件信息的方法与系统

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
CN022378499 2002-06-10
CN02237849.9 2002-06-10
CN02237849 2002-06-10
CN021256268 2002-07-25
CN02125626 2002-07-25
CN02125626.8 2002-07-25
CNB021419299A CN100410954C (zh) 2002-06-10 2002-08-27 采集机群中节点的软件和硬件信息的方法与系统

Publications (2)

Publication Number Publication Date
CN1466095A true CN1466095A (zh) 2004-01-07
CN100410954C CN100410954C (zh) 2008-08-13

Family

ID=34198440

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB021419299A Expired - Fee Related CN100410954C (zh) 2002-06-10 2002-08-27 采集机群中节点的软件和硬件信息的方法与系统

Country Status (1)

Country Link
CN (1) CN100410954C (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1331042C (zh) * 2004-03-29 2007-08-08 联想(北京)有限公司 用于机群监控系统控制台的消息服务装置及其方法
CN101834876A (zh) * 2010-05-27 2010-09-15 哈尔滨工业大学 基于蓝牙、数据库与udp协议的分布式半物理仿真系统及其数据汇总和分发的方法
CN102313506A (zh) * 2010-07-09 2012-01-11 联想(北京)有限公司 一种检测设备物理位置的方法、机柜以及设备
CN102394779A (zh) * 2011-11-07 2012-03-28 百度在线网络技术(北京)有限公司 多机柜的集中管理系统及方法
CN102693166A (zh) * 2012-05-10 2012-09-26 华为技术有限公司 信息处理的方法、装置和系统
CN103095739A (zh) * 2011-10-27 2013-05-08 英业达科技有限公司 机柜服务器系统及其节点通信方法
CN103207825A (zh) * 2012-01-13 2013-07-17 百度在线网络技术(北京)有限公司 一种用于管理整机柜的故障的方法及装置
CN103516553A (zh) * 2013-10-22 2014-01-15 浪潮电子信息产业股份有限公司 基于透明网络交换机的机架式服务器信息管理设计方法
CN104156297A (zh) * 2014-08-07 2014-11-19 浪潮(北京)电子信息产业有限公司 告警方法和装置
CN105354129A (zh) * 2015-12-15 2016-02-24 山东海量信息技术研究院 一种高端容错服务器的节点管理资产管理方法
CN107391342A (zh) * 2017-07-21 2017-11-24 郑州云海信息技术有限公司 一种数据库一体机及其监控方法
CN108572843A (zh) * 2013-01-15 2018-09-25 英特尔公司 基于单个微控制器的多个计算节点管理
CN109117350A (zh) * 2018-09-20 2019-01-01 北京北信源信息安全技术有限公司 自动监控计算机软硬件的告警方法、装置及服务器
CN117806258A (zh) * 2023-12-29 2024-04-02 北京东土科技股份有限公司 运维管理系统及运维管理方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0362257A (ja) * 1989-07-31 1991-03-18 Toshiba Corp ネットワークモニタリングシステム
US6546387B1 (en) * 1999-11-15 2003-04-08 Transcom Software Inc. Computer network information management system and method using intelligent software agents
JP2001290937A (ja) * 2000-04-07 2001-10-19 Fujitsu Ltd 資産管理システム
EP1323040A4 (en) * 2000-09-08 2005-08-03 Goahead Software Inc SYSTEM AND METHOD FOR MANAGING CLUSTERS WITH MULTIPLE NODES

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1331042C (zh) * 2004-03-29 2007-08-08 联想(北京)有限公司 用于机群监控系统控制台的消息服务装置及其方法
CN101834876A (zh) * 2010-05-27 2010-09-15 哈尔滨工业大学 基于蓝牙、数据库与udp协议的分布式半物理仿真系统及其数据汇总和分发的方法
CN101834876B (zh) * 2010-05-27 2012-11-21 哈尔滨工业大学 基于蓝牙、数据库与udp协议的分布式半物理仿真系统及其数据汇总和分发的方法
CN102313506B (zh) * 2010-07-09 2013-12-25 联想(北京)有限公司 一种检测设备物理位置的方法、机柜以及设备
CN102313506A (zh) * 2010-07-09 2012-01-11 联想(北京)有限公司 一种检测设备物理位置的方法、机柜以及设备
CN103095739A (zh) * 2011-10-27 2013-05-08 英业达科技有限公司 机柜服务器系统及其节点通信方法
CN102394779A (zh) * 2011-11-07 2012-03-28 百度在线网络技术(北京)有限公司 多机柜的集中管理系统及方法
CN103207825A (zh) * 2012-01-13 2013-07-17 百度在线网络技术(北京)有限公司 一种用于管理整机柜的故障的方法及装置
CN102693166A (zh) * 2012-05-10 2012-09-26 华为技术有限公司 信息处理的方法、装置和系统
CN102693166B (zh) * 2012-05-10 2015-04-22 华为技术有限公司 信息处理的方法、装置和系统
CN108572843A (zh) * 2013-01-15 2018-09-25 英特尔公司 基于单个微控制器的多个计算节点管理
CN103516553A (zh) * 2013-10-22 2014-01-15 浪潮电子信息产业股份有限公司 基于透明网络交换机的机架式服务器信息管理设计方法
CN104156297A (zh) * 2014-08-07 2014-11-19 浪潮(北京)电子信息产业有限公司 告警方法和装置
CN105354129A (zh) * 2015-12-15 2016-02-24 山东海量信息技术研究院 一种高端容错服务器的节点管理资产管理方法
CN107391342A (zh) * 2017-07-21 2017-11-24 郑州云海信息技术有限公司 一种数据库一体机及其监控方法
CN107391342B (zh) * 2017-07-21 2021-01-15 苏州浪潮智能科技有限公司 一种数据库一体机及其监控方法
CN109117350A (zh) * 2018-09-20 2019-01-01 北京北信源信息安全技术有限公司 自动监控计算机软硬件的告警方法、装置及服务器
CN117806258A (zh) * 2023-12-29 2024-04-02 北京东土科技股份有限公司 运维管理系统及运维管理方法

Also Published As

Publication number Publication date
CN100410954C (zh) 2008-08-13

Similar Documents

Publication Publication Date Title
CN1466095A (zh) 采集机群中节点的软件和硬件信息的方法与系统
CN103283208B (zh) 基于云计算的远程实时监控系统
CN1803510A (zh) 一种计算机联锁系统
CN100339835C (zh) 机群故障定位与报警的方法与系统
CN1929410A (zh) 一种智能化机群监控系统
CN1717658A (zh) 集群系统的心跳机构
CN106469328A (zh) 一种智能管理系统及信息管理方法
CN106469329A (zh) 一种智能管理系统及信息管理方法
CN1783068A (zh) 一种故障诊断数据采集与发布方法
CN105072386A (zh) 一种基于多播技术的视频联网系统及状态监测方法
CN106843965A (zh) 一种自动安装系统测试工具的系统及安装方法
CN111953525A (zh) 专有设备运维监控系统
CN108107292A (zh) 电能质量在线监测系统的业务数据监测系统及方法
CN1975689A (zh) 可配置的通用同步异步串行通信调试器及其调试方法
CN100347990C (zh) 基于存域网的海量存储系统的性能监控方法及系统
CN202652238U (zh) 一种自动派发故障单系统
CN101197714A (zh) 一种移动数据业务状态集中采集的方法
CN106385332A (zh) 一种基于wifi的运行数据采集和故障响应方法
CN106130186A (zh) 小型光伏电站数据监控系统
CN112884176B (zh) 管理系统及方法
CN1251086C (zh) 机群系统结点动态配置的方法和装置
CN1275112C (zh) 开放式在线监测与早期故障预示和诊断系统
CN109302468A (zh) 一种分布式电源信息互联的接口装置及监控系统
CN1294455A (zh) 光纤网络自动监测系统
CN100547560C (zh) 一种机群监控系统和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080813

Termination date: 20200827

CF01 Termination of patent right due to non-payment of annual fee