CN1466053A - 机群故障定位与报警的方法与系统 - Google Patents

机群故障定位与报警的方法与系统 Download PDF

Info

Publication number
CN1466053A
CN1466053A CNA021419280A CN02141928A CN1466053A CN 1466053 A CN1466053 A CN 1466053A CN A021419280 A CNA021419280 A CN A021419280A CN 02141928 A CN02141928 A CN 02141928A CN 1466053 A CN1466053 A CN 1466053A
Authority
CN
China
Prior art keywords
information
group
node machine
fault
planes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA021419280A
Other languages
English (en)
Other versions
CN100339835C (zh
Inventor
吴雪丽
程菊生
田宏萍
崔吉顺
王涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CNB021419280A priority Critical patent/CN100339835C/zh
Publication of CN1466053A publication Critical patent/CN1466053A/zh
Application granted granted Critical
Publication of CN100339835C publication Critical patent/CN100339835C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种机群故障定位与报警的方法与系统,将机群分组分级进行故障信息的采集和报警,并将整个机群中各节点机的各种故障按故障类型加以定位监控和报警,从而便于管理维护,提高机群运行的可靠性。

Description

机群故障定位与报警的方法与系统
技术领域
本发明涉及机群故障定位与报警的方法和系统,尤其涉及机群节点机硬件故障的定位与报警的方法与系统。
背景技术
机群(Cluster)服务器系统是互相连接的多个独立计算机(节点机)的集合。这些计算机可以是PC,也可以是工作站等,每个节点机都有自己的硬件、I/O设备等配置。这些节点机通过高速网络连接在一起,在中间件等配合下,形成一个超级服务器。机群服务器在大规模科学计算,比如石油地质等方面发挥着重要作用。
由于机群节点数众多,如何将机群系统的各部分故障及时发现定位并及时而准确地报警,是对机群进行监控和维护的一个重要而紧迫的问题。而机群系统包含多种节点,诸如计算节点、登录节点、I/O节点,这些类型节点的软、硬件结构存在很大的差异。需要对不同类型的节点的故障都加以监控才能保证无遗漏地掌握机群系统的整体运行状态,及时维护。目前尚缺乏能够对大机群系统的不同节点的硬件故障统一进行实时定位与报警的好方案。
发明内容
本发明的一个目的是提供一种新的机群故障定位与报警的方法和系统,该系统和方法易于对机群系统中的故障进行统一监控。
本发明的再一个目的在于提供一种新的机群故障定位与报警的方法和系统,该系统和方法可以保证对机群中各节点机的故障进行及时定位和报警。
本发明的进一步目的在于提供一种新的机群故障定位与报警的方法和系统,该系统和方法可以保证对机群中各机柜或机组的故障进行及时定位和报警。
本发明的一个目的是提供一种新的机群故障定位与报警的方法和系统,该系统和方法易于对机群系统中结点机数量进行扩展。
本发明的进一步目的在于提供一种新的机群故障定位与报警的方法,该系统和方法可以减少对系统资源的占用,从而降低运行成本。
本发明的其它目的和优点可以通过阅读和理解以下对本发明的描述而得知。
本发明提供了一种机群故障定位系统,所述机群有至少一组节点机,所述系统包括:节点机的信息采集装置,用于采集和产生节点机的至少一种类型的信息,所述信息带有节点机位置信息,所述组的节点机的信息汇集装置,用于汇集各所述节点机信息采集装置采集和产生的信息,监控装置,用于汇总分析所述组的节点机的信息汇集装置的汇集信息,将所述至少一种类型的信息与其阈值比较,当所述信息超过阈值时,产生带有节点机位置的故障信息,通信线路,将节点机的信息采集报警装置与所述组的节点机的信息汇集装置相连,将所述组的信息汇集装置与所述监控装置相连。
本发明还提供了一种机群故障定位的方法,所述机群有至少一组节点机,所述系统包括:采集和产生节点机的至少一种类型的信息,所述信息带有节点机位置信息,汇集所述组内采集和产生的节点机的至少一种类型的信息,汇总分析所述至少一组的汇集信息,并将其中所述至少一种类型的信息与其阈值比较,当所述信息超过阈值时,产生带有节点机位置的故障信息。
本发明还提供了一种机群故障定位与报警系统,所述机群有至少一组节点机,所述系统包括:节点机的信息采集报警装置,用于对节点机的至少一种类型的信息进行采集和报警,所述组的节点机的信息汇集装置,用于汇集各所述节点机信息采集报警装置采集的信息,监控装置,用于汇总分析所述组的节点机的信息汇集装置的汇集信息,将所述至少一种类型的信息与其阈值比较,当所述信息超过阈值时,将带有故障类型和节点机位置信息的故障信号发送节点机所在组的所述信息汇集装置,所述信息汇集装置再将故障信息传给有故障的节点机的信息采集报警装置,进行报警,通信线路,将节点机的信息采集报警装置与所述组的节点机的信息汇集装置相连,将所述组的信息汇集装置与所述监控装置相连。
附图说明
图1为根据本发明的一个机群故障定位报警系统的示意图。
图2为根据本发明的一个机群故障定位报警系统在N个机柜上的应用的示意图。
图3为根据本发明的一个机群故障定位报警系统的一个节点机信息采集报警装置的一个较佳实施例。
图4为根据本发明的一个机群故障定位报警系统的一个节点机信息采集报警装置的一个实施例电路图。
图5为根据本发明的一个机群故障定位报警系统的一个机柜信息汇集报警装置的一个较佳实施例。
图6为根据本发明的一个机群故障定位报警系统的一个机柜信息汇集报警装置的实施例电路图。
具体实施方式
根据本发明的机群故障定位与报警的方法和系统的技术方案,是将信息采集和报警进行分级处理。硬件信息(比如风扇转速,CPU温度等)的采集通过一块结点机信息采集报警装置在结点机获取,然后通过一个串行总线发送到机柜的信息汇集报警装置,再由汇集报警装置将机柜内各结点机的信息汇总后发送给机群系统的监控主机。监控主机汇总信息并进行分析判断后,将不同类型的故障信息加上故障类型和故障位置通过关于串行总线发送给故障对应的节点机信息汇集报警装置,节点机信息汇集装置除了将本机柜的故障可在其故障报警装置上报警,还将机柜内故障信息发送给对应的节点机的信息采集报警装置,从而在其信息报警装置上进行报警。
图1为根据本发明的机群故障定位与报警系统一个较佳实施例的示意图。如图1所示,机群中包含至少一个机柜或机组10,机柜中包括至少一个节点机101,机柜10中均设置有一个节点机信息汇集报警装置103,每个节点机101均设置有一个节点机信息采集报警装置102,一个机柜内可能包含多种类型的节点(为清晰起见,未示于图中)。在机柜中,每个节点机101经由串行总线20A连接到节点机信息汇集报警装置103,而节点机信息汇集报警装置103经由串行总线20B连接到监控主机301。各节点机信息采集报警装置102包括一个节点机信息采集装置102A和一个节点机故障报警装置102B。节点机信息汇集报警装置103包括一个节点机信息汇集装置103A和一个机柜故障报警装置103B。在本实施例中,串行总线20A和串行总线20B采用485,或USB总线等,只要能在一条总线上串行多个通信单元仍然能正常通信即可。通过结点机信息采集装置对硬件信息的获取有一大优点,就是不依赖于结点机的操作系统,甚至不依赖于结点机是否处于开机状态,均能采集到硬件信息。此外,信息汇集装置103还可以自己采集整个机柜状况的信息,将自己采集的信息和机柜内节点机信息采集报警装置102采集的各节点机的运行状态和运行参数送往监控主机(有关信息汇集装置103的这一功能以下将在对信息汇集装置103的描述中详细讨论)。
参见图1描述本发明的机群故障定位与报警的方法和系统通过串行总线获取机群信息和进行故障报警的工作过程。通过串行总线20A,机柜内的机柜信息汇集装置103A汇集各节点机信息采集装置102A所采集到的带有节点机位置和信息类型的信息,诸如风扇转速、CPU温度、内存电压这样的不同类型硬件信息。监控主机301经由串行总线20B,通过轮询方式而将各机柜的节点机信息汇集装置103所汇集的信息加以收集汇总,并存储在监控主机301中的存储装置既数据库302中,作为监控系统的运行状态的记录,以便进行后续处理,同时,监控主机的分析判装置303对汇总的信息进行分析判断,将不同类型的信息与内设的相应阈值进行比较。若监控主机301对信息与内设的阈值进行比较后,发现信息超出阈值,由于发送来的信息中已带有位置和信息类型的信息,则监控主机将故障信号加上故障类型和故障位置信息通过关于串行总线20B发送给故障所对应的节点机信息汇集报警装置103。节点机信息汇集装置103除了将本机柜的故障可在其故障报警装置103B上报警,还将机柜内故障信息发送给对应的节点机的信息采集报警装置102,从而在其信息报警装置102B上进行报警。监控主机所采用的轮询方式不再赘述,因其为本领域技术人员普遍了解的公知技术。
各节点机101的信息采集报警装置102和各机柜信息汇集报警装置103可以包括如采用灯报警,声音报警,文字或图形显示报警形式的报警设备。
各节点机101的信息采集报警装置102和各机柜信息汇集报警装置103可以制做成卡的形式,以便安装使用。
图2显示了根据本发明的机群的应用于有N个机柜或机组的一个实施例的示意图。其中机群有N个机柜10,每个机柜中有N个节点机101,每个机柜中有一个信息采集报警装置102(未示出),每个节点机101有一个信息采集报警装置102(未示出),将各机柜的信息汇集报警装置103与监控主机301通过串行总线20B连接起来,建立第一级的串行通信,又将各机柜内的所有节点机的信息采集报警装置102和该柜的信息汇集报警装置103通过串行总线20A连接起来,建立第二级的串行通信。本实施例中显示了各机柜上信息报警装置103B和各机柜中各节点机的各故障报警装置102B,其采用了报警灯报警,分别为两个红绿两色的LED灯105,通过控制故障所在地的两LED灯的闪、亮、灭来表示故障的类型,指导用户和维护人员对故障进行定位定性,以便有针对性的维修排除故障。
图3和图4分别为本发明一实施例所用的节点机信息采集报警装置102的一个示意图和电路图。其中设有中央处理器(微处理器),以及与该中央处理器连接并且用于和监控主机301传递信息的通信接口;该中央处理器通过其I2C总线接口与节点机主板连接。在本实施例中,该通信接口为RS-485接口,用于监控节点机主板传递信息。单片机通过其I2C总线接口与节点机主板连接并接收节点机主板传送的检测信息。上述的装置在中央处理器的地址线上还设有用于定本装置ID地址的开关,该装置直接与所在节点机的5VSB电源连接。通过I2C总线接收节点机主版(主板)传感器所测量节点内的温度及风扇运行状态,并可以根据需要自行设置测温点和安置风扇,可扩展性好;
本实施例的开关和复位信号与单片机连接,可以方便地进行远程开关机等操作,由于节点机信息采集报警装置102直接与所在节点机的5VSB电源连接,因此可以独立运行。
参见图4,设有一单片机U1,单片机U1通过其端口P1.6、P1.7组成的I2C总线接口与节点机主板相应的接口连接,读取节点机主板的电压、温度和风扇的检测信息,并且读取度控制温度、风扇转速监控芯片。上述的装置还设有用于显示监控状态的指示灯,该指示灯连接到中央处理器的输出端口。单片机U1通过其输出信号LED1-LED6与发光二极管LEDS1及LED4-LED6连接,构成报警灯。
在实施例中,还设有开关控制芯片U6,用于输出单片机U1的主板开关信号、和复位信号RST,因此,可以 (在出现破坏性故障时)动关闭节点机,以保护节点机不受严重毁坏;另外,上述的装置在单片机U1的地址线上还设有ID地址的开关S1,该开关用于设定本装置在整个监控系统中地地址信息。本实施例中,其电源直接与所在节点机的5VSB电源连接,可以独立于该节点机运行。
本发明实现了对机群系统各节点机的实时监控与报警,保护节点机不受损坏,用户可以快捷地掌握机群当前运行状态,并方便地进行远程开关机等操作;通过485高速串行总线 (以半双工方式)与机柜的节点机信息汇集装置103通信;接受并执行机柜的节点机信息汇集装置103的信息汇集命令、加/断电命令和复位命令等,实现远程信息定位、远程开关机等操作;本发明不依赖于节点机是否启动;并且具有自动识别功能。
图5和图6分别为为本发明一实施例所用的节点机信息汇集报警装置103的一个示意图电路图。信息汇集报警装置103位于被监控节点机和监控主机之间,汇集被监控节点机的信息,并与监控主机进行交互,可满足对大规模机群系统进行监控管理的需要,并可以大规模的扩展被监控对象可读取节点机101的各个硬件信息。如图2所示,该监控信息汇集报警装置将来自机柜内各节点机101上的信息采集装置102的信息加以汇集,并通过485总线与监控主机301通信。
信息汇集装置103至少包括中央处理器、一个以上用于与节点机采集装置102和监控主机进行通信的通信接口和存储单元;该通信接口与中央处理器连接,该中央处理器与该存储单元连接。信息汇集装置103还设有用于直接连接检测机柜整体状况的传感器的接口,如供电电源的传感器的连接接口,该连接接口连接到中央处理器的模数转换输入端。从而信息汇集装置103也可以直接对机柜整体状况进行信息采集和汇集,同时对机柜整体某些运行实施直接的监控和操作,如机柜供电电源的状况信息采集和对机柜上下电的控制。
信息汇集装置103还设有用于设定ID地址的装置,该装置与中央处理器的数据总线连接。它还设有用于设定硬件板卡标识的装置,该装置与中央处理器的数据总线连接。该节点机信息汇集装置还设有用于显示其工作状态以及显示报警信息的指示灯,该指示灯与中央处理器连接。
参见图6,本发明的信息汇集装置103设有中央处理器U1、由RS485串行通信接口U16、U6以及存储器U3、U4构成;其中,该RS485串行通信接口U16与中央处理器U1直接连接,该RS485串行通信接口U6经过串行通信芯片U18与中央处理器U1连接,缓冲地区中央处理器U1与该存储器U3、U4通过数据地址总线连接。中央处理器U1通过其模数转换信号端口P5.0/ADC0、P5.1/ADC1连接一连接接口J9,该接口J9用于检测机柜供电电源的传感器;另外,本实施例中还设有用于设定ID地址的装置SW8,其为一与中央处理器的数据总线连接的多路开关,用于人工设定该本发明的识别地址。中央处理器U1不通过其输出端口P4.2-P4.2分别连接和控制用于显示其工作状态以及显示报警信息的指示灯U7、U8、U9、U10。
信息汇集装置103置于机柜内,可直接采集机柜内的机柜风扇、温度等信息,并可根据需要增放风扇和温度传感器,其接口J1用于与风扇连接,中央处理器U1通过该接口J1连接并控制风扇的转速。本发明的信息汇集装置103对自己采集的信息进行监控;同时通过RS485高速串行总线与设置在节点机的信息采集装置通信,将自己采集的信息和机柜内各节点机运行状态和运行参数送往监控主机。接受监控主机发出的命令,实现远程上信息采集和监控。比如,并根据监控指令控制节点机的电源和机柜电源的开关。当出现严重故障时,对单机实施断电保护。
通过以上描述,对本领域技术人员来说显而易见的是,根据本发明而使得硬件信息在采集后汇总到监控主机,由监控主机统一处理,进行定位和报警,从而实现了将整个机群作为一个单一对象来加以监控,因此可提高机群运行的可靠性并可在此基础上进一步扩展机群的应用范围。
最后所应说明的是,以上实施例仅用以说明本发明而并非限制本实用新型所描述的技术方案;因此,尽管本说明书参照上述的各个实施例而对本发明进行了详细的说明,但是,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或者等同地替换;而一切不脱离本发明的精神和范围的技术方案及其改进,其均应涵盖在本发明的权利要求范围当中。

Claims (16)

1.一种机群故障定位与报警系统,所述机群有至少一组节点机,所述系统包括:
节点机的信息采集报警装置,用于对节点机的至少一种类型的信息进行采集和报警,
所述组的节点机的信息汇集装置,用于汇集各所述节点机信息采集报警装置采集的信息,
监控装置,用于汇总分析所述组的节点机的信息汇集装置的汇集信息,将所述至少一种类型的信息与其阈值比较,当所述信息超过阈值时,将带有故障类型和节点机位置信息的故障信号发送节点机所在组的所述信息汇集装置,所述信息汇集装置再将故障信息传给有故障的节点机的信息采集报警装置,进行报警,
通信线路,将节点机的信息采集报警装置与所述组的节点机的信息汇集装置相连,将所述组的信息汇集装置与所述监控装置相连。
2.如权利要求1的机群故障定位与报警系统,其中所述节点机的信息汇集装置也用于直接采集与所述组有关的信息。
3.如权利要求1的机群故障定位与报警系统,其中所述节点机的信息汇集装置包括一个报警装置,用于对所述组的故障进行报警。
4.如权利要求1或3的机群故障定位与报警系统,其中所述节点机的信息采集报警装置包括灯,或声音,或文字或图形显示的报警设备。
5.如权利要求1的机群故障定位与报警系统,其中所述通信线路包括串行总线分别将节点机的信息采集报警装置与所述组的节点机的信息汇集装置相连,和将所述组的信息汇集装置与所述监控装置相连。
6.如权利要求1的机群故障定位与报警系统,其中各所述节点机信息采集报警装置采集的信息包括信息类型和节点机位置的信息。
7.一种机群故障定位系统,所述机群有至少一组节点机,所述系统包括:
节点机的信息采集装置,用于采集和产生节点机的至少一种类型的信息,所述信息带有节点机位置信息,
所述组的节点机的信息汇集装置,用于汇集各所述节点机信息采集装置采集和产生的信息,
监控装置,用于汇总分析所述组的节点机的信息汇集装置的汇集信息,将所述至少一种类型的信息与其阈值比较,当所述信息超过阈值时,产生带有节点机位置的故障信息,
通信线路,将节点机的信息采集报警装置与所述组的节点机的信息汇集装置相连,将所述组的信息汇集装置与所述监控装置相连。
8.如权利要求7的机群故障定位系统,其中所述节点机的信息汇集装置也用于直接采集与所述组有关的信息。
9.如权利要求7的机群故障定位系统,其中各所述节点机信息采集报警装置采集和产生的信息还包括信息类型的信息。
10.如权利要求7的机群故障定位系统,其中各所监控装置产生的故障信息还包括故障类型的信息。
11.如权利要求7的机群故障定位与报警系统,其中所述通信线路包括串行总线分别将节点机的信息采集报警装置与所述组的节点机的信息汇集装置相连,和将所述组的信息汇集装置与所述监控装置相连。
12.一种机群故障定位的方法,所述机群有至少一组节点机,所述系统包括:
采集和产生节点机的至少一种类型的信息,所述信息带有节点机位置信息,
汇集所述组内采集和产生的节点机的至少一种类型的信息,
汇总分析所述至少一组的汇集信息,并将其中所述至少一种类型的信息与其阈值比较,当所述信息超过阈值时,产生带有节点机位置的故障信息。
13.如权利要求12的机群故障定位的方法,还包括直接采集和产生与所述组有关的信息,并所述汇集步骤中汇集起来。
14.如权利要求12或多或13的机群故障定位方法,其中采集和产生步骤进一步包括在所述至少一种类型的信息中产生信息类型的信息。
15.如权利要求14的机群故障定位方法,其中所述故障信息还包括故障类型的信息。
16.如权利要求12中任一个的机群故障定位方法,进一步包括步骤:将所述故障信息发回给所述组,用于报警。
CNB021419280A 2002-06-10 2002-08-27 机群故障定位与报警的方法与系统 Expired - Fee Related CN100339835C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB021419280A CN100339835C (zh) 2002-06-10 2002-08-27 机群故障定位与报警的方法与系统

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
CN022378499 2002-06-10
CN02237849 2002-06-10
CN02237849.9 2002-06-10
CN02125626 2002-07-25
CN021256268 2002-07-25
CN02125626.8 2002-07-25
CNB021419280A CN100339835C (zh) 2002-06-10 2002-08-27 机群故障定位与报警的方法与系统

Publications (2)

Publication Number Publication Date
CN1466053A true CN1466053A (zh) 2004-01-07
CN100339835C CN100339835C (zh) 2007-09-26

Family

ID=34198439

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB021419280A Expired - Fee Related CN100339835C (zh) 2002-06-10 2002-08-27 机群故障定位与报警的方法与系统

Country Status (1)

Country Link
CN (1) CN100339835C (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1331042C (zh) * 2004-03-29 2007-08-08 联想(北京)有限公司 用于机群监控系统控制台的消息服务装置及其方法
CN100409626C (zh) * 2006-10-09 2008-08-06 西安交通大学 基于aop技术的大规模集群管理监控系统中的报警方法
CN102200957A (zh) * 2010-03-24 2011-09-28 联想(北京)有限公司 一种管理集群内节点的方法及装置
CN102313506A (zh) * 2010-07-09 2012-01-11 联想(北京)有限公司 一种检测设备物理位置的方法、机柜以及设备
CN102567182A (zh) * 2010-12-27 2012-07-11 无锡华润上华科技有限公司 远程主机的监控方法
CN103095488A (zh) * 2012-12-14 2013-05-08 北京思特奇信息技术股份有限公司 一种自助终端外设硬件状态监控系统及方法
CN103188290A (zh) * 2011-12-28 2013-07-03 英业达股份有限公司 云端服务系统的管理方法
CN103365755A (zh) * 2012-03-27 2013-10-23 台达电子工业股份有限公司 云端系统的主机监控及异常处理方法
CN103685386A (zh) * 2012-09-12 2014-03-26 北京百度网讯科技有限公司 用于确定计算设备在整机柜中的位置信息的方法和设备
CN105159813A (zh) * 2015-08-05 2015-12-16 北京百度网讯科技有限公司 基于数据中心的故障报警方法、装置、管理设备及系统
CN105242581A (zh) * 2015-10-21 2016-01-13 浪潮(北京)电子信息产业有限公司 一种多控制器的定位控制方法及系统
CN105243005A (zh) * 2015-10-10 2016-01-13 浪潮(北京)电子信息产业有限公司 一种状态监控装置
CN105306275A (zh) * 2015-11-12 2016-02-03 姚焕根 大容量云计算系统及其管理方法
CN106326079A (zh) * 2016-08-19 2017-01-11 浪潮电子信息产业股份有限公司 一种诊断rack机柜内单节点掉电原因的方法
CN108153690A (zh) * 2017-12-13 2018-06-12 天津津航计算技术研究所 一种基于以太网和i2c双冗余总线的健康管理方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710677B (zh) * 2009-12-02 2011-11-30 中国南方电网有限责任公司超高压输电公司 一种屏柜内设备故障指示方法
CN106550448B (zh) 2015-09-23 2020-11-24 伊姆西Ip控股有限责任公司 定位方法和定位装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10187638A (ja) * 1996-10-28 1998-07-21 Mitsubishi Electric Corp クラスタ制御システム
US6167428A (en) * 1996-11-29 2000-12-26 Ellis; Frampton E. Personal computer microprocessor firewalls for internet distributed processing
CN1145884C (zh) * 2000-01-26 2004-04-14 苏毅 集中式计算机安全监控系统

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1331042C (zh) * 2004-03-29 2007-08-08 联想(北京)有限公司 用于机群监控系统控制台的消息服务装置及其方法
CN100409626C (zh) * 2006-10-09 2008-08-06 西安交通大学 基于aop技术的大规模集群管理监控系统中的报警方法
CN102200957A (zh) * 2010-03-24 2011-09-28 联想(北京)有限公司 一种管理集群内节点的方法及装置
CN102313506B (zh) * 2010-07-09 2013-12-25 联想(北京)有限公司 一种检测设备物理位置的方法、机柜以及设备
CN102313506A (zh) * 2010-07-09 2012-01-11 联想(北京)有限公司 一种检测设备物理位置的方法、机柜以及设备
CN102567182A (zh) * 2010-12-27 2012-07-11 无锡华润上华科技有限公司 远程主机的监控方法
CN103188290A (zh) * 2011-12-28 2013-07-03 英业达股份有限公司 云端服务系统的管理方法
CN103365755A (zh) * 2012-03-27 2013-10-23 台达电子工业股份有限公司 云端系统的主机监控及异常处理方法
CN103685386A (zh) * 2012-09-12 2014-03-26 北京百度网讯科技有限公司 用于确定计算设备在整机柜中的位置信息的方法和设备
CN103685386B (zh) * 2012-09-12 2019-04-12 北京百度网讯科技有限公司 用于确定计算设备在整机柜中的位置信息的方法和设备
CN103095488A (zh) * 2012-12-14 2013-05-08 北京思特奇信息技术股份有限公司 一种自助终端外设硬件状态监控系统及方法
CN105159813B (zh) * 2015-08-05 2018-09-14 北京百度网讯科技有限公司 基于数据中心的故障报警方法、装置、管理设备及系统
CN105159813A (zh) * 2015-08-05 2015-12-16 北京百度网讯科技有限公司 基于数据中心的故障报警方法、装置、管理设备及系统
CN105243005A (zh) * 2015-10-10 2016-01-13 浪潮(北京)电子信息产业有限公司 一种状态监控装置
CN105242581A (zh) * 2015-10-21 2016-01-13 浪潮(北京)电子信息产业有限公司 一种多控制器的定位控制方法及系统
CN105306275A (zh) * 2015-11-12 2016-02-03 姚焕根 大容量云计算系统及其管理方法
CN106326079A (zh) * 2016-08-19 2017-01-11 浪潮电子信息产业股份有限公司 一种诊断rack机柜内单节点掉电原因的方法
CN108153690A (zh) * 2017-12-13 2018-06-12 天津津航计算技术研究所 一种基于以太网和i2c双冗余总线的健康管理方法
CN108153690B (zh) * 2017-12-13 2021-01-08 天津津航计算技术研究所 一种基于以太网和i2c双冗余总线的健康管理方法

Also Published As

Publication number Publication date
CN100339835C (zh) 2007-09-26

Similar Documents

Publication Publication Date Title
CN100339835C (zh) 机群故障定位与报警的方法与系统
CN110224894B (zh) 一种智能变电站过程层网络监测管理系统
WO2021217695A1 (zh) 基于智能工厂框架的供配用电网智能数据采集整理系统
CN108667666A (zh) 一种基于可视化技术的智能运维方法及其系统
CN106936860A (zh) 一种基于终端设备的监控系统及方法
CN107480389A (zh) 一种面向调度主站的智能告警测试仿真系统及方法
CN100410954C (zh) 采集机群中节点的软件和硬件信息的方法与系统
CN201716848U (zh) 具有故障自定位与自诊断功能的数据采集器
CN104574219A (zh) 电网业务信息系统运行工况的监测预警方法及系统
CN112615436A (zh) 一种变电站综自装置健康诊断及监视系统和方法
CN110647123A (zh) 一种基于bim模型的全息化智能建筑节能运维管理系统
CN109698766A (zh) 通信电源故障分析的方法及系统
CN112987696A (zh) 一种区域配电网设备管理平台及其运行方法
CN109299797A (zh) 一种环保设备运行状态在线监管系统及监管方法
CN206523223U (zh) 多通道振动监测系统
CN112449019A (zh) 一种ims智能物联网运维管理平台
CN202117903U (zh) 中央空调机房实时监控系统
EP2764597A1 (en) Processing data of a technical system comprising several assets
CN110995525A (zh) 一种基于维护矩阵的路由器检测方法
CN210006208U (zh) 一种公交电子站牌的故障自检系统
CN1061806C (zh) 程控交换机集中操作维护系统
CN1275112C (zh) 开放式在线监测与早期故障预示和诊断系统
CN114356460A (zh) 一种基于医疗设备健康实时采集监控方法和系统
CN113447764A (zh) 应用于电网的智慧监测及故障管控方法
CN206311203U (zh) 振动监测系统集成表

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20070926

Termination date: 20200827

CF01 Termination of patent right due to non-payment of annual fee