CN1445671A - 远程告警信息实时和准确定位的监控方法 - Google Patents

远程告警信息实时和准确定位的监控方法 Download PDF

Info

Publication number
CN1445671A
CN1445671A CN 02104189 CN02104189A CN1445671A CN 1445671 A CN1445671 A CN 1445671A CN 02104189 CN02104189 CN 02104189 CN 02104189 A CN02104189 A CN 02104189A CN 1445671 A CN1445671 A CN 1445671A
Authority
CN
China
Prior art keywords
information
agent side
monitoring client
alarm
mib
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 02104189
Other languages
English (en)
Other versions
CN1317642C (zh
Inventor
周建
周谧
席振新
王晟
李勇
谈华芳
郜远
陈光亮
周建军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CNB02104189XA priority Critical patent/CN1317642C/zh
Publication of CN1445671A publication Critical patent/CN1445671A/zh
Application granted granted Critical
Publication of CN1317642C publication Critical patent/CN1317642C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Computer And Data Communications (AREA)

Abstract

一种远程告警信息实时和准确定位的监控方法,它由运行在被监控计算机上的代理端获取被监控计算机上的硬件告警信息,并将该告警信息发送到远程的监控端;该监控端接收代理端发来的告警信息,解析并处理其中的数据;本发明通过运行在被监控计算机上的代理端实时监控系统中的信息,并将信息转化为外部的MIB对象,构造PDU包,最后将该PDU包通过SNMP(简单网络管理协议)数据包传到监控端。监控端实时接收、解析代理端发来的PDU包,获得产生告警的设备名、设备索引信息,通过查询链表与具体的设备对应,并通过显示提示框、蜂鸣等方式及时通知用户;得以将硬件告警信息与硬件本身紧密结合,实现了告警硬件的准确定位,并能及时将该告警信息输出、显示。

Description

远程告警信息实时和准确定位的监控方法
技术领域:
本发明涉及一种远程告警信息实时和准确定位的监控方法,特别涉及一种将远程硬件告警信息与远程硬件本身紧密结合,从而准确定位该远程告警的硬件的方法。
背景技术:
随着计算机工业水平的不断进步,人们对计算机的性能、稳定性和可靠性提出了越来越高的要求,特别是对于服务器。由于对计算机性能无止境的追求,使得目前计算机的核心部件——中央处理器(即CPU)的工作频率越来越高,与之配套工作的外围部件如主板、硬盘等的工作速率也不断增长。这种技术趋势的必然结果就是:这些部件所消耗的功率在不断地增长,发热量也越来越大,长期在这种条件下工作的部件的失效率也呈指数性质上升。为保证整机工作的稳定性和可靠性,就要求这些部件以及为这些部件服务的外围部件如电源等具有更高的可靠性。
提高部件可靠性的方法有多种,除了提高部件的技术含量、改进生产工艺以外,还可以设想,如果能够对这些部件的相关参数——电压、温度、风扇转速等进行实时监控,在这些参数发生异常时能够及时准确的给出报警,使用户能够及时进行干预,毫无疑问能够在很大程度上防止这些部件由于长时间处于非正常工作状态而因超出正常工作电压、正常工作温度导致的失效,从而能显著提高整机的工作稳定性和可靠性,延长部件和整机的使用寿命。
目前,已经存在的计算机系统进行远程监控的方法,是通过简单网络管理协议将监控到的信息传送到监控端。著名的Intel软件ISC就是用了这种方法,但它的缺点是:没有将硬件告警信息与硬件本身紧密结合,因此不能准确定位该告警的硬件;同时该告警信息在用户界面的显示不及时。
发明内容:
本发明的主要目的在于提供一种远程告警信息实时和准确定位的监控方法,其将硬件告警信息与硬件本身紧密结合,从而准确定位告警的硬件。
本发明的另一目的在于提供一种远程告警信息实时和准确定位的监控方法,在准确定位告警硬件的同时及时将该告警信息输出、显示。
本发明的目的是这样实现的:
一种远程告警信息实时和准确定位的监控方法,它至少包括:
步骤1:运行在被监控计算机上的代理端获取硬件基本信息,并通过SNMP协议的PDU包传送到控制端;
步骤2:该信息由监控端提取,并由该监控端组成各设备对象,加入到设备对象链表中。
步骤3:该监控端接收代理端发来的告警信息,并解析并处理其中的数据。
代理端获取并传送硬件基本信息的方法为:
步骤11:埋藏在主板内部的传感器根据自定义的门限或事件变化值产生告警事件;并将该告警事件记录在主板控制器附带的传感器事件纪录之中;
步骤12:轮询事件纪录获取相应的告警信息;
步骤13:通过分析定位在MIB节点定义的传感器和及其附带的信息,获得告警产生的准确的硬件信息;
步骤14:代理端将该信息连同告警描述写入MIB节点,转化为外部的MIB对象,并构造PDU包;
步骤15:代理端将该PDU包发送到监控端,执行步骤11。
代理端获取被监控计算机的告警信息的方法还包括代理端根据与监控端共享的MIB节点定义,解析含有MIB节点信息的PDU包。
所述的MIB节点至少包括:硬件设备节点和告警类型节点;其中,该MIB节点信息由代理端获取,通过SNMP协议的PDU包传到控制端,并由监控端提取,组成各设备对象,加入到设备对象链表中;
每个硬件设备节点信息至少包括:设备类型、设备索引、设备描述、设备状态信息;
每个告警信息节点中至少包括:设备类型、设备索引、事件类型、事件发生时的值、事件严重级别、事件描述、告警处理设置信息。
代理端通过简单网络管理协议向监控端发送数据。
监控端接收、解析并处理代理端发送数据的具体方法为:
步骤21:设在监控端负责的PDU包处理进程实时接收代理端发送的PDU包
步骤22:根据MIB节点信息,解析该PDU包中各数据,获得产生告警的设备名、设备索引信息;组成用来查询设备链表的关键字;
步骤23:通过查询设备链表与具体的设备对应;
步骤24:输出、显示告警信息,执行步骤21。
本发明通过运行在被监控计算机上的代理端实时监控系统中的告警信息,并将告警转化为外部的MIB对象,构造PDU包,并将该PDU包通过简单网络管理协议包传到监控端。监控端实时接收、解析代理端发来的PDU包,获得产生告警的设备名、设备索引信息,通过查询链表与具体的设备对应,并通过显示提示框、蜂鸣等方式及时通知用户;由此,得以将硬件告警信息与硬件本身紧密结合,实现了告警硬件的准确定位,并能及时将该告警信息输出、显示。
附图说明:
图1为本发明监控端硬件设备对象链表形成原理框图。
图2为本发明告警信息的获取与分析原理框图。
具体实施方式:
以下结合附图和具体的实施例对本发明做进一步的详细说明。
本发明的方法分别在被监控的计算机上设有代理端;在远程设有监控端。
参见图1、2,代理端运行在被监控的计算机上,它负责实时监控系统中的告警信息,并将告警转化为外部的MIB对象,构造PDU包,通过简单网络管理协议(Simple Network Management Protocol,简称SNMP协议)将这个PDU包传到监控端。SNMP协议中专门定义了用来发TRAP(告警)的PDU包。
代理端获取硬件基本信息,通过SNMP协议的PDU包传到控制端,并由监控端提取,组成各设备对象,加入到设备对象链表中。
监控端设有一实时接收代理端发来的TRAP包的进程,该进程解析这个PDU包中各字段,得到产生告警信息的设备名、设备索引等信息,通过查询链表与具体的设备对应,并通过显示提示框、锋鸣等方式及时通知用户。
代理端告警信息是通过埋藏在主板内部的传感器获得的,该传感器能够根据定义的门限或事件变化值来确定告警事件的产生;当告警事件产生以后,重要的事件则被记录在主板控制器(Baseboard Manager Control,简称为BMC)附带的传感器事件纪录(SEL Repository)里面,而其他事件,则需要进行轮询读取。传感器事件的读取可通过专用的服务器控制台硬件实现。
另外,一些告警信息可以由代理端根据系统的实际定义情况自主判断,产生相应的告警事件。
代理端告警信息的准确定位是通过在MIB节点上定义传感器节点实现的;通过定位传感器和它所附带的信息,就可以分析并最终定位该告警产生的硬件名称和索引以及是哪一种类型的告警(如:温度、电压、风扇等),代理端将这些详细信息和其它一些信息(如发生事件还是结束事件等)连同告警描述一同写入MIB节点,转化为外部的MIB对象,构造PDU包。
代理端可通过轮询的方式获取告警信息,一旦轮询到告警信息,代理端就将构造好的PDU包通过简单网络管理协议发出到监控端。
设在监控端负责的PDU包处理进程实时接收代理端发送的PDU包;然后遵照MIB节点的定义规则解析该PDU包中各数据,进而获得产生告警的设备名、设备索引信息;再通过查询链表与具体的设备对应;最后输出、显示该告警信息,当上述过程完成以后,就再次重新执行上述的各个步骤以实现及时处理相应的PDU包。
最后所应说明的是:以上实施例仅用以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1、一种远程告警信息实时和准确定位的监控方法,其特征在于:
步骤1:运行在被监控计算机上的代理端获取硬件基本信息,并通过SNMP协议的PDU包传送到控制端;
步骤2:该信息由监控端提取,并由该监控端组成各设备对象,加入到设备对象链表中。
步骤3:该监控端接收代理端发来的告警信息,并解析并处理其中的数据。
2、根据权利要求1所述的远程告警信息实时和准确定位的监控方法,其特征在于:代理端获取并传送硬件基本信息的方法为:
步骤11:埋藏在主板内部的传感器根据自定义的门限或事件变化值产生告警事件;并将该告警事件记录在主板控制器附带的传感器事件纪录之中;
步骤12:轮询事件纪录获取相应的告警信息;
步骤13:通过分析定位在MIB节点定义的传感器及其附带的信息,获得告警产生的准确的硬件信息;
步骤14:代理端将该信息连同告警描述写入MIB节点,转化为外部的MIB对象,并构造PDU包;
步骤15:代理端将该PDU包发送到监控端,执行步骤11。
3、根据权利要求1或2所述的远程告警信息实时和准确定位的监控方法,其特征在于:代理端获取被监控计算机的告警信息的方法还包括代理端根据与监控端共享的MIB节点定义,解析含有MIB节点信息的PDU包。
4、根据权利要求2所述的远程告警信息实时和准确定位的监控方法,其特征在于:所述的MIB节点至少包括:硬件设备节点和告警类型节点;其中,该MIB节点信息由代理端获取,通过SNMP协议的PDU包传到控制端,并由监控端提取,组成各设备对象,加入到设备对象链表中;
每个硬件设备节点信息至少包括:设备类型、设备索引、设备描述、设备状态信息;
每个告警信息节点中至少包括:设备类型、设备索引、事件类型、事件发生时的值、事件严重级别、事件描述、告警处理设置信息。
5、根据权利要求1或2所述的远程告警信息实时和准确定位的监控方法,其特征在于:代理端通过简单网络管理协议向监控端发送数据。
6、根据权利要求1或2所述的远程告警信息实时和准确定位的监控方法,其特征在于:监控端接收、解析并处理代理端发送数据的具体方法为:
步骤21:设在监控端负责的PDU包处理进程实时接收代理端发送的PDU包;
步骤22:根据MIB节点信息,解析该PDU包中各数据,获得产生告警的设备名、设备索引信息;组成用来查询设备链表的关键字;
步骤23:通过查询设备链表与具体的设备对应;
步骤24:输出、显示告警信息,执行步骤21。
CNB02104189XA 2002-03-15 2002-03-15 远程告警信息实时和准确定位的监控方法 Expired - Fee Related CN1317642C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB02104189XA CN1317642C (zh) 2002-03-15 2002-03-15 远程告警信息实时和准确定位的监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB02104189XA CN1317642C (zh) 2002-03-15 2002-03-15 远程告警信息实时和准确定位的监控方法

Publications (2)

Publication Number Publication Date
CN1445671A true CN1445671A (zh) 2003-10-01
CN1317642C CN1317642C (zh) 2007-05-23

Family

ID=27810851

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB02104189XA Expired - Fee Related CN1317642C (zh) 2002-03-15 2002-03-15 远程告警信息实时和准确定位的监控方法

Country Status (1)

Country Link
CN (1) CN1317642C (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005088905A1 (fr) * 2004-03-12 2005-09-22 Utstarcom Telecom Co., Ltd. Procede pour gerer une base d'informations de gestion dans un systeme de gestion de reseau
CN100344108C (zh) * 2004-08-23 2007-10-17 华为技术有限公司 在网管系统中处理设备信息的方法及系统
CN100361442C (zh) * 2004-01-15 2008-01-09 中国科学院计算技术研究所 一种基于网络的计算机硬件监控系统
CN100370762C (zh) * 2006-03-08 2008-02-20 华为技术有限公司 告警报文的处理方法、装置和系统
CN100377105C (zh) * 2004-11-18 2008-03-26 华为技术有限公司 一种告警自动测试方法
CN100411357C (zh) * 2005-10-31 2008-08-13 华为技术有限公司 网元管理系统采集异常呼叫历史记录的方法
CN100420206C (zh) * 2006-04-05 2008-09-17 华为技术有限公司 Snmp通信系统和方法
CN1761260B (zh) * 2004-09-15 2010-06-09 创新音速有限公司 无线通讯系统中防止数据传输死锁的方法及装置
CN102253879A (zh) * 2010-05-20 2011-11-23 英业达科技有限公司 一种服务器系统
CN101741600B (zh) * 2008-11-27 2012-01-25 英业达股份有限公司 服务器系统与其记录装置
CN102801569A (zh) * 2012-09-12 2012-11-28 上海斐讯数据通信技术有限公司 一种数据驱动的Agent端Trap告警方法
CN103049365A (zh) * 2012-11-07 2013-04-17 北京宏德信智源信息技术有限公司 信息与应用资源运行状态监控及评价方法
CN103532737A (zh) * 2013-09-18 2014-01-22 瑞斯康达科技发展股份有限公司 一种处理多种类型告警的方法、装置及系统
CN103995510A (zh) * 2014-05-14 2014-08-20 中国传媒大学 基于snmp4j的光放大器监控技术
CN104199763A (zh) * 2014-09-05 2014-12-10 山东超越数控电子有限公司 具有远程报警功能的多单元服务器管理系统
CN105093993A (zh) * 2015-09-25 2015-11-25 联想(北京)有限公司 电子设备及其控制方法
CN105765902A (zh) * 2014-11-06 2016-07-13 华为技术有限公司 一种信息发送的方法、被管理系统及管理系统
CN109981362A (zh) * 2019-03-21 2019-07-05 浪潮商用机器有限公司 一种服务器硬件信息获取装置、方法、设备及介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6137780A (en) * 1997-08-07 2000-10-24 At&T Corp Apparatus and method to monitor communication system status
US6260160B1 (en) * 1998-06-15 2001-07-10 Siemens Information And Communication Networks, Inc. Remote troubleshooting of a computing device
CN1289964A (zh) * 1999-09-24 2001-04-04 贵州以太科技信息产业有限责任公司 家用电器的监控方法及所用的通用智能监控装置

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100361442C (zh) * 2004-01-15 2008-01-09 中国科学院计算技术研究所 一种基于网络的计算机硬件监控系统
WO2005088905A1 (fr) * 2004-03-12 2005-09-22 Utstarcom Telecom Co., Ltd. Procede pour gerer une base d'informations de gestion dans un systeme de gestion de reseau
CN100428687C (zh) * 2004-03-12 2008-10-22 Ut斯达康通讯有限公司 在网络管理系统中对管理信息库进行管理的方法
CN100344108C (zh) * 2004-08-23 2007-10-17 华为技术有限公司 在网管系统中处理设备信息的方法及系统
CN1761260B (zh) * 2004-09-15 2010-06-09 创新音速有限公司 无线通讯系统中防止数据传输死锁的方法及装置
CN101330521B (zh) * 2004-09-15 2011-09-14 创新音速有限公司 无线通讯系统中防止数据传输死锁的方法
CN101330520B (zh) * 2004-09-15 2011-09-14 创新音速有限公司 无线通讯系统中防止数据传输死锁的加强查询方法
CN101330511B (zh) * 2004-09-15 2013-05-29 创新音速有限公司 无线通讯系统中防止不必要查询的接收状态查询方法
CN100377105C (zh) * 2004-11-18 2008-03-26 华为技术有限公司 一种告警自动测试方法
CN100411357C (zh) * 2005-10-31 2008-08-13 华为技术有限公司 网元管理系统采集异常呼叫历史记录的方法
CN100370762C (zh) * 2006-03-08 2008-02-20 华为技术有限公司 告警报文的处理方法、装置和系统
CN100420206C (zh) * 2006-04-05 2008-09-17 华为技术有限公司 Snmp通信系统和方法
CN101741600B (zh) * 2008-11-27 2012-01-25 英业达股份有限公司 服务器系统与其记录装置
CN102253879A (zh) * 2010-05-20 2011-11-23 英业达科技有限公司 一种服务器系统
CN102801569B (zh) * 2012-09-12 2015-04-22 上海斐讯数据通信技术有限公司 一种数据驱动的代理Agent端陷阱Trap告警方法
CN102801569A (zh) * 2012-09-12 2012-11-28 上海斐讯数据通信技术有限公司 一种数据驱动的Agent端Trap告警方法
CN103049365A (zh) * 2012-11-07 2013-04-17 北京宏德信智源信息技术有限公司 信息与应用资源运行状态监控及评价方法
CN103049365B (zh) * 2012-11-07 2015-09-23 北京宏德信智源信息技术有限公司 信息与应用资源运行状态监控及评价方法
CN103532737A (zh) * 2013-09-18 2014-01-22 瑞斯康达科技发展股份有限公司 一种处理多种类型告警的方法、装置及系统
CN103532737B (zh) * 2013-09-18 2017-02-01 瑞斯康达科技发展股份有限公司 一种处理多种类型告警的方法、装置及系统
CN103995510A (zh) * 2014-05-14 2014-08-20 中国传媒大学 基于snmp4j的光放大器监控技术
CN103995510B (zh) * 2014-05-14 2017-06-23 中国传媒大学 基于snmp4j的光放大器监控方法
CN104199763A (zh) * 2014-09-05 2014-12-10 山东超越数控电子有限公司 具有远程报警功能的多单元服务器管理系统
CN105765902A (zh) * 2014-11-06 2016-07-13 华为技术有限公司 一种信息发送的方法、被管理系统及管理系统
CN105093993A (zh) * 2015-09-25 2015-11-25 联想(北京)有限公司 电子设备及其控制方法
CN109981362A (zh) * 2019-03-21 2019-07-05 浪潮商用机器有限公司 一种服务器硬件信息获取装置、方法、设备及介质

Also Published As

Publication number Publication date
CN1317642C (zh) 2007-05-23

Similar Documents

Publication Publication Date Title
CN1317642C (zh) 远程告警信息实时和准确定位的监控方法
US20210049191A1 (en) Transforming a Data Stream into Structured Data
US20180307586A1 (en) Real-time reporting based on instrumentation of software
Lou et al. Mining dependency in distributed systems through unstructured logs analysis
US7681087B2 (en) Apparatus and method for persistent report serving
Zheng et al. Co-analysis of RAS log and job log on Blue Gene/P
US8977909B2 (en) Large log file diagnostics system
US7502971B2 (en) Determining a recurrent problem of a computer resource using signatures
WO2004001555A2 (en) Method and system for monitoring performance of application in a distributed environment
CN1864157A (zh) 自主记日志支持
CN1960297A (zh) 监控网络上设备组的系统与方法
Sukhija et al. Event management and monitoring framework for HPC environments using ServiceNow and Prometheus
US20090164443A1 (en) Database performance mining
CN108809729A (zh) 一种分布式系统中ctdb服务的故障处理方法及装置
CN112506969A (zh) 一种bmc地址查询方法、系统、设备及可读存储介质
Balaton et al. Comparison of representative grid monitoring tools
Xu et al. A flexible architecture for statistical learning and data mining from system log streams
JP5240709B2 (ja) シンプトンを評価するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
JP2014035749A (ja) ログ生成則作成装置及び方法
Thaler et al. Hybrid approach to hpc cluster telemetry and hardware log analytics
CN113765717A (zh) 一种基于涉密专用计算平台的运维管理系统
JP2009193153A (ja) 管理システム、履歴情報の保存方法、及び履歴情報データベースのデータ構造
TW201729236A (zh) 資料管理裝置及資料管理裝置之監視方法
JP2008015596A (ja) 管理サーバ及び修復プログラム送信方法
CN110597681A (zh) 服务器硬件监控系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20070523

Termination date: 20210315

CF01 Termination of patent right due to non-payment of annual fee