CN107193708A - 一种状态检测方法及系统 - Google Patents

一种状态检测方法及系统 Download PDF

Info

Publication number
CN107193708A
CN107193708A CN201710350874.3A CN201710350874A CN107193708A CN 107193708 A CN107193708 A CN 107193708A CN 201710350874 A CN201710350874 A CN 201710350874A CN 107193708 A CN107193708 A CN 107193708A
Authority
CN
China
Prior art keywords
monitored device
heart rate
value
rate meters
count value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710350874.3A
Other languages
English (en)
Inventor
王兴隆
张力彬
乔英良
林涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710350874.3A priority Critical patent/CN107193708A/zh
Publication of CN107193708A publication Critical patent/CN107193708A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3013Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is an embedded system, i.e. a combination of hardware and software dedicated to perform a certain function in mobile devices, printers, automotive or aircraft systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明提供一种状态检测方法及系统,上述方法包括以下步骤:被监控设备正常运行后,监控设备获取所述被监控设备中的心跳计数器的计数值;所述监控设备根据所述计数值与所述心跳计数器中的正常启动值的比较结果;或者,根据所述计数值的变化状态;或者,根据所述计数值的获取情况,确定所述被监控设备的状态,提供了一种简单、有效的方法判断嵌入式部件的工作状态。

Description

一种状态检测方法及系统
技术领域
本发明属于检测领域,尤其涉及一种状态检测方法及系统。
背景技术
嵌入式部件广泛应用于计算系统中并扮演较为重要的角色,嵌入式部件固件出问题后经常出现重启、死机的情况,技术人员进行故障分析时往往需要明确嵌入式部件的工作状态是否正常;目前尚没有简单、有效的方法判断嵌入式部件的工作状态。
发明内容
本发明提供一种状态检测方法及系统,以解决上述问题。
本发明实施例提供一种状态检测方法。上述方法包括以下步骤:被监控设备正常运行后,监控设备获取所述被监控设备中的心跳计数器的计数值;
所述监控设备根据所述计数值与所述心跳计数器中的正常启动值的比较结果;或者,根据所述计数值的变化状态;或者,根据所述计数值的获取情况,确定所述被监控设备的状态。
本发明实施例还提供一种状态检测系统,包括监控设备、被监控设备;其中,所述监控设备与所述被监控设备连接;
所述被监控设备正常运行后,监控设备获取所述被监控设备中的心跳计数器的计数值;
所述监控设备根据所述计数值与所述心跳计数器中的正常启动值的比较结果;或者,根据所述计数值的变化状态;或者,根据所述计数值的获取情况,确定所述被监控设备的状态。
通过以下方案:被监控设备正常运行后,监控设备获取所述被监控设备中的心跳计数器的计数值;所述监控设备根据所述计数值与所述心跳计数器中的正常启动值的比较结果;或者,根据所述计数值的变化状态;或者,根据所述计数值的获取情况,确定所述被监控设备的状态;提供了一种简单、有效的方法判断嵌入式部件的工作状态。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1所示为根据本发明实施例1提供的状态检测方法的流程图;
图2所示为根据本发明实施例2提供的被监控嵌入式部件重启、死机计
数逻辑图;
图3所示为根据本发明实施例3提供的重启、死机检测逻辑图;
图4所示为根据本发明实施例4提供的状态检测系统的示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图1所示为根据本发明实施例1提供的状态检测方法的流程图,包括以下步骤:
步骤101:被监控设备正常运行后,监控设备获取所述被监控设备中的心跳计数器的计数值;
进一步地,被监控设备正常运行前,还包括:被监控设备启动后,所述被监控设备中的心跳计数器进行周期性的计数,累加至预设的正常启动值。
具体而言:
嵌入式部件(被监控设备)计算能力相对较弱,心跳计数器采用一个字节数据(即可表示0-255);嵌入式部件启动后,其固件系统维护一个心跳计数器,初始值为0,固件系统开启一个永不停止的循环,每次循环周期为T秒,周期T的设置建议值为2s,周期太小会增加嵌入式系统的计算压力。
嵌入式系统将心跳计数器按照周期T逐渐累加一直达到“正常启动值”,正常启动值即表示嵌入式部件已经正常启动的计数器值,正常启动值可以根据实际实际情况调节,建议值为128;当心跳计数器累加到正常启动值时,可认为嵌入式部件已经正常启动。
进一步地,被监控设备正常运行后,所述心跳计数器将从所述正常启动值进行计数,累加至极限值后,所述心跳计数器再次从所述正常启动值开始累加,进行循环计数。
具体而言,嵌入式部件正常启动后,心跳计数器将从“正常启动值”累加到254,心跳计数器达到254后,心跳计数器再次从“正常启动值”开机累加,一直到达254,依此规律心跳计数器从“正常启动值”到254进行更新;心跳计数器一直在“正常启动值”到254变化,即表示嵌入式部件一直在正常工作。
步骤102:所述监控设备根据所述计数值与所述心跳计数器中的正常启动值的比较结果;或者,根据所述计数值的变化状态;或者,根据所述计数值的获取情况,确定所述被监控设备的状态。
进一步地,被监控设备正常运行后,所述监控设备判断所述心跳计数器中的计数值小于所述正常启动值,则所述被监控设备处于重启状态。
进一步地,被监控设备正常运行后,所述监控设备判断所述心跳计数器中的计数值不变化,则所述被监控设备处于死机状态。
进一步地,被监控设备正常运行后,所述监控设备获取不到所述心跳计数器中的计数值,则所述被监控设备处于死机状态。
进一步地,所述心跳计数器采用一个字节数据。
进一步地,所述被监控设备包括基板控制器BMC、复杂可编程逻辑器件CPLD、磁盘控制器Controller、磁盘扩展器Expander;所述监控设备包括:基板控制器BMC、服务器、电脑PC。
具体而言,
如果心跳计数器的计数值突然小于“正常启动值”则可认为设备重启,如果心跳计数器的计数值不变化或者获取不到则认为设备死机。
重启标志:心跳计数器的计数值已经超过“正常启动值”后,外部监控设备即可认为嵌入式部件已经正常启动,在后续的检测中如果计数值小于“正常启动值”,则认为嵌入式部件已经重启过;
死机标志:心跳计数器的计数值已经超过“正常启动值”后,外部监控设备即可认为嵌入式部件已经正常启动,在后续的检测中如果计数值一直维持不变或者读取不到计数值,则认为嵌入式部件已经死机。
嵌入式部件维持一个寄存器用来存放心跳计数器的计数值,可通过I2C等物理链路被其监控设备获取到。
监控设备重启、死机检测逻辑:
监控设备和嵌入式部件约定一个“正常启动值”,建议值为128,作为认为嵌入部件正常启动的标志。
监控设备维护一个监控进程,以一定周期T(建议值为2s)检测被监控嵌入式部件,物理上通过I2C等链路访问被监控嵌入式部件,读取被监控嵌入式部件的心跳计数器的计数值,读取到计数值为“正常启动值后”后,认为被监控嵌入式部件正常启动,被监控部件正常启动后,心跳计数器值在正常情况下会维持在“正常启动值”到254,监控设备继续按照轮训周期访问被监控嵌入式部件;
重启标志:如果检测到心跳计数器的计数值小于“正常启动值”,则认为嵌入式部件发生了重启;
死机标志:如果检测到心跳计数器的计数值不变或者无法访问到心跳计数器的计数值,则认为嵌入式部件已经死机;
按照上述逻辑检测被监控部件是否重启、死机,并在嵌入式部件重启、死机时记录一条重启、死机日志(包括日志产生时间)。
下面结合具体应用场景进行详细说明:
典型应用场景举例
1)BMC(基板控制器)是服务器监控管理模块,用于检测服务器各项传感器指标,控制服务器风扇运转等,是服务器关键子系统之一;
服务器检测基板控制器(BMC)是否重启、死机,BMC按照上述逻辑维护一个心跳计数器,BMC设计一个IPMI命令,外部通过IPMI命令获取该计数器的计数值;服务器操作系统通过KCS接口发送IPMI命令访问BMC或者远程PC通过Lan接口发送IPMI命令访问BMC,获取到BMC心跳计数器的计数值,按照重启、死机检测逻辑检测BMC是否重启、死机,如果重启、死机则记录日志。
2)BMC作为监控设备会与不同的子模块通信,例如会访问CPLD(ComplexProgrammable Logic Device,复杂可编程逻辑器件),CPLD维护一个心跳计数器;BMC可通过I2C将获取心跳计数器的计数值,按照重启、死机检测逻辑检测CPLD是否重启、死机,如果重启、死机则记录日志。
3)存储系统中Controller(磁盘控制器)、Expander(磁盘扩展器)是存储系统中的关键嵌入式部件,可在Controller、Expander中维护一个心跳计数器,并设计与外部监控设备通信的接口(例如SCSI命令、SES命令等);操作系统或上级管理系统通过SCSI或SES命令访问Controller、Expander,按照重启、死机检测逻辑检测设备是否重启、死机,如果重启、死机则记录日志。
图2所示为根据本发明实施例2提供的被监控设备重启、死机计数逻辑图,包括以下步骤:
步骤201:被监控设备开机;
步骤202:开启心跳进程;
步骤203:心跳计数器累加;
步骤204:若心跳计数器的计数值i大于正常启动值,则执行步骤205,否则执行步骤203;
步骤205:被监控设备正常启动;
步骤206:心跳计数器累加;
步骤207:若心跳计数器的计数值小于254,则执行步骤206;否则,执行步骤208:
步骤208:心跳计数器的计数值设为正常启动值,从“正常启动值”开始累加,执行步骤206。
图3所示为根据本发明实施例3提供的重启、死机检测逻辑图,包括以下步骤:
步骤301:监控设备开机;
步骤302:开启重启、死机检测进程;
步骤303:访问被监控设备心跳计数器;
步骤304:判断心跳计数器的计数值是否大于正常启动值,若大于,则执行步骤305;否则,执行步骤303;
步骤305:访问被监控设备心跳计数器;
步骤306:心跳计数器中的计数值不变或者获取不到,则执行步骤309;否则,执行步骤307;
步骤307:判断心跳计数器中的计数值小于正常启动值,则执行步骤305;否则,执行步骤308:;
步骤308:被监控设备已重启;
步骤309:被监控设备已死机;
步骤310:记录重启、死机日志。
图4所示为根据本发明实施例4提供的状态检测系统的示意图,包括监控设备、被监控设备;其中,所述监控设备与所述被监控设备连接;
所述被监控设备正常运行后,监控设备获取所述被监控设备中的心跳计数器的计数值;
所述监控设备根据所述计数值与所述心跳计数器中的正常启动值的比较结果;或者,根据所述计数值的变化状态;或者,根据所述计数值的获取情况,确定所述被监控设备的状态。
进一步地,被监控设备正常运行前,还包括:
被监控设备启动后,所述被监控设备中的心跳计数器进行周期性的计数,累加至预设的正常启动值。
进一步地,被监控设备正常运行后,所述心跳计数器将从所述正常启动值进行计数,累加至极限值后,所述心跳计数器再次从所述正常启动值开始累加,进行循环计数。
进一步地,被监控设备正常运行后,所述监控设备判断所述心跳计数器中的计数值小于所述正常启动值,则所述被监控设备处于重启状态。
进一步地,被监控设备正常运行后,所述监控设备判断所述心跳计数器中的计数值不变化,则所述被监控设备处于死机状态。
进一步地,被监控设备正常运行后,所述监控设备获取不到所述心跳计数器中的计数值,则所述被监控设备处于死机状态。
通过以下方案:被监控设备正常运行后,监控设备获取所述被监控设备中的心跳计数器的计数值;所述监控设备根据所述计数值与所述心跳计数器中的正常启动值的比较结果;或者,根据所述计数值的变化状态;或者,根据所述计数值的获取情况,确定所述被监控设备的状态;提供了一种简单、有效的方法判断嵌入式部件的工作状态。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种状态检测方法,其特征在于,包括以下步骤:
被监控设备正常运行后,监控设备获取所述被监控设备中的心跳计数器的计数值;
所述监控设备根据所述计数值与所述心跳计数器中的正常启动值的比较结果;或者,根据所述计数值的变化状态;或者,根据所述计数值的获取情况,确定所述被监控设备的状态。
2.根据权利要求1所述的状态检测方法,其特征在于,被监控设备正常运行前,还包括:
被监控设备启动后,所述被监控设备中的心跳计数器进行周期性的计数,累加至预设的正常启动值。
3.根据权利要求2所述的状态检测方法,其特征在于,被监控设备正常运行后,所述心跳计数器将从所述正常启动值进行计数,累加至极限值后,所述心跳计数器再次从所述正常启动值开始累加,进行循环计数。
4.根据权利要求3所述的状态检测方法,其特征在于,被监控设备正常运行后,所述监控设备判断所述心跳计数器中的计数值小于所述正常启动值,则所述被监控设备处于重启状态。
5.根据权利要求3所述的状态检测方法,其特征在于,被监控设备正常运行后,所述监控设备判断所述心跳计数器中的计数值不变化,则所述被监控设备处于死机状态。
6.根据权利要求3所述的状态检测方法,其特征在于,被监控设备正常运行后,所述监控设备获取不到所述心跳计数器中的计数值,则所述被监控设备处于死机状态。
7.根据权利要求1所述的状态检测方法,其特征在于,所述心跳计数器采用一个字节数据。
8.根据权利要求1所述的状态检测方法,其特征在于,所述被监控设备包括基板控制器BMC、复杂可编程逻辑器件CPLD、磁盘控制器Controller、磁盘扩展器Expander;所述监控设备包括:基板控制器BMC、服务器、电脑PC。
9.一种状态检测系统,其特征在于,包括监控设备、被监控设备;其中,所述监控设备与所述被监控设备连接;
所述被监控设备正常运行后,监控设备获取所述被监控设备中的心跳计数器的计数值;
所述监控设备根据所述计数值与所述心跳计数器中的正常启动值的比较结果;或者,根据所述计数值的变化状态;或者,根据所述计数值的获取情况,确定所述被监控设备的状态。
10.根据权利要求9所述的状态检测系统,其特征在于,被监控设备正常运行前,还包括:
被监控设备启动后,所述被监控设备中的心跳计数器进行周期性的计数,累加至预设的正常启动值。
11.根据权利要求10所述的状态检测系统,其特征在于,被监控设备正常运行后,所述心跳计数器将从所述正常启动值进行计数,累加至极限值后,所述心跳计数器再次从所述正常启动值开始累加,进行循环计数。
12.根据权利要求11所述的状态检测系统,其特征在于,被监控设备正常运行后,所述监控设备判断所述心跳计数器中的计数值小于所述正常启动值,则所述被监控设备处于重启状态。
13.根据权利要求11所述的状态检测系统,其特征在于,被监控设备正常运行后,所述监控设备判断所述心跳计数器中的计数值不变化,则所述被监控设备处于死机状态。
14.根据权利要求11所述的状态检测系统,其特征在于,被监控设备正常运行后,所述监控设备获取不到所述心跳计数器中的计数值,则所述被监控设备处于死机状态。
CN201710350874.3A 2017-05-17 2017-05-17 一种状态检测方法及系统 Pending CN107193708A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710350874.3A CN107193708A (zh) 2017-05-17 2017-05-17 一种状态检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710350874.3A CN107193708A (zh) 2017-05-17 2017-05-17 一种状态检测方法及系统

Publications (1)

Publication Number Publication Date
CN107193708A true CN107193708A (zh) 2017-09-22

Family

ID=59873831

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710350874.3A Pending CN107193708A (zh) 2017-05-17 2017-05-17 一种状态检测方法及系统

Country Status (1)

Country Link
CN (1) CN107193708A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107797880A (zh) * 2017-11-29 2018-03-13 济南浪潮高新科技投资发展有限公司 一种提高服务器主板bmc可靠性的方法
CN111722954A (zh) * 2020-06-30 2020-09-29 曙光信息产业(北京)有限公司 服务器异常定位方法、装置、存储介质及服务器
CN111858186A (zh) * 2020-09-22 2020-10-30 蘑菇车联信息科技有限公司 车载终端系统监控方法及系统、电子设备及可读存储介质
CN112783678A (zh) * 2019-11-11 2021-05-11 上海博泰悦臻电子设备制造有限公司 一种车载终端断电处理方法及系统、车载终端
CN114189464A (zh) * 2021-11-24 2022-03-15 国能大渡河瀑布沟发电有限公司 一种电力监控系统通讯异常监测报警方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101178673A (zh) * 2007-12-14 2008-05-14 中国人民解放军国防科学技术大学 一种并行计算机系统管理控制器的容错备份方法及系统
CN102111310A (zh) * 2010-12-31 2011-06-29 网宿科技股份有限公司 Cdn设备状态监控方法和系统
CN103404080A (zh) * 2011-11-28 2013-11-20 华为技术有限公司 检测路径通信质量的方法和设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101178673A (zh) * 2007-12-14 2008-05-14 中国人民解放军国防科学技术大学 一种并行计算机系统管理控制器的容错备份方法及系统
CN102111310A (zh) * 2010-12-31 2011-06-29 网宿科技股份有限公司 Cdn设备状态监控方法和系统
CN103404080A (zh) * 2011-11-28 2013-11-20 华为技术有限公司 检测路径通信质量的方法和设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107797880A (zh) * 2017-11-29 2018-03-13 济南浪潮高新科技投资发展有限公司 一种提高服务器主板bmc可靠性的方法
CN112783678A (zh) * 2019-11-11 2021-05-11 上海博泰悦臻电子设备制造有限公司 一种车载终端断电处理方法及系统、车载终端
CN111722954A (zh) * 2020-06-30 2020-09-29 曙光信息产业(北京)有限公司 服务器异常定位方法、装置、存储介质及服务器
CN111858186A (zh) * 2020-09-22 2020-10-30 蘑菇车联信息科技有限公司 车载终端系统监控方法及系统、电子设备及可读存储介质
CN114189464A (zh) * 2021-11-24 2022-03-15 国能大渡河瀑布沟发电有限公司 一种电力监控系统通讯异常监测报警方法

Similar Documents

Publication Publication Date Title
CN107193708A (zh) 一种状态检测方法及系统
US6904391B2 (en) System and method for interpreting sensor data utilizing virtual sensors
CN105589776B (zh) 一种故障定位方法及服务器
CN110594180A (zh) 一种服务器散热控制器的控制方法及系统
WO2015039598A1 (zh) 故障定位方法及装置
US6205547B1 (en) Computer system management apparatus and method
CN101895540B (zh) 用于应用服务进程守护的系统和方法
CN104850485A (zh) 一种基于bmc远程诊断服务器开机故障的方法及系统
JP2013143126A (ja) デバイスで実行中のアプリケーションプログラムの状態検出
CN108259270A (zh) 一种数据中心统一管理系统设计方法
TWI529624B (zh) Method and system of fault tolerance for multiple servers
WO2020015116A1 (zh) 数据库监控方法及终端设备
CN114328102A (zh) 设备状态监控方法、装置、设备及计算机可读存储介质
CN103580941B (zh) 网络看门狗及其实现方法
CN116126772A (zh) 一种应用于arm服务器的uart串口管理系统及方法
EP3528125B1 (en) Power supply unit fan recovery process
CN110187922A (zh) 设置并验证bios参数的方法、装置、设备及存储介质
CN100555260C (zh) 主控底层管理平面的集成装置及方法
CN105224426A (zh) 物理主机故障检测方法、装置及虚机管理方法、系统
CN107179911A (zh) 一种重启管理引擎的方法和设备
CN110401582B (zh) 云计算系统存储健康度窘迫的检测方法、装置及存储介质
CN107133130A (zh) 计算机运行监测方法和装置
CN106789185A (zh) 一种基于带外管理的it设备管理方法
CN115237641A (zh) 故障检测的方法、装置、电子设备和可读介质
CN107621995B (zh) 一种防止连续触发重启键导致bmc挂死的系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170922