CN111143099A - 一种bmc进程监控方法及装置 - Google Patents

一种bmc进程监控方法及装置 Download PDF

Info

Publication number
CN111143099A
CN111143099A CN201911090956.4A CN201911090956A CN111143099A CN 111143099 A CN111143099 A CN 111143099A CN 201911090956 A CN201911090956 A CN 201911090956A CN 111143099 A CN111143099 A CN 111143099A
Authority
CN
China
Prior art keywords
overtime
task
monitored
clearing
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201911090956.4A
Other languages
English (en)
Inventor
刘忠鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN201911090956.4A priority Critical patent/CN111143099A/zh
Publication of CN111143099A publication Critical patent/CN111143099A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues

Abstract

本发明提供一种BMC进程监控方法及装置,包括如下步骤:设置看门狗超时时间;将所有被监控任务超时标志位置位;判断看门狗是否超时,若是,复位BMC,若否,执行下一步;接收被监控任务发送的清除超时命令,清除被监控任务超时标志位;检查所有被监控任务是否清除超时标志,若是,执行步骤:设置看门狗超时时间;若否,执行步骤:接收被监控任务发送的清楚超时命令。如果在超时时间内所有被监控任务超时标志被清除,则踢硬件看门狗,使看门狗重新倒计时,并把所有被监控任务超时标志设置起;如果超时时间内有任何一个任务的超时标志未被清除,则硬件看门狗超时,重启BMC。提高了BMC管理的可靠性,保证了客户业务的正常使用。

Description

一种BMC进程监控方法及装置
技术领域
本发明涉及BMC进程监控技术领域,具体涉及一种BMC进程监控方法及装置。
背景技术
BMC被称为基板管理控制器,是一种管理平台,能够进行一系列的监视和控制功能,操作的对象是系统硬件,比如通过监视系统的温度,电压,风扇、电源等等,并做相应的调节工作,以保证系统处于健康的状态。任何一种后台服务程序运行过程可能会出现coredump等程序异常退出的情况,但是一般情况下需要在无人为干预情况下,能够自动重新启动,保证服务进程能够服务用户。BMC的关键进程包括:IPMI消息处理、KVM、BMC网络、传感器/告警监控、散热调速等,当这些进程出现异常时,若不能及时发现并处理,则会影响BMC的正常使用。
发明内容
针对BMC的关键进程,当这些进程出现异常时,若不能及时发现并处理,则会影响BMC的正常使用的问题,本发明提供一种BMC进程监控方法及装置。
本发明的技术方案是:
一方面,本发明技术方案提供一种BMC进程监控方法,包括如下步骤:
设置看门狗超时时间;
将所有被监控任务超时标志位置位;
判断看门狗是否超时,若是,复位BMC,若否,执行下一步;
接收被监控任务发送的清除超时命令,清除被监控任务超时标志位;
检查所有被监控任务是否清除超时标志,若是,执行步骤:设置看门狗超时时间;若否,执行步骤:接收被监控任务发送的清楚超时命令。
进一步的,所述的设置看门狗超时时间的步骤之前,包括:
获取被监控任务并创建被监控任务进程表;
为每个被监控任务设置一个超时标志位。
进一步的,所述的设置看门狗超时时间的步骤之前,还包括:
建立一个进程间通信的管道,每个被监控任务通过所述的管道发送清除超时标志的命令。
进一步的,所述的接收被监控任务发送的清除超时命令,清除被监控任务超时标志位的步骤中,清除被监控任务超时标志位的步骤包括:
带有轮训的任务,接收监控任务通过管道发送清除超时标志的命令进行清除超时标志位动作;
没有轮训的任务,启动清除超时标志位的线程,接收监控任务通过管道发送清除超时标志的命令进行清除超时标志位动作;
若被监控任务的正常处理程序阻塞,无法进行超时标志位清除,将BMC重启复位。
另一方面,本发明技术方案提供一种BMC进程监控装置,包括超时时间设置模块、置位模块、判断模块、清除模块、检查模块和复位模块;
超时时间设置模块,用于设置看门狗超时时间;
置位模块,用于将所有被监控任务超时标志位为置位;
判断模块,用于判断看门狗是否超时;
复位模块,用于复位BMC;
清除模块,用于接收被监控任务发送的清除超时命令,清除被监控任务超时标志位;
检查模块,用于检查所有被监控任务是否清除超时标志,若是,重新设置看门狗超时时间;若否,接收被监控任务发送的清楚超时命令。
进一步的,该装置还包括进程表创建模块和设置模块;
进程表创建模块,用于获取被监控任务并创建被监控任务进程表;
设置模块,用于为每个被监控任务设置一个超时标志位。
进一步的,该装置还包括管道建立模块,所述的管道建立模块,用于建立一个进程间通信的管道,每个被监控任务通过所述的管道发送清除超时标志的命令。
进一步的,所述的清除模块,对于带有轮训的任务,用于接收监控任务通过管道发送清除超时标志的命令进行清除超时标志位动作;
对于没有轮训的任务,清除模块,还用于启动清除超时标志位的线程,接收监控任务通过管道发送清除超时标志的命令进行清除超时标志位动作;
复位模块,还用于若被监控任务的正常处理程序阻塞,无法进行超时标志位清除,将BMC重启复位。
从以上技术方案可以看出,本发明具有以下优点:监控主要任务是否受到阻塞即轮训是否被中断,为每个任务设置一个超时标志位,如果在超时时间内所有被监控任务超时标志被清除,则踢硬件看门狗,使看门狗重新倒计时,并把所有被监控任务超时标志设置起;如果超时时间内有任何一个任务的超时标志未被清除,则硬件看门狗超时,重启BMC。提高了BMC管理的可靠性,保证了客户业务的正常使用。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著地进步,其实施的有益效果也是显而易见的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一的方法的示意性流程图。
图2是本发明实施例二的方法的示意性流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
实施例一
如图1所示,本发明技术方案提供一种BMC进程监控方法,包括如下步骤:
S101:设置看门狗超时时间;执行步骤前需启动BMC;
S201:将所有被监控任务超时标志位置位;
S301:判断看门狗是否超时;若是,复位BMC,若否,执行步骤401;
S401:接收被监控任务发送的清除超时命令,清除被监控任务超时标志位;
S501:检查所有被监控任务是否清除超时标志,若是,执行步骤:S101;若否,执行步骤S401。
监控任务是否受到阻塞,为每个任务设置一个超时标志位,如果在超时时间内所有被监控任务超时标志被清除,则踢硬件看门狗,使看门狗重新倒计时,并把所有被监控任务超时标志设置起;如果超时时间内有任何一个任务的超时标志未被清除,则硬件看门狗超时,重启BMC。提高了BMC管理的可靠性,保证了客户业务的正常使用。本实施例中所述的任务为进程或线程。
实施例二
本发明技术方案提供一种BMC进程监控方法,包括如下步骤:
S111:获取被监控任务并创建被监控任务进程表;
S211:为每个被监控任务设置一个超时标志位;建立一个进程间通信的管道,每个被监控任务通过所述的管道发送清除超时标志的命令;
S311:设置看门狗超时时间;
S411:将所有被监控任务超时标志位置位;
S511:判断看门狗是否超时,若是,复位BMC,若否,执行S611;
S611:接收被监控任务发送的清除超时命令,清除被监控任务超时标志位;本步骤中,清除被监控任务超时标志位的步骤包括:
带有轮训的任务,接收监控任务通过管道发送清除超时标志的命令进行清除超时标志位动作;
没有轮训的任务,启动清除超时标志位的线程,接收监控任务通过管道发送清除超时标志的命令进行清除超时标志位动作;
若被监控任务的正常处理程序阻塞,无法进行超时标志位清除,将BMC重启复位。
S711:检查所有被监控任务是否清除超时标志,若是,执行步骤:S311;若否,执行步骤S611。本实施例中所述的任务为进程或线程。
实施例三
本发明技术方案提供一种BMC进程监控装置,包括超时时间设置模块、置位模块、判断模块、清除模块、检查模块和复位模块;
超时时间设置模块,用于设置看门狗超时时间;置位模块,用于将所有被监控任务超时标志位为置位;判断模块,用于判断看门狗是否超时;复位模块,用于复位BMC;清除模块,用于接收被监控任务发送的清除超时命令,清除被监控任务超时标志位;检查模块,用于检查所有被监控任务是否清除超时标志,若是,重新设置看门狗超时时间;若否,接收被监控任务发送的清楚超时命令。
该装置还包括进程表创建模块和设置模块;进程表创建模块,用于获取被监控任务并创建被监控任务进程表;设置模块,用于为每个被监控任务设置一个超时标志位。
该装置还包括管道建立模块,所述的管道建立模块,用于建立一个进程间通信的管道,每个被监控任务通过所述的管道发送清除超时标志的命令。所述的清除模块,对于带有轮训的任务,用于接收监控任务通过管道发送清除超时标志的命令进行清除超时标志位动作;对于没有轮训的任务,清除模块,还用于启动清除超时标志位的线程,接收监控任务通过管道发送清除超时标志的命令进行清除超时标志位动作;复位模块,还用于若被监控任务的正常处理程序阻塞,无法进行超时标志位清除,将BMC重启复位。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (8)

1.一种BMC进程监控方法,其特征在于包括如下步骤:
设置看门狗超时时间;
将所有被监控任务超时标志位置位;
判断看门狗是否超时,若是,复位BMC,若否,执行下一步;
接收被监控任务发送的清除超时命令,清除被监控任务超时标志位;
检查所有被监控任务是否清除超时标志,若是,执行步骤:设置看门狗超时时间;若否,执行步骤:接收被监控任务发送的清楚超时命令。
2.根据权利要求1所述的一种BMC进程监控方法,其特征在于所述的设置看门狗超时时间的步骤之前,包括:
获取被监控任务并创建被监控任务进程表;
为每个被监控任务设置一个超时标志位。
3.根据权利要求2所述的一种BMC进程监控方法,其特征在于所述的设置看门狗超时时间的步骤之前,还包括:
建立一个进程间通信的管道,每个被监控任务通过所述的管道发送清除超时标志的命令。
4.根据权利要求3所述的一种BMC进程监控方法,其特征在于,所述的接收被监控任务发送的清除超时命令,清除被监控任务超时标志位的步骤中,清除被监控任务超时标志位的步骤包括:
带有轮训的任务,接收监控任务通过管道发送清除超时标志的命令进行清除超时标志位动作;
没有轮训的任务,启动清除超时标志位的线程,接收监控任务通过管道发送清除超时标志的命令进行清除超时标志位动作;
若被监控任务的正常处理程序阻塞,无法进行超时标志位清除,将BMC重启复位。
5.一种BMC进程监控装置,其特征在于包括超时时间设置模块、置位模块、判断模块、清除模块、检查模块和复位模块;
超时时间设置模块,用于设置看门狗超时时间;
置位模块,用于将所有被监控任务超时标志位为置位;
判断模块,用于判断看门狗是否超时;
复位模块,用于复位BMC;
清除模块,用于接收被监控任务发送的清除超时命令,清除被监控任务超时标志位;
检查模块,用于检查所有被监控任务是否清除超时标志,若是,重新设置看门狗超时时间;若否,接收被监控任务发送的清楚超时命令。
6.根据权利要求5所述的一种BMC进程监控装置,其特征在于该装置还包括进程表创建模块和设置模块;
进程表创建模块,用于获取被监控任务并创建被监控任务进程表;
设置模块,用于为每个被监控任务设置一个超时标志位。
7.根据权利要求6所述的一种BMC进程监控装置,其特征在于该装置还包括管道建立模块,所述的管道建立模块,用于建立一个进程间通信的管道,每个被监控任务通过所述的管道发送清除超时标志的命令。
8.根据权利要求7所述的一种BMC进程监控装置,其特征在于,所述的清除模块,对于带有轮训的任务,用于接收监控任务通过管道发送清除超时标志的命令进行清除超时标志位动作;
对于没有轮训的任务,清除模块,还用于启动清除超时标志位的线程,接收监控任务通过管道发送清除超时标志的命令进行清除超时标志位动作;
复位模块,还用于若被监控任务的正常处理程序阻塞,无法进行超时标志位清除,将BMC重启复位。
CN201911090956.4A 2019-11-09 2019-11-09 一种bmc进程监控方法及装置 Withdrawn CN111143099A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911090956.4A CN111143099A (zh) 2019-11-09 2019-11-09 一种bmc进程监控方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911090956.4A CN111143099A (zh) 2019-11-09 2019-11-09 一种bmc进程监控方法及装置

Publications (1)

Publication Number Publication Date
CN111143099A true CN111143099A (zh) 2020-05-12

Family

ID=70517062

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911090956.4A Withdrawn CN111143099A (zh) 2019-11-09 2019-11-09 一种bmc进程监控方法及装置

Country Status (1)

Country Link
CN (1) CN111143099A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127294A (zh) * 2021-03-26 2021-07-16 山东英信计算机技术有限公司 一种服务器故障定位方法、装置、设备及可读存储介质
CN113391940A (zh) * 2021-06-18 2021-09-14 苏州浪潮智能科技有限公司 一种突破看门狗限制巩固系统服务的方法、系统
CN113824962A (zh) * 2021-08-29 2021-12-21 山东云海国创云计算装备产业创新中心有限公司 一种传输光标信息的方法、系统、设备和存储介质
CN114003418A (zh) * 2021-09-29 2022-02-01 苏州浪潮智能科技有限公司 一种命令超时检测方法、装置、系统
CN113824962B (zh) * 2021-08-29 2024-05-14 山东云海国创云计算装备产业创新中心有限公司 一种传输光标信息的方法、系统、设备和存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127294A (zh) * 2021-03-26 2021-07-16 山东英信计算机技术有限公司 一种服务器故障定位方法、装置、设备及可读存储介质
CN113391940A (zh) * 2021-06-18 2021-09-14 苏州浪潮智能科技有限公司 一种突破看门狗限制巩固系统服务的方法、系统
CN113824962A (zh) * 2021-08-29 2021-12-21 山东云海国创云计算装备产业创新中心有限公司 一种传输光标信息的方法、系统、设备和存储介质
CN113824962B (zh) * 2021-08-29 2024-05-14 山东云海国创云计算装备产业创新中心有限公司 一种传输光标信息的方法、系统、设备和存储介质
CN114003418A (zh) * 2021-09-29 2022-02-01 苏州浪潮智能科技有限公司 一种命令超时检测方法、装置、系统
CN114003418B (zh) * 2021-09-29 2024-01-12 苏州浪潮智能科技有限公司 一种命令超时检测方法、装置、系统

Similar Documents

Publication Publication Date Title
CN111143099A (zh) 一种bmc进程监控方法及装置
US10452469B2 (en) Server performance correction using remote server actions
CN105550057B (zh) 嵌入式软件系统故障检测恢复方法和系统
CN110618864A (zh) 一种中断任务恢复方法及装置
KR20200078328A (ko) 소프트웨어 애플리케이션 프로세스를 모니터링하는 시스템 및 방법
CN112860408A (zh) 一种云真机中的进程保活方法、装置、系统及存储介质
CN110990328B (zh) 一种TBox的双处理器间可靠通信的方法及系统
CN112035285A (zh) 基于高通平台的硬件看门狗电路系统及其监控方法
CN111796954A (zh) 基于jvm的看门狗的控制方法、装置、设备及存储介质
US10506051B2 (en) Remote system monitor
CN106874126A (zh) 一种软件开发中主进程异常检测方法
CN115421859B (zh) 配置文件的动态加载方法、装置、计算机设备及存储介质
JP2008077324A (ja) サーバ・クライアントシステム
JP2015082131A (ja) 監視システム、監視方法、監視プログラム及び監視装置
CN108770166B (zh) 一种x射线发生器断电保护控制方法、装置及设备
CN108021407B (zh) 基于网络设备的业务处理方法及装置
JP2012133625A (ja) マイクロプロセッサの間欠異常検出方法
CN112181731A (zh) 一种应用程序的保活方法、装置及计算机设备
CN113391940B (zh) 一种突破看门狗限制巩固系统服务的方法、系统
JP6401507B2 (ja) 監視通報装置、及びそれに用いる再起動制御方法
JP2007272756A (ja) 無停電電源装置および電源管理方法
CN115514689A (zh) 一种应用程序守护方法、装置及存储介质
JP2004070458A (ja) 自己診断機能を持つプログラムと、プログラム監視装置及びその方法と、プログラム監視機能を持つプログラム
CN103309759A (zh) 一种操作系统中断服务的检测方法
CN112241283A (zh) 软件升级方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20200512