CN110519087B - 一种看门狗超时告警的方法及装置 - Google Patents

一种看门狗超时告警的方法及装置 Download PDF

Info

Publication number
CN110519087B
CN110519087B CN201910736084.8A CN201910736084A CN110519087B CN 110519087 B CN110519087 B CN 110519087B CN 201910736084 A CN201910736084 A CN 201910736084A CN 110519087 B CN110519087 B CN 110519087B
Authority
CN
China
Prior art keywords
alarm
log
configuration
watchdog
timeout
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910736084.8A
Other languages
English (en)
Other versions
CN110519087A (zh
Inventor
张羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN201910736084.8A priority Critical patent/CN110519087B/zh
Publication of CN110519087A publication Critical patent/CN110519087A/zh
Application granted granted Critical
Publication of CN110519087B publication Critical patent/CN110519087B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)
  • Alarm Systems (AREA)

Abstract

本发明涉及了一种看门狗超时告警的方法,其特征在于,所述方法包括以下步骤:设置告警配置文件,该告警配置文件包含看门狗超时的告警配置和日志配置;将系统事件日志的指定成员函数引入看门狗的超时函数中;编译告警配置文件从而将该告警配置映射至dbus接口并将日志配置映射至指定成员函数;响应于看门狗超时,触发超时函数从而在dbus接口根据告警配置产生告警信息并通过指定成员函数根据日志配置生成并存储告警日志。基于OpenBMC构架利用上述方法,实现了在dbus接口产生看门狗超时的告警信息并且生成了告警日志,以便后续运维工作人员即时发现故障、查找问题故障原因。

Description

一种看门狗超时告警的方法及装置
技术领域
本发明涉及交换机技术领域。本发明进一步涉及一种看门狗超时告警的方法及装置。
背景技术
随着交换机的普遍应用,交换机由CPU版和Switch版组成,其中BMC对于交换机的智能平台管理已经显得非常重要。WATCHDOG看门狗作为一种软件保护措施,如何将超时之后,通过各种装置来定位问题找到CPU发生宕机的原因、记录并显示给用户已经显得非常重要。对于BMC所采用的软件架构,目前最先进的形式为OpenBMC。在该架构之下,通过CPU版的OS系统来使用BMC的WatchdogTimer看门狗定时器时,目前的构架只提供了最简单的报错信息,没有具体的告警信息并且不会产生相应的SEL日志来记录所发生的超时告警情况。而没有相应的具体告警信息和记录告警的日志对于交换机的运行和维护是非常不便的。
因此,需要提出一种解决上述问题的方法,针对OpenBMC构架在看门狗超时时发出告警、产生具体的告警信息并且通过日志将告警进行记录,以便使用者快速确定问题所在。
发明内容
一方面,本发明基于上述目的提出了一种看门狗超时告警的方法,其特征在于,所述方法包括以下步骤:
设置告警配置文件,该告警配置文件包含看门狗超时的告警配置和日志配置;
将系统事件日志的指定成员函数引入看门狗的超时函数中;
编译告警配置文件从而将该告警配置映射至dbus接口并将日志配置映射至指定成员函数;
响应于看门狗超时,触发超时函数从而在dbus接口根据告警配置产生告警信息,并通过指定成员函数根据日志配置生成并存储告警日志。
根据本发明的看门狗超时告警的方法的实施例,其中告警日志包括告警时间、看门狗计时器起始时间、告警类型、喂狗信息。
根据本发明的看门狗超时告警的方法的实施例,其中该方法进一步包括:
以继承的方式保留告警日志路径并存入数据库中。
根据本发明的看门狗超时告警的方法的实施例,其中该方法进一步包括:
利用IPMI工具根据数据库中的告警日志路径查询日志,并按照IPMI配置文件显示告警日志。
根据本发明的看门狗超时告警的方法的实施例,其中设置告警配置文件,进一步包括:
根据IPMI工具设置告警配置文件中的日志配置。
根据本发明的看门狗超时告警的方法的实施例,其中告警配置文件和IPMI配置文件以ymal编写。
根据本发明的看门狗超时告警的方法的实施例,其中该方法进一步包括:
通过LED配置文件将LED设备映射到dbus接口,
响应于看门狗超时,调用LED设备所映射的dbus接口以激活LED设备。
根据本发明的看门狗超时告警的方法的实施例,其中响应于看门狗超时,调用LED设备所映射的dbus接口以激活LED设备进一步包括:
响应于调用LED设备所映射的dbus接口,利用增文件互锁机制将LED设备所映射的dbus接口锁定。
根据本发明的看门狗超时告警的方法的实施例,其中响应于看门狗超时,触发超时函数从而在dbus接口根据告警配置产生告警信息并通过指定成员函数根据日志配置生成并存储告警日志进一步包括:
通过指定成员函数将相应的参数写入日志配置规定的字段格式中以生成告警日志。
另一方面,本发明还提出了一种看门狗超时告警的装置,该装置包括:
至少一个处理器;和
存储器,该存储器存储有处理器可运行的程序代码,该程序代码在被处理器运行时执行如前所述的方法。
采用上述技术方案,本发明至少具有如下有益效果:利用相应的配置文件对告警和日志进行相应的配置,在看门狗的超时函数中引入系统事件日志SEL的指定成员函数。基于上述手段可以在看门狗超时的时候在相应的接口产生告警信息同时生成并存储相应的告警日志,在交换机宕机时,产生告警,记录SEL日志的信息,极大的方便了运维工作人员即时发现故障、查找问题故障原因。
本发明提供了实施例的各方面,不应当用于限制本发明的保护范围。根据在此描述的技术可设想到其它实施方式,这对于本领域普通技术人员来说在研究以下附图和具体实施方式后将是显而易见的,并且这些实施方式意图被包含在本申请的范围内。
下面参考附图更详细地解释和描述了本发明的实施例,但它们不应理解为对于本发明的限制。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对现有技术和实施例描述中所需要使用的附图作简单地介绍,附图中的部件不一定按比例绘制,并且可以省略相关的元件,或者在一些情况下比例可能已经被放大,以便强调和清楚地示出本文描述的新颖特征。另外,如本领域中已知的,结构顺序可以被不同地布置。
图1示出了根据本发明的看门狗超时告警的方法的示意性框图。
具体实施方式
虽然本发明可以以各种形式实施,但是在附图中示出并且在下文中将描述一些示例性和非限制性实施例,但应该理解的是,本公开将被认为是本发明的示例并不意图将本发明限制于所说明的具体实施例。
图1示出了根据本发明的看门狗超时告警的方法的示意性框图。如图所示,该方法至少包括以下步骤:
S1:设置告警配置文件,该告警配置文件包含看门狗超时的告警配置和日志配置;
S2:将系统事件日志的指定成员函数引入看门狗的超时函数中;
S3:编译告警配置文件从而将该告警配置映射至dbus接口并将日志配置映射至指定成员函数;
S4:响应于看门狗超时,触发超时函数从而在dbus接口根据告警配置产生告警信息,并通过指定成员函数根据日志配置生成并存储告警日志。
为了在OpenBMC构架下产生看门狗超时的告警,首先需要对所需的告警以及相应的日志进行配置,因此步骤S1中设置告警配置文件,在该告警配置文件中写入看门狗超时的告警配置和日志配置。随后,步骤S2将系统事件日志的指定成员函数引入看门狗的超时函数中,从而在超时函数被触发时执行相应的成员函数以生成日志。在CPU端的操作系统启动,配置BMC的看门狗并启动,启动后步骤S3编译告警配置文件从而将该告警配置映射至dbus接口并将日志配置映射至指定成员函数,由此才能在dbus接口产生相应的告警并且正确执行指定成员函数以生成日志。之后,在看门狗超时的情况下,步骤S4触发超时函数,执行该超时函数在dbus接口根据告警配置产生告警信息,同时通过指定成员函数根据日志配置生成告警日志,并且将该告警日志存入相应的数据库列表中。利用上述方法,基于OpenBMC构架实现了在dbus接口产生看门狗超时的告警信息并且生成了告警日志,以便后续运维工作人员即时发现故障、查找问题故障原因。
下文将说明本发明的进一步实施例,需要注意的是,其中提到的步骤的编号在没有特殊说明的情况下,仅用于便捷明确地指示该步骤,并不限定所述步骤的顺序。
在本发明的看门狗超时告警的方法的一些实施例中,告警日志包括告警时间、看门狗计时器起始时间、告警类型、喂狗信息。根据上述内容,运维人员可以确定发生看门狗超时的具体情况,以便排查故障。而相应的日志配置中规定了上述内容的相关配置。
在本发明的看门狗超时告警的方法的若干实施例中,该方法进一步包括:S5:以继承的方式保留告警日志路径并存入数据库中。由于对OpenBMC架构进一步开发的编程语言优选为C++,为了使步骤S4所生成的告警日志能够被运维人员查找到,因此选用C++体系中的继承的方式将告警日志保留下来,并存入数据库中的相关列表中。
在本发明的看门狗超时告警的方法的一些实施例中,该方法进一步包括:S6:利用IPMI工具根据数据库中的告警日志路径查询日志,并按照IPMI配置文件显示告警日志。由于应用场景的不同,运维人员会使用IPMI工具的方式查询SEL的日志。为了能够查询告警日志,首先要配置IPMI的配置文件,随后根据步骤S5中保留的告警日志路径查询到相应的告警日志,并按照IPMI配置文件中规定的字段格式在IPMI工具的显示模块中显示相应的告警日志信息。
在本发明的看门狗超时告警的方法的一个或多个实施例中,步骤S1设置告警配置文件,告警配置文件包含看门狗超时的告警配置和日志配置进一步包括:根据IPMI工具设置告警配置文件中的日志配置。按照IPMI工具的格式来配置告警配置文件中的日志配置,使得所产生的看门狗超时的告警日志本身已经与IPMI工具相匹配。在运维人员利用IPMI工具查询看门狗超时的告警日志时不必再进行日志解析、参数提取等操作,简化IPMI工具的配置和使用过程。
在本发明的看门狗超时告警的方法的若干实施例中,告警配置文件和IPMI配置文件优选地以ymal编写。Ymal作为一中可读性高的用来表达资料序列的格式,参考了其它多种语言,包括:XML、C语言、Python、Perl以及电子邮件格式RFC2822等。由于ymal具有可读性好、和脚本语言的交互性好、具有一致的信息模型、使用实现语言的数据类型、表达能力强、扩展性好等优点,因此根据本发明的方法的实施例优选以ymal编写告警配置文件和IPMI配置文件。
在本发明的看门狗超时告警的方法的一些实施例中,该方法进一步包括:
S7:通过LED配置文件将LED设备映射到dbus接口,
S8:响应于看门狗超时,调用LED设备所映射的dbus接口以激活LED设备。
为了能够更好地显示看门狗超时的发生,本发明的这些实施例中进一步增加了合理利用已有的LED设备进行视觉显示的构思。所以,步骤S7通过LED配置文件将已有的LED设备映射到dbus接口。随后,在看门狗超时时,步骤S8调用LED设备所映射的dbus接口以激活LED设备,从而显示看门狗超时这一情况。运维人员只要观察LED灯亮状态就能发现看门狗超时与否,并在超时时进一步查询详细的告警信息和/或日志。
在本发明的看门狗超时告警的方法的一些实施例中,步骤S8响应于看门狗超时,调用LED设备所映射的dbus接口以激活LED设备进一步包括:响应于调用LED设备所映射的dbus接口,利用增文件互锁机制将LED设备所映射的dbus接口锁定。由于在本发明的构思中用来作为视觉显示的设备为已有的LED设备,因此,该LED设备还存在被多个功能调用的情况。为了防止该LED设备被重复调用发生冲突,在该LED设备所映射的dbus接口被调用时,利用增文件互锁机制将该dbus接口锁定,使该接口不能再被其它功能使用。这样不仅确保LED设备的显示准确无干扰,也极大的方便了软件的可移植性,脱离了硬件的依赖性,硬件的更改也只需更改配置文件即可。
在本发明的看门狗超时告警的方法的若干实施例中,步骤S4响应于看门狗超时,触发超时函数从而在dbus接口根据告警配置产生告警信息并通过指定成员函数根据日志配置生成并存储告警日志进一步包括:通过指定成员函数将相应的参数写入日志配置规定的字段格式中以生成告警日志。在看门狗超时的时候,步骤S4中触发了超时函数。超时函数中的系统事件日志的制定成员函数完成将相应的参数写入日志配置规定的字段格式中的任务从而生成告警日志。
另一方面,本发明还提出了一种看门狗超时告警的装置,该装置包括:至少一个处理器;和存储器,该存储器存储有处理器可运行的程序代码,该程序代码在被处理器运行时执行如前所述的方法。
本发明实施例公开所述的装置、设备等可为各种电子终端设备,例如手机、个人数字助理(PDA)、平板电脑(PAD)、智能电视等,也可以是大型终端设备,如服务器等,因此本发明实施例公开的保护范围不应限定为某种特定类型的装置、设备。本发明实施例公开所述的客户端可以是以电子硬件、计算机软件或两者的组合形式应用于上述任意一种电子终端设备中。
本文所述的计算机可读存储介质(例如存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM),该RAM可以充当外部高速缓存存储器。作为例子而非限制性的,RAM可以以多种形式获得,比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)、以及直接Rambus RAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
采用上述技术方案,本发明至少具有如下有益效果:利用相应的配置文件对告警和日志进行相应的配置,在看门狗的超时函数中引入系统事件日志SEL的指定成员函数。基于上述手段可以在看门狗超时的时候在相应的接口产生告警信息同时生成并存储相应的告警日志,在交换机宕机时,产生告警,记录SEL日志的信息,极大的方便了运维工作人员即时发现故障、查找问题故障原因。
应当理解的是,在技术上可行的情况下,以上针对不同实施例所列举的技术特征可以相互组合,从而形成本发明范围内的另外实施例。此外,本文所述的特定示例和实施例是非限制性的,并且可以对以上所阐述的结构、步骤及顺序做出相应修改而不脱离本发明的保护范围。
在本申请中,反意连接词的使用旨在包括连接词。定或不定冠词的使用并不旨在指示基数。具体而言,对“该”对象或“一”和“一个”对象的引用旨在表示多个这样对象中可能的一个。然而,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。此外,可以使用连接词“或”来传达同时存在的特征,而不是互斥方案。换句话说,连接词“或”应理解为包括“和/或”。术语“包括”是包容性的并且具有与“包含”相同的范围。
上述实施例,特别是任何“优选”实施例是实施方式的可能示例,并且仅仅为了清楚理解本发明的原理而提出。在基本上不脱离本文描述的技术的精神和原理的情况下,可以对上述实施例做出许多变化和修改。所有修改旨在被包括在本公开的范围内。

Claims (5)

1.一种看门狗超时告警的方法,其特征在于,所述方法包括以下步骤:
设置告警配置文件,所述告警配置文件包含看门狗超时的告警配置和日志配置;
将系统事件日志的指定成员函数引入看门狗的超时函数中;
编译所述告警配置文件从而将所述告警配置映射至dbus接口并将所述日志配置映射至所述指定成员函数;
响应于看门狗超时,触发所述超时函数从而在所述dbus接口根据所述告警配置产生告警信息,并通过所述指定成员函数根据所述日志配置生成并存储告警日志;
以继承的方式保留告警日志路径并存入数据库中;
利用IPMI工具根据所述数据库中的所述告警日志路径查询日志,并按照IPMI配置文件显示所述告警日志;
其中,根据IPMI工具设置所述告警配置文件中的所述日志配置;所述告警配置文件和所述IPMI配置文件以ymal编写;所述告警日志包括告警时间、看门狗计时器起始时间、告警类型、喂狗信息。
2.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
通过LED配置文件将LED设备映射到dbus接口,
响应于看门狗超时,调用所述LED设备所映射的dbus接口以激活所述LED设备。
3.根据权利要求2所述的方法,其特征在于,所述响应于看门狗超时,调用所述LED设备所映射的dbus接口以激活所述LED设备进一步包括:
响应于调用所述LED设备所映射的dbus接口,利用增文件互锁机制将所述LED设备所映射的dbus接口锁定。
4.根据权利要求1所述的方法,其特征在于,所述响应于看门狗超时,触发所述超时函数从而在所述dbus接口根据所述告警配置产生告警信息,并通过所述指定成员函数根据所述日志配置生成并存储告警日志进一步包括:
通过所述指定成员函数将相应的参数写入所述日志配置规定的字段格式中以生成所述告警日志。
5.一种看门狗超时告警的装置,其特征在于,所述装置包括:
至少一个处理器;和
存储器,所述存储器存储有处理器可运行的程序代码,所述程序代码在被处理器运行时执行如权利要求1至4任一项所述的方法。
CN201910736084.8A 2019-08-09 2019-08-09 一种看门狗超时告警的方法及装置 Active CN110519087B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910736084.8A CN110519087B (zh) 2019-08-09 2019-08-09 一种看门狗超时告警的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910736084.8A CN110519087B (zh) 2019-08-09 2019-08-09 一种看门狗超时告警的方法及装置

Publications (2)

Publication Number Publication Date
CN110519087A CN110519087A (zh) 2019-11-29
CN110519087B true CN110519087B (zh) 2021-10-01

Family

ID=68623979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910736084.8A Active CN110519087B (zh) 2019-08-09 2019-08-09 一种看门狗超时告警的方法及装置

Country Status (1)

Country Link
CN (1) CN110519087B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101556551A (zh) * 2009-04-15 2009-10-14 杭州华三通信技术有限公司 设备故障日志的硬件获取系统及方法
CN102761439A (zh) * 2012-06-13 2012-10-31 烽火通信科技股份有限公司 Pon接入系统中基于看门狗的异常检测记录装置及方法
CN106980555A (zh) * 2017-03-24 2017-07-25 山东浪潮商用系统有限公司 一种超时线程处理方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8458533B2 (en) * 2010-11-03 2013-06-04 Texas Instruments Incorporated Watch dog timer and counter with multiple timeout periods

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101556551A (zh) * 2009-04-15 2009-10-14 杭州华三通信技术有限公司 设备故障日志的硬件获取系统及方法
CN102761439A (zh) * 2012-06-13 2012-10-31 烽火通信科技股份有限公司 Pon接入系统中基于看门狗的异常检测记录装置及方法
CN106980555A (zh) * 2017-03-24 2017-07-25 山东浪潮商用系统有限公司 一种超时线程处理方法及装置

Also Published As

Publication number Publication date
CN110519087A (zh) 2019-11-29

Similar Documents

Publication Publication Date Title
CN108848142B (zh) 消息推送方法、装置、计算机设备和存储介质
CN110162420B (zh) 数据辅助定位方法、装置、计算机设备及存储介质
CN110716878A (zh) 一种接口自动化测试方法、装置及系统
CN110765001B (zh) 针对应用系统的模块化自动测试方法和装置
CN107193714B (zh) 一种告警展示方法及装置
CN110175099B (zh) 接口变动提示方法、装置、计算机设备及存储介质
CN108134812B (zh) 数据处理方法和装置
CN107357731A (zh) 进程产生core dump问题的监控、分析和处理方法
CN113987393A (zh) 一种网页操作记录器、系统、装置及方法
CN111930703A (zh) 日志文件自动抓取方法、装置和计算机设备
CN110347565B (zh) 一种应用程序的异常分析方法及装置、电子设备
CN114461445A (zh) 数据恢复方法及装置、电子设备、计算机可读存储介质
CN110519087B (zh) 一种看门狗超时告警的方法及装置
KR101689984B1 (ko) 프로그래머블 컨트롤러, 프로그래머블 컨트롤러 시스템 및 실행 에러 정보 작성 방법
CN110825580A (zh) Kuberrnates Pod健康监控方法
CN114356434A (zh) 页面加载方法、设备、装置、存储介质及程序产品
CN114064402A (zh) 服务器系统监控方法
JP2020525944A (ja) バス監視システム、方法および装置
CN111104294B (zh) 一种生成bmc日志的方法及装置
CN106959906B (zh) 信息处理方法、信息处理装置及电子设备
CN110740190B (zh) 事件上报方法、电力终端及计算机可读存储介质
CN112328602A (zh) 一种数据写入Kafka的方法、装置及设备
CN115168171A (zh) 网页异常的处理方法、装置、电子设备及介质
CN110008114B (zh) 配置信息维护方法、装置、设备及可读存储介质
CN112783871B (zh) 标牌数据处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant