CN110609778A - 一种保存服务器宕机日志的方法及系统 - Google Patents

一种保存服务器宕机日志的方法及系统 Download PDF

Info

Publication number
CN110609778A
CN110609778A CN201910759983.XA CN201910759983A CN110609778A CN 110609778 A CN110609778 A CN 110609778A CN 201910759983 A CN201910759983 A CN 201910759983A CN 110609778 A CN110609778 A CN 110609778A
Authority
CN
China
Prior art keywords
state
hardware
downtime
server
log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910759983.XA
Other languages
English (en)
Inventor
吕东波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Wave Intelligent Technology Co Ltd
Original Assignee
Suzhou Wave Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Wave Intelligent Technology Co Ltd filed Critical Suzhou Wave Intelligent Technology Co Ltd
Priority to CN201910759983.XA priority Critical patent/CN110609778A/zh
Publication of CN110609778A publication Critical patent/CN110609778A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Abstract

本发明实施例公开了一种保存服务器宕机日志的方法及系统,方法包括根据操作系统的响应信息和硬件的开关机状态,判断服务器是否宕机;宕机发生时,获取并保存底层硬件的状态和寄存器信息,形成宕机日志;将所述宕机日志存入BMC的黑盒内。本发明通过对操作系统相应信息和硬件开关机状态的分析,准确快速判断服务器是否发生了宕机;在发生宕机时,BMC将日志信息保存到黑盒中,即使宕机后立即重启,也不会消除保存在黑盒内的日志信息,保证快速定位宕机问题,提高产品竞争力和用户满意度。

Description

一种保存服务器宕机日志的方法及系统
技术领域
本发明涉及服务器宕机技术领域,具体地说是一种保存服务器宕机日志的方法及系统。
背景技术
随着互联网行业的快速发展及大数据处理的需求,服务器的应用领域更加广泛。且服务器多用于高强度数据的处理,一旦发生宕机,会对业务的正常运行造成严重影响。
当服务器宕机后,常规的处理方式是客服上门抓取错误日志信息,并分析宕机原因。对于如银行、政府服务大厅等机构,由于急需恢复业务,往往会立马重启服务器。现有情况下,服务器宕机后,系统处于宕机时的状态,重启后错误日志被清除,客服上门再抓取时,会出现日志中没有记录宕机的有效信息,导致无法定位宕机原因。
即使用户保留宕机现场,手动触发时,设备可能初始化,因此读取到日志中寄存器的状态也会发生变化,导致抓取到的日志信息不准确。
发明内容
本发明实施例中提供了一种保存服务器宕机日志的方法及系统,以解决现有技术中服务器宕机时,无法准确抓取到错误日志的问题。
为了解决上述技术问题,本发明实施例公开了如下技术方案:
本发明第一方面提供了一种保存服务器宕机日志的方法,包括以下步骤:
根据操作系统的响应信息和硬件的开关机状态,判断服务器是否宕机;
宕机发生时,获取并保存底层硬件的状态和寄存器信息,形成宕机日志;
将所述宕机日志存入BMC的黑盒内。
进一步地,所述根据操作系统的相应和硬件的开关机状态,判断服务器是否宕机的具体过程为:
实时获取操作系统的状态;
在操作系统无响应时,获取硬件开关机状态;
若所述硬件为开机状态,无关机记录,则服务器发生宕机。
进一步地,所述根据操作系统的相应和硬件的开关机状态,判断服务器是否宕机的具体过程为:
获取硬件的开关机状态;
在硬件处于开机状态时,实时获取操作系统的状态;
若操作系统无响应,且硬件仍处于开机状态,则服务器发生宕机。
进一步地,所述获取硬件的开关机状态具体为:
BMC(Baseboard Management Controller,基板管理控制器)发送IPMI(Intelligent Platform Management Interface,智能平台管理接口)指令,查看返回值,若超时为收到返回值或返回值异常,则操作系统无响应。
进一步地,所述获取硬件开关机状态具体为:
获取FPGA(Programmable Gate Array,现场可编程门阵列)上GPIO(GeneralPurpose Input Output,通用输入输出接口)的pin(管脚)值,根据pin值的高低判断硬件的开关机状态。
进一步地,所述获取并保存底层硬件的状态和寄存器信息的具体过程为:
BMC通过物理链路获取MSR(Model Specific Register,性能寄存器)和CSR(Control and Status Register,标志寄存器)的寄存器信息并记录,所述物理链路为BMC与CPU物理链路;
BMC记录宕机时的硬件状态。
本发明第二方面提供了一种保存服务器宕机日志的系统,所述系统包括:
宕机判断模块,用于根据操作系统的响应信息和硬件的开关机状态,判断服务器是否宕机;
信息获取模块,宕机发生时,获取并保存底层硬件的状态和寄存器信息,形成宕机日志;
日志存储模块,用于将所述宕机日志存入BMC的黑盒内。
进一步地,所述宕机判断模块包括:
第一判断单元,用于获取并判断操作系统的状态,在操作系统无响应时触发第二判断单元;
第二判断单元,用于获取并判断硬件的开关机状态,在硬件为开机状态,且无关机记录时,判定服务器宕机。
进一步地,所述宕机判断模块包括:
第二判断单元,用于获取并判断硬件的开关机状态,并在硬件处于开机状态时,触发第一判断单元;
第一判断单元,用于实施获取并判断操作系统的状态,在操作系统无响应,且硬件仍处于开机状态时,判定服务器宕机。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
通过对操作系统相应信息和硬件开关机状态的分析,准确快速判断服务器是否发生了宕机;在发生宕机时,BMC将日志信息保存到黑盒中,即使宕机后立即重启,也不会消除保存在黑盒内的日志信息,保证快速定位宕机问题,提高产品竞争力和用户满意度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明所述方法的流程示意图;
图2是本发明所述方法中判断服务器宕机实施例的流程示意图;
图3是本发明所述系统的结构示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
如图1所示,本发明保存服务器宕机日志的方法包括以下步骤:
S1,根据操作系统的响应信息和硬件的开关机状态,判断服务器是否宕机;
S2,宕机发生时,获取并保存底层硬件的状态和寄存器信息,形成宕机日志;
S3,将所述宕机日志存入BMC的黑盒内。
如图2所示,步骤S1的其一实现过程为:
BMC不断发送IPMI指令,查看返回值,判断操作系统是否有响应,若否,则获取硬件的开关机状态。BMC通过IPMI指令来实时获取OS(Operation System,操作系统)的状态,当超时未收到返回值或返回值异常时,认为无响应,重复发送IPMI指令若干次,查看返回值,若异常相同,则获取FPGA中硬件的开关机状态,通过FPGA上GPIO的pin值判断开关机状态,通常情况下,pin值为“1”对应开机状态,pin值为“0”对应关机状态。若此时BMC获取到硬件为开机状态,且无关机记录,则认为此时发生了服务器宕机。
其中在操作系统无响应时,通常3次重试,异常相同后,进行开关机状态的判断;在开关机状态判断时,也会重复获取开关机的状态,通常重复获取3次。
步骤S1的另一实现过程为:
获取硬件的开关机状态,该过程是实时进行的,在硬件处于开机状态时,实时获取操作系统的状态,若操作系统无响应,且在判断该操作系统状态的过程中,硬件仍处于开机状态,则认为服务器宕机。其中硬件开关机状态和操作系统状态的判断与上述步骤S1的其一实现过程相同。
通过步骤1中对操作系统状态和硬件开关机状态的分析,快速准确地判断出服务器发生宕机的情况,并在宕机发生时,及时保存宕机日志信息。
步骤S2中,BMC通过与CPU的物理链路对底层硬件的状态和寄存器信息进行读取和记录,包括记录CPU的MSR和CSR的寄存器信息,以及当前的硬件状态信息。形成宕机日志。并执行步骤S3将宕机日志信息存入BMC的黑盒中,即使用户重启服务器,也不会造成宕机日志信息的清除或改写,将宕机日志信息进行了可靠保存,便于定位宕机故障。
如图3所示,本发明保存服务器宕机日志的系统包括宕机判断模块1、信息获取模块2和日志存储模块3。
宕机判断模块1用于根据操作系统的响应信息和硬件的开关机状态,判断服务器是否宕机;信息获取模块1在宕机发生时,获取并保存底层硬件的状态和寄存器信息,形成宕机日志;日志存储模块2用于将所述宕机日志存入BMC的黑盒内。
宕机判断模块包括第一判断单元11和第二判断单元12。第一判断单元11和第二判断单元12的判断策略有两种方式。
其一:第一判断单元11首先工作,用于获取并判断操作系统的状态,在操作系统无响应时触发第二判断单元;第二判断单元12呗触发后,获取并判断硬件的开关机状态,在硬件为开机状态,且无关机记录时,判定服务器宕机。
其二:第二判断单元12首先工作,用于获取并判断硬件的开关机状态,并在硬件处于开机状态时,触发第一判断单元;第一判断单元11被触发后。用于实时获取并判断操作系统的状态,在操作系统无响应,且硬件仍处于开机状态,即第一判断单元11未收到第二判断单元12的去触发指令时,判定服务器宕机。
本发明的系统能够实现发明实施例中各步骤的功能,并能达到相同的效果。
以上所述只是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也被视为本发明的保护范围。

Claims (9)

1.一种保存服务器宕机日志的方法,其特征是,包括以下步骤:
根据操作系统的响应信息和硬件的开关机状态,判断服务器是否宕机;
宕机发生时,获取并保存底层硬件的状态和寄存器信息,形成宕机日志;
将所述宕机日志存入BMC的黑盒内。
2.根据权利要求1所述的保存服务器宕机日志的方法,其特征是,所述根据操作系统的相应和硬件的开关机状态,判断服务器是否宕机的具体过程为:
实时获取操作系统的状态;
在操作系统无响应时,获取硬件开关机状态;
若所述硬件为开机状态,无关机记录,则服务器发生宕机。
3.根据权利要求1所述的保存服务器宕机日志的方法,其特征是,所述根据操作系统的相应和硬件的开关机状态,判断服务器是否宕机的具体过程为:
获取硬件的开关机状态;
在硬件处于开机状态时,实时获取操作系统的状态;
若操作系统无响应,且硬件仍处于开机状态,则服务器发生宕机。
4.根据权利要求2或3所述的保存服务器宕机日志的方法,其特征是,所述获取硬件的开关机状态具体为:
BMC发送IPMI指令,查看返回值,若超时未收到返回值或返回值异常,则操作系统无响应。
5.根据权利要求2或3所述的保存服务器宕机日志的方法,其特征是,所述获取硬件开关机状态具体为:
获取FPGA上GPIO的pin值,根据pin值的高低判断硬件的开关机状态。
6.根据权利要求1所述的保存服务器宕机日志的方法,其特征是,所述获取并保存底层硬件的状态和寄存器信息的具体过程为:
BMC通过物理链路获取MSR和CSR的寄存器信息并记录,所述物理链路为BMC与CPU物理链路;
BMC记录宕机时的硬件状态。
7.一种保存服务器宕机日志的系统,其特征是,所述系统包括:
宕机判断模块,用于根据操作系统的响应信息和硬件的开关机状态,判断服务器是否宕机;
信息获取模块,宕机发生时,获取并保存底层硬件的状态和寄存器信息,形成宕机日志;
日志存储模块,用于将所述宕机日志存入BMC的黑盒内。
8.根据权利要求7所述的保存服务器宕机日志的系统,其特征是,所述宕机判断模块包括:
第一判断单元,用于获取并判断操作系统的状态,在操作系统无响应时触发第二判断单元;
第二判断单元,用于获取并判断硬件的开关机状态,在硬件为开机状态,且无关机记录时,判定服务器宕机。
9.根据权利要求7所述的保存服务器宕机日志的系统,其特征是,所述宕机判断模块包括:
第二判断单元,用于获取并判断硬件的开关机状态,并在硬件处于开机状态时,触发第一判断单元;
第一判断单元,用于实时获取并判断操作系统的状态,在操作系统无响应,且硬件仍处于开机状态时,判定服务器宕机。
CN201910759983.XA 2019-08-16 2019-08-16 一种保存服务器宕机日志的方法及系统 Pending CN110609778A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910759983.XA CN110609778A (zh) 2019-08-16 2019-08-16 一种保存服务器宕机日志的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910759983.XA CN110609778A (zh) 2019-08-16 2019-08-16 一种保存服务器宕机日志的方法及系统

Publications (1)

Publication Number Publication Date
CN110609778A true CN110609778A (zh) 2019-12-24

Family

ID=68890434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910759983.XA Pending CN110609778A (zh) 2019-08-16 2019-08-16 一种保存服务器宕机日志的方法及系统

Country Status (1)

Country Link
CN (1) CN110609778A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625382A (zh) * 2020-05-21 2020-09-04 浪潮电子信息产业股份有限公司 一种服务器故障诊断方法、装置、设备及介质
CN111722954A (zh) * 2020-06-30 2020-09-29 曙光信息产业(北京)有限公司 服务器异常定位方法、装置、存储介质及服务器
CN112486785A (zh) * 2020-11-06 2021-03-12 苏州浪潮智能科技有限公司 一种服务器定位宕机阶段的方法、系统、终端及存储介质
WO2021189315A1 (en) * 2020-03-25 2021-09-30 Beijing Didi Infinity Technology And Development Co., Ltd. Proxy server crash recovery in object storage system using enhanced meta structure
CN114064132A (zh) * 2021-09-30 2022-02-18 中科创达软件股份有限公司 一种系统宕机恢复方法、装置、设备和系统
CN116149957A (zh) * 2023-04-19 2023-05-23 湖南博匠信息科技有限公司 一种通过bmc保存服务器上下电记录的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107643965A (zh) * 2017-09-29 2018-01-30 郑州云海信息技术有限公司 一种服务器诊断方法、系统、设备及计算机存储机介质
CN108197008A (zh) * 2018-01-31 2018-06-22 郑州云海信息技术有限公司 一种日志收集方法、系统、装置及计算机可读存储介质
CN109542752A (zh) * 2018-11-28 2019-03-29 郑州云海信息技术有限公司 一种服务器PCIe设备故障记录的系统及方法
CN109947596A (zh) * 2019-03-19 2019-06-28 浪潮商用机器有限公司 Pcie设备故障系统宕机处理方法、装置及相关组件

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107643965A (zh) * 2017-09-29 2018-01-30 郑州云海信息技术有限公司 一种服务器诊断方法、系统、设备及计算机存储机介质
CN108197008A (zh) * 2018-01-31 2018-06-22 郑州云海信息技术有限公司 一种日志收集方法、系统、装置及计算机可读存储介质
CN109542752A (zh) * 2018-11-28 2019-03-29 郑州云海信息技术有限公司 一种服务器PCIe设备故障记录的系统及方法
CN109947596A (zh) * 2019-03-19 2019-06-28 浪潮商用机器有限公司 Pcie设备故障系统宕机处理方法、装置及相关组件

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021189315A1 (en) * 2020-03-25 2021-09-30 Beijing Didi Infinity Technology And Development Co., Ltd. Proxy server crash recovery in object storage system using enhanced meta structure
CN111625382A (zh) * 2020-05-21 2020-09-04 浪潮电子信息产业股份有限公司 一种服务器故障诊断方法、装置、设备及介质
CN111625382B (zh) * 2020-05-21 2022-06-10 浪潮电子信息产业股份有限公司 一种服务器故障诊断方法、装置、设备及介质
CN111722954A (zh) * 2020-06-30 2020-09-29 曙光信息产业(北京)有限公司 服务器异常定位方法、装置、存储介质及服务器
CN112486785A (zh) * 2020-11-06 2021-03-12 苏州浪潮智能科技有限公司 一种服务器定位宕机阶段的方法、系统、终端及存储介质
CN114064132A (zh) * 2021-09-30 2022-02-18 中科创达软件股份有限公司 一种系统宕机恢复方法、装置、设备和系统
CN116149957A (zh) * 2023-04-19 2023-05-23 湖南博匠信息科技有限公司 一种通过bmc保存服务器上下电记录的方法
CN116149957B (zh) * 2023-04-19 2023-06-20 湖南博匠信息科技有限公司 一种通过bmc保存服务器上下电记录的方法

Similar Documents

Publication Publication Date Title
CN110609778A (zh) 一种保存服务器宕机日志的方法及系统
CN111290918B (zh) 服务器运行状态监控方法、装置及计算机可读存储介质
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
CN106598796A (zh) 一种测试reboot时硬件信息稳定性的方法
WO2023115999A1 (zh) 设备状态监控方法、装置、设备及计算机可读存储介质
US20180210774A1 (en) Image based fault state determination
CN113064762B (zh) 基于多样探测的服务自恢复方法
CN110781053A (zh) 一种检测内存降级错误的方法和装置
CN107590017B (zh) 一种电子设备的检测方法和装置
CN112529223A (zh) 一种设备故障报修方法、装置、服务器及储存介质
CN114978883B (zh) 网络唤醒的管理方法、装置、电子设备及存储介质
CN116775141A (zh) 异常检测方法、装置、计算机设备及存储介质
JP6880961B2 (ja) 情報処理装置、およびログ記録方法
CN114816022B (zh) 一种服务器电源异常监控方法、系统及存储介质
JP2007207213A (ja) ワイヤレスデバイスのリアルタイム診断に適用する診断情報収集手法
CN115878400A (zh) 测试方法、装置、计算机设备、存储介质和程序产品
CN113708986B (zh) 服务器监控装置、方法及计算机可读存储介质
CN114138600A (zh) 一种固件关键信息的存储方法、装置、设备及存储介质
CN112527594A (zh) 一种硬盘巡检方法、装置及系统
WO2018036318A1 (zh) 一种在操作系统启动阶段收集异常信息的方法及装置
CN113220496B (zh) Bios与bmc之间ipmi命令交互次数异常检测方法、系统及状态机
US20240028439A1 (en) Attributing errors to input/output peripheral drivers
CN117687821A (zh) 高速缓冲存储器坏块的处理方法、装置和电子设备
CN117235021A (zh) 一种信息存储方法、客户端及服务端
CN115098291A (zh) 一种系统重启原因记录的方法、系统、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191224