CN106561018B - 监测服务器的方法、监测装置及监测系统 - Google Patents

监测服务器的方法、监测装置及监测系统 Download PDF

Info

Publication number
CN106561018B
CN106561018B CN201510701460.1A CN201510701460A CN106561018B CN 106561018 B CN106561018 B CN 106561018B CN 201510701460 A CN201510701460 A CN 201510701460A CN 106561018 B CN106561018 B CN 106561018B
Authority
CN
China
Prior art keywords
system information
server
storage unit
recording mode
system event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510701460.1A
Other languages
English (en)
Other versions
CN106561018A (zh
Inventor
叶俊杰
吴明昇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weft Technology Service Ltd By Share Ltd
Original Assignee
Wiwynn Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wiwynn Corp filed Critical Wiwynn Corp
Publication of CN106561018A publication Critical patent/CN106561018A/zh
Application granted granted Critical
Publication of CN106561018B publication Critical patent/CN106561018B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3031Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a motherboard or an expansion card
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/323Visualisation of programs or trace data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一种监测服务器的方法、监测装置及监测系统。所述监测服务器的方法包括:设定欲从服务器监测的系统事件;设定用于记录服务器的系统信息的触发记录模式及预定记录数量;依据触发记录模式以及预定记录数量从管理服务器的基板管理控制器提取关联于系统事件的系统信息至储存单元;以及显示储存于储存单元的系统信息于使用者界面。其可提取服务器发生问题之前及/或之后时的系统状况,用以让管理人员便于回溯问题发生时系统当时的状况。

Description

监测服务器的方法、监测装置及监测系统
技术领域
本发明是有关于一种监测服务器的方法、监测装置及监测系统。
背景技术
智能平台管理界面(Intelligent Platform Management Interface,IPMI)是一种英特尔(Intel)建构的用于企业系统周边设备的工业标准。此外,IPMI亦是一个开放的免费标准,使用者无需支付额外的费用即可使用此标准。IPMI能够横跨不同的操作系统、固件和硬件平台,且可以智能地监视、控制和自动回报大量服务器的运作状况,以降低服务器系统成本。
一般而言,基板管理控制器(Baseboard Management Controller,BMC)用于管理服务器的标准就是IPMI。然而,当BMC使用IPMI管理服务器时却有一个常见但未定义于IPMI中的问题。此问题即是虽然BMC本身可以监视服务器中硬件的状况,也可以设定门限值并和系统事件日志(System Event Log,SEL)或平台事件过滤器(Platform Event Filter,PEF)结合而通知远方电脑异常状况发生,但是却缺少一个类似示波器的功能。亦即,一旦有某个异常信号或状态发生时,由于目前的BMC未在服务器运作时如示波器一般持续地将整个系统的状况持续记录下来,因此当日后服务器发生问题时,并无法回溯问题发生时系统当时的状况。换言之,目前的作法只能得知服务器在运作时所发生的问题,但却因未记录发生问题之前的系统状态而无法得知是什么因素导致问题的发生。若能解决此问题的话,将可提升管理人员在调试上的便利性。
发明内容
有鉴于此,本发明提供一种监测服务器的方法、监测装置以及监测系统,其可提取服务器发生问题之前及/或之后时的系统状况,用以让管理人员便于回溯问题发生时系统当时的状况。
本发明提供一种监测服务器的方法,包括:设定欲从服务器监测的系统事件;设定用于记录服务器的系统信息的触发记录模式及预定记录数量;依据触发记录模式以及预定记录数量从管理服务器的基板管理控制器提取关联于系统事件的系统信息至储存单元;以及显示储存于储存单元的系统信息于使用者界面。
在本发明之一实施例中,触发记录模式包括触发前记录模式,且依据触发记录模式以及预定记录数量从管理服务器的基板管理控制器提取关联于系统事件的系统信息至储存单元的步骤包括:在服务器运行时,持续提取来自于基板管理控制器的系统信息及其时间戳记至暂存单元;等待系统事件发生;以及当系统事件发生时,停止提取来自于基板管理控制器的系统信息及其时间戳记至暂存单元,并从暂存单元提取系统事件发生之前的特定系统信息,其中特定系统信息的数量为预定记录数量。
在本发明之一实施例中,触发记录模式包括触发后记录模式,且依据触发记录模式以及预定记录数量从管理服务器的基板管理控制器提取关联于系统事件的系统信息至储存单元的步骤包括:在服务器运行时,等待系统事件发生;以及当系统事件发生时,从基板管理控制器提取系统事件发生之后的特定系统信息,其中特定系统信息的数量为预定记录数量。
在本发明之一实施例中,触发记录模式包括中途记录模式,预定记录数量包括第一预定记录数量及第二预定记录数量。并且,依据触发记录模式以及预定记录数量从管理服务器的基板管理控制器提取关联于系统事件的系统信息至储存单元的步骤包括:在服务器运行时,持续提取来自于基板管理控制器的系统信息及其时间戳记至暂存单元;等待系统事件发生;当系统事件发生时,持续提取来自于基板管理控制器的第二预定记录数量个系统信息及其时间戳记至暂存单元;以及从暂存单元提取系统事件发生之前的第一特定系统信息以及系统事件发生之后的第二特定系统信息,其中第一特定系统信息的数量为第一预定记录数量,且第二特定系统信息的数量为第二预定记录数量。
在本发明之一实施例中,系统信息包括基本输入输出系统(BasicInput/OutputSystem,BIOS)的开机自我测试(Power-On Self Test,POST)码、中央处理单元(CentralProcessing Unit,CPU)的特定模块暂存器(model-specific register,MSR)、串行端口转区域网络(Serial Over LAN,SOL;LAN=Local Area Network)、基本输入输出系统的调试终端机(debugconsole)、服务器的一般用途输入/输出(General Purpose Input/Output,GPIO)状态、基板管理控制器的感测器、在网际网络协议上的键盘/视频/鼠标(keyboard/video/mouse over Internet protocol,iKVM)画面以及风扇转速的至少其中之一。
本发明提供一种监测装置,包括储存单元及处理单元。储存单元储存多个模块。处理单元耦接储存单元,存取并执行所述多个模块。所述多个模块包括系统设定模块、系统信息提取模块以及显示模块。系统设定模块设定欲从服务器监测的系统事件,以及设定用于记录服务器的系统信息的触发记录模式及预定记录数量。系统信息提取模块依据触发记录模式以及预定记录数量从管理服务器的基板管理控制器提取关联于系统事件的系统信息。显示模块显示系统信息于使用者界面。
在本发明之一实施例中,触发记录模式包括触发前记录模式,且系统信息提取模块经配置以:在服务器运行时,持续提取来自于基板管理控制器的系统信息及其时间戳记至暂存单元;等待系统事件发生;以及当系统事件发生时,停止提取来自于基板管理控制器的系统信息及其时间戳记至暂存单元,并从暂存单元提取系统事件发生之前的特定系统信息,其中特定系统信息的数量为预定记录数量。
在本发明之一实施例中,触发记录模式包括触发后记录模式,且系统信息提取模块经配置以:在服务器运行时,等待系统事件发生;以及当系统事件发生时,从基板管理控制器提取系统事件发生之后的特定系统信息,其中特定系统信息的数量为预定记录数量。
在本发明之一实施例中,触发记录模式包括中途记录模式,预定记录数量包括第一预定记录数量及第二预定记录数量,且系统信息提取模块经配置以:在服务器运行时持续提取来自于基板管理控制器的系统信息及其时间戳记至暂存单元;等待系统事件发生;当系统事件发生时,持续提取来自于基板管理控制器的第二预定记录数量个系统信息及其时间戳记至暂存单元;以及从暂存单元提取系统事件发生之前的第一特定系统信息以及系统事件发生之后的第二特定系统信息,其中第一特定系统信息的数量为第一预定记录数量,且第二特定系统信息的数量为第二预定记录数量。
一种监测系统,包括决定装置、提取装置及显示装置。决定装置设定欲从服务器监测的系统事件,以及设定用于记录服务器的系统信息的触发记录模式及预定记录数量。提取装置耦接决定装置,依据触发记录模式以及预定记录数量从管理服务器的基板管理控制器提取关联于系统事件的系统信息至储存单元。显示装置显示储存于储存单元的系统信息于使用者界面。
在本发明之一实施例中,触发记录模式包括触发前记录模式,且提取装置经配置以:在服务器运行时,持续提取来自于基板管理控制器的系统信息及其时间戳记至暂存单元;等待系统事件发生;以及当系统事件发生时,停止提取来自于基板管理控制器的系统信息及其时间戳记至暂存单元,并从暂存单元提取系统事件发生之前的特定系统信息,其中特定系统信息的数量为预定记录数量。
在本发明之一实施例中,触发记录模式包括触发后记录模式,且提取装置经配置以:在服务器运行时,等待系统事件发生;以及当系统事件发生时,从基板管理控制器提取系统事件发生之后的特定系统信息,其中特定系统信息的数量为预定记录数量。
在本发明之一实施例中,触发记录模式包括中途记录模式,预定记录数量包括第一预定记录数量及第二预定记录数量,且提取装置经配置以:在服务器运行时持续提取来自于基板管理控制器的系统信息及其时间戳记至暂存单元;等待系统事件发生;当系统事件发生时,持续提取来自于基板管理控制器的第二预定记录数量个系统信息及其时间戳记至暂存单元;以及从暂存单元提取系统事件发生之前的第一特定系统信息以及系统事件发生之后的第二特定系统信息,其中第一特定系统信息的数量为第一预定记录数量,且第二特定系统信息的数量为第二预定记录数量。
基于上述,本发明实施例提出的监测服务器的方法、监测装置以及监测系统可依据所使用的触发记录模式来提取某个系统事件发生之前及/或之后的预定数量个系统信息。
为让本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附附图作详细说明如下。
附图说明
图1是依据本发明之一实施例绘示的监测装置示意图。
图2是依据本发明之一实施例绘示的监测服务器的方法流程图。
图3是依据图2绘示的监测服务器的方法流程图。
图4A及图4B分别是依据本发明之一实施例绘示的呈现系统信息的示意图。
图5是依据本发明之一实施例绘示的监测系统示意图。
其中,附图标记说明如下:
100:监测装置
110:储存单元
110_1:系统设定模块
110_2:系统信息提取模块
110_3:显示模块
120:处理单元
130:使用者界面
200:BMC
300:服务器
500:监测系统
510:决定装置
520:提取装置
522:暂存单元
530:储存装置
540:显示装置
542:使用者界面
S210~S240、S310、S320、S330_1_1~S330_1_2、S330_2_1~S330_2_3、S330_3_1~S330_3_4、S340:本发明实施例的监测服务器方法步骤
具体实施方式
图1是依据本发明之一实施例绘示的监测装置示意图。在本实施例中,监测装置100包括储存单元110、处理单元120及使用者界面130。储存单元110例如是存储器、硬盘或是其他任何可用于储存数据的元件,而可用以记录多个程序码或模块。处理单元120耦接储存单元110,而可以是一般用途处理器、特殊用途处理器、传统的处理器、数字信号处理器、多个微处理器(microprocessor)、一个或多个结合数字信号处理器核心的微处理器、控制器、微控制器、特殊应用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列电路(Field ProgrammableGate Array,FPGA)、任何其他种类的集成电路、状态机、基于进阶精简指令集机器(Advanced RISC Machine,ARM)的处理器以及类似品。使用者界面130耦接处理单元120,而可以是液晶显示器(Liquid-CrystalDisplay,LCD)、电浆显示器、真空荧光显示器、发光二极管(Light-EmittingDiode,LED)显示器、场发射显示器(Field Emission Display,FED)及/或其他合适种类的显示器。
在本实施例中,监测装置100例如可通过汇流排及各种有线或无线的连接方式连接至用于管理服务器300的BMC 200。并且,监测装置100可从BMC 200提取关联于发生在服务器300上的系统事件的系统信息。如此一来,管理人员即可基于这些系统信息来进行调试的工作。以下将进行详细的说明。
在一实施例中,处理单元120可存取并执行储存单元110中的系统设定模块110_1、系统信息提取模块110_2以及显示模块110_3以执行本发明提出的监测服务器的方法。
图2是依据本发明之一实施例绘示的监测服务器的方法流程图。本实施例的方法可由图1的监测装置100执行,以下即搭配图1的元件来说明本方法的详细步骤。
在步骤S210中,系统设定模块110_1可设定欲从服务器300监测的系统事件。所述系统事件例如是可导致服务器300关机、失效或故障的事件,或是管理人员欲监测的其他定义于IPMI标准中的事件。举例而言,系统事件可以是某个GPIO的状态(例如,处于低电平或下降边缘的平台重置脚位(platform reset pin))、BMC调试控制台的某个字串(例如,「error」)或是特定的某个SEL记录(例如,「FRB2 watch dog timeout」)等,但本发明的可实施方式不限于此。
接着,在步骤S220中,系统设定模块110_1可设定用于记录服务器300的系统信息的触发记录模式及预定记录数量。在一实施例中,服务器300的系统信息例如是定义于IPMI标准中的系统信息,其可包括BIOS的POST码、CPU的MSR、SOL、BIOS的调试终端机、服务器300的GPIO状态、BMC 200的感测器、iKVM画面以及风扇转速的至少其中之一,但本发明的可实施方式不限于此。在不同的实施例中,所述触发记录模式例如包括触发前(pre)记录模式、中途(middle)记录模式及触发后(post)记录模式,而预定记录数量代表所需的系统信息数量。概略而言,所述三种触发记录模式分别用于记录系统事件发生之前及/或系统事件发生之后的预定记录数量个系统信息。举例而言,假设系统设定模块110_1设定的系统信息、触发记录模式及预定记录数量分别为BIOS的POST码、触发前记录模式及10,则最后被提取用于提供管理人员的信息即是系统事件发生之前的10笔BIOS的POST码。举另一例而言,假设系统设定模块110_1设定的系统信息、触发记录模式及预定记录数量分别为SOL、触发后记录模式及20,则最后被提取用于提供管理人员的信息即是系统事件发生之后的20笔SOL。
在步骤S220之后,系统信息提取模块110_2可在步骤S230依据触发记录模式以及预定记录数量从管理服务器300的BMC 200提取关联于系统事件的系统信息至储存单元110。亦即,系统信息提取模块110_2可提取系统事件发生之前及/或系统事件发生之后的多笔相关的系统信息。并且,在步骤S240中,显示模块110_3可显示储存于储存单元110的系统信息于使用者界面130。如此一来,管理人员即可基于所显示多笔系统信息回溯系统事件发生时的服务器300运行状况,从而提升调试上的便利性。
如先前所提及的,本发明实施例的触发记录模式可包括触发前记录模式、中途记录模式及触发后记录模式,以下即通过图3来说明这三种触发记录模式的细节。
图3是依据图2绘示的监测服务器的方法流程图。本实施例的方法可由图1的监测装置100执行,以下即搭配图1的元件来说明本方法的详细步骤。
首先,在步骤S310中,系统设定模块110_1可设定欲从服务器300监测的系统事件。在步骤S320中,系统设定模块110_1可设定用于记录服务器300的系统信息的触发记录模式及预定记录数量。步骤S310及S320的细节可参考图2的步骤S210及S220的说明,在此不再赘述。
在第一实施例中,若系统设定模块110_1设定的触发记录模式为触发后记录模式,则系统信息提取模块110_2可接续进行步骤S330_1_1以在服务器300运行时,等待系统事件发生。接着,在步骤S330_1_2中,当系统事件发生时,系统信息提取模块110_2可从BMC 200提取系统事件发生之后的特定系统信息及其时间戳记(time stamp),其中特定系统信息的数量为预定记录数量。为了便于说明,以下将假设欲监测的系统事件以及预定记录数量分别为SEL记录中的「FRB2 watch dog timeout」字串及20。此外,欲记录的系统信息则假设为服务器300的BIOS POST码及服务器300所有的GPIO状态。亦即,在上述假设的情况下,系统信息提取模块110_2可在系统事件发生之后从BMC 200提取20笔的BIOS POST码及其分别的时间戳记。同时,系统信息提取模块110_2可在系统事件发生之后对所有的GPIO状态分别提取20笔数据及其分别的时间戳记。接着,系统信息提取模块110_2可将所提取到的数据储存至储存单元110。之后,在步骤S340中,显示模块110_3可显示储存于储存单元110的系统信息于使用者界面130。如此一来,管理人员即可基于所显示的系统信息来进行调试。
在第二实施例中,若系统设定模块110_1设定的触发记录模式为触发前记录模式,则系统信息提取模块110_2可接续进行步骤S330_2_1以在服务器300运行时,持续提取来自于BMC 200的系统信息及其时间戳记至暂存单元。暂存单元例如是双直列存储器模块(dualinline memorymodule,DIMM),但本发明的可实施方式不限于此。之后,在步骤S330_2_2中,系统信息提取模块110_2可等待系统事件发生。接着,在步骤S330_2_3中,当系统事件发生时,系统信息提取模块110_2可停止提取来自于BMC200的系统信息及其时间戳记至暂存单元,并从暂存单元提取系统事件发生之前的特定系统信息,其中特定系统信息的数量为预定记录数量。
为了便于说明,以下将假设欲监测的系统事件以及预定记录数量分别为「CPU温度超过某门限值」及500。此外,欲记录的系统信息则假设为CPU温度、iKVM画面以及风扇转速。亦即,在上述假设的情况下,系统信息提取模块110_2可从暂存单元提取在系统事件发生之前的500笔CPU温度、iKVM画面以及风扇转速及其分别的时间戳记。之后,在步骤S340中,显示模块110_3可显示储存于储存单元110的系统信息于使用者界面130。如此一来,管理人员即可基于所显示的系统信息来进行调试。具体而言,管理人员可观察在发生「CPU温度超过某门限值」之前的CPU温度变化。若CPU温度从某个时间点开始明显上升,则管理人员可从iKVM画面中得知当时服务器300正在执行的程序。此外,管理人员还可从风扇转速得知是否因某个风扇失效才导致「CPU温度超过某门限值」发生。
举另一例而言,假设欲监测的系统事件以及预定记录数量分别为SEL记录中新增的「Power Off」字串(即,服务器300关机)以及100笔。此外,欲记录的系统信息则假设为iKVM画面。亦即,在上述假设的情况下,系统信息提取模块110_2可从暂存单元提取在系统事件发生之前的100笔iKVM画面及其分别的时间戳记。如此一来,管理人员即可从所提取的iKVM画面观察服务器300关机之前在执行什么程序,从而得知服务器300是被操作人员关机还是因程序出现问题而关机。
在第三实施例中,系统设定模块110_1可设定触发记录模式为中途记录模式。在本实施例中,中途记录模式可视为是触发前记录模式及触发后记录模式的结合。简言之,系统信息提取模块110_2可提取系统事件发生之前的第一预定记录数量个系统信息,以及系统事件发生之后的第二预定记录数量个系统信息来供管理人员参考。具体而言,若系统设定模块110_1设定触发记录模式为中途记录模式,则系统信息提取模块110_2可进行步骤S330_3_1以在服务器300运行时,持续提取来自于BMC 200的系统信息及其时间戳记至暂存单元。之后,在步骤S330_3_2中,系统信息提取模块110_2可等待系统事件发生。接着,在步骤S330_3_3中,当系统事件发生时,系统信息提取模块110_2可持续提取来自于BMC 200的第二预定记录数量个系统信息及其时间戳记至暂存单元。接着,在步骤S330_3_4中,系统信息提取模块110_2可从暂存单元提取系统事件发生之前的第一特定系统信息以及系统事件发生之后的第二特定系统信息,其中第一特定系统信息的数量为第一预定记录数量,且第二特定系统信息的数量为第二预定记录数量。
为了便于说明,以下将假设欲监测的系统事件、第一预定记录数量及第二预定记录数量分别为SEL记录中出现「FRB2 watch dog timeout」的字串、10及20。此外,欲记录的系统信息则假设为服务器300的BIOS POST码及服务器300所有的GPIO状态。亦即,在上述假设的情况下,系统信息提取模块110_2可从暂存单元提取系统事件发生之前的10笔的BIOSPOST码及其分别的时间戳记,以及系统事件发生之后的20笔的BIOSPOST码及其分别的时间戳记。同时,系统信息提取模块110_2可对所有的GPIO状态分别提取在系统事件发生之前的10笔数据及其分别的时间戳记,以及系统事件发生之后的20笔数据及其分别的时间戳记。接着,系统信息提取模块110_2可将所提取到的数据储存至储存单元110。之后,在步骤S340中,显示模块110_3可显示储存于储存单元110的系统信息于使用者界面130。如此一来,管理人员即可基于所显示的系统信息来进行调试。
详细而言,当SEL记录中出现「FRB2 watch dog timeout」的字串时,即代表服务器300的BIOS未正常开机。在此情况下,假设管理人员在系统事件发生之后的20笔的BIOSPOST码中未发现新增的BIOS POST码,此即代表BIOS已经当机。此时,管理人员可从系统事件发生之前的10笔的BIOS POST码观察BIOS正执行到哪个阶段,再配合系统事件发生之前的关联于各GPIO状态的数据来分析造成BIOS当机的可能原因。
另一方面,假设管理人员在系统事件发生之后的20笔的BIOS POST码中发现新增加的BIOS POST码,同时还发现出现离开BIOS进入操作系统(Operating System,OS)的POST码,此即代表服务器300仍是正常运作,只是在开机的过程中因某个硬件的关系而导致开机时间延长,从而导致「FRB2 watch dog timeout」的系统事件出现。在此情况下,管理人员即可从系统事件发生之前的最后一个BIOS POST码得知BIOS是因为初始化哪个硬件才导致开机时间延长。
在一实施例中,系统信息显示于使用者界面130的方式可依系统信息的种类而有所不同。举例而言,BIOS POST码可采用下表1的方式来呈现。
时间戳记 BIOS POST码
2015/8/3 13:10:5 1A
2015/8/3 13:13:7 4C
表1
请参照图4A及图4B,其分别是依据本发明之一实施例绘示的呈现系统信息的示意图。在图4A中,各个风扇在各个时间点的转速可采用折线图呈现。在图4B中,iKVM画面例如可采用媒体播放器来播放,以供管理人员参考。
虽然本发明的方法在前述的实施例中仅监测一种系统事件,但在其他实施例中,本发明的方法可同时监测数种系统事件以及对应的系统信息。并且,各系统信息对应的预定记录数量也可由管理人员依需求调整。
另外,在不同的实施例中,系统信息提取模块110_2可基于某个特定的取样频率来提取系统信息。举例而言,假设系统信息提取模块110_2用于提取iKVM画面的取样频率为10个/秒,且所需的预定记录数量为100笔。在此情况下,系统信息提取模块110_2可提取到总共10秒的画面。举另一例而言,假设系统信息提取模块110_2用于提取iKVM画面的取样频率为1个/秒,且所需的预定记录数量为100笔。在此情况下,系统信息提取模块110_2可提取到总共100秒的画面。另外,当系统信息提取模块110_2基于取样频率来提取系统信息时,可仅储存其中几笔系统信息(例如第一笔系统信息)的时间戳记即可。具体而言,由于每两笔连续的系统信息相隔的时间为取样频率的倒数,因此其他系统信息的时间戳记可轻易地推得。然而,针对POST码这类产生时间不固定的数据,系统信息提取模块110_2可在每次POST码新增时即记录其时间戳记。
在一实施例中,监测装置100中的各个元件还可实现为各个独立的装置,从而组成监测BMC的监测系统,如图5所示。请参照图5,其是依据本发明之一实施例绘示的监测系统示意图。在本实施例中,监测系统500包括决定装置510、提取装置520、储存装置530以及显示装置540。提取装置510可包括暂存单元522,而显示装置540可包括使用者界面542。决定装置510、提取装置520以及显示装置540监测管理服务器300的BMC 200的运作方式可参照先前实施例中关于系统设定模块110_1、系统信息提取模块110_2以及显示模块110_3的相关说明,在此不再赘述。
综上所述,本发明实施例提出的监测服务器的方法、监测装置以及监测系统可依据所使用的触发记录模式来提取某个系统事件发生之前及/或之后的预定数量个系统信息。如此一来,管理人员即可基于所提取的系统信息来回溯系统事件发生时的状况,从而提升调试上的方便性。另外,由于不需持续性地储存所有系统信息,而只需储存系统事件发生之前及/或之后的系统信息,因此本发明的方法还可降低储存单元在储存上的负担。
虽然本发明已以实施例公开如上,然其并非用以限定本发明,任何所属技术领域的普通技术人员,在不脱离本发明的精神和范围内,当可作些许的更动与润饰,故本发明的保护范围当视所附的权利要求书所界定者为准。

Claims (15)

1.一种监测服务器的方法,其特征在于,包括:
设定欲从一服务器监测的一系统事件;
依据该系统事件设定欲记录的该服务器的一系统信息,该系统信息关联于该系统事件;
依据该系统事件设定一触发记录模式,其中该触发记录模式为一触发前记录模式、一触发后记录模式或一中途记录模式;
设定用于记录该系统信息的一预定记录数量;
等待该系统事件发生;
响应于在该服务器运行时该系统事件的发生,依据该触发记录模式以及该预定记录数量从管理该服务器的一基板管理控制器提取关联于该系统事件的该系统信息至一储存单元;
依据该触发记录模式以及该预定记录数量停止提取该系统信息至该储存单元;以及
显示储存于该储存单元的该系统信息于一使用者界面;
其中该系统信息包括时间不固定的数据。
2.如权利要求1所述的方法,其中当该触发记录模式被设定为该触发前记录模式时,依据该触发记录模式以及该预定记录数量从管理该服务器的该基板管理控制器提取关联于该系统事件的该系统信息至该储存单元的步骤包括:
在该服务器运行时,持续提取来自于该基板管理控制器的该系统信息及其时间戳记至一暂存单元;
等待该系统事件发生;以及
当该系统事件发生时,停止提取来自于该基板管理控制器的该系统信息及其时间戳记至该暂存单元,并从该暂存单元提取该系统事件发生之前的一特定系统信息及其时间戳记,将该特定系统信息及其时间戳记储存至该储存单元,其中该特定系统信息的数量为该预定记录数量。
3.如权利要求1所述的方法,其中当该触发记录模式被设定为该触发后记录模式时,依据该触发记录模式以及该预定记录数量从管理该服务器的该基板管理控制器提取关联于该系统事件的该系统信息至该储存单元的步骤包括:
在该服务器运行时,等待该系统事件发生;以及
当该系统事件发生时,从该基板管理控制器提取该系统事件发生之后的一特定系统信息及其时间戳记,其中该特定系统信息的数量为该预定记录数量。
4.如权利要求1所述的方法,其中当该触发记录模式被设定为该中途记录模式时,该预定记录数量包括一第一预定记录数量及一第二预定记录数量,且依据该触发记录模式以及该预定记录数量从管理该服务器的该基板管理控制器提取关联于该系统事件的该系统信息至该储存单元的步骤包括:
在该服务器运行时,持续提取来自于该基板管理控制器的该系统信息及其时间戳记至一暂存单元;
等待该系统事件发生;
当该系统事件发生时,持续提取来自于该基板管理控制器的该第二预定记录数量个该系统信息及其时间戳记至该暂存单元;以及
从该暂存单元提取该系统事件发生之前的一第一特定系统信息及其时间戳记以及该系统事件发生之后的一第二特定系统信息及其时间戳记,将该第一特定系统信息及其时间戳记以及该第二特定系统信息及其时间戳记储存至该储存单元,其中该第一特定系统信息的数量为该第一预定记录数量,且该第二特定系统信息的数量为该第二预定记录数量。
5.如权利要求1所述的方法,其中该系统信息包括一基本输入输出系统的一开机自我测试码、该服务器的一般用途输入/输出状态、一在网际网络协议上的键盘/视频/鼠标画面以及一风扇转速的至少其中之一。
6.一种监测装置,其特征在于,包括:
一使用者界面;
一储存单元,储存有一计算机程序;以及
一处理单元,耦接该储存单元及该使用者界面,该处理单元执行该计算机程序以实现以下方法:
设定欲从一服务器监测的一系统事件,以及依据该系统事件设定欲记录的该服务器的一系统信息,该系统信息关联于该系统事件;依据该系统事件设定一触发记录模式,其中该触发记录模式为一触发前记录模式、一触发后记录模式或一中途记录模式;设定用于记录该系统信息的一预定记录数量;
等待该系统事件发生,响应于在该服务器运行时该系统事件的发生,依据该触发记录模式以及该预定记录数量从管理该服务器的一基板管理控制器提取关联于该系统事件的该系统信息至该储存单元;依据该触发记录模式以及该预定记录数量停止提取该系统信息至该储存单元;以及
显示储存于该储存单元的该系统信息于该使用者界面;
其中该系统信息包括时间不固定的数据。
7.如权利要求6所述的监测装置,其中当该触发记录模式被设定为该触发前记录模式时,该处理单元经配置以:
在该服务器运行时,持续提取来自于该基板管理控制器的该系统信息及其时间戳记至一暂存单元;
等待该系统事件发生;以及
当该系统事件发生时,停止提取来自于该基板管理控制器的该系统信息及其时间戳记至该暂存单元,并从该暂存单元提取该系统事件发生之前的一特定系统信息及其时间戳记,将该特定系统信息及其时间戳记储存至该储存单元,其中该特定系统信息的数量为该预定记录数量。
8.如权利要求6所述的监测装置,其中当该触发记录模式被设定为该触发后记录模式时,该处理单元经配置以:
在该服务器运行时,等待该系统事件发生;以及
当该系统事件发生时,从该基板管理控制器提取该系统事件发生之后的一特定系统信息及其时间戳记,其中该特定系统信息的数量为该预定记录数量。
9.如权利要求6所述的监测装置,其中当该触发记录模式被设定为该中途记录模式时,该预定记录数量包括一第一预定记录数量及一第二预定记录数量,且该处理单元经配置以:
在该服务器运行时持续提取来自于该基板管理控制器的该系统信息及其时间戳记至一暂存单元;
等待该系统事件发生;
当该系统事件发生时,持续提取来自于该基板管理控制器的该第二预定记录数量个该系统信息及其时间戳记至该暂存单元;以及
从该暂存单元提取该系统事件发生之前的一第一特定系统信息及其时间戳记以及该系统事件发生之后的一第二特定系统信息及其时间戳记,将该第一特定系统信息及其时间戳记以及该第二特定系统信息及其时间戳记储存至该储存单元,其中该第一特定系统信息的数量为该第一预定记录数量,且该第二特定系统信息的数量为该第二预定记录数量。
10.如权利要求6所述的监测装置,其中该系统信息包括一基本输入输出系统的一开机自我测试码、该服务器的一般用途输入/输出状态、一在网际网络协议上的键盘/视频/鼠标画面以及一风扇转速的至少其中之一。
11.一种监测系统,其特征在于,包括:
一决定装置,设定欲从一服务器监测的一系统事件,以及依据该系统事件设定欲记录的该服务器的一系统信息,该系统信息关联于该系统事件;依据该系统事件设定一触发记录模式,其中该触发记录模式为一触发前记录模式、一触发后记录模式或一中途记录模式;设定用于记录该系统信息的一预定记录数量;
一提取装置,耦接该决定装置,等待该系统事件发生,响应于在该服务器运行时该系统事件的发生,依据该触发记录模式以及该预定记录数量从管理该服务器的一基板管理控制器提取关联于该系统事件的该系统信息至耦接该提取装置的一储存装置;依据该触发记录模式以及该预定记录数量停止提取该系统信息至该储存装置;以及
一显示装置,耦接该储存装置,显示储存于该储存装置的该系统信息于一使用者界面;
其中该系统信息包括时间不固定的数据。
12.如权利要求11所述的监测系统,其中当该触发记录模式被设定为该触发前记录模式时,该提取装置经配置以:
在该服务器运行时,持续提取来自于该基板管理控制器的该系统信息及其时间戳记至一暂存单元;
等待该系统事件发生;以及
当该系统事件发生时,停止提取来自于该基板管理控制器的该系统信息及其时间戳记至该暂存单元,并从该暂存单元提取该系统事件发生之前的一特定系统信息及其时间戳记,将该特定系统信息及其时间戳记储存至该储存装置,其中该特定系统信息的数量为该预定记录数量。
13.如权利要求11所述的监测系统,其中当该触发记录模式被设定为该触发后记录模式时,该提取装置经配置以:
在该服务器运行时,等待该系统事件发生;以及
当该系统事件发生时,从该基板管理控制器提取该系统事件发生之后的一特定系统信息及其时间戳记,其中该特定系统信息的数量为该预定记录数量。
14.如权利要求11所述的监测系统,其中当该触发记录模式被设定为该中途记录模式时,该预定记录数量包括一第一预定记录数量及一第二预定记录数量,且该提取装置经配置以:
在该服务器运行时持续提取来自于该基板管理控制器的该系统信息及其时间戳记至一暂存单元;
等待该系统事件发生;
当该系统事件发生时,持续提取来自于该基板管理控制器的该第二预定记录数量个该系统信息及其时间戳记至该暂存单元;以及
从该暂存单元提取该系统事件发生之前的一第一特定系统信息及其时间戳记以及该系统事件发生之后的一第二特定系统信息及其时间戳记,将该第一特定系统信息及其时间戳记以及该第二特定系统信息及其时间戳记储存至该储存装置,其中该第一特定系统信息的数量为该第一预定记录数量,且该第二特定系统信息的数量为该第二预定记录数量。
15.如权利要求11所述的监测系统,其中该系统信息包括一基本输入输出系统的一开机自我测试码、该服务器的一般用途输入/输出状态、一在网际网络协议上的键盘/视频/鼠标画面以及一风扇转速的至少其中之一。
CN201510701460.1A 2015-10-02 2015-10-26 监测服务器的方法、监测装置及监测系统 Active CN106561018B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW104132648A TWI632453B (zh) 2015-10-02 2015-10-02 監測伺服器的方法、監測裝置及監測系統
TW104132648 2015-10-02

Publications (2)

Publication Number Publication Date
CN106561018A CN106561018A (zh) 2017-04-12
CN106561018B true CN106561018B (zh) 2021-09-21

Family

ID=58447877

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510701460.1A Active CN106561018B (zh) 2015-10-02 2015-10-26 监测服务器的方法、监测装置及监测系统

Country Status (3)

Country Link
US (1) US10698788B2 (zh)
CN (1) CN106561018B (zh)
TW (1) TWI632453B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104484305B (zh) * 2015-01-06 2021-02-05 浪潮(北京)电子信息产业有限公司 一种服务器调试分析接口装置
US10176142B2 (en) * 2016-08-19 2019-01-08 American Megatrtends, Inc. Techniques of accessing BMC terminals through serial port
US10489601B2 (en) * 2017-06-08 2019-11-26 American Megatrends International, Llc Encrypted extended system event log
US10291714B2 (en) * 2017-07-13 2019-05-14 American Megatrends, Inc. System and method for using general software to control internet of things (IOT) system
KR102354058B1 (ko) * 2017-08-24 2022-01-20 삼성에스디에스 주식회사 서버 모니터링 방법과 이를 수행하기 위한 장치 및 시스템
CN107623598A (zh) * 2017-09-25 2018-01-23 郑州云海信息技术有限公司 一种服务器待测系统自动化部署的方法
CN107741895B (zh) * 2017-11-06 2020-07-10 广州酷狗计算机科技有限公司 服务器管理方法、装置及设备
TWI657337B (zh) * 2017-12-29 2019-04-21 新唐科技股份有限公司 事件記錄控制器與電子裝置
US10846160B2 (en) * 2018-01-12 2020-11-24 Quanta Computer Inc. System and method for remote system recovery
CN108595319B (zh) * 2018-03-30 2020-08-04 阿里巴巴集团控股有限公司 函数选取方法和服务器
TWI679532B (zh) * 2018-10-05 2019-12-11 緯穎科技服務股份有限公司 監測系統與方法
CN113708986B (zh) * 2020-05-21 2023-02-03 富联精密电子(天津)有限公司 服务器监控装置、方法及计算机可读存储介质
CN111625382B (zh) * 2020-05-21 2022-06-10 浪潮电子信息产业股份有限公司 一种服务器故障诊断方法、装置、设备及介质
CN111767170B (zh) * 2020-06-28 2024-02-27 百度在线网络技术(北京)有限公司 设备的操作复原方法、装置、设备以及存储介质
CN113110970B (zh) * 2021-04-08 2023-05-26 浪潮商用机器有限公司 服务器工作模式下各部件的监测方法、装置、设备及介质
CN113892142A (zh) * 2021-08-31 2022-01-04 长江存储科技有限责任公司 存储器系统的固件的掉电测试
CN115757042A (zh) * 2022-11-29 2023-03-07 宁畅信息产业(北京)有限公司 Bmc异常重启的故障定位方法、装置、电子设备及存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7844866B2 (en) * 2007-10-02 2010-11-30 International Business Machines Corporation Mechanism to report operating system events on an intelligent platform management interface compliant server
US20050060372A1 (en) * 2003-08-27 2005-03-17 Debettencourt Jason Techniques for filtering data from a data stream of a web services application
US7266726B1 (en) * 2003-11-24 2007-09-04 Time Warner Cable Inc. Methods and apparatus for event logging in an information network
TWI255996B (en) 2004-05-31 2006-06-01 Wellsyn Technology Inc Advanced IPMI system with multi-message processing and configurable performance and method for the same
TWI275933B (en) 2004-08-27 2007-03-11 Inventec Corp Intelligent platform event alarming system and method thereof
US7827447B2 (en) * 2007-01-05 2010-11-02 International Business Machines Corporation Sliding window mechanism for data capture and failure analysis
US7493598B1 (en) * 2008-01-26 2009-02-17 International Business Machines Corporation Method and system for variable trace entry decay
TW200945030A (en) 2008-04-29 2009-11-01 Inventec Corp System and method for monitoring a baseboard management controller
TWI510917B (zh) 2009-11-18 2015-12-01 Insyde Software Corp 伺服器管理系統及其方法
JPWO2012046293A1 (ja) * 2010-10-04 2014-02-24 富士通株式会社 障害監視装置、障害監視方法及びプログラム
US9184991B2 (en) * 2012-01-13 2015-11-10 American Megatrends, Inc. Method and apparatus for developing service processor solutions
JP6048038B2 (ja) * 2012-09-27 2016-12-21 富士通株式会社 情報処理装置,プログラム,情報処理方法
US20140280469A1 (en) * 2013-03-14 2014-09-18 American Megatrends, Inc. Method and apparatus for remote management of computer system using handheld device
US20160011928A1 (en) * 2013-03-26 2016-01-14 Nec Corporation Log output control device, method, and computer-readable recording medium
CN103441861B (zh) 2013-07-16 2017-03-08 杭州华为数字技术有限公司 一种数据记录生成方法及装置
TWI625622B (zh) * 2013-10-31 2018-06-01 聯想企業解決方案(新加坡)有限公司 在多核心處理器系統與運作多核心處理器系統的電腦實施方法
US9535780B2 (en) * 2013-11-18 2017-01-03 International Business Machines Corporation Varying logging depth based on user defined policies
JP6187686B2 (ja) * 2014-05-20 2017-08-30 富士通株式会社 情報処理装置、情報処理システム及び方法

Also Published As

Publication number Publication date
CN106561018A (zh) 2017-04-12
TWI632453B (zh) 2018-08-11
US10698788B2 (en) 2020-06-30
TW201714085A (zh) 2017-04-16
US20170097880A1 (en) 2017-04-06

Similar Documents

Publication Publication Date Title
CN106561018B (zh) 监测服务器的方法、监测装置及监测系统
US9954727B2 (en) Automatic debug information collection
TWI632462B (zh) 開關裝置及偵測積體電路匯流排之方法
WO2015039598A1 (zh) 故障定位方法及装置
WO2017063505A1 (zh) 一种服务器硬件故障检测方法及其装置和服务器
US8380903B2 (en) Administering the polling of a number of devices for device status
US9389942B2 (en) Determine when an error log was created
US7318171B2 (en) Policy-based response to system errors occurring during OS runtime
US20080270827A1 (en) Recovering diagnostic data after out-of-band data capture failure
US20090300644A1 (en) Method to Detect a Deadlock Condition by Monitoring Firmware Inactivity During the System IPL Process
US9542304B1 (en) Automated operating system installation
TW201502771A (zh) 基於基板管理控制器的主板管理系統及方法
JP2016085728A (ja) デバイス故障後のコンソールメッセージ回収方法およびシステム
CN113708986A (zh) 服务器监控装置、方法及计算机可读存储介质
TWI771759B (zh) 電源故障監測方法、裝置、電子設備及存儲介質
CN111858178B (zh) 一种电源启动类型的判断方法、装置、设备及可读介质
CN112506693A (zh) 一种记录异常信息的方法、装置、存储介质和电子设备
JP5689783B2 (ja) コンピュータ、コンピュータシステム、および障害情報管理方法
CN115599617A (zh) 总线检测方法、装置、服务器及电子设备
CN114138600A (zh) 一种固件关键信息的存储方法、装置、设备及存储介质
CN113626278B (zh) 一种硬件拓扑生成方法及其相关设备
Huffman Windows Performance Analysis Field Guide
CN110532160B (zh) 一种bmc记录服务器系统热重启事件的方法
Gupta Noise reduction in solid state drive (SSD) system validation
JP6477524B2 (ja) サーバ装置、画面情報取得方法およびbmc

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20180330

Address after: The new Taiwan Chinese Taiwan New Taipei City Xizhi District Five Road No. 88 21 floor

Applicant after: Weft technology service Limited by Share Ltd

Address before: Chinese Taiwan New Taipei City

Applicant before: Weichuang Zitong Co., Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant