CN113708986A - 服务器监控装置、方法及计算机可读存储介质 - Google Patents

服务器监控装置、方法及计算机可读存储介质 Download PDF

Info

Publication number
CN113708986A
CN113708986A CN202010438231.6A CN202010438231A CN113708986A CN 113708986 A CN113708986 A CN 113708986A CN 202010438231 A CN202010438231 A CN 202010438231A CN 113708986 A CN113708986 A CN 113708986A
Authority
CN
China
Prior art keywords
abnormal
sdr
server
sdr data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010438231.6A
Other languages
English (en)
Other versions
CN113708986B (zh
Inventor
林廷皆
黄尹
程俊德
潘圣中
董光展
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hongfujin Precision Electronics Tianjin Co Ltd
Original Assignee
Hongfujin Precision Electronics Tianjin Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hongfujin Precision Electronics Tianjin Co Ltd filed Critical Hongfujin Precision Electronics Tianjin Co Ltd
Priority to CN202010438231.6A priority Critical patent/CN113708986B/zh
Priority to US17/097,259 priority patent/US11537501B2/en
Publication of CN113708986A publication Critical patent/CN113708986A/zh
Application granted granted Critical
Publication of CN113708986B publication Critical patent/CN113708986B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • G06F11/3062Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations where the monitored property is the power consumption
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3433Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment for load management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一种服务器监控装置、方法及计算机可读存储介质,所述方法包括:收集待监控服务器集群的传感器数据记录(Sensor Data Record,SDR)数据,其中所述待监控服务器集群包括至少一服务器;将所述收集的SDR数据以预设文件格式存储至指定存储区;采用预设分析规则对所述指定存储区中的SDR数据进行分析,以判断是否存在异常SDR数据;及若存在异常SDR数据,则输出与所述异常SDR数据对应的异常元件的警示信息。本发明通过对SDR数据进行分析,可实现监测服务器及其内部传感器的运行状态。

Description

服务器监控装置、方法及计算机可读存储介质
技术领域
本发明涉及通信设备技术领域,尤其涉及一种服务器监控装置、方法及计算机可读存储介质。
背景技术
近几年来,随着科技和网络的快速发展,服务器的功能愈益强大。为了保证服务器工作的稳定性,一般采用基板管理控制器(Baseboard Management Control,BMC)来监控和管理服务器系统的运作。BMC可以把系统发生的事件记录在非易失的系统事件日志(SEL)中,比如记录的事件类型包括温度异常、电压异常、风扇异常等。在监控过程中,BMC还可以管理非易失的传感器数据记录存储库(SDRR),可以从此库中检索出系统运行时的信息。因此,BMC自动生成的日志信息成为查看服务器运行状态的重要指标和参考依据。然而,基于BMC自动生成的日志信息无法得到用于监测服务器运行状态的传感器的异常事件。
发明内容
有鉴于此,有必要提供一种服务器监控装置、方法及计算机可读存储介质,可实现监测服务器及其内部传感器的运行状态。
本发明一实施方式提供一种服务器监控方法,所述方法包括:
收集待监控服务器集群的传感器数据记录(Sensor Data Record,SDR)数据,其中所述待监控服务器集群包括至少一服务器;
将所述收集的SDR数据以预设文件格式存储至指定存储区;
采用预设分析规则对所述指定存储区中的SDR数据进行分析,以判断是否存在异常SDR数据;及
若存在异常SDR数据,则输出与所述异常SDR数据对应的异常元件的警示信息。
优选地,所述方法还包括:
获取所述待监控服务器集群的基板管理控制器生成的日志文件;及
检测所述基板管理控制器生成的日志文件是否存在异常日志文件,并输出检测到的异常日志文件。
优选地,所述异常SDR数据包括第一类型的异常SDR数据及第二类型的异常SDR数据,其中,所述第一类型的异常SDR数据能触发所述基板管理控制器生成对应的异常日志文件,所述第二类型的异常SDR数据不能触发所述基板管理控制器生成对应的异常日志文件。
优选地,所述方法还包括:
判断所述异常日志文件中是否存在与所述第一类型的异常SDR数据相对应的日志文件;及
若所述异常日志文件中不存在与所述第一类型的异常SDR数据相对应的日志文件,则输出预设提示信息。
优选地,所述若存在异常SDR数据,则输出与所述异常SDR数据对应的异常元件的警示信息的步骤包括:
若存在所述异常SDR数据,则基于所述异常SDR数据生成SDR异常日志文件;及
输出所述SDR异常日志文件及与所述异常SDR数据对应的异常元件的警示信息。
优选地,所述方法还包括:
将所述收集的SDR数据转换成SDR曲线图,并输出所述SDR曲线图;及
监控所述收集的SDR数据,以更新所述SDR曲线图。
优选地,所述异常元件包括用于监测所述服务器的部件的传感器和/或所述服务器的部件,所述警示信息包括异常资讯及异常发生的时间区间。
优选地,所述方法还包括:
通过网页方式接入与所述待监控服务器集群关联的被测系统,以收集所述待监控服务器集群的SDR数据。
本发明一实施方式提供一种服务器监控装置,所述装置包括处理器及存储器,所述存储器上存储有若干计算机程序,所述处理器用于执行存储器中存储的计算机程序时实现上述服务器监控方法的步骤。
本发明一实施方式还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,多条所述指令可被一个或者多个处理器执行,以实现上述的服务器监控方法的步骤。
与现有技术相比,上述服务器监控装置、方法及计算机可读存储介质,通过对SDR数据进行分析,可实现将BMC无法发现的异常信息进行回报,提前找出部件衰退/损坏的迹象,且可定位出有问题的传感器及服务器元件,同时也可实现对BMC日志文件进行筛选与异常日志回报。
附图说明
图1是本发明一实施方式的服务器监控装置的功能模块图。
图2是本发明一实施方式的服务器监控程序的功能模块图。
图3是本发明一实施方式的服务器监控方法的流程图。
主要元件符号说明
Figure BDA0002503099130000031
Figure BDA0002503099130000041
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
进一步需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
请参阅图1,为本发明服务器监控装置较佳实施例的示意图。
服务器监控装置100可以实现对数据中心200中的多个服务器进行监控,比如数据中心200包括至少一待监控服务器集群,该待监控服务器集群可以包括多个服务器。可以理解,服务器监控装置100也可以根据实际需求来监控用户所指定的服务器或服务器集群,在此不作限定。
服务器监控装置100可以包括存储器10、处理器20以及存储在存储器10中并可在处理器20上运行的服务器监控程序30。处理器20执行服务器监控程序30时实现服务器监控方法实施例中的步骤,例如图3所示的步骤S300~S306。或者,所述处理器20执行服务器监控程序30时实现图2中各模块的功能,例如模块101~105。
服务器监控程序30可以被分割成一个或多个模块,所述一个或者多个模块被存储在存储器10中,并由处理器20执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,所述指令段用于描述服务器监控程序30在服务器监控装置100中的执行过程。例如,服务器监控程序30可以被分割成图2中的收集模块101、存储模块102、分析模块103、输出模块104及转换模块105。各模块具体功能参见下图2中各模块的功能。
本领域技术人员可以理解,所述示意图仅是服务器监控装置100的示例,并不构成对服务器监控装置100的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如服务器监控装置100还可以包括输入显示设备、通信模块、总线等。
处理器20可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者处理器20也可以是任何常规的处理器等,处理器20可以利用各种接口和总线连接服务器监控装置100的各个部分。
存储器10可用于存储服务器监控程序30和/或模块,处理器20通过运行或执行存储在存储器10内的计算机程序和/或模块,以及调用存储在存储器10内的数据,实现服务器监控装置100的各种功能。存储器10可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
图2为本发明服务器监控程序较佳实施例的功能模块图。
参阅图2所示,服务器监控程序30可以包括收集模块101、存储模块102、分析模块103、输出模块104及转换模块105。在一实施方式中,上述模块可以为存储于存储器10中且可被处理器20调用执行的可程序化软件指令。可以理解的是,在其他实施方式中,上述模块也可为固化于处理器20中的程序指令或固件(firmware)。
收集模块101用于收集待监控服务器集群的SDR数据。
在一实施方式中,所述待监控服务器集群包括至少一服务器,所述待监控服务器集群可以是用户指定需进行监控的服务器集群,如数据中心200的服务器集群。
在一实施方式中,收集模块101可以通过网页方式接入该待监控服务器集群关联的SUT(System Under Test,被测系统),该SUT可以包括SDR监测器,服务器监控装置100可以发送控制指令给SDR监测器,进而收集模块101可以收集到所述待监控服务器集群的每一服务器的SDR数据。在本发明的其他实施方式中,收集模块101也可以通过与所述待监控服务器集群的IPMI(Intelligent Platform Management Interface,智能平台管理接口)监测器通信,实现收集所述待监控服务器集群的每一服务器的SDR数据。
可以理解,对于每一服务器而言,可以利用IPMI监视服务器的物理特征,比如通过散布在服务器基板、系统板、机箱、风扇等位置的传感器实现监视服务器的物理特征,基于该些传感器监测到的数据即可生成SDR数据,该些SDR数据可以被存储在传感器数据记录存储库(SDRR)中,该物理特征可以是温度、电压、风扇工作状态、电源状态等。设置在服务器中的主板管理控制器(BMC)可以实现自动监视服务器系统的管理事件,并可把发生的事件记录在非易失的系统事件日志(SEL)中。在对服务器进行监视过程中,BMC还可以管理非易失的SDRR,并可从此库中检索出系统运行时的信息。
存储模块102用于将所述收集的SDR数据以预设文件格式存储至指定存储区。
在一实施方式中,所述预设格式可以根据实际需求进行确定,比如为CSV文件格式,所述指定存储区同样可以根据实际需求进行确定,比如是指定的文件服务器、指定的数据库等。存储至所述指定存储区的文件可以以服务器的名称、编号或者服务器对应的SUT的名称为文件名,以进行区分,避免文件杂乱,方便后续管理者进行查看等操作。比如,存储模块102将所述收集到的SDR数据以SDR_SUT_1.CSV、SDR_SUT_2.CSV、SDR_SUT_3.CSV、…、SDR_SUT_n.CSV等文件的形式存储至指定的文件服务器。
分析模块103用于采用预设分析规则对所述指定存储区中的SDR数据进行分析,以判断是否存在异常SDR数据。
在一实施方式中,所述预设分析规则可以是预先定义的对不同类型的SDR数据的分析规则,且可以根据实际需求进行调整,所述不同类型可以是指电压、温度、转速等不同类型参数,若为同一类型的参数,因不同的元件亦存在不同的分析规则,比如CPU温度、硬盘温度可以具有不同的分析规则。
在一实施方式中,若SDR数据包括CPU温度数据及电源功率消耗数据,在开启压力测试与结束压力测试时分别检测10个CPU温度数据及10个电源功率消耗数据,所述预设分析规则包括:当开启压力测试(高负载)时,CPU的温度数据应该是要高于先前未开启压力测试的温度数据,电源功率消耗应该大于未开启压力测试的功率消耗数据,当压力测试结束时,CPU的温度数据应该是要低于先前进行压力测试时的温度数据,电源功率消耗应该小于未开启压力测试的功率消耗数据,否则,分析模块103可以判断存在异常,并定位异常点。
可以理解,在服务器运行过程中,芯片电压数据可能需要保持稳定状态,温度或者风速转速则应该是动态的,无法完全保持不变状态。所述预设分析规则可以是:分析n笔(比如50笔)连续SDR数据,若是电压数据,则n笔连续SDR数据应该是相同的,若是温度数据或者风速转速数据等,则n笔连续SDR数据应该是动态的,即n笔连续SDR数据不完全相同。否则,分析模块103可以判断存在异常,并定位异常点。
在一实施方式中,属于一个群组的部件的SDR数据应该是基本相同的。所述预设分析规则可以是:任意一时刻的群组中的每一部件的SDR数据差值应该是在预设差值区间内。比如,一群组包括多个正常工作的CPU,则在任意一时刻,每一CPU的温度数据的差值应该在15%以内,一群组包括多个正常工作的固态硬盘(SSD),则在任意一时刻,每一SSD的温度数据的差值应该在10%以内,一群组包括多个正常工作的风扇,则在任意一时刻,每一风扇的转速差值应该在10%以内。否则,分析模块103可以判断存在异常,并定位异常点。
所述预设分析规则还可以是:在服务器自检过程中,风扇转速应该是自检开始时升高,在自检结束时下降,比如在自检开始时,风扇转速应该至少升高20%,在自检结束时,风扇转速应该至少降低20%。否则,分析模块103可以判断存在异常,并定位异常点。
在一实施方式中,分析模块103还可以将异常SDR数据结合SEL日志文件进行分析,以实现判断异常SDR数据是由于传感器自身异常产生,还是服务器本身的部件异常产生。
在一实施方式中,所述异常SDR数据可以包括第一类型的异常SDR数据及第二类型的异常SDR数据。所述第一类型的异常SDR数据可以是指能触发BMC生成对应的异常日志文件的数据,所述第二类型的异常SDR数据可以是指不能触发BMC生成对应的异常日志文件的数据,进而分析模块103可以实现针对BMC没有回报的错误资讯,提前找出部件的异常/衰退的迹象,让使用者或者某个部件可能即将损坏。
输出模块104用于输出与所述异常SDR数据对应的异常元件的警示信息。
在一实施方式中,所述异常元件可以是指用于监测所述服务器的部件的传感器和/或所述服务器的部件,即可能是用于监测服务器部件的传感器出现异常,也可能是服务器本身的部件出现异常。所述警示信息包括但不限于异常资讯(记载了异常基本信息,如部件名称、编号、异常基本情况等)及异常发生的时间区间。
在一实施方式中,服务器监控装置100还可以实现BMC异常日志文件的筛选与回报功能。具体地,收集模块101还可以从所述待监控服务器集群获取每一服务器的BMC生成的日志文件,分析模块103可以检测BMC生成的日志文件是否存在异常日志文件,比如分析模块103可以检测日志文件中是否发现了预设关键匹配信息、日志文件中部件的参数是否超过对应的阈值等,以实现检测异常日志文件。输出模块104可以将分析模块103检测到的异常日志文件进行输出显示。
在一实施方式中,分析模块103还可用于判断所述异常日志文件中是否存在与所述第一类型的异常SDR数据相对应的日志文件,双重比对检查BMC系统日志机制更严谨。若所述异常日志文件中不存在与所述第一类型的异常SDR数据相对应的日志文件,表明BMC可能存在漏记载系统日志事件或者SDR数据存在异常记录,则输出模块104可以输出预设提示信息,以提醒所述待监控服务器集群的管理者进行核查。
在一实施方式中,当分析模块103经过分析确定存在异常SDR数据时,可以基于所述异常SDR数据生成对应的SDR异常日志文件,进而输出模块104可以输出所述SDR异常日志文件,方便管理者实时查看。在本发明的其他实施方式中,该SDR异常日志文件也可以存储至指定的数据库进行备份,以便管理者后续进行查阅或进行大数据分析等。
在一实施方式中,为了方便管理者快速查看SDR资讯,了解每一服务器的每一被监测部件的工作状态,转换模块105用于将所述收集的SDR数据进行分类并转换成SDR曲线图,进而输出模块104可以输出所述SDR曲线图在显示界面上。
可以理解,每一SDR曲线图可以对应每一个传感器所监测到的数据,转换模块105可以实时监控所述收集的SDR数据,进而可以实现实时更新所述SDR曲线图。
图3为本发明一实施方式中服务器监控方法的流程图。根据不同的需求,所述流程图中步骤的顺序可以改变,某些步骤可以省略。
步骤S300,收集待监控服务器集群的SDR数据,其中所述待监控服务器集群包括至少一服务器。
步骤S302,将所述收集的SDR数据以预设文件格式存储至指定存储区。
步骤S304,采用预设分析规则对所述指定存储区中的SDR数据进行分析,以判断是否存在异常SDR数据。
步骤S306,若存在异常SDR数据,则输出与所述异常SDR数据对应的异常元件的警示信息。
上述服务器监控装置、方法及计算机可读存储介质,通过对SDR数据进行分析,可实现将BMC无法发现的异常信息进行回报,提前找出部件衰退/损坏的迹象,且可定位出有问题的传感器及服务器元件,同时也可实现对BMC日志文件进行筛选与异常日志回报。
对本领域的技术人员来说,可以根据本发明的发明方案和发明构思结合生产的实际需要做出其他相应的改变或调整,而这些改变和调整都应属于本发明所公开的范围。

Claims (10)

1.一种服务器监控方法,其特征在于,所述方法包括:
收集待监控服务器集群的SDR数据,其中所述待监控服务器集群包括至少一服务器;
将所述收集的SDR数据以预设文件格式存储至指定存储区;
采用预设分析规则对所述指定存储区中的SDR数据进行分析,以判断是否存在异常SDR数据;及
若存在异常SDR数据,则输出与所述异常SDR数据对应的异常元件的警示信息。
2.如权利要求1所述的服务器监控方法,其特征在于,所述方法还包括:
获取所述待监控服务器集群的基板管理控制器生成的日志文件;及
检测所述基板管理控制器生成的日志文件是否存在异常日志文件,并输出检测到的异常日志文件。
3.如权利要求2所述的服务器监控方法,其特征在于,所述异常SDR数据包括第一类型的异常SDR数据及第二类型的异常SDR数据,其中,所述第一类型的异常SDR数据能触发所述基板管理控制器生成对应的异常日志文件,所述第二类型的异常SDR数据不能触发所述基板管理控制器生成对应的异常日志文件。
4.如权利要求3所述的服务器监控方法,其特征在于,所述方法还包括:
判断所述异常日志文件中是否存在与所述第一类型的异常SDR数据相对应的日志文件;及
若所述异常日志文件中不存在与所述第一类型的异常SDR数据相对应的日志文件,则输出预设提示信息。
5.如权利要求1所述的服务器监控方法,其特征在于,所述若存在异常SDR数据,则输出与所述异常SDR数据对应的异常元件的警示信息的步骤包括:
若存在所述异常SDR数据,则基于所述异常SDR数据生成SDR异常日志文件;及
输出所述SDR异常日志文件及与所述异常SDR数据对应的异常元件的警示信息。
6.如权利要求1所述的服务器监控方法,其特征在于,所述方法还包括:
将所述收集的SDR数据转换成SDR曲线图,并输出所述SDR曲线图;及
监控所述收集的SDR数据,以更新所述SDR曲线图。
7.如权利要求1所述的服务器监控方法,其特征在于,所述异常元件包括用于监测所述服务器的部件的传感器和/或所述服务器的部件,所述警示信息包括异常资讯及异常发生的时间区间。
8.如权利要求1所述的服务器监控方法,其特征在于,所述方法还包括:
通过网页方式接入与所述待监控服务器集群关联的被测系统,以收集所述待监控服务器集群的SDR数据。
9.一种服务器监控装置,所述装置包括处理器及存储器,所述存储器上存储有若干计算机程序,其特征在于,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-8任一项所述的服务器监控方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,多条所述指令可被一个或者多个处理器执行,以实现如权利要求1-8任一项所述的服务器监控方法的步骤。
CN202010438231.6A 2020-05-21 2020-05-21 服务器监控装置、方法及计算机可读存储介质 Active CN113708986B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010438231.6A CN113708986B (zh) 2020-05-21 2020-05-21 服务器监控装置、方法及计算机可读存储介质
US17/097,259 US11537501B2 (en) 2020-05-21 2020-11-13 Method and device for monitoring server based on recordings of data from sensors, and non-transitory storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010438231.6A CN113708986B (zh) 2020-05-21 2020-05-21 服务器监控装置、方法及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113708986A true CN113708986A (zh) 2021-11-26
CN113708986B CN113708986B (zh) 2023-02-03

Family

ID=78609121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010438231.6A Active CN113708986B (zh) 2020-05-21 2020-05-21 服务器监控装置、方法及计算机可读存储介质

Country Status (2)

Country Link
US (1) US11537501B2 (zh)
CN (1) CN113708986B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114721859A (zh) * 2022-04-29 2022-07-08 苏州浪潮智能科技有限公司 一种监控mlcc电容短路风险的方法、装置及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113708986B (zh) * 2020-05-21 2023-02-03 富联精密电子(天津)有限公司 服务器监控装置、方法及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104639380A (zh) * 2013-11-07 2015-05-20 英业达科技有限公司 服务器监控方法
CN105224436A (zh) * 2015-10-29 2016-01-06 曙光信息产业股份有限公司 一种服务器运行状态监控方法及装置
CN109189640A (zh) * 2018-08-24 2019-01-11 平安科技(深圳)有限公司 服务器的监控方法、装置、计算机设备及存储介质

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030130969A1 (en) * 2002-01-10 2003-07-10 Intel Corporation Star intelligent platform management bus topology
US6772099B2 (en) * 2003-01-08 2004-08-03 Dell Products L.P. System and method for interpreting sensor data utilizing virtual sensors
US7966389B2 (en) * 2003-04-22 2011-06-21 Hewlett-Packard Development Company, L.P. System and method for application programming interface for extended intelligent platform management
US7844866B2 (en) * 2007-10-02 2010-11-30 International Business Machines Corporation Mechanism to report operating system events on an intelligent platform management interface compliant server
US20060167919A1 (en) * 2004-07-19 2006-07-27 Aten International Co., Ltd. Intelligent platform management interface validating system and method
KR100631761B1 (ko) * 2005-01-04 2006-10-11 삼성전자주식회사 가상의 sdr을 이용한 관리 시스템 및 그 방법
US7827442B2 (en) * 2006-01-23 2010-11-02 Slt Logic Llc Shelf management controller with hardware/software implemented dual redundant configuration
US20110010566A1 (en) * 2009-07-07 2011-01-13 International Business Machines Corporation Power management by selective authorization of elevated power states of computer system hardware devices
CN101848109B (zh) 2010-06-03 2014-12-17 中兴通讯股份有限公司 一种atca告警动态过滤方法和装置
TWI423039B (zh) * 2010-07-23 2014-01-11 Quanta Comp Inc 伺服器系統與其操作方法
TWI450103B (zh) * 2010-12-29 2014-08-21 Acer Inc 伺服器之遠端管理系統及方法,及其電腦程式產品
CN103377115A (zh) * 2012-04-23 2013-10-30 鸿富锦精密工业(深圳)有限公司 系统事件日志管理系统及系统事件日志管理方法
US9384018B2 (en) * 2012-07-27 2016-07-05 Vmware, Inc. Virtual intelligent platform management interface for hardware components
TWI536767B (zh) * 2013-09-03 2016-06-01 緯創資通股份有限公司 伺服系統及其備援管理方法
TWI632453B (zh) * 2015-10-02 2018-08-11 緯穎科技服務股份有限公司 監測伺服器的方法、監測裝置及監測系統
US9921915B2 (en) * 2015-10-16 2018-03-20 Quanta Computer Inc. Baseboard management controller recovery
US20170364818A1 (en) * 2016-06-17 2017-12-21 Business Objects Software Ltd. Automatic condition monitoring and anomaly detection for predictive maintenance
US10924350B1 (en) * 2017-06-21 2021-02-16 Amazon Technologies, Inc. Software sensor for reporting controller metrics
CN107729209A (zh) 2017-09-29 2018-02-23 广州信维电子科技股份有限公司 用于服务器的信息监测方法、装置、设备和存储介质
US11409544B2 (en) * 2019-05-07 2022-08-09 Microsoft Technology Licensing, Llc Dynamically-configurable baseboard management controller
US11176020B2 (en) * 2019-11-05 2021-11-16 Microsoft Technology Licensing, Llc Server status monitoring system and method using baseboard management controller
CN113708986B (zh) * 2020-05-21 2023-02-03 富联精密电子(天津)有限公司 服务器监控装置、方法及计算机可读存储介质
CN114077525A (zh) * 2020-08-17 2022-02-22 鸿富锦精密电子(天津)有限公司 异常日志处理方法、装置、终端设备、云服务器及系统
JP6996602B1 (ja) * 2020-09-23 2022-01-17 日本電気株式会社 Bmc、サーバシステム、装置安定度判定方法及びプログラム
US20220113340A1 (en) * 2020-10-13 2022-04-14 Asrc Federal Holding Company, Llc System and method for autonomously detecting signals across a radio spectrum

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104639380A (zh) * 2013-11-07 2015-05-20 英业达科技有限公司 服务器监控方法
CN105224436A (zh) * 2015-10-29 2016-01-06 曙光信息产业股份有限公司 一种服务器运行状态监控方法及装置
CN109189640A (zh) * 2018-08-24 2019-01-11 平安科技(深圳)有限公司 服务器的监控方法、装置、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114721859A (zh) * 2022-04-29 2022-07-08 苏州浪潮智能科技有限公司 一种监控mlcc电容短路风险的方法、装置及存储介质
CN114721859B (zh) * 2022-04-29 2024-05-24 苏州浪潮智能科技有限公司 一种监控mlcc电容短路风险的方法、装置及存储介质

Also Published As

Publication number Publication date
US20210365351A1 (en) 2021-11-25
US11537501B2 (en) 2022-12-27
CN113708986B (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
CN109783262B (zh) 故障数据处理方法、装置、服务器及计算机可读存储介质
US9569325B2 (en) Method and system for automated test and result comparison
US9672085B2 (en) Adaptive fault diagnosis
US9720758B2 (en) Diagnostic analysis tool for disk storage engineering and technical support
CN112286709B (zh) 一种服务器硬件故障的诊断方法、诊断装置及诊断设备
US20140089477A1 (en) System and method for monitoring storage machines
CN114328102B (zh) 设备状态监控方法、装置、设备及计算机可读存储介质
CN113708986B (zh) 服务器监控装置、方法及计算机可读存储介质
CN110609778A (zh) 一种保存服务器宕机日志的方法及系统
CN114077525A (zh) 异常日志处理方法、装置、终端设备、云服务器及系统
US20140215279A1 (en) Scalable structured data store operations
US8601318B2 (en) Method, apparatus and computer program product for rule-based directed problem resolution for servers with scalable proactive monitoring
CN111625386A (zh) 一种针对系统设备上电超时的监控方法和装置
CN113505044A (zh) 数据库告警方法、装置、设备和存储介质
US8949669B1 (en) Error detection, correction and triage of a storage array errors
JP2018180982A (ja) 情報処理装置、およびログ記録方法
CN114677779B (zh) 车辆配置状态监测方法、装置、存储介质、计算机设备
US9354962B1 (en) Memory dump file collection and analysis using analysis server and cloud knowledge base
CN115080132A (zh) 信息处理方法、装置、服务器及存储介质
TW202145015A (zh) 伺服器監控裝置、方法及電腦可讀取存儲介質
CN114629786A (zh) 日志实时分析方法、装置、存储介质及系统
CN114500249A (zh) 一种根因定位方法和装置
CN114138600A (zh) 一种固件关键信息的存储方法、装置、设备及存储介质
CN111581044A (zh) 集群优化方法、装置、服务器及介质
JP2008181432A (ja) ヘルスチェック装置及びヘルスチェック方法及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: No. 36, North Street, West District, economic and Technological Development Zone, Binhai New Area, Tianjin

Applicant after: Fulian precision electronics (Tianjin) Co.,Ltd.

Address before: No. 36, North Street, West District, economic and Technological Development Zone, Binhai New Area, Tianjin

Applicant before: HONGFUJIN PRECISION ELECTRONICS (TIANJIN) Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant