CN116820820A - 服务器故障监测方法及系统 - Google Patents

服务器故障监测方法及系统 Download PDF

Info

Publication number
CN116820820A
CN116820820A CN202310777079.8A CN202310777079A CN116820820A CN 116820820 A CN116820820 A CN 116820820A CN 202310777079 A CN202310777079 A CN 202310777079A CN 116820820 A CN116820820 A CN 116820820A
Authority
CN
China
Prior art keywords
server
fault
state data
log state
early warning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310777079.8A
Other languages
English (en)
Inventor
谢东晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202310777079.8A priority Critical patent/CN116820820A/zh
Publication of CN116820820A publication Critical patent/CN116820820A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供一种服务器故障监测方法及系统,该方法包括:获取服务器的目标日志状态数据,其中,所述目标日志状态数据为所述服务器在当前时刻的日志状态数据;根据所述目标日志状态数据,判断所述服务器在当前时刻是否存在异常状态;若判断获知所述服务器在当前时刻不存在异常状态,将获取到的当前时刻与上一时刻之间的日志状态数据输入到故障预警模型中,得到由所述故障预警模型输出的所述服务器在下一时刻的故障预测结果,其中,所述故障预警模型是由标记有不同故障类型标签的样本日志状态数据进行训练得到的;根据所述故障预测结果,对所述服务器进行预警处理。本发明提高了服务器故障监测处理效率和服务器集群稳定性。

Description

服务器故障监测方法及系统
技术领域
本发明涉及服务器监测技术领域,尤其涉及一种服务器故障监测方法及系统。
背景技术
随着服务器应用于各种场景,使得服务器集群中的服务器节点保有量大幅增加。在服务器不断负载运行的同时,不可避免地会出现各种故障问题,例如,处理器内部错误可能导致服务器死机、异常重启等问题,某些硬件参数(如风扇转速或机箱温度)超过阈值,也可能导致服务器关机。
基板管理控制器(Baseboard Management Controller,简称BMC)设备是一种嵌入式系统,通常集成在服务器的主板上。目前主要通过BMC实现对服务器硬件的监测和管理,包括电源、风扇、内存、硬盘和电源等部件的状态。然而,BMC作为一个独立的系统,通常是自身将采集到的日志数据进行分析之后,再将服务器的监控结果上传服务器集群平台。而在面对现有服务器集群场景时,由于数据量较大,仅依靠BMC自身的处理过程,导致服务器集群平台不能及时的获取到服务器的监测结果,以致于服务器集群平台不能在较短时间内制定故障应对策略,对服务器集群的稳定性造成影响。
因此,现在亟需一种服务器故障监测方法及系统来解决上述问题。
发明内容
针对现有技术存在的问题,本发明提供一种服务器故障监测方法及系统。
本发明提供一种服务器故障监测方法,包括:
获取服务器的目标日志状态数据,其中,所述目标日志状态数据为所述服务器在当前时刻的日志状态数据;
根据所述目标日志状态数据,判断所述服务器在当前时刻是否存在异常状态;
若判断获知所述服务器在当前时刻不存在异常状态,将获取到的当前时刻与上一时刻之间的日志状态数据输入到故障预警模型中,得到由所述故障预警模型输出的所述服务器在下一时刻的故障预测结果,其中,所述故障预警模型是由标记有不同故障类型标签的样本日志状态数据进行训练得到的;
根据所述故障预测结果,对所述服务器进行预警处理。
根据本发明提供的一种服务器故障监测方法,所述故障预警模型通过以下步骤训练得到:
获取多个历史日志状态数据;
基于各个所述历史日志状态数据对应的硬件设备类型,根据所述历史日志状态数据在预设时段内的变化趋势,对各个所述历史日志状态数据标记对应的故障类型标签,得到样本日志状态数据;
通过所述样本日志状态数据,对支持向量机进行训练,得到所述故障预警模型。
根据本发明提供的一种服务器故障监测方法,所述获取服务器的目标日志状态数据,包括:
基于所述服务器中被监测硬件的硬件设备类型,通过基板管理控制器上对应的查询接口,获取所述服务器中各个所述被监测硬件在当前时刻的日志状态数据;
根据各个所述被监测硬件在当前时刻的日志状态数据,获取所述服务器的目标日志状态数据;
所述根据所述目标日志状态数据,判断所述服务器在当前时刻是否存在异常状态,包括:
基于所述硬件设备类型,确定各个所述被监测硬件对应的监测阈值区间,其中,所述监测阈值区间是由第一监测阈值和第二监测阈值构建得到,且所述第一监测阈值小于所述第二监测阈值;
若各个所述被监测硬件在当前时刻的日志状态数据小于等于所述第一监测阈值,或大于等于所述第二监测阈值,则判断获知所述服务器在当前时刻存在异常状态,并根据所述目标日志状态数据,确定所述服务器的故障类型。
根据本发明提供的一种服务器故障监测方法,所述方法还包括:
获取所述基板管理控制器上传的硬件告警信息;
根据所述硬件告警信息,确定所述服务器中的异常状态。
根据本发明提供的一种服务器故障监测方法,所述方法还包括:
若在预设周期内,未获取到由所述基板管理控制器采集的所述被监测硬件在当前时刻的日志状态数据,则根据所述基板管理控制器的运行日志数据,确定所述基板管理控制器的故障类型;
若在所述预设周期内,获取到由所述基板管理控制器采集的部分所述被监测硬件在当前时刻的日志状态数据,则确定所述服务器在当前时刻存在异常状态,并将目标被监测硬件作为故障设备,其中,所述目标被监测硬件为所述基板管理控制器当前时刻未采集到的日志状态数据对应的被监测硬件。
根据本发明提供的一种服务器故障监测方法,所述方法还包括:
接收第一输入,所述第一输入是通过所述故障预测结果,对应生成的预警处理策略,或,通过所述故障类型,对应生成的故障修复策略;
响应于所述第一输入,对所述服务器中对应的所述被监测硬件进行预警操作处理或故障修复操作处理。
根据本发明提供的一种服务器故障监测方法,所述根据所述故障预测结果,对所述服务器进行预警处理,包括:
根据所述故障预测结果,生成对应的预警处理策略;
将所述故障预测结果和所述预警处理策略上传到区块链系统,以供所述区块链系统中各个成员节点根据所述故障预测结果确定是否执行所述预警处理策略;
根据所述区块链系统中各个所述成员节点的确认结果,对所述服务器进行预警处理。
本发明还提供一种服务器故障监测系统,包括:
状态监控模块,用于获取服务器的目标日志状态数据,其中,所述目标日志状态数据为所述服务器在当前时刻的日志状态数据;
故障检测模块,用于根据所述目标日志状态数据,判断所述服务器在当前时刻是否存在异常状态;
智能预警模块,若判断获知所述服务器在当前时刻不存在异常状态,用于将获取到的当前时刻与上一时刻之间的日志状态数据输入到故障预警模型中,得到由所述故障预警模型输出的所述服务器在下一时刻的故障预测结果,其中,所述故障预警模型是由标记有不同故障类型标签的样本日志状态数据进行训练得到的;
故障处理模块,用于根据所述故障预测结果,对所述服务器进行预警处理。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述服务器故障监测方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述服务器故障监测方法。
本发明提供的服务器故障监测方法及系统,通过服务器当前时刻的日志状态数据,判断服务器是否存在异常状态,并在确定服务器当前时刻无异常状态后,再将当前时间段内的日志状态数据输入到故障预警模型中,以根据得到的故障预测结果,对服务器中对应的硬件设备执行预警处理,实现对服务器的故障实时监测和故障预测,提高了服务器故障监测处理效率和服务器集群的稳定性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图进行简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的服务器故障监测方法的流程示意图;
图2为本发明提供的服务器故障监测系统的结构示意图;
图3为本发明提供的服务器故障监测示意图;
图4为本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在服务器集群中,当任意一个服务器节点出现故障后,需要发出告警,以通知集群启用备用节点接替故障节点的工作。本发明在现有BMC设备收集服务器中各部件状态数据的基础上,对这些状态数据进行分析,实现对服务器故障进行自动化识别与处理,从而提高了服务器监测效率和服务器集群稳定性。
图1为本发明提供的服务器故障监测方法的流程示意图,如图1所示,本发明提供了一种服务器故障监测方法,包括:
步骤101,获取服务器的目标日志状态数据,其中,所述目标日志状态数据为所述服务器在当前时刻的日志状态数据。
在本发明中,定期获取服务器中各个硬件设备(即被监测硬件)的状态数据。具体地,BMC设备定期采集服务器部件的状态数据,并将这些状态数据存储在BMC设备的内存中;同时,本发明通过相关通信协议访问BMC,例如,智能平台管理接口(Intelligent PlatformManagement Interface)协议,进而获取到存储在BMC内存中的状态数据,从而实时从BMC中读取服务器的日志状态数据。
进一步地,在本发明中,实时获取服务器中各个硬件设备的日志状态数据,即获取到当前时刻的日志状态数据,并且,按照预设数据采集间隔,将获取到日志状态数据进行保存,形成一段时间内的日志状态数据集合,例如,每5分钟为一个采集间隔,将当前时刻与5分钟前的这段时间内的日志数据作为一个日志状态数据集合,以用于后续的故障预测。
步骤102,根据所述目标日志状态数据,判断所述服务器在当前时刻是否存在异常状态。
在本发明中,首先根据实时获取到的日志状态数据,即目标日志状态数据进行故障分析,通过分析服务器中各个硬件设备的状态数据,判断服务器是否发生故障,例如,日志状态数据采集失败(BMC发生故障),或,采集到的硬件状态数据与预设值/范围不符(如硬盘温度超过阈值,则风扇存在故障),即当服务器中任意一个硬件设备存在故障时,可判定服务器发生故障,进而根据异常状态信息,分析判断故障类型,以便于制定对应的故障修复策略。
步骤103,若判断获知所述服务器在当前时刻不存在异常状态,将获取到的当前时刻与上一时刻之间的日志状态数据输入到故障预警模型中,得到由所述故障预警模型输出的所述服务器在下一时刻的故障预测结果,其中,所述故障预警模型是由标记有不同故障类型标签的样本日志状态数据进行训练得到的。
在本发明中,对于当前时刻未监测到服务器存在故障时,为了进一步提高服务器的稳定性,减少可能出现的故障风险,可根据服务器的历史故障信息训练故障预警模型,并结合当前获取到的一个时间段内的日志状态数据,对服务器潜在的故障风险进行预警。例如,在一个时间段内,硬盘温度一直处于一个较高温度,但并未超过故障阈值,此时,故障预警模型会根据硬盘温度在该时间段内的变化趋势,预测下一个时刻硬盘温度可能到达的数值,从而对服务器潜在的硬盘故障风险进行相应处理(如提高风扇转速,减少数据处理量)。
步骤104,根据所述故障预测结果,对所述服务器进行预警处理。
在本发明中,根据当前时刻的日志状态数据,已确定服务器存在故障,按照预设的故障处理方案,对服务器进行故障修复。对于故障预测结果,采用认证式处理,即对潜在的故障信息做进一步判断,在确定最终的预警处理方式之后再执行相关预警处理。优选地,在一实施例中,设置一个缓冲时长,即在预测某个硬件设备可能会发生故障后,需要对其进行相应预警处理,如关闭重启操作,但该操作不会在预测结果出来后马上执行,而是给这个硬件设备一定的缓冲时长进行恢复,如在这个缓冲时长内,硬件设备的相关数值恢复到正常值,不再对其进行关闭重启操作;如果在缓冲时长内未恢复到正常状态,此时将立刻执行关闭重启操作,以避免硬件故障对服务器造成更大的损失。需要说明的是,在本发明中,预警处理方案采用认证式处理,需要相应的认证终端在一定时间内对本次预警处理方案进行决策,因此,在决策期间,可设置对应的缓冲时长,而在这个缓冲时长内,若服务器故障自身解除,决策也可以自动结束或不执行,提高了服务器故障监测的智能化程度。
本发明提供的服务器故障监测方法,通过服务器当前时刻的目标日志状态数据,判断服务器是否存在异常状态,并在确定服务器当前时刻无异常状态后,再将当前时间段内的目标日志状态数据输入到故障预警模型中,以根据得到的故障预测结果,对服务器中对应的硬件设备执行预警处理,实现对服务器的故障实时监测和故障预测,提高了服务器故障监测处理效率和服务器集群的稳定性。
在上述实施例的基础上,所述故障预警模型通过以下步骤训练得到:
获取多个历史日志状态数据;
基于各个所述历史日志状态数据对应的硬件设备类型,根据所述历史日志状态数据在预设时段内的变化趋势,对各个所述历史日志状态数据标记对应的故障类型标签,得到样本日志状态数据;
通过所述样本日志状态数据,对支持向量机进行训练,得到所述故障预警模型。
在本发明中,服务器中存在多种不同类型的硬件设备,包括但不限定服务器的中央处理器、内存、电源以及硬盘等,因此,在获取到服务器中各个硬件设备的历史日志状态数据后,也会按不同硬件设备类型进行分类,进而得到各个硬件设备的温度、电压、功率和风扇转速等历史日志状态数据。进一步地,根据这些历史日志状态数据在历史时段内的变化趋势,确定历史故障类型,进而根据历史故障类型构建相应的标签。在一实施例中,硬件设备在历史时段内发生的故障已确定,可直接根据已确定的故障类型,为每个预设时段内不同硬件设备的历史日志数据标记对应的故障类型标签,从而得到样本日志状态数据,完成训练样本集的构建。
进一步地,本发明采用机器学习模型构建故障预警模型,以尽可能准确地预测服务器中各个被监测硬件在后续时刻发生故障的概率,以便在出现故障之前采取行动。本发明针对服务器具有复杂性和非线性等特点,使用支持向量机(Support Vector Machine,简称SVM)算法,可以有效地对大规模非线性系统进行建模,并进行分类和回归。具体地,本发明将上述实施例中获取到的历史日志状态数据作为训练数据集,在训练数据集加载到机器学习框架后,开始训练模型。首先,训练数据集会被拆分成训练集和测试集,以便可以准确地评估模型的性能;接着,在训练过程中,根据预设设置好的训练条件,将模型参数和权重调整到最佳状态。当模型完成之后,将采集到的日志状态数据输入到模型中,分析潜在的故障信息,并做出预警。在一实施例中,可使用Pandas库或其他数据处理库来处理和转换日志状态数据,以便更好地训练模型,并且,可以使用Python可视化库进行数据可视化处理,以便更好地理解数据。
本发明采用机器学习框架对日志状态数据进行监测和分析,可以发现故障的早期信号,并采取措施防止服务器发生严重故障,减少服务器故障风险。
在上述实施例的基础上,所述获取服务器的目标日志状态数据,包括:
基于所述服务器中被监测硬件的硬件设备类型,通过基板管理控制器上对应的查询接口,获取所述服务器中各个所述被监测硬件在当前时刻的日志状态数据;
根据各个所述被监测硬件在当前时刻的日志状态数据,获取所述服务器的目标日志状态数据。
在本发明中,通过BMC提供的查询接口,包括但不限于IPMI、表述性状态转变(Representational State Transfer,简称RESTful)和简单网络管理协议(SimpleNetwork Management Protocol,简称SNMP)等接口,获取服务器各个被监测硬件的日志状态数据。优选地,本发明还可以收集BMC和基本输入输出系统(Basic Input OutputSystem,简称BIOS)等系统的运行日志数据,辅助进行问题定位,同时也对BMC和BIOS这些系统进行监测,当BMC发生故障时,可根据这些运行日志数据分析其故障原因,及时排除故障,提高服务器稳定性。
所述根据所述目标日志状态数据,判断所述服务器在当前时刻是否存在异常状态,包括:
基于所述硬件设备类型,确定各个所述被监测硬件对应的监测阈值区间,其中,所述监测阈值区间是由第一监测阈值和第二监测阈值构建得到,且所述第一监测阈值小于所述第二监测阈值;
若各个所述被监测硬件在当前时刻的日志状态数据小于等于所述第一监测阈值,或大于等于所述第二监测阈值,则判断获知所述服务器在当前时刻存在异常状态,并根据所述目标日志状态数据,确定所述服务器的故障类型。
在本发明中,在采集当前时刻的日志状态数据时,可根据获取到的数据进行故障分析,例如,当日志状态数据采集失败,或获取到的日志状态数据与预设值/范围不符时,判定服务器发生故障。具体地,在本发明中,根据硬件设备类型,根据日志状态数据分析判定故障类型,例如,对于中央处理器和内存,需要关注温度等指标,如果温度过高,很可能是因为使用率过高,或,散热系统出现问题;对于电源设备,需要关注电压、电流和功率等指标,当电压、电流和功率等过大或过小,都对服务器正常运行造成极大的影响;如果风扇转速过高,往往是服务器负载过大,或是散热系统故障引起的,如果风扇转速过低,可能是风扇本身出现故障。
在上述实施例的基础上,所述方法还包括:
获取所述基板管理控制器上传的硬件告警信息;
根据所述硬件告警信息,确定所述服务器中的异常状态。
在本发明中,通过BMC获取到服务器的日志状态数据进行故障分析和故障预警。进一步地,BMC自身也会根据采集到的日志状态数据进行故障分析,当BMC检测到异常信息时也会上报硬件告警信息,此时可将BMC上报的硬件告警信息和已确定的故障类型进行综合分析,当两者出现偏差时,可生成对应的提示信息,以供维护人员作进一步分析,提高故障分析的准确性。
在上述实施例的基础上,所述方法还包括:
若在预设周期内,未获取到由所述基板管理控制器采集的所述被监测硬件在当前时刻的日志状态数据,则根据所述基板管理控制器的运行日志数据,确定所述基板管理控制器的故障类型;
若在所述预设周期内,获取到由所述基板管理控制器采集的部分所述被监测硬件在当前时刻的日志状态数据,则确定所述服务器在当前时刻存在异常状态,并将目标被监测硬件作为故障设备,其中,所述目标被监测硬件为所述基板管理控制器当前时刻未采集到的日志状态数据对应的被监测硬件。
在本发明中,由于是定期获取BMC采集的日志状态数据,而BMC在运行过程中,自身也会出现错误或故障,如,BMC异常卡死、芯片出现坏块甚至损坏等。因此,当长时间内(如预设周期内)未获取到BMC上传的任何日志状态数据时,可以借助运行日志来分析BMC是否故障。
在一实施例中,BMC在预设周期内上传各个被监测硬件的日志状态数据,而被监测硬件的数量已在前期设置,当BMC采集的硬件信息存在部分失败时,例如,未采集到风扇的日志状态数据,很可能是该硬件设备出现了故障,此时可直接根据缺失数据对应的被监测硬件进行故障定位,提高了服务器故障处理效率。
在上述实施例的基础上,所述方法还包括:
接收第一输入,所述第一输入是通过所述故障预测结果,对应生成的预警处理策略,或,通过所述故障类型,对应生成的故障修复策略;
响应于所述第一输入,对所述服务器中对应的所述被监测硬件进行预警操作处理或故障修复操作处理。
在本发明中,根据故障预测结果或故障类型,生成对应的输入操作指令,例如,远程开关服务器、重启服务器和修改BIOS设置等操作。优选地,在一实施例中,根据每种故障类型,预设一种或多种组合修复方案,这些操作方案均可通过与BMC或操作系统(OperatingSystem,简称OS)通信发送指令执行,包括但不限于对服务器或部件进行重启、上下电,例如,当检测到故障信息时,将故障信息上报服务器集群,服务器集群启用备用节点,并停止当前节点业务;然后,根据故障类型选择修复方案,控制服务器进行故障修复;修复完成后,将故障解除信息上报服务器集群,继续部署业务;若修复失败,上报该服务器节点不可用,等待人工修复。
本发明根据服务器的实时故障和预警故障,为服务器生成对应的操作指令,从而实现故障自动化处理,有效提高服务器集群的稳定性,保持业务的连续性。
在上述实施例的基础上,所述根据所述故障预测结果,对所述服务器进行预警处理,包括:
根据所述故障预测结果,生成对应的预警处理策略;
将所述故障预测结果和所述预警处理策略上传到区块链系统,以供所述区块链系统中各个成员节点根据所述故障预测结果确定是否执行所述预警处理策略;
根据所述区块链系统中各个所述成员节点的确认结果,对所述服务器进行预警处理。
在本发明中,故障预测结果会随着服务器中各个硬件设备的自身调整功能,而得以避免在后续真实发生该故障。因此,本发明对预警信息采用认证式处理,即将潜在的故障信息上报到服务器集群或管理终端,以根据服务器集群或管理终端决策是否执行对预警故障处理。在一实施例中,可基于常见的故障预警类型构建对应的故障处理方案,实现自动化处理,可以有效地提高处理效率和准确性,避免人为因素对处理结果的影响。
进一步地,在本发明中,采用分布式处理方式,即将上报的预警信息分散到多个服务器集群或管理终端进行处理。具体地,利用区块链技术建立一个分布式网络,将预警处理策略和故障预测结果分散到分布式网络中的多个节点进行处理,可以避免服务器集群或管理终端审核不及时或决策不当对处理结果的影响,提高处理效率和可靠性。
下面对本发明提供的服务器故障监测系统进行描述,下文描述的服务器故障监测系统与上文描述的服务器故障监测方法可相互对应参照。
图2为本发明提供的服务器故障监测系统的结构示意图,如图2所示,本发明提供了一种服务器故障监测系统,包括状态监控模块201、故障检测模块202、智能预警模块203和故障处理模块204,其中,状态监控模块201用于获取服务器的目标日志状态数据,其中,所述目标日志状态数据为所述服务器在当前时刻的日志状态数据;故障检测模块202用于根据所述目标日志状态数据,判断所述服务器在当前时刻是否存在异常状态;智能预警模块203用于若判断获知所述服务器在当前时刻不存在异常状态,用于将获取到的当前时刻与上一时刻之间的日志状态数据输入到故障预警模型中,得到由所述故障预警模型输出的所述服务器在下一时刻的故障预测结果,其中,所述故障预警模型是由标记有不同故障类型标签的样本日志状态数据进行训练得到的;故障处理模块204用于根据所述故障预测结果,对所述服务器进行预警处理。
在本发明中,服务器故障监测系统定期获取服务器中各个硬件设备(即被监测硬件)的状态数据。具体地,服务器中的BMC设备定期采集服务器部件的状态数据,并将这些状态数据存储在BMC设备的内存中。图3为本发明提供的服务器故障监测示意图,可参考图3所示,服务器故障监测系统301中的状态监控模块201通过相关通信协议访问BMC,例如,智能平台管理接口(Intelligent Platform Management Interface)协议,进而获取到存储在BMC内存中的状态数据,从而实时从BMC中读取服务器的日志状态数据。
进一步地,状态监控模块201实时获取服务器302中各个硬件设备的日志状态数据,即获取到当前时刻的日志状态数据,并且,状态监控模块201按照预设数据采集间隔,将获取到日志状态数据进行保存,形成一段时间内的日志状态数据集合,例如,每5分钟为一个采集间隔,将当前时刻与5分钟前的这段时间内的日志数据作为一个日志状态数据集合,以用于后续的故障预测。
进一步地,故障检测模块202根据实时获取到的日志状态数据,即目标日志状态数据进行故障分析,通过分析服务器302中各个硬件设备的状态数据,判断服务器302是否发生故障,例如,日志状态数据采集失败(BMC发生故障),或,采集到的硬件状态数据与预设值/范围不符(如硬盘温度超过阈值,则风扇存在故障),即当服务器302中任意一个硬件设备存在故障时,可判定服务器302发生故障,进而根据异常状态信息,分析判断故障类型,以便于制定对应的故障修复策略。
在本发明中,对于当前时刻未监测到服务器存在故障时,为了进一步提高服务器的稳定性,减少可能出现的故障风险,智能预警模块203根据服务器的历史故障信息训练故障预警模型,并结合当前获取到的一个时间段内的日志状态数据,对服务器潜在的故障风险进行预警。例如,在一个时间段内,硬盘温度一直处于一个较高温度,但并未超过故障阈值,此时,故障预警模型会根据硬盘温度在该时间段内的变化趋势,预测下一个时刻硬盘温度可能到达的数值,从而对服务器潜在的硬盘故障风险进行相应处理(如提高风扇转速,减少数据处理量)。
在本发明中,故障检测模块202根据当前时刻的日志状态数据,已确定服务器存在故障,故障处理模块204按照预设的故障处理方案,对服务器进行故障修复。对于故障预测结果,采用认证式处理,即对潜在的故障信息做进一步判断,在确定最终的预警处理方式之后,故障处理模块204再执行相关预警处理,例如,设置一个缓冲时长,即在预测某个硬件设备可能会发生故障后,需要对其进行关闭重启操作,但该操作不会在预测结果出来后马上执行,而是给这个硬件设备一定的缓冲时长进行恢复,如在这个缓冲时长内,硬件设备的相关数值恢复到正常值,不再对其进行关闭重启操作;如果在缓冲时长内未恢复到正常状态,此时将立刻执行关闭重启操作,以避免硬件故障对服务器造成更大的损失。
本发明提供的服务器故障监测系统,通过服务器当前时刻的目标日志状态数据,判断服务器是否存在异常状态,并在确定服务器当前时刻无异常状态后,再将当前时间段内的目标日志状态数据输入到故障预警模型中,以根据得到的故障预测结果,对服务器中对应的硬件设备执行预警处理,实现对服务器的故障实时监测和故障预测,提高了服务器故障监测处理效率和服务器集群的稳定性。
在上述实施例的基础上,所述系统还包括历史数据获取模块、样本集构建模块和训练模块,其中,历史数据获取模块用于获取多个历史日志状态数据;样本集构建模块用于基于各个所述历史日志状态数据对应的硬件设备类型,根据所述历史日志状态数据在预设时段内的变化趋势,对各个所述历史日志状态数据标记对应的故障类型标签,得到样本日志状态数据;训练模块用于通过所述样本日志状态数据,对支持向量机进行训练,得到所述故障预警模型。
在上述实施例的基础上,所述状态监控模块具体用于,基于所述服务器中被监测硬件的硬件设备类型,通过基板管理控制器上对应的查询接口,获取所述服务器中各个所述被监测硬件在当前时刻的日志状态数据;
根据各个所述被监测硬件在当前时刻的日志状态数据,获取所述服务器的目标日志状态数据;
所述故障检测模块包括监测阈值确定单元和异常状态判断单元,其中,监测阈值确定单元用于基于所述硬件设备类型,确定各个所述被监测硬件对应的监测阈值区间,其中,所述监测阈值区间是由第一监测阈值和第二监测阈值构建得到,且所述第一监测阈值小于所述第二监测阈值;异常状态判断单元用于若各个所述被监测硬件在当前时刻的日志状态数据小于等于所述第一监测阈值,或大于等于所述第二监测阈值,则判断获知所述服务器在当前时刻存在异常状态,并根据所述目标日志状态数据,确定所述服务器的故障类型。
在上述实施例的基础上,所述系统还用于,获取所述基板管理控制器上传的硬件告警信息;根据所述硬件告警信息,确定所述服务器中的异常状态。
在上述实施例的基础上,所述系统还用于,若在预设周期内,未获取到由所述基板管理控制器采集的所述被监测硬件在当前时刻的日志状态数据,则根据所述基板管理控制器的运行日志数据,确定所述基板管理控制器的故障类型;若在所述预设周期内,获取到由所述基板管理控制器采集的部分所述被监测硬件在当前时刻的日志状态数据,则确定所述服务器在当前时刻存在异常状态,并将目标被监测硬件作为故障设备,其中,所述目标被监测硬件为所述基板管理控制器当前时刻未采集到的日志状态数据对应的被监测硬件。
在上述实施例的基础上,所述系统还包括指令接收模块和指令响应模块,其中,指令接收模块用于接收第一输入,所述第一输入是通过所述故障预测结果,对应生成的预警处理策略,或,通过所述故障类型,对应生成的故障修复策略;指令响应模块用于响应于所述第一输入,对所述服务器中对应的所述被监测硬件进行预警操作处理或故障修复操作处理
在上述实施例的基础上,所述故障处理模块包括预测策略生成单元、区块链上传单元和预警执行单元,其中,预测策略生成单元用于根据所述故障预测结果,生成对应的预警处理策略;区块链上传单元用于将所述故障预测结果和所述预警处理策略上传到区块链系统,以供所述区块链系统中各个成员节点根据所述故障预测结果确定是否执行所述预警处理策略;预警执行单元用于根据所述区块链系统中各个所述成员节点的确认结果,对所述服务器进行预警处理。
本发明提供的系统是用于执行上述各方法实施例的,具体流程和详细内容请参照上述实施例,此处不再赘述。
图4为本发明提供的电子设备的结构示意图,如图4所示,该电子设备可以包括:处理器(Processor)401、通信接口(Communications Interface)402、存储器(Memory)403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信。处理器401可以调用存储器403中的逻辑指令,以执行服务器故障监测方法,该方法包括:获取服务器的目标日志状态数据,其中,所述目标日志状态数据为所述服务器在当前时刻的日志状态数据;根据所述目标日志状态数据,判断所述服务器在当前时刻是否存在异常状态;若判断获知所述服务器在当前时刻不存在异常状态,将获取到的当前时刻与上一时刻之间的日志状态数据输入到故障预警模型中,得到由所述故障预警模型输出的所述服务器在下一时刻的故障预测结果,其中,所述故障预警模型是由标记有不同故障类型标签的样本日志状态数据进行训练得到的;根据所述故障预测结果,对所述服务器进行预警处理。
此外,上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的服务器故障监测方法,该方法包括:获取服务器的目标日志状态数据,其中,所述目标日志状态数据为所述服务器在当前时刻的日志状态数据;根据所述目标日志状态数据,判断所述服务器在当前时刻是否存在异常状态;若判断获知所述服务器在当前时刻不存在异常状态,将获取到的当前时刻与上一时刻之间的日志状态数据输入到故障预警模型中,得到由所述故障预警模型输出的所述服务器在下一时刻的故障预测结果,其中,所述故障预警模型是由标记有不同故障类型标签的样本日志状态数据进行训练得到的;根据所述故障预测结果,对所述服务器进行预警处理。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的服务器故障监测方法,该方法包括:获取服务器的目标日志状态数据,其中,所述目标日志状态数据为所述服务器在当前时刻的日志状态数据;根据所述目标日志状态数据,判断所述服务器在当前时刻是否存在异常状态;若判断获知所述服务器在当前时刻不存在异常状态,将获取到的当前时刻与上一时刻之间的日志状态数据输入到故障预警模型中,得到由所述故障预警模型输出的所述服务器在下一时刻的故障预测结果,其中,所述故障预警模型是由标记有不同故障类型标签的样本日志状态数据进行训练得到的;根据所述故障预测结果,对所述服务器进行预警处理。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种服务器故障监测方法,其特征在于,包括:
获取服务器的目标日志状态数据,其中,所述目标日志状态数据为所述服务器在当前时刻的日志状态数据;
根据所述目标日志状态数据,判断所述服务器在当前时刻是否存在异常状态;
若判断获知所述服务器在当前时刻不存在异常状态,将获取到的当前时刻与上一时刻之间的日志状态数据输入到故障预警模型中,得到由所述故障预警模型输出的所述服务器在下一时刻的故障预测结果,其中,所述故障预警模型是由标记有不同故障类型标签的样本日志状态数据进行训练得到的;
根据所述故障预测结果,对所述服务器进行预警处理。
2.根据权利要求1所述的服务器故障监测方法,其特征在于,所述故障预警模型通过以下步骤训练得到:
获取多个历史日志状态数据;
基于各个所述历史日志状态数据对应的硬件设备类型,根据所述历史日志状态数据在预设时段内的变化趋势,对各个所述历史日志状态数据标记对应的故障类型标签,得到样本日志状态数据;
通过所述样本日志状态数据,对支持向量机进行训练,得到所述故障预警模型。
3.根据权利要求1所述的服务器故障监测方法,其特征在于,所述获取服务器的目标日志状态数据,包括:
基于所述服务器中被监测硬件的硬件设备类型,通过基板管理控制器上对应的查询接口,获取所述服务器中各个所述被监测硬件在当前时刻的日志状态数据;
根据各个所述被监测硬件在当前时刻的日志状态数据,获取所述服务器的目标日志状态数据;
所述根据所述目标日志状态数据,判断所述服务器在当前时刻是否存在异常状态,包括:
基于所述硬件设备类型,确定各个所述被监测硬件对应的监测阈值区间,其中,所述监测阈值区间是由第一监测阈值和第二监测阈值构建得到,且所述第一监测阈值小于所述第二监测阈值;
若各个所述被监测硬件在当前时刻的日志状态数据小于等于所述第一监测阈值,或大于等于所述第二监测阈值,则判断获知所述服务器在当前时刻存在异常状态,并根据所述目标日志状态数据,确定所述服务器的故障类型。
4.根据权利要求3所述的服务器故障监测方法,其特征在于,所述方法还包括:
获取所述基板管理控制器上传的硬件告警信息;
根据所述硬件告警信息,确定所述服务器中的异常状态。
5.根据权利要求3所述的服务器故障监测方法,其特征在于,所述方法还包括:
若在预设周期内,未获取到由所述基板管理控制器采集的所述被监测硬件在当前时刻的日志状态数据,则根据所述基板管理控制器的运行日志数据,确定所述基板管理控制器的故障类型;
若在所述预设周期内,获取到由所述基板管理控制器采集的部分所述被监测硬件在当前时刻的日志状态数据,则确定所述服务器在当前时刻存在异常状态,并将目标被监测硬件作为故障设备,其中,所述目标被监测硬件为所述基板管理控制器当前时刻未采集到的日志状态数据对应的被监测硬件。
6.根据权利要求3所述的服务器故障监测方法,其特征在于,所述方法还包括:
接收第一输入,所述第一输入是通过所述故障预测结果,对应生成的预警处理策略,或,通过所述故障类型,对应生成的故障修复策略;
响应于所述第一输入,对所述服务器中对应的所述被监测硬件进行预警操作处理或故障修复操作处理。
7.根据权利要求6所述的服务器故障监测方法,其特征在于,所述根据所述故障预测结果,对所述服务器进行预警处理,包括:
根据所述故障预测结果,生成对应的预警处理策略;
将所述故障预测结果和所述预警处理策略上传到区块链系统,以供所述区块链系统中各个成员节点根据所述故障预测结果确定是否执行所述预警处理策略;
根据所述区块链系统中各个所述成员节点的确认结果,对所述服务器进行预警处理。
8.一种服务器故障监测系统,其特征在于,包括:
状态监控模块,用于获取服务器的目标日志状态数据,其中,所述目标日志状态数据为所述服务器在当前时刻的日志状态数据;
故障检测模块,用于根据所述目标日志状态数据,判断所述服务器在当前时刻是否存在异常状态;
智能预警模块,若判断获知所述服务器在当前时刻不存在异常状态,用于将获取到的当前时刻与上一时刻之间的日志状态数据输入到故障预警模型中,得到由所述故障预警模型输出的所述服务器在下一时刻的故障预测结果,其中,所述故障预警模型是由标记有不同故障类型标签的样本日志状态数据进行训练得到的;
故障处理模块,用于根据所述故障预测结果,对所述服务器进行预警处理。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述服务器故障监测方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述服务器故障监测方法。
CN202310777079.8A 2023-06-28 2023-06-28 服务器故障监测方法及系统 Pending CN116820820A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310777079.8A CN116820820A (zh) 2023-06-28 2023-06-28 服务器故障监测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310777079.8A CN116820820A (zh) 2023-06-28 2023-06-28 服务器故障监测方法及系统

Publications (1)

Publication Number Publication Date
CN116820820A true CN116820820A (zh) 2023-09-29

Family

ID=88123667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310777079.8A Pending CN116820820A (zh) 2023-06-28 2023-06-28 服务器故障监测方法及系统

Country Status (1)

Country Link
CN (1) CN116820820A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117170980A (zh) * 2023-10-31 2023-12-05 苏州元脑智能科技有限公司 一种服务器硬件异常预警方法、装置、设备及存储介质
CN117806912A (zh) * 2024-02-28 2024-04-02 济南聚格信息技术有限公司 一种服务器异常监测方法及系统
CN117806912B (zh) * 2024-02-28 2024-05-14 济南聚格信息技术有限公司 一种服务器异常监测方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117170980A (zh) * 2023-10-31 2023-12-05 苏州元脑智能科技有限公司 一种服务器硬件异常预警方法、装置、设备及存储介质
CN117170980B (zh) * 2023-10-31 2024-02-09 苏州元脑智能科技有限公司 一种服务器硬件异常预警方法、装置、设备及存储介质
CN117806912A (zh) * 2024-02-28 2024-04-02 济南聚格信息技术有限公司 一种服务器异常监测方法及系统
CN117806912B (zh) * 2024-02-28 2024-05-14 济南聚格信息技术有限公司 一种服务器异常监测方法及系统

Similar Documents

Publication Publication Date Title
CN108491305B (zh) 一种服务器故障的检测方法及系统
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
CN111124827B (zh) 一种设备风扇的监控装置及监控方法
CN111897671A (zh) 故障恢复方法、计算机设备及存储介质
CN113658414B (zh) 矿场设备故障预警方法、装置、终端设备及存储介质
CN116820820A (zh) 服务器故障监测方法及系统
CN112380089A (zh) 一种数据中心监控预警方法及系统
CN111813590B (zh) 用于诊断主控模块异常复位的方法与装置、及主控模块
CN114816022B (zh) 一种服务器电源异常监控方法、系统及存储介质
CN115794588A (zh) 内存故障预测方法、装置、系统及监测服务器
CN107528705B (zh) 故障处理方法及装置
CN114924929A (zh) 一种NVMe硬盘故障预警方法、系统和计算机设备
CN117271234A (zh) 故障诊断方法、装置、存储介质及电子装置
CN113868001B (zh) 一种内存修复结果的检查方法、系统及计算机存储介质
CN115378841B (zh) 设备接入云平台状态的检测方法及装置、存储介质、终端
CN114265324B (zh) 设备运行状态的监测方法、装置及终端设备
CN115543707A (zh) 硬盘故障的检测方法、系统和装置、存储介质及电子装置
CN116501705A (zh) 基于ras的内存信息收集解析方法、系统、设备及介质
CN114676019A (zh) 一种中央处理器状态监测方法、装置、设备、存储介质
CN115237719A (zh) 一种服务器电源可靠性的预警方法及系统
CN107241218B (zh) 一种故障检测方法及装置
CN111447329A (zh) 呼叫中心中状态服务器的监控方法、系统、设备及介质
CN113469453B (zh) 基于信息物理系统的电梯评估方法以及电梯评估装置
CN113233269B (zh) 电梯网络受攻击的诊断方法以及诊断装置
CN114356617B (zh) 注错测试方法、装置、系统及计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination