CN113032218B - 一种服务器故障检测方法、系统及计算机可读存储介质 - Google Patents
一种服务器故障检测方法、系统及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113032218B CN113032218B CN202110327678.0A CN202110327678A CN113032218B CN 113032218 B CN113032218 B CN 113032218B CN 202110327678 A CN202110327678 A CN 202110327678A CN 113032218 B CN113032218 B CN 113032218B
- Authority
- CN
- China
- Prior art keywords
- server
- fault detection
- detection result
- state data
- fault
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 280
- 238000000034 method Methods 0.000 claims abstract description 34
- 239000000306 component Substances 0.000 claims description 111
- 238000012549 training Methods 0.000 claims description 36
- 239000008358 core component Substances 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 abstract description 12
- 238000004364 calculation method Methods 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 7
- 238000012423 maintenance Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002035 prolonged effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/325—Display of status information by lamps or LED's
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种服务器故障检测方法,包括:BMC设备收集服务器部件的状态数据;BMC设备对状态数据进行故障检测,生成故障检测结果,并将故障检测结果发送至远端服务器;远端服务器接收故障检测结果,并在故障检测结果为服务器部件发生故障时,输出告警信息。本方法中的远端服务器仅需收集BMC设备发送的故障检测结果,并在故障检测结果为服务器部件发生故障时,输出告警信息即可,无需对服务器部件的状态数据进行故障检测,可避免相关技术中大量的故障检测计算导致远端服务器难以及时告警的情况,确保远端服务器在确定服务器部件发生故障时及时输出告警信息。本发明还提供服务器故障检测系统及计算机可读存储介质,具有上述有益效果。
Description
技术领域
本发明涉及服务器领域,特别涉及一种服务器故障检测方法、系统及计算机可读存储介质。
背景技术
BMC(Baseboard Manager Controller,基板管理控制器)是嵌入在服务器中的专用控制器,可对服务器中各部件的状态数据进行收集并发送至远端服务器,以实现利用远端服务器对众多服务器的运行状态进行集中监控管理。
相关技术中,BMC设备会收集服务器部件的状态数据并发送至远端服务器,由远端服务器对各服务器进行集中故障检测,并在确定服务器部件发生故障时输出告警信息。然而随着服务器数量的增多,单一的远端服务器难以承受大量状态数据及故障检测操作,进而降低了远端服务器进行故障检测的效率,最终导致远端服务器难以及时对服务器的故障情况进行告警,为服务器管理人员的工作带来不便。
发明内容
本发明的目的是提供一种服务器故障检测方法、系统及计算机可读存储介质,可利用BMC设备对服务器部件进行故障检测,而远端服务器仅需收集BMC设备发送的故障检测结果,无需对服务器部件的状态数据进行故障检测,确保远端服务器在确定服务器部件发生故障时及时输出告警信息。
为解决上述技术问题,本发明提供一种服务器故障检测方法,包括:
BMC设备收集服务器部件的状态数据;
所述BMC设备对所述状态数据进行故障检测,生成故障检测结果,并将所述故障检测结果发送至远端服务器;
所述远端服务器接收所述故障检测结果,并在所述故障检测结果为所述服务器部件发生故障时,输出告警信息。
可选地,所述BMC设备对所述状态数据进行故障检测,生成故障检测结果,并将所述故障检测结果发送至远端服务器,包括:
所述BMC设备对所述状态数据中属于预设核心部件对应的状态数据进行所述故障检测,生成核心故障检测结果;
所述BMC设备将所述状态数据中不属于预设核心部件对应的状态数据发送至边缘服务器,并将所述核心故障检测结果发送至所述远端服务器;
所述边缘服务器对接收到的状态数据进行所述故障检测,生成非核心故障检测结果,并将所述非核心故障检测结果发送至所述远端服务器。
可选地,在BMC设备收集服务器部件的状态数据之后,还包括:
所述BMC设备将所述状态数据发送至云服务器;
所述云服务器利用智能预警模型对接收到的状态数据进行预警检测,判断是否生成预警信息,并在生成所述预警信息时,将所述预警信息发送至所述远端服务器;
所述远端服务器接收并输出所述预警信息。
可选地,所述智能预警模型的训练过程,包括:
向所述BMC设备获取表示所述服务器部件发生故障的故障检测结果,并根据所述故障检测结果对应的发生时刻,将所述发生时刻以前预设时间段内已接收的状态数据设置为训练数据;
利用所述训练数据训练所述智能预警模型。
可选地,在生成故障检测结果之后,还包括:
所述BMC设备在所述故障检测结果为所述服务器部件发生故障时,输出所述告警信息。
本发明还提供一种服务器故障检测系统,包括:BMC设备和远端服务器,其中,
所述BMC设备用于收集服务器部件的状态数据;对所述状态数据进行故障检测,生成故障检测结果,并将所述故障检测结果发送至远端服务器;
所述远端服务器用于接收所述故障检测结果,并在所述故障检测结果为所述服务器部件发生故障时,输出告警信息。
可选地,还包括:边缘服务器;
所述BMC设备还用于对所述状态数据中属于预设核心部件对应的状态数据进行所述故障检测,生成核心故障检测结果;将所述状态数据中不属于预设核心部件对应的状态数据发送至所述边缘服务器,并将所述核心故障检测结果发送至所述远端服务器;
所述边缘服务器用于对接收到的状态数据进行所述故障检测,生成非核心故障检测结果,并将所述非核心故障检测结果发送至所述远端服务器。
可选地,还包括:云服务器;
所述BMC设备还用于将所述状态数据发送至所述云服务器;
所述云服务器用于利用智能预警模型对接收到的状态数据进行预警检测,判断是否生成预警信息,并在生成所述预警信息时,将所述预警信息发送至所述远端服务器;
所述远端服务器还用于接收并输出所述预警信息。
可选地,所述云服务器还用于向所述BMC设备获取表示所述服务器部件发生故障的故障检测结果,并根据所述故障检测结果对应的发生时刻,将所述发生时刻以前预设时间段内已接收的状态数据设置为训练数据;利用所述训练数据训练所述智能预警模型。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上述所述的服务器故障检测方法。
本发明提供一种服务器故障检测方法,包括:BMC设备收集服务器部件的状态数据;所述BMC设备对所述状态数据进行故障检测,生成故障检测结果,并将所述故障检测结果发送至远端服务器;所述远端服务器接收所述故障检测结果,并在所述故障检测结果为所述服务器部件发生故障时,输出告警信息。
可见,本方法中的远端服务器仅需收集BMC设备发送的故障检测结果,并在故障检测结果为服务器部件发生故障时,输出告警信息即可,无需对服务器部件的状态数据进行故障检测,可减少远端服务器的运算量,进而可避免相关技术中大量的故障检测计算导致远端服务器难以及时告警的情况,确保远端服务器在确定服务器部件发生故障时及时输出告警信息;同时,本方法利用BMC设备对服务器部件进行故障检测,可利用BMC设备对单一服务器中的服务器部件进行故障检测,可有效提升检测服务器故障状态的效率。本发明还提供一种服务器故障检测系统及计算机可读存储介质,具有上述有益效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例所提供的一种服务器故障检测方法的流程图;
图2a为本发明实施例所提供的一种服务器故障检测系统的结构框图;
图2b为本发明实施例所提供的另一种服务器故障检测系统的结构框图;
图2c为本发明实施例所提供的又一种服务器故障检测系统的结构框图;
图2d为本发明实施例所提供的还一种服务器故障检测系统的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
相关技术中,BMC设备会收集服务器部件的状态数据并发送至远端服务器,由远端服务器对各服务器进行集中故障检测,并在确定服务器部件发生故障时输出告警信息。然而随着服务器数量的增多,单一的远端服务器难以承受大量状态数据及故障检测操作,进而降低了远端服务器进行故障检测的效率,最终导致远端服务器难以及时对服务器的故障情况进行告警,为服务器管理人员的工作带来不便。有鉴于此,本发明提供一种服务器故障检测方法,可利用BMC设备对服务器部件进行故障检测,而远端服务器仅需收集BMC设备发送的故障检测结果,无需对服务器部件的状态数据进行故障检测,确保远端服务器在确定服务器部件发生故障时及时输出告警信息。请参考图1,图1为本发明实施例所提供的一种服务器故障检测方法的流程图,该方法包括:
S101、BMC设备收集服务器部件的状态数据。
需要说明的是,本发明实施例并不限定具体的服务器部件,例如服务器部件可以有CPU、存储部件等,用户可参考服务器的相关技术。可以理解的是,状态数据反应了服务器部件的工作状态,当状态数据的数值出现异常,例如出现在正常工作范围之外,或是无法被采集时,则说明服务器部件存在故障。需要说明的是,本发明实施例并不限定具体的状态数据,同样可以理解的是,不同的服务器部件拥有不同的状态数据,例如有温度、运行资源的占用等,用户同样可参考服务器的相关技术。可以理解的是,状态数据中也可以包含被采集的时间信息。本发明实施例也不限定状态数据的具体采集方式,例如可以利用与BMC设备连接的传感器进行采集,也可以利用BMC设备读取服务器的日志数据进行采集,也可以通过其他方式进行采集,用户可参考利用BMC设备采集服务器状态数据的相关技术。
进一步,本发明实施例并不限定BMC设备是收集所有服务器部件的状态数据,又或是收集部分指定的服务器部件的状态数据,当需要关注服务器的每一工作状态时,可以收集对所有的服务器部件的状态数据进行收集,当仅需关注服务器某些部件的工作状态时,也可以收集部分指定的服务器部件的状态数据。考虑到服务器的每一工作状态,均对服务器的整体运行状态有影响,即每一工作状态都需要被检测,因此可以对所有服务器部件的状态数据进行收集。本发明实施例也不限定BMC设备收集服务器部件状态数据的执行周期,例如BMC设备可实时、不间断地收集服务器部件状态数据,也可以间隔预设固定周期进行状态数据采集,当服务器部件的状态数据需要被时刻关注时,可实时、不间断地进行收集,当需要节省采集资源时,也可以间隔预设固定周期进行状态数据采集。在本发明实施例中,考虑到服务器的整体运行状态需要被时刻关注,这样才能及时检测并报告服务器的故障情况,以便管理人员对服务器的故障进行检查及维修,因此可利用BMC设备对服务器部件的状态数据进行实时、不间断地采集。
进一步,本发明实施例并不限定除了故障检测外,该状态数据是否可用于对预警检测,其中预警检测指对服务器部件是否即将出现故障进行预测,以方便服务器管理人员在服务器部件确实发生故障之前,对服务器部件进行检查及维修。当故障检测以能够满足应用需求时,可只对状态数据进行故障检测;当需要降低服务器故障率时,也可以利用状态数据进行预警检测。在本发明实施例中,考虑到服务器已发生故障时,再对服务器进行维修可能会影响服务器机组的运行状态,因此可利用状态数据进行预警检测,以降低服务器的故障率。需要说明的是,本发明实施例并不限定预警检测的执行主体,例如可以为BMC设备,也可以为一独立的云服务器。考虑到独立的云服务器可高效进行预警检测,因此在本发明实施例中,可采用云服务器进行预警检测。可以理解的是,BMC设备需将状态数据发送至云服务器。本发明实施例也不限定预警检测的具体方式,例如可采用预设阈值或预设阈值区间进行检测,也可以利用预警检测模型进行预警检测,用户可根据实际应用需求进行设置。
S102、BMC设备对状态数据进行故障检测,生成故障检测结果,并将故障检测结果发送至远端服务器。
在本发明实施例中采用BMC设备对状态数据进行故障检测,并将故障检测结果发送至远端服务器,其中故障检测结果表示服务器部件正常工作或是发生故障。相关技术中,故障检测及故障检测结果均由远端服务器进行,由于单台服务器就已经拥有较多状态数据,可以理解的是当远端服务器管理的服务器数量增多时,远端服务器不仅需要接收巨量的状态数据,同时也要对每一状态数据进行故障检测并生成故障检测结果,这显然极大增加了远端服务器的运行负荷,进而降低了远端服务器对服务器故障检测的效率,为远端服务器及时发现并告警服务器存在部件故障增加了困难。而在本发明实施例中,由于故障检测操作由BMC设备完成,远端服务器仅需接收BMC设备生成的故障检测结果,并在故障检测结果为服务器部件发生故障时输出告警信息即可,无需对服务器部件的状态数据进行检测,显著降低了远端服务器的运行负荷。由于远端服务器仅需收集汇总故障检测的最终结果即可,因此可确保远端服务器在接收到故障检测结果时,能及时对发生故障的故障检测结果进行响应,确保远端服务器及时告警服务器部件的故障情况;同时,由于本发明采用BMC设备对状态数据进行故障检测,可采用BMC设备对单个服务器进行一对一检测,而并非相关技术中的采用远端服务器对多个服务器进行集中检测,可有效确保BMC设备对服务器部件的故障状态进行高效检测,进而可提升故障检测的效率,确保及时发现并告警服务器部件的故障情况。
需要说明的是,本发明实施例并不限定BMC设备进行故障检测的具体方式,用户可参考对服务器进行故障检测的相关技术,例如可采用利用预设阈值或预设阈值区间,对服务器部件的状态数据进行判断,当服务器部件的状态数据处于预设阈值或预设阈值区间要求的正常工作范围时,则说明服务器部件正常工作,反之则说明服务器部件发生故障。可以理解的是,不同的服务器部件可能具有不同的故障检测形式,用户可参考服务器的相关技术,并根据具体的服务器部件进行选择和设置。
进一步,可以理解的是故障检测结果包含有表示服务器部件正常工作又或是发生故障的信息。本发明实施例并不限定故障检测结果中可包含的其他信息,例如可包含故障检测结果的生成时间信息,也可以包含生成故障检测结果时的服务器部件状态数据,也可以包含服务器的编号或是在机房中的位置信息,当然,也可以是上述信息的组合,用户可根据实际应用需求进行设定。
进一步,本发明实施例并不限定BMC设备是对所有的状态数据进行故障检测,还是对状态数据中属于指定设备对应的状态数据进行故障检测,当需要关注每一服务器部件的运行状态时,可以对所有的状态数据都进行故障检测;当仅需对部分服务器部件的运行状态进行监测时,也可以对状态数据中属于指定设备对应的状态数据进行故障检测。考虑到服务器每一部件的工作状态均会影响整体的工作状态,因此在本发明实施例中BMC设备可对所有的状态数据进行故障检测。
进一步,可以理解的是当BMC设备对所有服务器部件的状态数据都进行故障检测时,将会增重BMC设备的计算负荷,降低BMC设备的故障检测效率,此时还可引入边缘服务器,由BMC设备对状态数据中属于预设核心部件对应的状态数据进行检测,而由边缘服务器对状态数据中不属于预设核心部件对应的状态数据进行检测。可以理解的是,由于数据采集由BMC设备完成,因此当采用边缘服务器对状态数据中不属于预设核心部件对应的状态数据进行检测时,需要BMC设备将该部分数据发送至边缘服务器。需要说明的是,本发明实施例并不限定具体的边缘服务器,只要该边缘服务器能够对接收到的状态数据进行故障检测即可。本发明实施例也不限定利用BMC设备发送状态数据中不属于预设核心部件对应的状态数据的具体发送方式,用户可参考利用BMC设备与服务器进行数据交互的相关技术。本发明实施例也不限定边缘服务器与BMC设备的对应关系,例如可以为一对一关系,也可以为一台边缘服务器对应多台BMC设备。考虑到边缘服务器的计算能力大于BMC设备,同时边缘服务器仅对状态数据中不属于预设核心部件对应的状态数据进行故障检测,因此可采用一台边缘服务器对应多台BMC设备的设备对应关系。需要说明的是,本发明实施例并不限定一台边缘服务器可管理的BMC设备的数量,用户可根据实际应用需求进行设定。
在一种可能的情况中,BMC设备对状态数据进行故障检测,生成故障检测结果,并将故障检测结果发送至远端服务器的过程,可以包括:
步骤11:BMC设备对状态数据中属于预设核心部件对应的状态数据进行故障检测,生成核心故障检测结果;
步骤12:BMC设备将状态数据中不属于预设核心部件对应的状态数据发送至边缘服务器,并将核心故障检测结果发送至远端服务器;
步骤13:边缘服务器对接收到的状态数据进行故障检测,生成非核心故障检测结果,并将非核心故障检测结果发送至远端服务器。
需要说明的是,对边缘服务器进行故障检测的具体方式的限定描述,与BMC设备进行故障检测的具体方式的限定描述一致,此处不再赘述。同样,对核心故障检测结果及非核心故障检测结果的限定描述,也与故障检测结果的限定描述一致,此处不再赘述。本发明实施例也不限定具体的预设核心部件,用户可根据服务器中实际带有的服务器部件进行设定。
进一步,本发明实施例并不限定边缘服务器是否可对接收到的状态数据进行存储。当仅需进行故障检测便可满足应用需求时,边缘服务器可不对接收到的状态数据进行存储,当需要对状态数据进行回看时,边缘服务器可以对接收到的状态数据进行存储。考虑到状态数据为反应服务器部件运行状态的原始数据,是服务器管理人员进行故障检测及维修的重要数据信息,因此边缘服务器可对接收到的状态数据进行存储,以便服务器管理人员进行查找回看。可以理解的是,当边缘服务器可对接收到的状态数据进行存储时,BMC设备也可将状态数据中属于预设核心部件的状态数据,连同状态数据中不属于预设核心部件的状态数据一起发送至边缘服务器,以利用边缘服务器对所有服务器部件的状态数据进行集中存储。
进一步,本发明实施例并不限定BMC设备在生成故障检测结果后,是否能够在确定故障检测结果为服务器发生故障时输出告警信息。当都由远端服务器进行告警信息输出能够满足应用需求时,可不利用BMC设备进行告警信息输出;当需要及时发送告警信息,以便现场工作人员及时处理服务器故障问题时,也可以利用BMC设备进行告警信息输出。在本发明实施例中,为了提升服务器部件故障维修的效率,可利用BMC设备在确定故障检测结果为服务器部件发生故障时,输出告警信息,以提示现场工作人员进行维修处理。可以理解的是,告警信息包含有表示服务器部件发生故障的信息。本发明实施例并不限定告警信息中可包含的其他信息,例如可以包含服务器部件发生故障时对应的状态信息,服务器具体的位置信息等,用户可根据实际应用需求进行设定。本发明实施例并不限定BMC设备输出告警信息的方式,例如当BMC设备管理的服务器具有屏幕时,可通过该服务器的屏幕进行输出;也可以利用服务器的蜂鸣器、信号灯又或是蜂鸣器与信号灯的组合进行告警信息输出。考虑到服务器通常不具有屏幕,但一般带有蜂鸣器或信号灯,因此在本发明实施例中,可利用服务器的蜂鸣器、信号灯或蜂鸣器和信号灯的组合进行告警信息输出。本发明实施例并不限定利用服务器的蜂鸣器、信号灯或蜂鸣器和信号灯输出告警信息的方式,例如可简单输出持续的声音信号或光信号,也可根据具体的发生故障的服务器部件,输出对应的预设信号格式的声音信号或光信号。为了提供服务器部件的具体部件类型,本发明实施例可根据具体的发生故障的服务器部件,输出对应的预设信号格式的声音信号或光信号。需要说明的是,本发明实施例并不限定具体的预设信号格式,例如可以间隔预设时间段进行长鸣、长亮,又或是间隔预设时间段进行短鸣、短亮,或是间隔预设时间段进行长鸣、长亮及短鸣、短亮的组合。需要说明的是,本发明实施例并不限定具体的间隔时间段,以及长鸣、长亮、短鸣及短亮的具体持续时间,用户可根据实际应用需求进行设定。
在一种可能的情况中,在生成故障检测结果之后,还可以包括:
步骤21:BMC设备在故障检测结果为服务器部件发生故障时,输出告警信息。
S103、远端服务器接收故障检测结果,并在故障检测结果为服务器部件发生故障时,输出告警信息。
首先需要说明的是,本发明实施例并不限定一台远端服务器可管理的BMC设备的数量,用户可根据实际应用需求进行设定。当然,当同时利用BMC设备和边缘服务器进行故障检测时,本发明实施例也不限定一台远端服务器可管理的边缘服务器的数量,用户可根据实际应用需求进行设置。本发明实施例,在同时利用BMC设备和边缘服务器进行故障检测时,BMC设备是通过直接的数据通路发送故障检测结果,又或是经过边缘服务器发送该故障检测结果,用户可根据实际应用需求进行设定。
进一步,本发明实施例也不限定远端服务器是否能够存储故障检测结果。当仅需对发生故障的故障检测结果进行告警信息输出时,可不存储故障检测结果;当需要对故障检测结果进行回看时,也可以对故障检测结果进行存储。在本发明实施例中,为了方便服务器管理人员管理和维护,可对故障检测结果进行存储。
最后,远端服务器输出的告警信息可包含的具体内容,以及具体输出方式的限定描述,与BMC设备输出的告警信息及具体输出方式的限定描述一致,此处不再赘述。
基于上述实施例,本方法中的远端服务器仅需收集BMC设备发送的故障检测结果,并在故障检测结果为服务器部件发生故障时,输出告警信息即可,无需对服务器部件的状态数据进行故障检测,可减少远端服务器的运算量,进而可避免相关技术中大量的故障检测计算导致远端服务器难以及时告警的情况,确保远端服务器在确定服务器部件发生故障时及时输出告警信息;同时,本方法利用BMC设备对服务器部件进行故障检测,可利用BMC设备对单一服务器中的服务器部件进行故障检测,可有效提升检测服务器故障状态的效率。
基于上述实施例,考虑到服务器已发生故障时,再对服务器进行维修可能会影响服务器机组的运行状态,因此可利用状态数据进行预警检测,以降低服务器的故障率。下面对利用云服务器进行预警检测的具体过程进行介绍。在一种可能的情况中,在BMC设备收集服务器部件的状态数据之后,还可以包括:
S201、BMC设备将状态数据发送至云服务器。
需要说明的是,本发明实施例并不限定BMC设备将状态数据发送至云服务器的具体发送方式,用户可参考BMC设备与服务器进行数据交互的相关技术。本发明实施例也不限定一台云服务器可管理的BMC设备的数量,用户可根据实际应用需求进行设定。本发明实施例也不限定具体的云服务器,只要该云服务器能够对接收到的状态数据进行预警检测即可。
S202、云服务器利用智能预警模型对接收到的状态数据进行预警检测,判断是否生成预警信息,并在生成预警信息时,将预警信息发送至远端服务器。
在本发明实施例中,预警检测的目的在于预测服务器部件是否即将出现故障,而预警信息中包含有服务器部件即将出现故障的信息。当对状态数据进行预警检测后确定服务器部件不会出现故障时,此时便确定不会生成预警信息,反之则会生成预警信息。
需要说明的是,对预警信息中可能包含的其他数据,以及具体的发送方式,与告警信息中相应的限定描述一致,此处不再赘述。
需要说明的是,本发明实施例并不限定具体的智能预警模型,该模型可以为基于已整理的状态数据进行数学建模的得到的数学模型,又或是基于机器学习框架、多模态数据融合等技术进行搭建的机器学习模型,用户可根据实际应用需求进行设置。考虑到机器学习模型能够更快速地进行调节及部署,因此在本发明实施例中可采用机器学习模型作为智能预警模型。需要说明的是,本发明并不限定具体的机器学习框架,用户可参考机器学习的相关技术。
进一步,可以理解的是智能预警模型需要利用训练数据进行数据训练后才可使用。本发明实施例并不限定具体的训练数据的生成方式,例如可对接收到的状态数据进行人工标注,生成训练数据,也可以向获取表示服务器部件发生故障的故障检测结果,并同时利用故障检测结果及状态数据生成训练数据。考虑到故障检测结果可具体反应服务器部件发生故障的情况,因此可同时利用故障检测结果及状态数据生成训练数据。本发明实施例并不限定同时利用故障检测结果及状态数据生成训练数据的具体过程,例如可以利用故障检测结果,对状态数据进行分类,将故障检测结果对应的状态数据设置为故障数据,并将其他状态数据设置为正常数据,最后将故障数据及正常数据设置为训练数据,也可以在故障检测结果中设置时间信息,并利用时间信息确定状态数据中发生故障的发生时刻,最后将发生时刻以前预设时间段内已接收的状态数据设置为训练数据。由于第二种方式可提取更多的数据信息,因此在本发明中可采用第二种方式生成训练数据。需要说明的是,本发明实施例并不限定向何种设备获取表示服务器部件发生故障的故障检测结果,例如可向BMC设备获取,已可向远端服务器获取。考虑到BMC设备可更加及时地生成故障检测结果,因此可向BMC设备获取。可以理解的是,该获取方式可以为:云服务器可主动向BMC设备请求表示服务器部件发生故障的故障检测结果,也可以为由BMC设备主动向云服务器发送该故障检测结果,用户可根据实际应用需求进行设定。
在一种可能的情况中,智能预警模型的训练过程,可以包括:
步骤31:向BMC设备获取表示服务器部件发生故障的故障检测结果,并根据故障检测结果对应的发生时刻,将发生时刻以前预设时间段内已接收的状态数据设置为训练数据;
步骤32:利用训练数据训练智能预警模型。
需要说明的是,本发明实施例并不限定预设时间段的具体数值,用户可根据实际应用需求进行设定。本发明也不限定具体的训练过程,用户可根据实际选择的机器学习框架,参考相关的技术。
可以理解的是,当同时采用BMC设备及边缘服务器进行故障检测时,可以向BMC设备获取核心故障结果,并向边缘服务器获取非核心故障检测结果。对向边缘服务器获取非核心故障检测结果的方式,与向BMC设备获取故障检测结果的限定描述一致。
S203、远端服务器接收并输出预警信息。
需要说明的是,预警信息的输出方式与告警信息的输出方式的限定描述一致。同样,本发明实施例也不限定一台远端服务器可对应的云服务器的数量,用户可根据实际应用需求进行设定。
基于上述实施例,本方法可利用云服务器对已接收到的状态数据进行预警检测,可对服务器部件可能即将出现的故障情况进行预测,以减少服务器的故障率,进而可有效减少服务器部件故障对服务器机组运行状态的影响,确保服务器机组的稳定运行。
下面结合具体的结构框图解释上述服务器故障检测方法。请参考图2a,图2a为本发明实施例所提供的一种服务器故障检测系统的结构框图,该系统包括BMC设备210,远端服务器220,边缘服务器230及云服务器240。BMC设备210与远端服务器220、边缘服务器230及云服务器240相连,边缘服务器230进一步与远端服务器220相连、云服务器240相连,云服务器240进一步与远端服务器220相连。可以理解的是,上述连接关系均为建立数据连接。该方法可以包括:
S301、BMC设备收集服务器部件的状态数据。
S302、BMC设备对状态数据中属于预设核心部件对应的状态数据进行故障检测,生成核心故障检测结果。
S303、BMC设备在故障检测结果为服务器部件发生故障时,输出告警信息。
S304、BMC设备将所有状态数据发送至边缘服务器,并将核心故障检测结果发送至远端服务器。
S305、边缘服务器存储接收到的状态数据,并对状态数据中不属于预设核心部件对应的状态数据进行故障检测,生成非核心故障检测结果,并将非核心故障检测结果发送至远端服务器。
S306、远端服务器接收并存储核心故障检测结果及非核心故障检测结果,并在核心故障检测结果为预设核心部件发生故障时,或是非核心故障检测结果为预设核心部件以外的其他部件发生故障时,输出告警信息。
S307、BMC设备将状态数据发送至云服务器。
S308、云服务器利用智能预警模型对接收到的状态数据进行预警检测,判断是否生成预警信息,并在生成预警信息时,将预警信息发送至远端服务器。
S309、所述远端服务器存储接收到的预警信息,并输出预警信息。
当云服务器在进行智能预警模型的训练时,该方法还可以包括:
S401、向BMC设备获取表示预设核心部件发生故障的核心故障检测结果,以及向边缘服务器获取表示预设核心部件以外的其他部件发生故障的非核心故障检测结果。
云服务器向BMC设备及边缘服务器获取核心故障检测结果及非核心故障检测结果的方式可以为云服务主动发送获取请求,也可以为BMC设备、边缘服务器或两者均主动向云服务器发送相关的故障检测结果。
S402、并根据核心故障检测结果或非核心故障检测结果对应的发生时刻,将发生时刻以前预设时间段内已接收的状态数据设置为训练数据。
S403、利用训练数据训练智能预警模型。
下面对本发明实施例提供的一种服务器故障检测系统及计算机可读存储介质进行介绍,下文描述的服务器故障检测系统及计算机可读存储介质与上文描述的服务器故障检测方法可相互对应参照。
请参考图2b,图2b为本发明实施例所提供的另一种服务器故障检测系统的结构框图,服务器故障检测系统,可以包括:BMC设备210和远端服务器220,其中,
BMC设备210用于收集服务器部件的状态数据;对状态数据进行故障检测,生成故障检测结果,并将故障检测结果发送至远端服务器220;
远端服务器220用于接收故障检测结果,并在故障检测结果为服务器部件发生故障时,输出告警信息。
可选地,请参考图2c,图2c为本发明实施例所提供的又一种服务器故障检测系统的结构框图,该服务器故障检测系统,还可以包括:边缘服务器230;
BMC设备210还用于对状态数据中属于预设核心部件对应的状态数据进行故障检测,生成核心故障检测结果;将状态数据中不属于预设核心部件对应的状态数据发送至边缘服务器230,并将核心故障检测结果发送至远端服务器220;
边缘服务器230用于对接收到的状态数据进行故障检测,生成非核心故障检测结果,并将非核心故障检测结果发送至远端服务器220。
可选地,请参考图2d,图2d为本发明实施例所提供的还一种服务器故障检测系统的结构框图,服务器故障检测系统,还可以包括:云服务器240;
BMC设备210还用于将状态数据发送至云服务器240;
云服务器240用于利用智能预警模型对接收到的状态数据进行预警检测,判断是否生成预警信息,并在生成预警信息时,将预警信息发送至远端服务器220;
远端服务器220还用接收并输出预警信息。
可选地,云服务器240还用于向BMC设备获取表示服务器部件发生故障的故障检测结果,并根据故障检测结果对应的发生时刻,将发生时刻以前预设时间段内已接收的状态数据设置为训练数据;利用训练数据训练智能预警模型。
可选地,BMC设备220还用于在故障检测结果为服务器部件发生故障时,输出告警信息。
基于上述实施例,本发明还提供如图2a所示的服务器故障检测系统,其中各设备的用途可参考上述实施例,此处不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述任意实施例的程序界面图像传输方法的步骤。
由于计算机可读存储介质部分的实施例与服务器故障检测方法部分的实施例相互对应,因此存储介质部分的实施例请参见服务器故障检测方法部分的实施例的描述,这里暂不赘述。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的一种服务器故障检测方法、系统及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (8)
1.一种服务器故障检测方法,其特征在于,包括:
BMC设备收集服务器部件的状态数据;
所述BMC设备对所述状态数据进行故障检测,生成故障检测结果,并将所述故障检测结果发送至远端服务器;
所述远端服务器接收所述故障检测结果,并在所述故障检测结果为所述服务器部件发生故障时,输出告警信息;
所述BMC设备对所述状态数据进行故障检测,生成故障检测结果,并将所述故障检测结果发送至远端服务器,包括:所述BMC设备对所述状态数据中属于预设核心部件对应的状态数据进行所述故障检测,生成核心故障检测结果,所述BMC设备将所述状态数据中不属于预设核心部件对应的状态数据发送至边缘服务器,并将所述核心故障检测结果发送至所述远端服务器,所述边缘服务器对接收到的状态数据进行所述故障检测,生成非核心故障检测结果,并将所述非核心故障检测结果发送至所述远端服务器。
2.根据权利要求1所述的服务器故障检测方法,其特征在于,在BMC设备收集服务器部件的状态数据之后,还包括:
所述BMC设备将所述状态数据发送至云服务器;
所述云服务器利用智能预警模型对接收到的状态数据进行预警检测,判断是否生成预警信息,并在生成所述预警信息时,将所述预警信息发送至所述远端服务器;
所述远端服务器接收并输出所述预警信息。
3.根据权利要求2所述的服务器故障检测方法,其特征在于,所述智能预警模型的训练过程,包括:
向所述BMC设备获取表示所述服务器部件发生故障的故障检测结果,并根据所述故障检测结果对应的发生时刻,将所述发生时刻以前预设时间段内已接收的状态数据设置为训练数据;
利用所述训练数据训练所述智能预警模型。
4.根据权利要求1至3任一项所述的服务器故障检测方法,其特征在于,在生成故障检测结果之后,还包括:
所述BMC设备在所述故障检测结果为所述服务器部件发生故障时,输出所述告警信息。
5.一种服务器故障检测系统,其特征在于,包括:BMC设备、远端服务器和边缘服务器,其中,
所述BMC设备用于收集服务器部件的状态数据;对所述状态数据进行故障检测,生成故障检测结果,并将所述故障检测结果发送至远端服务器;
所述远端服务器用于接收所述故障检测结果,并在所述故障检测结果为所述服务器部件发生故障时,输出告警信息;
所述BMC设备还用于对所述状态数据中属于预设核心部件对应的状态数据进行所述故障检测,生成核心故障检测结果;将所述状态数据中不属于预设核心部件对应的状态数据发送至所述边缘服务器,并将所述核心故障检测结果发送至所述远端服务器;
所述边缘服务器用于对接收到的状态数据进行所述故障检测,生成非核心故障检测结果,并将所述非核心故障检测结果发送至所述远端服务器。
6.根据权利要求5所述的服务器故障检测系统,其特征在于,还包括:云服务器;
所述BMC设备还用于将所述状态数据发送至所述云服务器;
所述云服务器用于利用智能预警模型对接收到的状态数据进行预警检测,判断是否生成预警信息,并在生成所述预警信息时,将所述预警信息发送至所述远端服务器;
所述远端服务器还用于接收并输出所述预警信息。
7.根据权利要求6所述的服务器故障检测系统,其特征在于,所述云服务器还用于向所述BMC设备获取表示所述服务器部件发生故障的故障检测结果,并根据所述故障检测结果对应的发生时刻,将所述发生时刻以前预设时间段内已接收的状态数据设置为训练数据;利用所述训练数据训练所述智能预警模型。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如权利要求1至4任一项所述的服务器故障检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110327678.0A CN113032218B (zh) | 2021-03-26 | 2021-03-26 | 一种服务器故障检测方法、系统及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110327678.0A CN113032218B (zh) | 2021-03-26 | 2021-03-26 | 一种服务器故障检测方法、系统及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113032218A CN113032218A (zh) | 2021-06-25 |
CN113032218B true CN113032218B (zh) | 2022-07-29 |
Family
ID=76472572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110327678.0A Active CN113032218B (zh) | 2021-03-26 | 2021-03-26 | 一种服务器故障检测方法、系统及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113032218B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113808725B (zh) * | 2021-09-06 | 2024-06-28 | 武汉联影医疗科技有限公司 | 设备预警系统和方法 |
CN115437886A (zh) * | 2022-09-09 | 2022-12-06 | 中国电信股份有限公司 | 基于存算一体芯片的故障预警方法、装置、设备及存储 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111143173A (zh) * | 2020-01-02 | 2020-05-12 | 山东超越数控电子股份有限公司 | 一种基于神经网络的服务器故障监测方法及系统 |
CN111314115A (zh) * | 2020-01-19 | 2020-06-19 | 苏州浪潮智能科技有限公司 | 一种基于idl日志的告警方法、装置、设备及可读介质 |
CN111949429A (zh) * | 2020-08-17 | 2020-11-17 | 山东超越数控电子股份有限公司 | 基于密度聚类算法的服务器故障监测方法及系统 |
CN111984498A (zh) * | 2020-07-24 | 2020-11-24 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 服务器集群监控和管理系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10157115B2 (en) * | 2015-09-23 | 2018-12-18 | Cloud Network Technology Singapore Pte. Ltd. | Detection system and method for baseboard management controller |
CN107193701A (zh) * | 2017-06-06 | 2017-09-22 | 郑州云海信息技术有限公司 | 具有故障诊断功能的服务器主板及故障诊断方法 |
CN110187996A (zh) * | 2019-05-30 | 2019-08-30 | 苏州浪潮智能科技有限公司 | Bmc主进程故障诊断方法、装置、设备及可读存储介质 |
-
2021
- 2021-03-26 CN CN202110327678.0A patent/CN113032218B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111143173A (zh) * | 2020-01-02 | 2020-05-12 | 山东超越数控电子股份有限公司 | 一种基于神经网络的服务器故障监测方法及系统 |
CN111314115A (zh) * | 2020-01-19 | 2020-06-19 | 苏州浪潮智能科技有限公司 | 一种基于idl日志的告警方法、装置、设备及可读介质 |
CN111984498A (zh) * | 2020-07-24 | 2020-11-24 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 服务器集群监控和管理系统 |
CN111949429A (zh) * | 2020-08-17 | 2020-11-17 | 山东超越数控电子股份有限公司 | 基于密度聚类算法的服务器故障监测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113032218A (zh) | 2021-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113032218B (zh) | 一种服务器故障检测方法、系统及计算机可读存储介质 | |
CN106789306B (zh) | 通信设备软件故障检测收集恢复方法和系统 | |
CN107800783B (zh) | 远程监控服务器的方法及装置 | |
CN112994972B (zh) | 一种分布式探针监测平台 | |
CN110347694B (zh) | 一种基于物联网的设备监控方法、装置及系统 | |
CN112115031A (zh) | 集群状态监控方法及装置 | |
CN104125085A (zh) | 一种基于esb的数据管控方法及装置 | |
CN114398354A (zh) | 数据监测方法、装置、电子设备及存储介质 | |
CN114356499A (zh) | Kubernetes集群告警根因分析方法及装置 | |
CN113127299A (zh) | 服务器运维方法、装置、系统及计算机可读存储介质 | |
CN115760073A (zh) | 一种基于bim模型的变电站设备维护系统和方法 | |
CN110502399A (zh) | 故障检测方法及装置 | |
CN110750425A (zh) | 数据库监控方法、装置、系统和存储介质 | |
CN113391611B (zh) | 动力环境监控系统的预警方法、装置及系统 | |
CN113537590A (zh) | 一种数据异常预测方法及系统 | |
CN115190046B (zh) | 一种服务器集群的检测方法、检测装置及计算设备 | |
CN109614330A (zh) | 存储系统业务测试方法、装置、系统、存储控制器及介质 | |
CN112256470B (zh) | 故障服务器定位方法及装置、存储介质及电子设备 | |
TW201409968A (zh) | 資通信服務品質評估與即時告警系統與方法 | |
CN114490237A (zh) | 基于多数据来源的运维监测方法及装置 | |
CN114003426A (zh) | 故障处理方法、系统和电子设备 | |
CN113067722A (zh) | 数据管理平台及其工作方法 | |
CN112799957A (zh) | 基于用户行为的故障处理方法、系统、设备和介质 | |
CN112307271A (zh) | 一种配电自动化系统遥控业务的安全监测方法及装置 | |
CN109831342A (zh) | 一种基于分布式系统的故障恢复方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |