CN111309562B - 服务器故障的预测方法、装置、设备和存储介质 - Google Patents

服务器故障的预测方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN111309562B
CN111309562B CN202010123606.XA CN202010123606A CN111309562B CN 111309562 B CN111309562 B CN 111309562B CN 202010123606 A CN202010123606 A CN 202010123606A CN 111309562 B CN111309562 B CN 111309562B
Authority
CN
China
Prior art keywords
server
state data
fault
data
working state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010123606.XA
Other languages
English (en)
Other versions
CN111309562A (zh
Inventor
段璞
刘春江
韩东升
陈国炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai University Ding Tech Software Co ltd
Original Assignee
Shanghai University Ding Tech Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai University Ding Tech Software Co ltd filed Critical Shanghai University Ding Tech Software Co ltd
Priority to CN202010123606.XA priority Critical patent/CN111309562B/zh
Publication of CN111309562A publication Critical patent/CN111309562A/zh
Application granted granted Critical
Publication of CN111309562B publication Critical patent/CN111309562B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • G06F11/3062Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations where the monitored property is the power consumption
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例公开了一种服务器故障的预测方法、装置、设备和存储介质。所述方法包括:获取服务器的工作状态数据,所述工作状态数据包括功耗数据和/或电磁泄露数据;根据所述工作状态数据对所述服务器进行故障预测。本发明实施例通过采用上述技术方案,不仅能够实现服务器的预测性维护,有效降低服务器的宕机率以及服务器的维护成本;还能够有效保障服务器的数据安全,避免产生重大损失。并且,由于通过故障维护设备对服务器进行故障预测,不必对服务器的硬件进行改造,也无需额外在服务器上安装软件程序,能够避免故障预测对服务器的内部资源的占用,提高服务器的运行速率。

Description

服务器故障的预测方法、装置、设备和存储介质
技术领域
本发明涉及服务器运维技术领域,尤其涉及一种服务器故障的预测方法、装置、设备和存储介质。
背景技术
随着互联网的快速发展以及云计算、大数据等功能的不断完善,我国服务器的应用数量也越来越多。
服务器在工作过程,因某些故障原因丧失既定工作功能或者因受到黑客攻击而出现信息泄密、数据流失等情况时有发生,因此,需要通过预测性维护技术预测服务器的故障隐患和可靠工作寿命,实现从“事后维修”和“定期维修”到“视情维修”和“预测性维修”的转变,提高服务器的安全性。现有的服务器预测性维护技术大多基于服务器的CPU负载、内存负载和可用物理内存等对服务器进行预测性维护。
但是,现有的服务器预测性维护技术不存在可靠的安全机制,导致服务器极易产生安全隐患。
发明内容
有鉴于此,本发明实施例提供一种服务器故障的预测方法、装置、设备和存储介质,以在实现服务器预测性维护的前提下,提高服务器的安全性。
第一方面,本发明实施例提供了一种服务器故障的预测方法,包括:
获取服务器的工作状态数据,所述工作状态数据包括功耗数据和/或电磁泄露数据;
根据所述工作状态数据对所述服务器进行故障预测。
第二方面,本发明实施例提供了一种服务器故障的预测装置,包括:
数据获取模块,用于获取服务器的工作状态数据,所述工作状态数据包括功耗数据和/或电磁泄露数据;
故障预测模块,用于根据所述工作状态数据对所述服务器进行故障预测。
第三方面,本发明实施例提供了一种设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例所述的服务器故障的预测方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所述的服务器故障的预测方法。
在上述预测服务器故障的技术方案中,获取服务器的功耗数据和/或电磁泄露数据,并根据所获取的功耗数据和/或电磁泄露数据对服务器进行故障预测。本发明实施例通过采用上述技术方案,不仅能够实现服务器的预测性维护,有效降低服务器的宕机率以及服务器的维护成本;还能够有效保障服务器的数据安全,避免产生重大损失。并且,由于通过故障维护设备对服务器进行故障预测,不必对服务器的硬件进行改造,也无需额外在服务器上安装软件程序,能够避免故障预测对服务器的内部资源的占用,提高服务器的运行速率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例一提供的一种服务器故障的预测方法的流程示意图;
图2为本发明实施例二提供的一种服务器故障的预测方法的流程示意图;
图3为本发明实施例三提供的一种服务器故障的预测装置的结构框图;
图4为本发明实施例四提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。此外,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合
实施例一
本发明实施例一提供一种服务器故障的预测方法。所述方法可以由服务器故障的预测装置执行,其中,该装置可以由软件和/或硬件实现,一般可集成于具有服务器故障预测功能的设备中,如可以集成于服务器的供电设备或基于电连接于服务器与其供电设备之间的第三方设备中,典型的,可以集成于服务器的供电设备(如电源)中。图1为本发明实施例一提供的一种服务器故障的预测方法的流程示意图,如图1所示,所述方法包括:
S110、获取服务器的工作状态数据,所述工作状态数据包括功耗数据和/或电磁泄露数据。
在本实施例中,故障预测设备可以获取服务器的功耗数据和/或电磁泄露数据,并根据所获取的功耗数据和/或电磁泄露数据对服务器进行故障预测,从而,直接基于服务器的供电信号即可预测服务器是否处于故障状态或即将出现故障的预故障状态,无需与服务器之间进行数据通信,避免非法人员通过故障预测设备对服务器进行网络攻击,提高服务器的安全性,避免产生重大损失。
其中,服务器的功耗数据可以通过服务器的耗电功率表征;服务器的电磁泄露数据可以理解为服务器供电线路上的干扰信号的信号信息,其可以包括服务器供电线路上的干扰信号的频率/频段信息和幅度信息;故障预测设备可以与服务器电连接,其可以为服务器的供电设备,也可以为连接于服务器的供电设备与服务器之间或连接于服务器电信号输入端口的第三方设备。优选的,故障预测设备可以为服务器的供电设备,即本实施例所提供的服务器故障的预测方法可以由服务器的供电设备执行,从而进一步提高服务器工作状态数据的获取速度,以下以此种情况为例进行说明。
在本步骤中,故障检测设备可以不考虑服务器是否开机启动,均按照预设数据获取规则获取服务器的工作状态数据;也可以在检测到服务器开机启动后,按照预设数据获取规则获取服务器的工作状态数据,本实施例不对此进行限制。为了避免执行不必要的数据获取操作,减少故障检测设备损耗以及功耗,优选的,本实施例可以在检测到服务器开机启动后,再按照预设数据规则获取服务器的工作状态数据。其中,服务器工作状态数据的预设获取规则可以为周期性地获取服务器的工作状态数据或实时获取服务器的工作状态数据,等等;服务器是否开机启动可以基于本设备(即故障预测设备)是否为服务器供电确定,如可以在检测到本设备为服务器供电时,即确定服务器已经开机启动,此时,优选的,在所述获取服务器的工作状态数据之前,还包括:确定本设备处于为服务器提供电能的工作状态。
示例性的,故障检测设备可以在自身为服务器提供电能时,通过故障检测设备内的功耗检测模块电路检测故障检测设备为服务器提供的电信号的电压值和/或电流值,并根据该电压值和/或电流值计算服务器的耗电功率,作为服务器的功耗数据;以及,通过故障检测设备内的电测泄露检测电路检测服务器供电线路上存在的干扰信号所处的频点/频段以及干扰信号的幅度,作为服务器的电磁泄露数据。其中,干扰信号可以理解为服务器供电信号上存在的、除服务器所提供的电信号之外的信号。
S120、根据所述工作状态数据对所述服务器进行故障预测。
由于服务器处于不同的状态时,其功耗数据和/或电磁泄露数据会有所不同,因此,本实施例可以根据服务器的功耗数据和/或电磁泄露数据对服务器进行故障预测,如预测服务器是否处于在预设时间长度内会出现故障的异常状态,以便实现服务器的预测性维护,降低服务器的维护成本及代价,提高服务器的使用效率。其中,所预测的故障可以包括但不限于服务器的硬件故障和软件故障,如还可以进一步包括服务器遭受网络攻击这种特殊故障,即本实施例可以对服务器遭受的网络攻击进行预测,在服务器开始出现遭受网络攻击的迹象时即对提醒监控人员进行应对,而不再是在服务器遭受的网络攻击对服务器器的性能产生重大影响之后再采取相应的应对策略,从而达到快速预测和快速响应的目的,增加服务器的安全性,避免产生重大损失。
以工作状态数据包括功耗数据和电磁泄露数据为例,在实施例中,可以预先设置服务器在处于正常工作状态时的正常功耗范围和正常电磁泄露范围,并在获取到服务器的功耗数据和电磁泄露数据之后,判断该功耗数据是否位于上述正常功耗范围之内以及该电磁泄露数据是否位于上述正常电磁泄露范围之内,若该功耗数据位于上述正常功耗范围之内且该电磁泄露数据位于上述正常电磁泄露范围之内,则确定服务器处于正常工作状态;否则,则确定服务器处于异常工作状态,并提醒监控人员对服务器进行维护。
可以理解的是,本实施例可以在每次获取到服务器的工作状态数据之后,均根据当前获取到的工作状态数据对服务器进行故障预测;也可以存储所获取到服务器的工作状态数据,并在当前时间到达预设预测时间时,根据自上一次故障预测之后所存储的工作状态数据对服务器进行故障预测,以减少故障预测所占用的运行资源。并且,在根据自上一次故障预测之后所存储的工作状态数据对服务器进行故障预测时,可以根据自上一次故障预测之后所存储的全部工作状态数据对服务器进行故障预测,从而提高服务器故障预测结果的准确性;也可以对自上一次故障预测之后所存储的工作状态数据进行采样,并根据采用得到的工作状态数据对服务器进行故障预测,从而减少故障预测设备在进行故障预测时所需的工作量,具体可以由监控人员根据需要设置,本实施例并不对此及进行限制。
本发明实施例一提供的服务器故障的预测方法,获取服务器的功耗数据和/或电磁泄露数据,并根据所获取的功耗数据和/或电磁泄露数据对服务器进行故障预测,不仅能够实现服务器的预测性维护,有效降低服务器的宕机率以及服务器的维护成本;还能够有效保障服务器的数据安全,避免产生重大损失。并且,由于通过故障维护设备对服务器进行故障预测,不必对服务器的硬件进行改造,也无需额外在服务器上安装软件程序,能够避免故障预测对服务器的内部资源的占用,提高服务器的运行速率。
实施例二
图2为本发明实施例二提供的一种服务器故障的预测方法的流程示意图。本实施例在上述实施例的基础上,将“根据所述工作状态数据对所述服务器进行故障预测”优化为:计算所述工作状态数据与预先存储的所述服务器处于正常状态的标准状态数据的偏差值;如果所述偏差值大于预设偏差阈值,则确定所述服务器处于异常状态,并向监控终端发送维护提醒消息,以提醒监控人员对所述服务器进行维护,所述异常状态包括预故障状态和故障状态。
进一步地,在所述向监控终端发送维护提醒消息之前,还包括:将所述工作状态数据与预先存储的所述服务器处于异常状态的非标准状态数据进行对比,得到与所述工作状态数据最接近的目标非标准状态数据,其中,所述非标准状态数据包括各不同类型的故障在各不同剩余时间时对应的状态数据;根据所述目标非标准状态数据确定所述服务器发生的目标故障的目标故障类型和距离所述目标故障发生的目标剩余时间。
进一步地,在所述向监控终端发送维护提醒消息之前,还包括:获取所述目标故障的维护策略。
相应的,如图2所示,本实施例提供的服务器故障的预测方法包括:
S210、获取服务器的工作状态数据,所述工作状态数据包括功耗数据和/或电磁泄露数据。
S220、计算所述工作状态数据与预先存储的所述服务器处于正常状态的标准状态数据的偏差值。
S230、如果所述偏差值大于预设偏差阈值,则确定所述服务器处于异常状态,所述异常状态包括预故障状态和故障状态。
相应的,如果所述偏差值小于或等于预设偏差阈值,则确定所述服务器处于正常状态,并返回执行S210。
在本实施例中,可以预先存储服务器处于正常状态的标准状态数据,并在对服务器进行故障预测时,计算服务器的工作状态数据与服务器的标准状态数据之间的偏差值,从而基于该偏差值确定服务器是否处于当前不存在故障且近期内(如预设时间之内)也不会出现故障的正常状态。
其中,故障状态为服务器当前已出现故障的状态;预故障状态为服务器即将出现故障的状态,即服务器当前不存在故障但是在预设时间内会出现故障。服务器的工作状态数据可以包括功耗数据和/或电磁泄露数据,相应的,服务器的标准状态数据可以包括标准功耗数据和/或标准电磁泄露数据,预设偏差阈值可以包括预设功耗偏差阈值和/或预设电磁泄露偏差阈值。服务器处于正常状态时的标准状态数据可以由监控人员设置;也可以通过检测获得,如在使用初期,实时采集并存储服务器的工作状态数据,并在确定服务器发生故障时,基于服务器发生故障预设时间之前的工作状态数据确定为服务器的标准状态数据,例如,统计服务器发生故障预设时间之前的工作状态数据的数据范围,作为服务器的标准状态数据的取值范围;或者,统计服务器发生故障预设时间之前的工作状态数据的平均值,作为服务器的标准状态数据,等等,本实施例不对此进行限制。
在本步骤中,对服务器进行故障预测时所采用的工作状态数据的数量可以为一个(如功耗数据和/或电磁泄露数据的数量为一个)或者多个(如功耗数据和/或电磁泄露数据的数量为多个),工作状态数据的数量为多个时,以工作状态数据包括功耗数据和电磁泄露数据为例,可以在工作状态数据中存在与服务器的标准功耗数据的偏差值大于预设功耗偏差阈值的异常功耗数据或者工作状态数据中存在与服务器的标准电磁泄露数据的偏差值大于预设电磁泄露偏差阈值的异常电磁泄露数据时,即确定服务器处于异常状态;也可以在工作状态数据中存在的异常功耗数据的比例大于预设功耗比例阈值或者工作状态数据中存在的异常电磁泄露数据的比例大于预设电磁泄露比例阈值时,确定服务器处于异常状态。
考虑到服务器在不同的时间段可能具有不同的运行强度,相应的,其正常工作时的工作状态数据也可能是不相同的,因此,在本实施例的一个优选实施方式中,可以在故障预测设备中分别存储服务器在不同工作时段的标准状态数据,相应的,在对服务器进行故障预测时,基于服务器的工作状态数据所处的工作时段,获取与该工作时段对应的标准状态数据作为目标标准状态数据,计算该工作状态数据与该目标标准状态数据的偏差值,并基于该偏差值判断服务器是否处于异常状态,从而,进一步提高服务器故障预测的及时性以及服务器故障预测结果的准确性。
S240、将所述工作状态数据与预先存储的所述服务器处于异常状态的非标准状态数据进行对比,得到与所述工作状态数据最接近的目标非标准状态数据,其中,所述非标准状态数据包括各不同类型的故障在各不同剩余时间时对应的状态数据。
在本实施例中,可以预先存储服务器在不同故障发生前的不同时间长度(包括故障发生时)的非标准状态数据,从而,在确定服务器处于异常状态后,可以进一步将服务器的工作状态数据与预先存储的各非标准状态数据进行对比,得到与服务器的工作状态数据最进接近的目标非标准状态数据,如分别计算服务器的工作状态数据与所存储的各非标准状态数据的偏差值,并将与服务器的工作状态数据的偏差值最小的非标准状态数据确定为目标非标准状态数据,从而基于该目标非标准状态数据对服务器进行故障诊断和故障预测。其中,服务器的非标准状态数据可以包括非标准功耗数据和/或非标准电磁泄露数据,其可以为服务器发生某一故障前的某一时间段内的工作状态数据的取值范围或平均值。
S250、根据所述目标非标准状态数据确定所述服务器发生的目标故障的目标故障类型和距离所述目标故障发生的目标剩余时间,并获取所述目标故障的维护策略。
具体的,将目标非标准状态数据所对应的故障类型确定为服务器目前存在的或在近期内即将出现的目标故障的目标故障类型,将目标非标准状态数据对应的剩余时间确定为服务器出现目标故障的目标剩余时间,并可以进一步基于上述目标故障类型获取目标故障的维护策略,以便监控人员基于该维护策略对服务器进行维护。其中,各类型故障的维护策略可以由监控人员设置,或通过监测监控人员在服务器发生相应类型的故障时的维护操作确定。
S260、向监控终端发送维护提醒消息,以提醒监控人员对所述服务器进行维护。
在本实施例中,可以生成携带有服务器的服务器标识、目标故障类型、目标剩余时间和目标故障类型的维护策略的维护提醒消息,并将该维护提醒消息发送给监控终端;相应的,监控终端在接收到故障预测设备发送的维护提醒消息后,可以将该维护提醒消息中携带的服务器标识、目标故障类型、目标剩余时间和目标故障类型的维护策略展示给监控人员,以便监控人员及时且有针对性地对服务器进行维护。
本发明实施例二提供的服务器故障的预测方法,获取服务器的工作状态数据,计算所述工作状态数据与服务器处于正常状态的标准状态数据的偏差值,如果该偏差值大于预设偏差阈值,则确定服务器处于异常状态,并进一步将服务器的工作状态数据与服务器处于异常状态的非标准状态数据进行对比,得到与所述工作状态数据最接近的目标非标准状态数据,根据该目标非标准状态数据确定服务器已经出现或将要出现的目标故障的目标故障类型和距离发生目标故障的目标剩余时间,并获取该目标故障的维护策略,从而基于该目标故障类型、目标剩余时间和维护策略向监控人员发送维护提醒消息。本实施例通过采用上述技术方案,能够实现对服务器的故障类型和剩余时间的预测,提高服务器故障预测结果的全面性。
在上述实施例的基础上,所述服务器故障的预测方法还可以包括:获取所述服务器的维护信息,所述维护信息包括所述服务器的反馈故障类型;如果所述反馈故障类型与所述目标故障类型不相同,则根据所述反馈故障类型以及所述服务器在维护前的工作状态数据对所述服务器的非标准状态数据进行修正。本实施例中,在向监控终端发送维护提醒消息后,还可以进一步获取监控人员返回的反馈信息,若反馈信息为服务器无需维护,则可以根据服务器的工作状态数据对预先存储的服务器的标准状态数据和/或非标准状态数据进行修正;若反馈信息为服务器需要维护,则可以进一步获取服务器的维护信息,并在该维护信息与提醒消息中所携带的相应预测信息不相同时,基于该维护信息对服务器的非标准状态数据进行修正,如添加新的非标准状态数据,对某一非标准状态数据对应的故障类型和/或剩余时间进行修正,或者,对某一类型故障的维护策略进行修正等,以便进一步提高后续对服务器的故障进行预测所得到的服务器故障预测结果的准确性,提高故障预测设备的适应性和维护能力的全面性。此时,相应的,所述维护信息还可以进一步包括服务器的反馈剩余时间和反馈维护策略。其中,反馈信息可以根据监控终端转发的服务器的工作日志确定或由监控人员标注得到。
实施例三
本发明实施例三提供一种服务器故障的预测装置。该装置可以由软件和/或硬件实现,一般可集成于具有服务器故障预测功能的设备中,如可以集成于服务器的供电设备或基于电连接于服务器与其供电设备之间的第三方设备中,典型的,可以集成于服务器的供电设备(如电源)中,可通过执行服务器故障的预测方法对服务器的故障进行预测。图3为本发明实施例三提供的服务器故障的预测装置的结构框图,如图3所示,所述装置包括数据获取模块301和故障预测模块302,其中,
数据获取模块301,用于获取服务器的工作状态数据,所述工作状态数据包括功耗数据和/或电磁泄露数据;
故障预测模块302,用于根据所述工作状态数据对所述服务器进行故障预测。
本发明实施例三提供的服务器故障的预测装置,通过数据获取模块获取服务器的功耗数据和/或电磁泄露数据,并通过故障预测模块根据所获取的功耗数据和/或电磁泄露数据对服务器进行故障预测,不仅能够实现服务器的预测性维护,有效降低服务器的宕机率以及服务器的维护成本;还能够有效保障服务器的数据安全,避免产生重大损失。并且,由于通过故障维护设备对服务器进行故障预测,不必对服务器的硬件进行改造,也无需额外在服务器上安装软件程序,能够避免故障预测对服务器的内部资源的占用,提高服务器的运行速率。
在上述方案中,所述故障预测模块302可以包括:偏差值计算单元,用于计算所述工作状态数据与预先存储的所述服务器处于正常状态的标准状态数据的偏差值;异常确定单元,用于在所述偏差值大于预设偏差阈值时,确定所述服务器处于异常状态,并向监控终端发送维护提醒消息,以提醒监控人员对所述服务器进行维护,所述异常状态包括预故障状态和故障状态。
在上述方案中,所述故障预测模块302还可以包括:对比单元,用于在所述向监控终端发送维护提醒消息之前,将所述工作状态数据与预先存储的所述服务器处于异常状态的非标准状态数据进行对比,得到与所述工作状态数据最接近的目标非标准状态数据,其中,所述非标准状态数据包括各不同类型的故障在各不同剩余时间时对应的状态数据;故障确定单元,用于根据所述目标非标准状态数据确定所述服务器发生的目标故障的目标故障类型和距离所述目标故障发生的目标剩余时间。
在上述方案中,所述故障预测模块302还可以包括:策略获取单元,用于在所述向监控终端发送维护提醒消息之前,获取所述目标故障的维护策略。
进一步地,所述服务器故障的预测装置还可以包括:维护信息获取模块,用于获取所述服务器的维护信息,所述维护信息包括所述服务器的反馈故障类型;修正模块,用于在所述反馈故障类型与所述目标故障类型不相同时,根据所述反馈故障类型以及所述服务器在维护前的工作状态数据对所述服务器的非标准状态数据进行修正。
进一步地,所述服务器故障的预测装置还可以包括:供电确定模块,用于在所述获取服务器的工作状态数据之前,确定本设备处于为服务器提供电能的工作状态。
本发明实施例三提供的服务器故障的预测装置可执行本发明任意实施例提供的服务器故障的预测方法,具备执行服务器故障的预测方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的服务器故障的预测方法。
实施例四
图4为本发明实施例四提供的一种设备的结构示意图,如图4所示,该设备包括处理器40和存储器41,;设备中处理器40的数量可以是一个或多个,图4中以一个处理器40为例;设备中的处理器40和存储器41可以通过总线或其他方式连接,图4中以通过总线连接为例。
存储器41作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的服务器故障的预测方法对应的程序指令/模块(例如,服务器故障的预测装置中的数据获取模块301和故障预测模块302)。处理器40通过运行存储在存储器41中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的服务器故障的预测方法。
存储器41可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器41可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器41可进一步包括相对于处理器40远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例四还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种服务器故障的预测方法,该方法包括:
获取服务器的工作状态数据,所述工作状态数据包括功耗数据和/或电磁泄露数据;
根据所述工作状态数据对所述服务器进行故障预测。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的服务器故障的预测方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述服务器故障的预测装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (5)

1.一种服务器故障的预测方法,应用于故障预测设备,其特征在于,包括:
确定所述故障预测设备处于为服务器提供电能的工作状态;
按照预设数据获取规则获取所述服务器的工作状态数据;其中,所述工作状态数据包括功耗数据和/或电磁泄露数据,还包括上一次故障预测之后所存储的全部工作状态数据;所述预设数据获取规则为周期性地获取或实时地获取;
计算所述工作状态数据与预先存储的所述服务器处于正常状态的标准状态数据的偏差值;
如果所述偏差值大于预设偏差阈值,则确定所述服务器处于异常状态,向监控终端发送维护提醒消息,以提醒监控人员对所述服务器进行维护;其中,所述异常状态包括预故障状态和故障状态;
获取所述监控人员返回的反馈信息;
若所述反馈信息为服务器无需维护,则根据所述服务器的工作状态数据对预先存储的所述服务器的标准状态数据和/或非标准状态数据进行修正;
若所述反馈信息为服务器需要维护,则获取所述服务器的维护信息,所述维护信息包括所述服务器的反馈故障类型;如果所述反馈故障类型与目标故障类型不相同,则根据所述反馈故障类型以及所述服务器在维护前的工作状态数据对所述服务器的非标准状态数据进行修正;
在所述向监控终端发送维护提醒消息之前,还包括:
将所述工作状态数据与预先存储的所述服务器处于异常状态的非标准状态数据进行对比,得到与所述工作状态数据最接近的目标非标准状态数据,其中,所述非标准状态数据包括各不同类型的故障在各不同剩余时间时对应的状态数据;
根据所述目标非标准状态数据确定所述服务器发生的目标故障的目标故障类型和距离所述目标故障发生的目标剩余时间。
2.根据权利要求1所述的方法,其特征在于,在所述向监控终端发送维护提醒消息之前,还包括:
获取所述目标故障的维护策略。
3.一种服务器故障的预测装置,应用于故障预测设备,其特征在于,包括:
供电确定模块,用于确定所述故障预测设备处于为服务器提供电能的工作状态;
数据获取模块,用于按照预设数据获取规则获取所述服务器的工作状态数据;其中,所述工作状态数据包括功耗数据和/或电磁泄露数据,还包括上一次故障预测之后所存储的全部工作状态数据;所述预设数据获取规则为周期性地获取或实时地获取;
故障预测模块,包括偏差值计算单元和异常确定单元;
所述偏差值计算单元,用于计算所述工作状态数据与预先存储的所述服务器处于正常状态的标准状态数据的偏差值;
所述异常确定单元,用于在所述偏差值大于预设偏差阈值时,确定所述服务器处于异常状态,并向监控终端发送维护提醒消息,以提醒监控人员对所述服务器进行维护;其中,所述异常状态包括预故障状态和故障状态;
修正模块,用于获取所述监控人员返回的反馈信息,若所述反馈信息为服务器无需维护,则根据所述服务器的工作状态数据对预先存储的所述服务器的标准状态数据和/或非标准状态数据进行修正;若所述反馈信息为服务器需要维护,则获取所述服务器的维护信息,所述维护信息包括所述服务器的反馈故障类型;如果所述反馈故障类型与目标故障类型不相同,则根据所述反馈故障类型以及所述服务器在维护前的工作状态数据对所述服务器的非标准状态数据进行修正;
所述故障预测模块还包括对比单元和故障确定单元,用于在所述向监控终端发送维护提醒消息之前;
所述对比单元,用于将所述工作状态数据与预先存储的所述服务器处于异常状态的非标准状态数据进行对比,得到与所述工作状态数据最接近的目标非标准状态数据,其中,所述非标准状态数据包括各不同类型的故障在各不同剩余时间时对应的状态数据;
所述故障确定单元,用于根据所述目标非标准状态数据确定所述服务器发生的目标故障的目标故障类型和距离所述目标故障发生的目标剩余时间。
4.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-2中任一所述的服务器故障的预测方法。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-2中任一所述的服务器故障的预测方法。
CN202010123606.XA 2020-02-27 2020-02-27 服务器故障的预测方法、装置、设备和存储介质 Active CN111309562B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010123606.XA CN111309562B (zh) 2020-02-27 2020-02-27 服务器故障的预测方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010123606.XA CN111309562B (zh) 2020-02-27 2020-02-27 服务器故障的预测方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN111309562A CN111309562A (zh) 2020-06-19
CN111309562B true CN111309562B (zh) 2023-07-28

Family

ID=71154982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010123606.XA Active CN111309562B (zh) 2020-02-27 2020-02-27 服务器故障的预测方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN111309562B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931979A (zh) * 2020-06-30 2020-11-13 西门子工厂自动化工程有限公司 汽车制造设备预测性维护信息反馈方法和装置
CN112463565A (zh) * 2020-11-30 2021-03-09 苏州浪潮智能科技有限公司 一种服务器寿命预测方法及相关设备
CN115102838B (zh) * 2022-06-14 2024-02-27 阿里巴巴(中国)有限公司 服务器宕机风险的应急处理方法和装置、电子设备
CN116227759B (zh) * 2023-05-10 2023-08-04 天宇正清科技有限公司 基于多设备信息的检修时间预测方法、装置和设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679649A (zh) * 2017-09-13 2018-02-09 珠海格力电器股份有限公司 一种电器的故障预测方法、装置、存储介质及电器
CN109634828A (zh) * 2018-12-17 2019-04-16 浪潮电子信息产业股份有限公司 故障预测方法、装置、设备及存储介质
CN109635992A (zh) * 2018-10-22 2019-04-16 成都万江港利科技股份有限公司 一种基于大数据的物联网设备运行分析诊断算法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789529B (zh) * 2012-07-16 2015-05-06 华为技术有限公司 故障预测方法、装置、系统和设备
US9450833B2 (en) * 2014-03-26 2016-09-20 International Business Machines Corporation Predicting hardware failures in a server
CN109814424A (zh) * 2017-11-22 2019-05-28 上海上大鼎正软件股份有限公司 一种解决固定资产预测性维护问题的方法及装置
CN108415789B (zh) * 2018-01-24 2020-05-22 西安交通大学 面向大规模混合异构存储系统的节点故障预测系统及方法
CN109635483A (zh) * 2018-12-24 2019-04-16 上海商然数据服务有限公司 一种基于电磁检测的电机和泵故障预测分析系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679649A (zh) * 2017-09-13 2018-02-09 珠海格力电器股份有限公司 一种电器的故障预测方法、装置、存储介质及电器
CN109635992A (zh) * 2018-10-22 2019-04-16 成都万江港利科技股份有限公司 一种基于大数据的物联网设备运行分析诊断算法
CN109634828A (zh) * 2018-12-17 2019-04-16 浪潮电子信息产业股份有限公司 故障预测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111309562A (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
CN111309562B (zh) 服务器故障的预测方法、装置、设备和存储介质
CN108809757B (zh) 一种系统告警方法、存储介质和服务器
CN110247725B (zh) Otn网络的线路故障排查方法、装置及终端设备
CN109343853B (zh) 一种应用程序的异常识别方法及设备
CN110445650B (zh) 检测报警方法、设备及服务器
US11853150B2 (en) Method and device for detecting memory downgrade error
CN110618890B (zh) 故障处理方法、装置、电子设备及计算机可读存储介质
CN108170581A (zh) 一种故障预警方法、装置及电子设备
CN115080356B (zh) 异常告警方法和装置
WO2023241703A1 (zh) 故障处理方法、装置和计算机可读存储介质
CN116502166B (zh) 一种对目标设备故障预测的方法、装置、设备和介质
CN114676019B (zh) 一种中央处理器状态监测方法、装置、设备、存储介质
CN103309764A (zh) 虚拟机的容错机制的保护方法和装置
CN110737565B (zh) 一种数据监控方法、装置、电子设备及存储介质
CN117707112A (zh) 一种故障诊断方法、系统、设备及存储介质
CN116436823B (zh) 智能网卡的状态监控方法及相关设备
CN115378841B (zh) 设备接入云平台状态的检测方法及装置、存储介质、终端
CN115904698A (zh) 使用yaml格式文件对opc ua架构的管理方法
CN115167315A (zh) 一种基于控制图的生成过程控制方法及装置
CN113658017A (zh) 一种基于自适应群组测试的智能电网窃电检测方法及系统
CN113918372A (zh) 一种基于flink实现的数据开发平台的预警系统
CN113435782A (zh) 业务变更方法及装置
CN113377622B (zh) 交易响应异常的告警方法、装置和电子设备
CN114358330A (zh) It接地系统的安全评估方法、装置、设备和存储介质
CN112670952B (zh) 发电机组的控制方法、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant