CN112988550A - 服务器故障预测方法、装置和计算机可读介质 - Google Patents

服务器故障预测方法、装置和计算机可读介质 Download PDF

Info

Publication number
CN112988550A
CN112988550A CN202110554685.4A CN202110554685A CN112988550A CN 112988550 A CN112988550 A CN 112988550A CN 202110554685 A CN202110554685 A CN 202110554685A CN 112988550 A CN112988550 A CN 112988550A
Authority
CN
China
Prior art keywords
state value
moment
time
associated parameter
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110554685.4A
Other languages
English (en)
Other versions
CN112988550B (zh
Inventor
王嘉诚
张少仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongcheng Hualong Computer Technology Co Ltd
Original Assignee
Shenwei Super Computing Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenwei Super Computing Beijing Technology Co ltd filed Critical Shenwei Super Computing Beijing Technology Co ltd
Priority to CN202110554685.4A priority Critical patent/CN112988550B/zh
Publication of CN112988550A publication Critical patent/CN112988550A/zh
Application granted granted Critical
Publication of CN112988550B publication Critical patent/CN112988550B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3457Performance evaluation by simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种服务器故障预测方法、装置和计算机可读介质,该方法包括:通过预先对神经网络预测模型进行训练,利用神经网络预测模型对当前时刻服务器是否发生故障进行预测,当服务器在当前时刻未发生故障时,确定需要预测未来某一个时刻的目标时刻以及至少两个历史时刻,然后获取每一个历史时刻对应各关联参数的状态值,接下来利用该关联参数对应每一个历史时刻的状态值以及当前时刻的状态值,确定在目标时刻对应该关联参数的状态值,最后利用在目标时刻对应各关联参数的状态值以及神经网络预测模型,预测在目标时刻该服务器是否发生故障。本方案,可以实现对服务器在未来的目标时刻是否会发生故障进行预测。

Description

服务器故障预测方法、装置和计算机可读介质
技术领域
本发明涉及服务器技术领域,尤其涉及一种服务器故障预测方法、装置和计算机可读介质。
背景技术
随着网络业务的迅速发展,服务器数量也逐年增多。随着时间的推移,逐步累积了大批量使用年份时间较长的服务器,服务器运营面临日益凸显的老龄化问题。理论上使用年份时间越长,服务器发生故障的几率也就越大。服务器一旦发生故障将会对网络业务造成巨大影响。
目前,是在确定服务器发生故障之后,对服务器的故障进行分析解决,但无法对服务器在未来某一时刻是否会发生故障进行预测。
鉴于此,针对以上不足,需要提供一种服务器故障预测方法、装置和计算机可读介质,以实现对服务器在未来某一时刻是否会发生故障进行预测。
发明内容
本发明要解决的技术问题在于如何对服务器在未来某一时刻是否会发生故障进行预测,针对现有技术中的缺陷,提供了一种服务器故障预测方法、装置和计算机可读介质。
为了解决上述技术问题,本发明提供了一种服务器故障预测方法,包括:
根据所需预测的故障类型,确定服务器中与该故障类型对应的关联参数;
获取该服务器当前时刻对应各关联参数的状态值,并将该服务器当前时刻对应各关联参数的状态值输入到预先训练好的与该故障类型对应的神经网络预测模型中;
在所述神经网络预测模型的输出结果为该服务器在当前时刻未发生故障时,根据所述当前时刻确定至少两个历史时刻以及目标时刻;其中,所述至少两个历史时刻位于所述当前时刻之前,所述目标时刻位于所述当前时刻之后;
针对每一个历史时刻,获取该服务器在该历史时刻对应各关联参数的状态值;
针对每一个关联参数,利用该关联参数对应每一个历史时刻的状态值以及所述当前时刻的状态值,确定在所述目标时刻对应该关联参数的状态值;
将在所述目标时刻对应各关联参数的状态值输入到所述神经网络预测模型中,根据输出结果确定该服务器在所述目标时刻是否发生故障。
优选地,所述至少两个历史时刻中每相邻两个历史时刻之间的间隔时长相等,且所述至少两个历史时刻中距离所述当前时刻最近的历史时刻与所述当前时刻之间的间隔时长,与所述至少两个历史时刻中相邻两个历史时刻之间的间隔时长相等;
所述目标时刻与所述当前时刻之间的间隔时长,是相邻两个历史时刻之间的间隔时长的正整数倍。
优选地,所述利用该关联参数对应每一个历史时刻的状态值以及所述当前时刻的状态值,确定在所述目标时刻对应该关联参数的状态值,包括:
A1:根据该关联参数对应每一个历史时刻的状态值以及所述当前时刻的状态值,计算该关联参数的平均值;
A2:根据该关联参数的平均值以及各状态值,生成设定个数的自相关函数值;其中,所述设定个数为历史时刻的个数与2的和;
A3:利用该设定个数的自相关函数值,计算该关联参数每一个状态值对应的影响系数;
A4:根据该关联参数每一个状态值对应的影响系数以及各状态值,确定在所述目标时刻对应该关联参数的状态值。
优选地,在所述正整数倍为1时,将各状态值与其对应影响系数的乘积的和,确定为在第一时刻对应该关联参数的状态值;其中,所述第一时刻为所述目标时刻。
优选地,在所述正整数倍为大于1时,在所述确定在所述目标时刻对应该关联参数的状态值之前,进一步包括:
B1:将各状态值与其对应影响系数的乘积的和确定为第一时刻对应该关联参数的状态值;所述第一时刻与所述当前时刻的间隔时长与所述至少两个历史时刻中相邻两个历史时刻之间的间隔时长相等;
B2:将所述至少两个历史时刻中距离所述当前时刻最远的历史时刻去除,将所述当前时刻确定为历史时刻,以及将所述第一时刻确定为当前时刻,返回执行步骤A1-A4,直到返回执行步骤A1-A4的次数等于所述正整数倍与1的差值时,将所述第一时刻对应该关联参数的状态值确定为在所述目标时刻对应该关联参数的状态值。
优选地,所述确定在所述目标时刻对应该关联参数的状态值,包括:
将各状态值与其对应影响系数的乘积的和确定为所述第一时刻对应该关联参数的初始状态值;
将各状态值和所述初始状态值输入到预先训练好的状态预测模型中,将所述状态预测模型的输出结果确定为所述第一时刻对应该关联参数的状态值。
优选地,所述与该故障类型对应的神经网络预测模型通过如下步骤训练得到:
获取多组样本数据,每一组样本数据包括与该故障类型对应的各关联参数的样本状态值以及对应的故障结果;
将所述多组样本数据分为训练组和测试组;
将所述训练组中的每一组样本数据包括的各关联参数的样本状态值作为输入,将每一组样本数据包括的故障结果作为输出,对预先构建的初始模型进行训练,调整所述初始模型的参数;
利用所述测试组对训练后的所述初始模型进行测试,在测试结果的准确率达到设定阈值时,则将训练后的初始模型确定为所述神经网络预测模型。
本发明实施例还提供了一种服务器故障预测装置,包括:
关联参数确定单元,用于根据所需预测的故障类型,确定服务器中与该故障类型对应的关联参数;
第一状态获取单元,用于获取该服务器当前时刻对应各关联参数的状态值;
故障预测单元,用于将该服务器当前时刻对应各关联参数的状态值输入到预先训练好的与该故障类型对应的神经网络预测模型中,并获取所述神经网络预测模型的输出结果;
第一确定单元,用于在所述神经网络预测模型的输出结果为该服务器在当前时刻未发生故障时,根据所述当前时刻确定至少两个历史时刻以及目标时刻;其中,所述至少两个历史时刻位于所述当前时刻之前,所述目标时刻位于所述当前时刻之后;
第二状态获取单元,针对每一个历史时刻,获取该服务器在该历史时刻对应各关联参数的状态值;
第二确定单元,用于针对每一个关联参数,利用该关联参数对应每一个历史时刻的状态值以及所述当前时刻的状态值,确定在所述目标时刻对应该关联参数的状态值;
所述故障预测单元,还用于将在所述目标时刻对应各关联参数的状态值输入到所述神经网络预测模型中,根据输出结果确定该服务器在所述目标时刻是否发生故障。
本发明还提供了一种服务器故障预测装置,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行上述第一方面或第一方面的任一可能的实现方式所提供的服务器故障预测方法。
本发明还提供了计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行上述第一方面或第一方面的任一可能的实现方式所提供的服务器故障预测方法。
本发明实施例所提供的一种服务器故障预测方法、装置和计算机可读介质,预先对神经网络预测模型进行训练,利用神经网络预测模型对当前时刻服务器是否发生故障进行预测,当服务器在当前时刻未发生故障时,确定需要预测未来某一个时刻的目标时刻以及至少两个历史时刻,然后获取每一个历史时刻对应各关联参数的状态值,接下来利用该关联参数对应每一个历史时刻的状态值以及当前时刻的状态值,确定在目标时刻对应该关联参数的状态值,最后利用在目标时刻对应各关联参数的状态值以及神经网络预测模型,预测在目标时刻该服务器是否发生故障。本方案,可以实现对服务器在未来某一时刻是否会发生故障进行预测。
附图说明
图1是本发明实施例所提供的一种服务器故障预测方法流程图;
图2是本发明实施例所提供的一种神经网络预测模型的训练方法流程图;
图3是本发明实施例所提供的一种目标时刻状态值的确定流程图;
图4是本发明实施例所提供的一种服务器故障预测装置所在设备的结构图;
图5是本发明实施例所提供的一种服务器故障预测装置的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将集合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
相关技术中,均是在发现服务器发生故障后,对服务器的故障原因进行分析,然后利用分析的原因,对服务器进行修复。但是服务器一旦在运行过程中发生故障,会对当前运行的业务造成影响。如果能够预测未来的某一时刻服务器是否会发生故障,以提前获知服务器运行状态,对服务器进行预先防护,来降低运行过程中发生故障的风险,以及降低对业务造成的影响。
考虑到服务器在运行过程中,其各参数对应的状态值的变化具有一定的规律,可以考虑利用该规律利用各参数对应的历史时刻的状态值,预测在未来某一个目标时刻各参数的状态值,然后利用预测的在目标时刻各参数的状态值,实现对目标时刻服务器是否故障进行预测。
下面描述以上构思的具体实现方式。
如图1所示,本发明实施例提供的一种服务器故障预测方法,该方法包括如下步骤:
步骤101:根据所需预测的故障类型,确定服务器中与该故障类型对应的关联参数。
步骤102:获取该服务器当前时刻对应各关联参数的状态值,并将该服务器当前时刻对应各关联参数的状态值输入到预先训练好的与该故障类型对应的神经网络预测模型中。
步骤103:在所述神经网络预测模型的输出结果为该服务器在当前时刻未发生故障时,根据所述当前时刻确定至少两个历史时刻以及目标时刻;其中,所述至少两个历史时刻位于所述当前时刻之前,所述目标时刻位于所述当前时刻之后。
步骤104:针对每一个历史时刻,获取该服务器在该历史时刻对应各关联参数的状态值。
步骤105:针对每一个关联参数,利用该关联参数对应每一个历史时刻的状态值以及所述当前时刻的状态值,确定在所述目标时刻对应该关联参数的状态值。
步骤106:将在所述目标时刻对应各关联参数的状态值输入到所述神经网络预测模型中,根据输出结果确定该服务器在所述目标时刻是否发生故障。
在本发明实施例中,通过预先对神经网络预测模型进行训练,利用神经网络预测模型对当前时刻服务器是否发生故障进行预测,当服务器在当前时刻未发生故障时,确定需要预测未来某一个时刻的目标时刻以及至少两个历史时刻,然后获取每一个历史时刻对应各关联参数的状态值,接下来利用该关联参数对应每一个历史时刻的状态值以及当前时刻的状态值,确定在目标时刻对应该关联参数的状态值,最后利用在目标时刻对应各关联参数的状态值以及神经网络预测模型,预测在目标时刻该服务器是否发生故障。本方案,可以实现对服务器在未来的目标时刻是否会发生故障进行预测。
下面描述各步骤的实现过程。
针对步骤101,根据所需预测的故障类型,确定服务器中与该故障类型对应的关联参数。
服务器在发生故障时,可以对应不同的故障类型。例如,磁盘故障、内存故障、通信故障等。而不同的故障类型,对应不同的关联参数。以故障类型为磁盘故障为例,其对应的关联参数可以包括:磁头状态、硬盘启动时间、磁盘坏区、磁头寻道错误率、硬盘温度、阻塞的扇区数等。
针对步骤102,获取该服务器当前时刻对应各关联参数的状态值,并将该服务器当前时刻对应各关联参数的状态值输入到预先训练好的与该故障类型对应的神经网络预测模型中。
在获取该服务器当前时刻对应各关联参数的状态值时,可以向服务器发送状态请求报文,该状态请求报文可以携带所需请求状态的各关联参数,然后服务器对该状态请求报文进行响应,根据响应内容确定当前时刻对应各关联参数的状态值。
由于有些关联参数的状态值是数值型,而有些关联参数的状态值为某种状态,并不是数值型。因此,需要将这些不是数值型的状态按照设定的量化规则进行量化。比如,以磁头状态为例,在磁头出现如下三种异常状态时,表明磁头损坏:1、磁盘加电无法正确识别自身型号或容量;2、磁盘无法正常读取数据并伴有大量规律性的坏道;3、磁盘加电后出现敲盘的现象。
可以根据磁头的不同状态量化成不同的状态值,例如,在磁盘没有上述三种状态时,磁头状态的状态值为0,在出现上述任意一种异常状态时,磁头状态的状态值为1,在出现上述任意两种异常状态时,磁头状态的状态值为2,在出现上述三种异常状态时,磁头状态的状态值为3。
在对故障进行预测时,可以利用K-Means聚类、逻辑回归(Logistic Regression)、神经网络(Neural Network)等方式进行预测。在本发明一个实施例中,选择使用神经网络实现故障预测。由于不同故障类型对应关联参数不同,因此,需要针对不同故障类型分别训练神经网络预测模型。
请参考图2,为神经网络预测模型的训练方法流程图,每一个故障类型的神经网络预测模型均可以通过如下一种方式进行训练:
步骤201:获取多组样本数据,每一组样本数据包括与该故障类型对应的各关联参数的样本状态值以及对应的故障结果。
其中,在关联参数对应的状态值不是数值型时,可以利用上述相同的量化规则获取到该关联参数的样本状态值。
步骤202:将所述多组样本数据分为训练组和测试组。
训练组或测试组中包括的样本数据至少为两组。
步骤203:将所述训练组中的每一组样本数据包括的各关联参数的样本状态值作为输入,将每一组样本数据包括的故障结果作为输出,对预先构建的初始模型进行训练,调整所述初始模型的参数。
具体地,针对训练组中选择一个未被使用的一组样本数据,然后将该组样本数据包括的各关联参数的样本状态值作为输入,将该组样本数据包括的故障结果作为输出,对初始模型进行训练,然后调整初始模型的参数;接下来,返回执行针对多组样本数据中选择一个未被使用的一组样本数据步骤,直到训练组中的样本数据使用完。
步骤204:利用所述测试组对训练后的所述初始模型进行测试,在测试结果的准确率达到设定阈值时,则将训练后的初始模型确定为所述神经网络预测模型。
在将该服务器当前时刻对应各关联参数的状态值输入到预先训练好的与该故障类型对应的神经网络预测模型中之后,神经网络预测模型的输出结果可以包括两种结果:该服务器在当前时刻未发生故障、该服务器在当前时刻发生故障。
针对步骤103,在所述神经网络预测模型的输出结果为该服务器在当前时刻未发生故障时,根据所述当前时刻确定至少两个历史时刻以及目标时刻;其中,所述至少两个历史时刻位于所述当前时刻之前,所述目标时刻位于所述当前时刻之后。
目标时刻即为所需要预测的未来某一时刻,为了对目标时刻该服务器对应各关联参数的状态值进行预测,需要使用多个历史时刻各关联参数的状态值。
在确定各历史时刻时,考虑到一个关联参数的状态值的变化具有周期性,在本发明一个实施例中,所述至少两个历史时刻中每相邻两个历史时刻之间的间隔时长相等,且所述至少两个历史时刻中距离所述当前时刻最近的历史时刻与所述当前时刻之间的间隔时长,与所述至少两个历史时刻中相邻两个历史时刻之间的间隔时长相等;
所述目标时刻与所述当前时刻之间的间隔时长,是相邻两个历史时刻之间的间隔时长的正整数倍。
需要说明的是,选择的历史时刻的个数越多时,预测结果越准确。
另外,在历史时刻个数一定时,相邻两个历史时刻之间的间隔时长越大以及越小都会影响预测结果的准确性。因此,需要选择一个合适的间隔时长。该间隔时长可以根据服务器的已使用时长来决定。
针对步骤104,针对每一个历史时刻,获取该服务器在该历史时刻对应各关联参数的状态值。
在获取历史时刻各关联参数的状态值时,可以获取该服务器的日志,根据日志中包括的内容确定出每一个历史时刻对应各关联参数的状态值。
针对步骤105,针对每一个关联参数,利用该关联参数对应每一个历史时刻的状态值以及所述当前时刻的状态值,确定在所述目标时刻对应该关联参数的状态值。
在本发明实施例中,针对每一个关联参数,在确定目标时刻对应该关联参数的状态值时,可以将各历史时刻的状态值和当前时刻的状态值,求得该关联参数的平均值,将该平均值确定为在目标时刻该关联参数的状态值。
为了提高在目标时刻对应该关联参数的状态值的预测准确性,以及进一步提高在目标时刻该服务器是否会发生故障的预测准确性,在本发明一个实施例中,请参考图3,为目标时刻状态值的确定流程图,可以利用如下方式来实现该步骤105:
A1:根据该关联参数对应每一个历史时刻的状态值以及所述当前时刻的状态值,计算该关联参数的平均值。
A2:根据该关联参数的平均值以及各状态值,生成设定个数的自相关函数值;其中,所述设定个数为历史时刻的个数与2的和。
自相关是一个信号在其自身在不同时间点的互相关,是两次观察之间的相似度对它们之间的时间差的函数。
在本发明一个实施例中,至少可以使用如下计算式计算自相关函数值:
Figure 82546DEST_PATH_IMAGE001
其中,
Figure 468528DEST_PATH_IMAGE002
用于表征自相关函数值,m为整数,N为历史时刻的个数加1的和,Xi为由 各历史时刻的状态值与当前时刻的状态值组成的序列(X1,X2,…,XN)中第i个值,i为正整 数,且i∈[1,N],
Figure 920369DEST_PATH_IMAGE003
为平均值。其中,在序列中,XN为当前时刻的状态值,X1-XN-1依次为从距 离当前时刻最远的历史时刻开始到距离当前时刻最近的历史时刻分别对应的状态值。
A3:利用该设定个数的自相关函数值,计算该关联参数每一个状态值对应的影响系数。
在本发明一个实施例中,在计算该关联参数每一个状态值对应的影响系数时,至少可以使用如下方式计算:
A31:利用该设定个数的自相关函数值,生成如下第一矩阵和第二矩阵;
第一矩阵为:
Figure 33688DEST_PATH_IMAGE004
第二矩阵为:
Figure 785743DEST_PATH_IMAGE005
A32:将第一矩阵与第二矩阵相乘,得到第三矩阵;
第三矩阵为:
Figure 873785DEST_PATH_IMAGE006
A33:将第三矩阵中的c1、c2,…cm的值分别作为状态值XN(当前时刻对应的状态值),XN-1(距离当前时刻最近的历史时刻对应的状态值),…,X1(距离当前时刻最远的历史时刻对应的状态值)的影响系数。
A4:根据该关联参数每一个状态值对应的影响系数以及各状态值,确定在所述目标时刻对应该关联参数的状态值。
在本发明实施例中,由于该目标时刻与所述当前时刻之间的间隔时长,是相邻两个历史时刻之间的间隔时长的正整数倍,那么对于该目标时刻存在如下两种情况:
情况一:该正整数倍为1;
情况二:该正整数倍为大于1。
下面针对上述两种情况分别进行说明。
针对情况一,正整数倍为1时,该目标时刻与当前时刻之间的间隔时长与相邻两个历史时刻之间的间隔时长相等。
考虑到状态值的自相关性,那么在该正整数倍为1时,可以将各状态值与其对应影响系数的乘积的和,确定为在第一时刻对应该关联参数的状态值;其中,所述第一时刻为所述目标时刻。
在该情况一中,可以快速利用上述公式计算出各状态值与其对应影响系数的乘积的和,从而可以快速得出目标时刻对应各关联参数的状态值。
针对情况二,在步骤A4确定在所述目标时刻对应该关联参数的状态值之前,进一步包括:
B1:将各状态值与其对应影响系数的乘积的和确定为第一时刻对应该关联参数的状态值;所述第一时刻与所述当前时刻的间隔时长与所述至少两个历史时刻中相邻两个历史时刻之间的间隔时长相等;
B2:将所述至少两个历史时刻中距离所述当前时刻最远的历史时刻去除,将所述当前时刻确定为历史时刻,以及将所述第一时刻确定为当前时刻,返回执行步骤A1-A4,直到返回执行步骤A1-A4的次数等于所述正整数倍与1的差值时,将所述第一时刻对应该关联参数的状态值确定为在所述目标时刻对应该关联参数的状态值。
举例来说,序列(X1,X2,…,XN)分别为t1,t2,…,tN时刻的状态值,其中,tN为当前时刻,另外,第一时刻为tN+1,该tN+1时刻的状态值为XN+1,假设目标时刻为tN+2,那么将t1时刻去除,即将状态值X1从序列中去除,将当前时刻tN时刻确定为历史时刻,将第一时刻tN+1确定为当前时刻,重新生成序列(X2,X3,…,XN,XN+1),根据重新生成的序列返回执行步骤A1-A4,在本次返回执行过程中,当执行A4时,可以将各状态值与其对应影响系数的乘积的和,确定为在第一时刻对应该关联参数的状态值;此时,该第一时刻为目标时刻。
本发明实施例中,根据上述过程可以直接利用公式计算出每一个状态值的影响系数,然后快速预测出目标时刻的关联参数的状态值,提高了预测速度,以及进一步提高了故障预测速度。
在本发明一个实施例中,为了进一步提高目标时刻关联参数的状态值的预测准确性,在上述两种情况下,均可以利用上述两种情况得到的预测的状态值作为初始状态值,然后利用状态预测模型进行预测,具体地,该确定在所述目标时刻对应该关联参数的状态值,包括:
将各状态值与其对应影响系数的乘积的和确定为所述第一时刻对应该关联参数的初始状态值;
将各状态值和所述初始状态值输入到预先训练好的状态预测模型中,将所述状态预测模型的输出结果确定为所述第一时刻对应该关联参数的状态值。
以情况二为例,在得到第一时刻tN+1的状态值XN+1之后,可以将XN+1作为第一时刻tN+1的初始状态值,然后,将X1,X2,…,XN,XN+1输入到状态预测模型中,然后将输出结果确定为第一时刻tN+1对应该关联参数的状态值,然后在进行下一次A1-A4的执行过程。在下一次A1-A4的执行过程中,将第一时刻tN+2的状态值XN+2之后,可以将XN+2作为第一时刻tN+2的初始状态值,然后,将X2,X3,…,XN+1,XN+2输入到状态预测模型中,然后将输出结果确定为第一时刻tN+2对应该关联参数的状态值。
其中,该状态预测模型的训练方式可以为:
获取与该故障类型对应的各关联参数对应历史时刻T1、T2、…、TN、TN+1、TN+2、…TQ时刻分别对应的样本状态值,以及利用步骤A1-A4得到的TN+1、TN+2、…TQ时刻分别对应的样本预测值;
选择连续的N个历史时刻分别对应的样本状态值以及距离当前时刻最近的历史时刻的相邻历史时刻的样本预测值作为状态预测模型的输入,相邻历史时刻的样本状态值作为状态预测模型的输出,对状态预测模型进行训练;其中,该相邻历史时刻位于该距离当前时刻最近的历史时刻以及当前时刻之间。
例如,将T1、T2、…、TN时刻分别对应的样本状态值以及TN+1时刻对应的样本预测值作为状态预测模型的输入,将TN+1时刻对应的样本状态值作为状态预测模型的输出。
如图4、图5所示,本发明实施例提供了一种服务器故障预测装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件集合的方式实现。从硬件层面而言,如图4所示,为本发明实施例提供的一种服务器故障预测装置所在设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等。以软件实现为例,如图5所示,作为一个逻辑意义上的装置,是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。本实施例提供的一种服务器故障预测装置,包括:
关联参数确定单元501,用于根据所需预测的故障类型,确定服务器中与该故障类型对应的关联参数;
第一状态获取单元502,用于获取该服务器当前时刻对应各关联参数的状态值;
故障预测单元503,用于将该服务器当前时刻对应各关联参数的状态值输入到预先训练好的与该故障类型对应的神经网络预测模型中,并获取所述神经网络预测模型的输出结果;
第一确定单元504,用于在所述神经网络预测模型的输出结果为该服务器在当前时刻未发生故障时,根据所述当前时刻确定至少两个历史时刻以及目标时刻;其中,所述至少两个历史时刻位于所述当前时刻之前,所述目标时刻位于所述当前时刻之后;
第二状态获取单元505,针对每一个历史时刻,获取该服务器在该历史时刻对应各关联参数的状态值;
第二确定单元506,用于针对每一个关联参数,利用该关联参数对应每一个历史时刻的状态值以及所述当前时刻的状态值,确定在所述目标时刻对应该关联参数的状态值;
所述故障预测单元503,还用于将在所述目标时刻对应各关联参数的状态值输入到所述神经网络预测模型中,根据输出结果确定该服务器在所述目标时刻是否发生故障。
在本发明一个实施例中,所述至少两个历史时刻中每相邻两个历史时刻之间的间隔时长相等,且所述至少两个历史时刻中距离所述当前时刻最近的历史时刻与所述当前时刻之间的间隔时长,与所述至少两个历史时刻中相邻两个历史时刻之间的间隔时长相等;
所述目标时刻与所述当前时刻之间的间隔时长,是相邻两个历史时刻之间的间隔时长的正整数倍。
在本发明一个实施例中,所述第二确定单元,具体用于执行如下步骤:
A1:根据该关联参数对应每一个历史时刻的状态值以及所述当前时刻的状态值,计算该关联参数的平均值;
A2:根据该关联参数的平均值以及各状态值,生成设定个数的自相关函数值;其中,所述设定个数为历史时刻的个数与2的和;
A3:利用该设定个数的自相关函数值,计算该关联参数每一个状态值对应的影响系数;
A4:根据该关联参数每一个状态值对应的影响系数以及各状态值,确定在所述目标时刻对应该关联参数的状态值。
在本发明一个实施例中,所述第二确定单元用于在所述正整数倍为1时,将各状态值与其对应影响系数的乘积的和,确定为在第一时刻对应该关联参数的状态值;其中,所述第一时刻为所述目标时刻。
在本发明一个实施例中,在所述正整数倍为大于1时,所述第二确定单元,进一步用于执行:
B1:将各状态值与其对应影响系数的乘积的和确定为第一时刻对应该关联参数的状态值;所述第一时刻与所述当前时刻的间隔时长与所述至少两个历史时刻中相邻两个历史时刻之间的间隔时长相等;
B2:将所述至少两个历史时刻中距离所述当前时刻最远的历史时刻去除,将所述当前时刻确定为历史时刻,以及将所述第一时刻确定为当前时刻,返回执行步骤A1-A4,直到返回执行步骤A1-A4的次数等于所述正整数倍与1的差值时,将所述第一时刻对应该关联参数的状态值确定为在所述目标时刻对应该关联参数的状态值。
在本发明一个实施例中,所述第二确定单元,还用于执行如下操作:将各状态值与其对应影响系数的乘积的和确定为所述第一时刻对应该关联参数的初始状态值;将各状态值和所述初始状态值输入到预先训练好的状态预测模型中,将所述状态预测模型的输出结果确定为所述第一时刻对应该关联参数的状态值。
在本发明一个实施例中,所述与该故障类型对应的神经网络预测模型通过如下步骤训练得到:
获取多组样本数据,每一组样本数据包括与该故障类型对应的各关联参数的样本状态值以及对应的故障结果;
将所述多组样本数据分为训练组和测试组;
将所述训练组中的每一组样本数据包括的各关联参数的样本状态值作为输入,将每一组样本数据包括的故障结果作为输出,对预先构建的初始模型进行训练,调整所述初始模型的参数;
利用所述测试组对训练后的所述初始模型进行测试,在测试结果的准确率达到设定阈值时,则将训练后的初始模型确定为所述神经网络预测模型。
可以理解的是,本发明实施例示意的结构并不构成对一种服务器故障预测装置的具体限定。在本发明的另一些实施例中,一种服务器故障预测装置可以包括比图示更多或者更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。
上述装置内的各模块之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明实施例还提供了一种服务器故障预测装置,包括:至少一个存储区和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行本发明任一实施例中的一种服务器故障预测方法。
本发明实施例还提供了一种计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行本发明任一实施例中的一种服务器故障预测方法。
具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展模块中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展模块上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种服务器故障预测方法,其特征在于,包括:
根据所需预测的故障类型,确定服务器中与该故障类型对应的关联参数;
获取该服务器当前时刻对应各关联参数的状态值,并将该服务器当前时刻对应各关联参数的状态值输入到预先训练好的与该故障类型对应的神经网络预测模型中;
在所述神经网络预测模型的输出结果为该服务器在当前时刻未发生故障时,根据所述当前时刻确定至少两个历史时刻以及目标时刻;其中,所述至少两个历史时刻位于所述当前时刻之前,所述目标时刻位于所述当前时刻之后;
针对每一个历史时刻,获取该服务器在该历史时刻对应各关联参数的状态值;
针对每一个关联参数,利用该关联参数对应每一个历史时刻的状态值以及所述当前时刻的状态值,确定在所述目标时刻对应该关联参数的状态值;
将在所述目标时刻对应各关联参数的状态值输入到所述神经网络预测模型中,根据输出结果确定该服务器在所述目标时刻是否发生故障。
2.根据权利要求1所述的方法,其特征在于,所述至少两个历史时刻中每相邻两个历史时刻之间的间隔时长相等,且所述至少两个历史时刻中距离所述当前时刻最近的历史时刻与所述当前时刻之间的间隔时长,与所述至少两个历史时刻中相邻两个历史时刻之间的间隔时长相等;
所述目标时刻与所述当前时刻之间的间隔时长,是相邻两个历史时刻之间的间隔时长的正整数倍。
3.根据权利要求2所述的方法,其特征在于,所述利用该关联参数对应每一个历史时刻的状态值以及所述当前时刻的状态值,确定在所述目标时刻对应该关联参数的状态值,包括:
A1:根据该关联参数对应每一个历史时刻的状态值以及所述当前时刻的状态值,计算该关联参数的平均值;
A2:根据该关联参数的平均值以及各状态值,生成设定个数的自相关函数值;其中,所述设定个数为历史时刻的个数与2的和;
A3:利用该设定个数的自相关函数值,计算该关联参数每一个状态值对应的影响系数;
A4:根据该关联参数每一个状态值对应的影响系数以及各状态值,确定在所述目标时刻对应该关联参数的状态值。
4.根据权利要求3所述的方法,其特征在于,在所述正整数倍为1时,将各状态值与其对应影响系数的乘积的和,确定为在第一时刻对应该关联参数的状态值;其中,所述第一时刻为所述目标时刻。
5.根据权利要求3所述的方法,其特征在于,在所述正整数倍为大于1时,在所述确定在所述目标时刻对应该关联参数的状态值之前,进一步包括:
B1:将各状态值与其对应影响系数的乘积的和确定为第一时刻对应该关联参数的状态值;所述第一时刻与所述当前时刻的间隔时长与所述至少两个历史时刻中相邻两个历史时刻之间的间隔时长相等;
B2:将所述至少两个历史时刻中距离所述当前时刻最远的历史时刻去除,将所述当前时刻确定为历史时刻,以及将所述第一时刻确定为当前时刻,返回执行步骤A1-A4,直到返回执行步骤A1-A4的次数等于所述正整数倍与1的差值时,将所述第一时刻对应该关联参数的状态值确定为在所述目标时刻对应该关联参数的状态值。
6.根据权利要求4或5所述的方法,其特征在于,所述确定在所述目标时刻对应该关联参数的状态值,包括:
将各状态值与其对应影响系数的乘积的和确定为所述第一时刻对应该关联参数的初始状态值;
将各状态值和所述初始状态值输入到预先训练好的状态预测模型中,将所述状态预测模型的输出结果确定为所述第一时刻对应该关联参数的状态值。
7.根据权利要求1所述的方法,其特征在于,所述与该故障类型对应的神经网络预测模型通过如下步骤训练得到:
获取多组样本数据,每一组样本数据包括与该故障类型对应的各关联参数的样本状态值以及对应的故障结果;
将所述多组样本数据分为训练组和测试组;
将所述训练组中的每一组样本数据包括的各关联参数的样本状态值作为输入,将每一组样本数据包括的故障结果作为输出,对预先构建的初始模型进行训练,调整所述初始模型的参数;
利用所述测试组对训练后的所述初始模型进行测试,在测试结果的准确率达到设定阈值时,则将训练后的初始模型确定为所述神经网络预测模型。
8.一种服务器故障预测装置,其特征在于,包括:
关联参数确定单元,用于根据所需预测的故障类型,确定服务器中与该故障类型对应的关联参数;
第一状态获取单元,用于获取该服务器当前时刻对应各关联参数的状态值;
故障预测单元,用于将该服务器当前时刻对应各关联参数的状态值输入到预先训练好的与该故障类型对应的神经网络预测模型中,并获取所述神经网络预测模型的输出结果;
第一确定单元,用于在所述神经网络预测模型的输出结果为该服务器在当前时刻未发生故障时,根据所述当前时刻确定至少两个历史时刻以及目标时刻;其中,所述至少两个历史时刻位于所述当前时刻之前,所述目标时刻位于所述当前时刻之后;
第二状态获取单元,针对每一个历史时刻,获取该服务器在该历史时刻对应各关联参数的状态值;
第二确定单元,用于针对每一个关联参数,利用该关联参数对应每一个历史时刻的状态值以及所述当前时刻的状态值,确定在所述目标时刻对应该关联参数的状态值;
所述故障预测单元,还用于将在所述目标时刻对应各关联参数的状态值输入到所述神经网络预测模型中,根据输出结果确定该服务器在所述目标时刻是否发生故障。
9.一种服务器故障预测装置,其特征在于,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行权利要求1至7中任一项所述的方法。
10.计算机可读介质,其特征在于,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行权利要求1至7中任一项所述的方法。
CN202110554685.4A 2021-05-21 2021-05-21 服务器故障预测方法、装置和计算机可读介质 Active CN112988550B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110554685.4A CN112988550B (zh) 2021-05-21 2021-05-21 服务器故障预测方法、装置和计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110554685.4A CN112988550B (zh) 2021-05-21 2021-05-21 服务器故障预测方法、装置和计算机可读介质

Publications (2)

Publication Number Publication Date
CN112988550A true CN112988550A (zh) 2021-06-18
CN112988550B CN112988550B (zh) 2021-08-17

Family

ID=76337094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110554685.4A Active CN112988550B (zh) 2021-05-21 2021-05-21 服务器故障预测方法、装置和计算机可读介质

Country Status (1)

Country Link
CN (1) CN112988550B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113985202A (zh) * 2021-10-26 2022-01-28 广东电网有限责任公司 一种电容故障预警方法、装置、电子设备及存储介质
CN114697203A (zh) * 2022-03-31 2022-07-01 浙江省通信产业服务有限公司 一种网络故障的预判方法、装置、电子设备及存储介质
CN115034094A (zh) * 2022-08-10 2022-09-09 南通恒强轧辊有限公司 一种金属加工机床运行状态预测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109525435A (zh) * 2018-12-14 2019-03-26 哈尔滨理工大学 一种电网业务服务器运行状态预警方法
US20200167640A1 (en) * 2018-11-27 2020-05-28 The Boeing Company System and method for generating an aircraft fault prediction classifier
CN111598322A (zh) * 2020-05-09 2020-08-28 东软医疗系统股份有限公司 医疗设备故障预测方法、装置、介质及电子设备
CN111914873A (zh) * 2020-06-05 2020-11-10 华南理工大学 一种两阶段云服务器无监督异常预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200167640A1 (en) * 2018-11-27 2020-05-28 The Boeing Company System and method for generating an aircraft fault prediction classifier
CN109525435A (zh) * 2018-12-14 2019-03-26 哈尔滨理工大学 一种电网业务服务器运行状态预警方法
CN111598322A (zh) * 2020-05-09 2020-08-28 东软医疗系统股份有限公司 医疗设备故障预测方法、装置、介质及电子设备
CN111914873A (zh) * 2020-06-05 2020-11-10 华南理工大学 一种两阶段云服务器无监督异常预测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113985202A (zh) * 2021-10-26 2022-01-28 广东电网有限责任公司 一种电容故障预警方法、装置、电子设备及存储介质
CN114697203A (zh) * 2022-03-31 2022-07-01 浙江省通信产业服务有限公司 一种网络故障的预判方法、装置、电子设备及存储介质
CN114697203B (zh) * 2022-03-31 2023-07-25 浙江省通信产业服务有限公司 一种网络故障的预判方法、装置、电子设备及存储介质
CN115034094A (zh) * 2022-08-10 2022-09-09 南通恒强轧辊有限公司 一种金属加工机床运行状态预测方法及系统

Also Published As

Publication number Publication date
CN112988550B (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
CN112988550B (zh) 服务器故障预测方法、装置和计算机可读介质
CN108052528B (zh) 一种存储设备时序分类预警方法
CN110413227B (zh) 一种硬盘设备的剩余使用寿命在线预测方法和系统
US11036572B2 (en) Method, device, and computer program product for facilitating prediction of disk failure
US7225368B2 (en) Efficient real-time analysis method of error logs for autonomous systems
US9183067B2 (en) Data preserving apparatus, method and system therefor
KR970066875A (ko) 데이타 복원 방법 및 저장 시스템 운영 방법
WO2022116922A1 (zh) 磁盘失效预测方法、预测模型训练方法、电子设备
CN111984511A (zh) 一种基于二分类的多模型磁盘故障预测方法和系统
US11449376B2 (en) Method of determining potential anomaly of memory device
US20210014107A1 (en) Management and control for ip and fixed networking
CN112148561A (zh) 业务系统的运行状态预测方法、装置及服务器
CN111124732A (zh) 一种磁盘故障的预测方法、系统、设备及存储介质
CN115017022A (zh) 日志级别调整方法及装置
CN114860487A (zh) 一种内存故障识别方法及一种内存故障隔离方法
CN112579327A (zh) 一种故障检测方法、装置及设备
EP3932012B1 (en) Mesh communication network provision
CN109669796B (zh) 一种磁盘故障的预测方法和装置
CN116388864B (zh) 量子网络设备性能预测方法、装置、电子设备及存储介质
CN117472679A (zh) 结合数据流和控制流漂移发现的异常检测方法及系统
CN116820883A (zh) 一种基于深度强化学习的磁盘智能监测与优化系统及方法
CN116453554A (zh) 存储介质检测方法、装置、电子设备和存储介质
JP6512646B1 (ja) 保守管理装置、システム及びプログラム
WO2019054434A1 (ja) 故障予兆検出装置、故障予兆検出方法、及び、故障予兆検出プログラムが格納された記録媒体
CN112685390B (zh) 数据库实例管理方法及装置、计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210729

Address after: 807-3, floor 8, block F, No. 9, Shangdi Third Street, Haidian District, Beijing 100080

Applicant after: Zhongcheng Hualong Computer Technology Co.,Ltd.

Address before: No.114, 14th floor, block B, building 1, No.38, Zhongguancun Street, Haidian District, Beijing 100082

Applicant before: Shenwei Super Computing (Beijing) Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant