CN114443398A - 内存故障预测模型的生成方法、检测方法、装置及设备 - Google Patents

内存故障预测模型的生成方法、检测方法、装置及设备 Download PDF

Info

Publication number
CN114443398A
CN114443398A CN202210107949.6A CN202210107949A CN114443398A CN 114443398 A CN114443398 A CN 114443398A CN 202210107949 A CN202210107949 A CN 202210107949A CN 114443398 A CN114443398 A CN 114443398A
Authority
CN
China
Prior art keywords
memory
data
fault
prediction model
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210107949.6A
Other languages
English (en)
Inventor
张玉峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202210107949.6A priority Critical patent/CN114443398A/zh
Publication of CN114443398A publication Critical patent/CN114443398A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/2221Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test input/output devices or peripheral units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

本发明涉及服务器运维技术领域,公开了一种内存故障预测模型的生成方法、检测方法、装置及设备。其中,该生成方法包括:获取内存故障相对应的样本数据,样本数据用于表征内存发生可纠正错误的故障率;以样本数据作为输入变量,以内存发生不可纠正错误的故障率作为输出变量;基于输入变量以及输出变量训练神经网络模型,得到内存故障预测模型。该检测方法包括:采集用于表征内存发生可纠正错误的故障参数;将故障参数输入至内存故障预测模型,得到内存发生不可纠正错误的发生率。通过实施本发明,以可纠正错误的发生率预测不可纠正错误的发生率,在运维层面实现了内存故障的提前预警,极大的减少了因内存故障导致的服务器宕机。

Description

内存故障预测模型的生成方法、检测方法、装置及设备
技术领域
本发明涉及服务器运维技术领域,具体涉及一种内存故障预测模型的生成方法、检测方法、装置及设备。
背景技术
在服务器的日常运维中,处理服务器故障占用了大量的时间,而由内存故障导致的服务器故障占有相当大的比例。通常运维人员只有当内存发生故障后,才会对内存进行更换或者维修处理,对处于亚健康的内存或者有故障隐患但是尚未发生故障的内存,并未进行相应的处理。这就会导致服务器的内存故障处理较为被动,难以提前预测服务器的内存故障以进行维修,且内存故障往往伴随着服务器宕机的发生,也会为使用者带来不便。
发明内容
有鉴于此,本发明实施例提供了一种内存故障预测模型的生成方法、检测方法、装置及设备,以解决服务器的内存故障难以预测的问题。
根据第一方面,本发明实施例提供了一种内存故障预测模型的生成方法,包括:获取内存故障相对应的样本数据,所述样本数据用于表征内存发生可纠正错误的故障率;以所述样本数据作为输入变量,以内存发生不可纠正错误的故障率作为输出变量;基于所述输入变量以及所述输出变量训练神经网络模型,得到内存故障预测模型。
本发明实施例提供的内存故障预测模型的生成方法,通过获取内存故障相对应的样本数据,该样本数据用于表征内存发生可纠正错误的故障率,将该样本数据作为输入变量,将内存发生不可纠正错误的故障率作为输出变量,根据输入变量和输出变量对神经网络模型进行训练,以得到内存故障预测模型,以便通过该内存故障预测模型对服务器的内存潜在故障进行预测识别,使得运维人员能够及时对潜在故障的服务器进行运维,以避免服务器因内存故障而宕机。
结合第一方面,在第一方面的第一实施方式中,所述获取内存故障相对应的样本数据,包括:获取用于表征内存使用状态的特征参数以及内存故障数据;分析所述特征参数和所述内存故障数据,确定所述特征参数与所述内存故障数据之间的相关性;基于所述特征参数与所述内存故障数据之间的相关性,确定所述内存故障数据的目标参数,将所述目标参数对应的数据确定为所述样本数据。
本发明实施例提供的内存故障预测模型的生成方法,通过对表征内存使用状态的特征参数以及内存故障数据进行联合分析,以确定出特征参数与内存故障数据之间的相关性,继而根据该相关性确定出内存故障数据对应的目标参数。由此保证了目标参数与内存故障数据的关联性,便于内存故障预测模型的准确训练。
结合第一方面第一实施方式,在第一方面的第二实施方式中,所述特征参数包括内存发生所述可纠正错误的历史数据以及内存发生所述可纠正错误的预测数据,所述分析所述特征参数和所述内存故障数据,确定所述特征参数与所述内存故障数据之间的相关性,包括:获取内存发生所述可纠正错误的历史数据、内存发生所述可纠正错误的预测数据以及内存故障数据;分析所述历史数据、所述预测数据以及所述内存故障数据,确定所述可纠正错误和所述内存故障之间的相关性。
本发明实施例提供的内存故障预测模型的生成方法,通过检测内存发生可纠正错误的历史数据以及内存发生可纠正错误的预测数据,以对内存发生可纠正错误的历史数据、内存发生可纠正错误的预测数据以及内存故障数据进行分析,确定出可纠正错误和内存故障之间的相关性,保证了可纠正错误与内存故障之间的关联度,避免无关因数影响内存故障预测模型的训练。
结合第一方面第二实施方式,在第一方面的第三实施方式中,所述分析所述历史数据、所述预测数据以及所述内存故障数据,确定所述可纠正错误和所述内存故障之间的相关性,包括:分析所述可纠正错误的历史数据和所述预测数据,确定所述可纠正错误的发生率;分析所述内存故障数据,确定内存故障发生率;基于所述可纠正错误的发生率与所述内存故障发生率,确定所述可纠正错误和所述内存故障之间的相关性。
本发明实施例提供的内存故障预测模型的生成方法,通过可纠正错误的历史数据以及预测数据计算可纠正错误的发生率,并通过内存故障数据计算出内存故障发生率,从而根据可纠正错误的发生率与内存故障发生率,确定出可纠正错误和内存故障之间的相关性,由此能够通过可纠正错误对内存故障进行预测,便于在预测到内存故障时及时运维。
结合第一方面第三实施方式,在第一方面的第四实施方式中,所述分析所述可纠正错误的历史数据和所述预测数据,确定所述可纠正错误的发生率,包括:基于所述可纠正错误的历史数据和所述预测数据,分别计算所述可纠正错误的已发生率与所述可纠正错误的再次发生率;分析所述已发生率与所述再次发生率的关系,确定所述已发生率与所述再次发生率之间的相关性;基于所述已发生率与所述再次发生率之间的相关性,确定所述可纠正错误的发生率。
本发明实施例提供的内存故障预测模型的生成方法,通过分析可纠正错误的历史数据和预测数据,以确定出可纠正错误的已发生率与可纠正错误的再次发生率之间的相关性,进一步确定可纠正错误的发生率,由此在确定可纠正错误的发生率时,能够同时考虑历史数据以及预测数据,提高了可纠正错误发生率的确定准确性。
根据第二方面,本发明实施例提供了一种内存故障的检测方法,包括:采集用于表征内存发生可纠正错误的故障参数;将所述故障参数输入至内存故障预测模型,得到内存发生不可纠正错误的发生率;其中,所述内存故障预测模型是基于第一方面或第一方面任一实施方式所述的内存故障预测模型的生成方法生成的。
本发明实施例提供的内存故障的检测方法,通过采集用于表征内存发生可纠正错误的故障参数,将故障参数输入至内存故障预测模型,得到内存发生不可纠正错误的发生率,其中,该内存故障预测模型是基于第一方面或第一方面任一实施方式所述的内存故障预测模型的生成方法生成的。由此通过可纠正错误的发生率预测不可纠正错误的发生率,在运维层面实现了内存故障的提前预警,以便运维人员在计划时间内停机维护,极大的减少了因内存故障导致的服务器宕机,提升了服务器运行的稳定性。
根据第三方面,本发明实施例提供了一种内存故障预测模型的生成装置,包括:获取模块,用于获取内存故障相对应的样本数据,所述样本数据用于表征内存发生可纠正错误的故障率;变量确定模块,用于以所述样本数据作为输入变量,以内存发生不可纠正错误的故障率作为输出变量;训练模块,用于基于所述输入变量以及所述输出变量训练神经网络模型,得到内存故障预测模型。
本发明实施例提供的内存故障预测模型的生成装置,通过获取内存故障相对应的样本数据,该样本数据用于表征内存发生可纠正错误的故障率,将该样本数据作为输入变量,将内存发生不可纠正错误的故障率作为输出变量,根据输入变量和输出变量对神经网络模型进行训练,以得到内存故障预测模型,以便通过该内存故障预测模型对服务器的内存潜在故障进行预测识别,使得运维人员能够及时对潜在故障的服务器进行运维,以避免服务器因内存故障而宕机。
根据第四方面,本发明实施例提供了一种内存故障的检测装置,包括:采集模块,用于采集用于表征内存发生可纠正错误的故障参数;故障确定模块,用于将所述故障参数输入至内存故障预测模型,得到内存发生不可纠正错误的发生率;其中,所述内存故障预测模型是基于第一方面或第一方面任一实施方式所述的内存故障预测模型的生成方法生成的。
本发明实施例提供的内存故障的检测装置,通过采集用于表征内存发生可纠正错误的故障参数,将故障参数输入至内存故障预测模型,得到内存发生不可纠正错误的发生率,其中,该内存故障预测模型是基于第一方面或第一方面任一实施方式所述的内存故障预测模型的生成方法生成的。由此通过可纠正错误的故障参数预测不可纠正错误的发生率,在运维层面实现了内存故障的提前预警,以便运维人员在计划时间内停机维护,极大的减少了因内存故障导致的服务器宕机,提升了服务器运行的稳定性。
根据第五方面,本发明实施例提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面或第一方面任一实施方式所述的内存故障预测模型的生成方法或第二方面所述的内存故障的检测方法。
根据第六方面,本发明实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行第一方面或第一方面任一实施方式所述的内存故障预测模型的生成方法或第二方面所述的内存故障的检测方法。
需要说明的是,本发明实施例提供的电子设备以及计算机可读存储介质的相应有益效果,请参见内存故障预测模型的生成方法或内存故障的检测方法中相应内容的描述,在此不再赘述。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的内存故障预测模型的生成方法的流程图;
图2是根据本发明实施例的内存故障预测模型的生成方法的另一流程图;
图3是根据本发明实施例的内存故障的检测方法的流程图;
图4是根据本发明实施例的内存CE对内存UCE的预测示意图;
图5是根据本发明实施例的内存CE发生次数与内存CE发生率的示意图;
图6是根据本发明实施例的内存使用时间与内存CE发生率的示意图;
图7是根据本发明实施例的CPU/内存使用率与内存CE发生率的示意图;
图8是根据本发明实施例的温度与内存CE发生率的示意图;
图9是根据本发明实施例的内存故障预测模型的生成装置的结构框图;
图10是根据本发明实施例的内存故障的检测装置的结构框图;
图11是本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明实施例,提供了一种内存故障预测模型的生成方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种内存故障预测模型的生成方法,可用于电子设备,如服务器,图1是根据本发明实施例的内存故障预测模型的生成方法的流程图,如图1所示,该流程包括如下步骤:
S11,获取内存故障相对应的样本数据,其中,该样本数据用于表征内存发生可纠正错误的故障率。
样本数据用于表征服务器内存发生可纠正错误(Correctable Error,CE)的故障率,可纠正错误是服务器内存可以自行修复的,并不影响服务器系统的正常运行。内存故障还包括不可纠正错误(Uncorrectable Error,UCE),当服务器发生不可纠正错误时将会出现宕机状态,影响服务器的正常运行,而可纠正错误的发生与不可纠正错误的发生具有正相关关系,且可纠正错误的采集不会影响服务器的正常运行。在生成内存故障预测模型时,服务器可以对其运行数据进行实时采集记录,继而根据其运行数据确定出服务器是否发生可纠正错误,将影响服务器发生可纠正错误的因素作为样本数据。
S12,以样本数据作为输入变量,以内存发生不可纠正错误的故障率作为输出变量。
服务器的内存发生不可纠正错误时就会产生宕机,服务器可以监测其运行数据,以确定其是否发生宕机。此处将样本数据作为输入变量,将内存发生不可纠正错误的故障率作为输出变量,以通过可纠正错误的发生规律对不可纠正错误的发生进行预测。
此处,以可纠正错误的发生规律对不可纠正错误的发生进行预测的原理说明如下:
通过采集不同服务器系统(系统1、系统2以及系统3)发生内存CE的数据以及发生内存UCE的数据,通过分析数据可知,发生内存CE后,发生内存UCE的概率是未发生内存CE而直接发生内存UCE的概率的9-431倍,如图4所示。
如图4所示的数据可知,发生内存UCE的同一个月内约70%-80%发生过内存CE,由此可见,内存CE是预测内存UCE的重要因素,即通过内存CE能够准确预测内存UCE。
S13,基于输入变量以及输出变量训练神经网络模型,得到内存故障预测模型。
神经网络模型为用于生成内存故障预测模型的训练模型,此处可以采用多层前馈神经网络(Back Propagation Neural Network,BPNN),当然也可以采用其他训练模型,此处不作具体限定。
服务器可以收集其在一定运行时间内的可纠正错误数据以及不可纠正错误数据,将其CE数据作为神经网络模型的输入变量,将内存发生UCE的数据作为神经网络模型的输出变量,对该神经网络模型进行训练,得到用于预测内存UCE的内存故障预测模型。
以BPNN为例,根据输入变量以及输出变量对BPNN的算法模型进行训练。具体地,BPNN的算法模型包括输入层、隐层以及输出层,其中隐层的节点数目可以由技术人员根据经验值选择。若采用单层隐层的设计,那么隐层的节点数目
Figure BDA0003494522220000071
其中0<α<11,d为是输入层的节点数,l为输出层的节点数;输出层采用sigmoid型函数作为神经元激活函数,隐层采用tan-singmoid函数;输入层为样本数据,输出层为内存发生不可纠正错误的故障率。按照上述方法对BPNN的算法模型进行训练,得到用于预测内存UCE的内存故障预测模型。
内存故障预测模型在预测到服务器将会产生内存UCE时,能够发出告警信息,以使运维人员根据该告警信息对服务器内存进行运维,避免服务器的运行宕机,以保证服务器的运行稳定性。
本实施例提供的内存故障预测模型的生成方法,通过获取内存故障相对应的样本数据,该样本数据用于表征内存发生可纠正错误的故障率,将该样本数据作为输入变量,将内存发生不可纠正错误的故障率作为输出变量,根据输入变量和输出变量对神经网络模型进行训练,以得到内存故障预测模型,以便通过该内存故障预测模型对服务器的内存潜在故障进行预测识别,使得运维人员能够及时对潜在故障的服务器进行运维,以避免服务器因内存故障而宕机。
在本实施例中提供了一种内存故障预测模型的生成方法,可用于电子设备,如服务器,图2是根据本发明实施例的内存故障预测模型的生成方法的流程图,如图2所示,该流程包括如下步骤:
S21,获取内存故障相对应的样本数据,其中,该样本数据用于表征内存发生可纠正错误的故障率。
具体地,上述步骤S21可以包括:
S211,获取用于表征内存使用状态的特征参数以及内存故障数据。
服务器可以实时采集其运行过程中的内存数据,以根据内存数据判定影响内存使用状态的特征参数,该特征参数可以包括内存利用率、CPU利用率、内存使用时间、发生内存CE的历史次数以及温度等。内存故障数据为在发生内存CE的前提下发生内存UCE的故障数据,该内存故障数据可以由服务器对其运行期间发生内存CE以及内存UCE的数据进行分析确定。
S212,分析特征参数对应的运行数据和内存故障数据,确定特征参数与内存故障数据之间的相关性。
将特征参数所对应的运行数据以及内存故障数据进行联合分析,确定当前特征参数是否对内存UCE存在影响,即确定该特征参数是否影响内存故障的发生,由此即可确定该特征参数与内存故障数据之间的相关性。
可选地,特征参数对应的运行数据包括内存发生可纠正错误的历史数据以及内存发生可纠正错误的预测数据,其中,内存发生可纠正错误的历史数据为历史时间(例如过去一个月或者过去两个月等)内发生内存CE的数据,内存发生可纠正错误的预测数据为根据历史时间发生内存CE的规律所确定出的再次发生内存CE的数据。
相应的,上述步骤S212可以包括:
(1)获取内存发生可纠正错误的历史数据以及内存发生可纠正错误的预测数据。
服务器可以采集其发生内存CE的历史数据,并根据历史时间内发生内存CE的规律预测未来时间发生内存CE的数据。服务器中运行有监控系统,其可以对服务器的运行数据进行监控,以获取内存发生可纠正错误的历史数据以及内存发生可纠正错误的预测数据。
(2)分析历史数据、预测数据以及内存故障数据,确定可纠正错误和内存故障之间的相关性。
服务器可以采集其发生内存CE的历史数据以及未发生内存CE的历史数据,分析发生内存CE的历史数据以及未发生内存CE的历史数据,以确定历史时间内发生内存CE与否对再次发生内存CE的影响,继而可以根据发生内存CE与发生内存UCE之间的相关性,确定出可纠正错误的发生与内存故障之间的相关性。
具体地,上述步骤(2)可以包括:
(21)分析可纠正错误的历史数据和预测数据,确定可纠正错误的发生率。
可纠正错误的发生率为发生内存CE的预测概率,服务器可以通过分析产生内存CE的历史数据以及内存产生CE的预测数据,预测服务器内存CE的发生率。
具体地,上述步骤(21)可以包括:
(211)基于可纠正错误的历史数据和预测数据,分别计算可纠正错误的已发生率与可纠正错误的再次发生率。
服务器可以根据其采集到的所有运行数据以及可纠正错误的历史数据,计算得到可纠正错误的已发生率,即,若采集到的所有运行数据条数为A,可纠正错误的历史数据条数为B,则可纠正错误的已发生率P=B/A。
服务器可以继续采集发生可纠正错误后的所有运行数据以及再次发生可纠正错误的数据,计算得到可纠正错误的再次发生率,即,若采集到的发生可纠正错误后的所有运行数据条数为A1,再次发生可纠正错误的数据条数为B1,则可纠正错误的再次发生率P1=B1/A1。
(212)分析已发生率与再次发生率的关系,确定已发生率与再次发生率之间的相关性。
对可纠正错误的已发生率以及可纠正错误的再次发生率进行联合分析,确定可纠正错误的已发生率与可纠正错误的再次发生率之间是否存在关联。在可纠正错误的已发生率与可纠正错误的再次发生率存在正相关时,即可通过数据分析确定出已发生率与再次发生率之间的相关性。
(213)基于已发生率与再次发生率之间的相关性,确定可纠正错误的发生率。
根据确定出的已发生率与再次发生率之间的相关性,即可根据当前采集到的可纠正错误的发生数据确定出内存UE的发生率。
(22)分析内存故障数据,确定内存故障发生率。
在服务器产生内存故障而宕机时,服务器中设置的监控系统能够对内存故障数据进行采集,并由服务器对该内存故障数据进行分析,计算得到服务器运行过程中产生内存故障的发生率。
(23)基于可纠正错误的发生率与内存故障发生率,确定可纠正错误和内存故障之间的相关性。
服务器根据其内存CE的发生率对内存故障发生率的影响,确定服务器发生内存CE与发生内存UCE之间的关联性,即发生可纠正错误与发生内存故障之间的相关性。
S213,基于特征参数与内存故障数据之间的相关性,确定内存故障数据的目标参数,将目标参数对应的数据确定为样本数据。
服务器根据其特征参数与内存故障之间的相关性,即可从特征参数中确定出能够预测内存故障的目标参数,继而在生成内存故障预测模型时,服务器可以通过其监控系统采集目标参数所对应的数据,将其作为模型训练的输入样本。
此处以一示例说明目标参数的确定,具体如下:
(1)将发生内存CE作为预测内存UCE的目标参数。以一个月的运行数据为例,如图5所示,图5左侧代表本月发生内存CE的概率,相较于本月未发生内存CE的概率以及本月发生内存CE的概率,由数据可见,若服务器本月发生过内存CE,那么本月再次发生内存CE的概率与本月没有发生内存CE的概率高13到91倍;图5右侧表示上月发生内存CE的概率,由数据可见,本月再次发生内存CE的概率与上月没有发生内存CE的概率高35到228倍。由此可以确定发生内存CE的历史次数是预测内存CE的参数,由于发生内存CE与发生内存UCE之间具有强相关性,由此可以将发生内存CE作为预测内存UCE的目标参数。
(2)将内存使用时间作为预测内存UCE的目标参数。服务器可以采集不同服务器系统(系统1、系统2、系统3以及系统4)在一定时间内的运行数据,随着内存使用时间增长,服务器发生内存CE的概率会显著增加。如图6所示,不同服务器系统在内存使用时间超过10个月后,发生内存CE的增速将会加快。的由此可见,内存使用时间能够影响内存CE的发生,由于发生内存CE与发生内存UCE之间具有强相关性,由此可以将内存使用时间作为预测内存UCE的目标参数。
(3)将内存利用率与CPU利用率作为预测内存UCE的目标参数。如图7所示,服务器可以采集不同服务器系统(系统1、系统2、系统3以及系统4)的CPU利用率和内存利用率,发现CPU利用率越高,服务器发生内存CE的概率越高;内存利用率越高,服务器发生内存CE的概率越高。
(4)温度不能作为预测内存UCE的目标参数。通常认知中,温度越高,服务器发生CE的概率就会越高,但是在内存利用率一定或CPU利用率一定的前提下,如图8所示,单纯的提高温度,对内存CE的影响并不大,因此单纯的温度变化对内存CE的影响较小。实际上,温度的升高一般由CPU利用率和内存利用率所导致的,CPU利用率和内存利用率升高才是导致内存CE发生率升高的主要原因,因而温度对预测内存CE的影响不大,可不作为预测内存UCE的目标参数。
基于上述分析可知,将内存利用率、CPU利用率、内存使用时间以及发生内存CE的历史次数作为用于预测内存UCE的目标参数。
S22,以样本数据作为输入变量,以内存发生不可纠正错误的故障率作为输出变量。详细说明参见上述实施例对应的相关描述,此处不再赘述。
S23,基于输入变量以及输出变量训练神经网络模型,得到内存故障预测模型。详细说明参见上述实施例对应的相关描述,此处不再赘述。
本实施例提供的内存故障预测模型的生成方法,通过对表征内存使用状态的特征参数以及内存故障数据进行联合分析,以确定出特征参数与内存故障数据之间的相关性,继而根据该相关性确定出内存故障数据对应的目标参数。由此保证了目标参数与内存故障数据的关联性,便于内存故障预测模型的准确训练。通过检测内存发生可纠正错误的历史数据以及内存发生可纠正错误的预测数据,以对内存发生可纠正错误的历史数据、内存发生可纠正错误的预测数据以及内存故障数据进行分析,确定出可纠正错误和内存故障之间的相关性,保证了可纠正错误与内存故障之间的关联度,避免无关因数影响内存故障预测模型的训练。根据可纠正错误的发生率与内存故障发生率,确定出可纠正错误和内存故障之间的相关性,由此能够通过可纠正错误对内存故障进行预测,便于在预测到内存故障时及时运维。在确定可纠正错误的发生率时,能够同时考虑历史数据以及预测数据,提高了可纠正错误发生率的确定准确性。
在本实施例中提供了一种内存故障的检测方法,可用于电子设备,如服务器,图3是根据本发明实施例的内存故障预测模型的生成方法的流程图,如图3所示,该流程包括如下步骤:
S31,采集用于表征内存发生可纠正错误的故障参数。
故障参数包括内存利用率、CPU利用率、内存使用时间以及发生内存CE的历史次数。服务器中运行有监控系统,其可以对服务器运行过程中的数据进行实时监控及采集,以得到服务器在一定运行时间内的内存利用率、CPU利用率、内存使用时间以及发生内存CE的历史次数。
S32,将故障参数输入至内存故障预测模型,得到内存发生不可纠正错误的发生率。
内存故障预测模型是基于上述内存故障预测模型的生成方法生成的,此处不再赘述。内存发生不可纠正错误的发生率为服务器发生内存UCE的概率,服务器中安装有该内存故障预测模型,当服务器处于运行状态时,其可以将采集到的故障参数所对应的数据输入至该内存故障预测模型,以便对服务器内存发生不可纠正错误进行预测,预判内存UCE的发生率。由此在运维层面实现了内存故障的提前预警,便于运维人员在计划时间内对服务器进行停机维护。
本实施例提供的内存故障的检测方法,通过采集用于表征内存发生可纠正错误的故障参数,将故障参数输入至内存故障预测模型,得到内存发生不可纠正错误的发生率,其中,该内存故障预测模型是基于第一方面或第一方面任一实施方式所述的内存故障预测模型的生成方法生成的。由此通过可纠正错误的发生率预测不可纠正错误的发生率,在运维层面实现了内存故障的提前预警,以便运维人员在计划时间内停机维护,极大的减少了因内存故障导致的服务器宕机,提升了服务器运行的稳定性。
在本实施例中还提供了一种内存故障预测模型的生成装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种内存故障预测模型的生成装置,如图9所示,包括:
获取模块41,用于获取内存故障相对应的样本数据,其中,该样本数据用于表征内存发生可纠正错误的故障率。详细说明参见上述方法实施例所对应的相关描述,此处不再赘述。
变量确定模块42,用于以样本数据作为输入变量,以内存发生不可纠正错误的故障率作为输出变量。详细说明参见上述方法实施例所对应的相关描述,此处不再赘述。
训练模块43,用于基于输入变量以及输出变量训练神经网络模型,得到内存故障预测模型。详细说明参见上述方法实施例所对应的相关描述,此处不再赘述。
本实施例提供的内存故障预测模型的生成装置,通过获取内存故障相对应的样本数据,该样本数据用于表征内存发生可纠正错误的故障率,将该样本数据作为输入变量,将内存发生不可纠正错误的故障率作为输出变量,根据输入变量和输出变量对神经网络模型进行训练,以得到内存故障预测模型,以便通过该内存故障预测模型对服务器的内存潜在故障进行预测识别,使得运维人员能够及时对潜在故障的服务器进行运维,以避免服务器因内存故障而宕机。
本实施例中的内存故障预测模型的生成装置是以功能单元的形式来呈现,这里的单元是指ASIC电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
上述各个模块更进一步的功能描述与上述对应实施例相同,在此不再赘述。
在本实施例中还提供了一种内存故障的检测装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种内存故障的检测装置,如图10所示,包括:
采集模块51,用于采集用于表征内存发生可纠正错误的故障参数。详细说明参见上述方法实施例对应的相关描述,此处不再赘述。
故障确定模块52,用于将故障参数输入至内存故障预测模型,得到内存发生不可纠正错误的发生率,内存故障预测模型是基于内存故障预测模型的生成方法生成的。详细说明参见上述方法实施例对应的相关描述,此处不再赘述。
本实施例提供的内存故障的检测装置,通过采集用于表征内存发生可纠正错误的故障参数,将故障参数输入至内存故障预测模型,得到内存发生不可纠正错误的发生率,其中,该内存故障预测模型是基于第一方面或第一方面任一实施方式所述的内存故障预测模型的生成方法生成的。由此通过可纠正错误的发生率预测不可纠正错误的发生率,在运维层面实现了内存故障的提前预警,以便运维人员在计划时间内停机维护,极大的减少了因内存故障导致的服务器宕机,提升了服务器运行的稳定性。
本实施例中的内存故障的检测装置是以功能单元的形式来呈现,这里的单元是指ASIC电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
上述各个模块更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本发明实施例还提供一种电子设备,具有上述图9所示的内存故障预测模型的生成装置或图10所示的内存故障的检测装置。
请参阅图11,图11是本发明可选实施例提供的一种电子设备的结构示意图,如图11所示,该电子设备可以包括:至少一个处理器601,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口603,存储器604,至少一个通信总线602。其中,通信总线602用于实现这些组件之间的连接通信。其中,通信接口603可以包括显示屏(Display)、键盘(Keyboard),可选通信接口603还可以包括标准的有线接口、无线接口。存储器604可以是高速RAM存储器(Random Access Memory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器604可选的还可以是至少一个位于远离前述处理器601的存储装置。其中处理器601可以结合图9或图10所描述的装置,存储器604中存储应用程序,且处理器601调用存储器604中存储的程序代码,以用于执行上述任一方法步骤。
其中,通信总线602可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。通信总线602可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器604可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD);存储器604还可以包括上述种类存储器的组合。
其中,处理器601可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,处理器601还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic,缩写:GAL)或其任意组合。
可选地,存储器604还用于存储程序指令。处理器601可以调用程序指令,实现如本申请图1至图3实施例中所示的内存故障预测模型的生成方法,或图4实施例中所示的内存故障的检测方法。
本发明实施例还提供了一种非暂态计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的内存故障预测模型的生成方法或内存故障的检测方法的处理方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-StateDrive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种内存故障预测模型的生成方法,其特征在于,包括:
获取内存故障相对应的样本数据,所述样本数据用于表征内存发生可纠正错误的故障率;
以所述样本数据作为输入变量,以内存发生不可纠正错误的故障率作为输出变量;
基于所述输入变量以及所述输出变量训练神经网络模型,得到内存故障预测模型。
2.根据权利要求1所述的方法,其特征在于,所述获取内存故障相对应的样本数据,包括:
获取用于表征内存使用状态的特征参数以及内存故障数据;
分析所述特征参数对应的运行数据和所述内存故障数据,确定所述特征参数与所述内存故障数据之间的相关性;
基于所述特征参数与所述内存故障数据之间的相关性,确定所述内存故障数据的目标参数,将所述目标参数对应的数据确定为所述样本数据。
3.根据权利要求2所述的方法,其特征在于,所述特征参数对应的运行数据包括内存发生所述可纠正错误的历史数据以及内存发生所述可纠正错误的预测数据,所述分析所述特征参数对应的运行数据和所述内存故障数据,确定所述特征参数与所述内存故障数据之间的相关性,包括:
获取内存发生所述可纠正错误的历史数据以及内存发生所述可纠正错误的预测数据;
分析所述历史数据、所述预测数据以及所述内存故障数据,确定所述可纠正错误和所述内存故障之间的相关性。
4.根据权利要求3所述的方法,其特征在于,所述分析所述历史数据、所述预测数据以及所述内存故障数据,确定所述可纠正错误和所述内存故障之间的相关性,包括:
分析所述可纠正错误的历史数据和所述预测数据,确定所述可纠正错误的发生率;
分析所述内存故障数据,确定内存故障发生率;
基于所述可纠正错误的发生率与所述内存故障发生率,确定所述可纠正错误和所述内存故障之间的相关性。
5.根据权利要求4所述的方法,其特征在于,所述分析所述可纠正错误的历史数据和所述预测数据,确定所述可纠正错误的发生率,包括:
基于所述可纠正错误的历史数据和所述预测数据,分别计算所述可纠正错误的已发生率与所述可纠正错误的再次发生率;
分析所述已发生率与所述再次发生率的关系,确定所述已发生率与所述再次发生率之间的相关性;
基于所述已发生率与所述再次发生率之间的相关性,确定所述可纠正错误的发生率。
6.一种内存故障的检测方法,其特征在于,包括:
采集用于表征内存发生可纠正错误的故障参数;
将所述故障参数输入至内存故障预测模型,得到内存发生不可纠正错误的发生率;
其中,所述内存故障预测模型是基于权利要求1-5任一项所述的内存故障预测模型的生成方法生成的。
7.一种内存故障预测模型的生成装置,其特征在于,包括:
获取模块,用于获取内存故障相对应的样本数据,所述样本数据用于表征内存发生可纠正错误的故障率;
变量确定模块,用于以所述样本数据作为输入变量,以内存发生不可纠正错误的故障率作为输出变量;
训练模块,用于基于所述输入变量以及所述输出变量训练神经网络模型,得到内存故障预测模型。
8.一种内存故障的检测装置,其特征在于,包括:
采集模块,用于采集用于表征内存发生可纠正错误的故障参数;
故障确定模块,用于将所述故障参数输入至内存故障预测模型,得到内存发生不可纠正错误的发生率;
其中,所述内存故障预测模型是基于权利要求1-5任一项所述的内存故障预测模型的生成方法生成的。
9.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-5任一项所述的内存故障预测模型的生成方法或权利要求6所述的内存故障的检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行权利要求1-5任一项所述的内存故障预测模型的生成方法或权利要求6所述的内存故障的检测方法。
CN202210107949.6A 2022-01-28 2022-01-28 内存故障预测模型的生成方法、检测方法、装置及设备 Pending CN114443398A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210107949.6A CN114443398A (zh) 2022-01-28 2022-01-28 内存故障预测模型的生成方法、检测方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210107949.6A CN114443398A (zh) 2022-01-28 2022-01-28 内存故障预测模型的生成方法、检测方法、装置及设备

Publications (1)

Publication Number Publication Date
CN114443398A true CN114443398A (zh) 2022-05-06

Family

ID=81370871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210107949.6A Pending CN114443398A (zh) 2022-01-28 2022-01-28 内存故障预测模型的生成方法、检测方法、装置及设备

Country Status (1)

Country Link
CN (1) CN114443398A (zh)

Similar Documents

Publication Publication Date Title
US20210397501A1 (en) System and method for unsupervised prediction of machine failures
US11243524B2 (en) System and method for unsupervised root cause analysis of machine failures
WO2020052147A1 (zh) 监测设备故障检测方法及装置
US11403551B2 (en) System and method for validating unsupervised machine learning models
US11442444B2 (en) System and method for forecasting industrial machine failures
CN108388489B (zh) 一种服务器故障诊断方法、系统、设备及存储介质
US11669083B2 (en) System and method for proactive repair of sub optimal operation of a machine
US11933695B2 (en) System and method for detecting anomalies in sensory data of industrial machines located within a predetermined proximity
CN111045894B (zh) 数据库异常检测方法、装置、计算机设备和存储介质
US20170161963A1 (en) Method of identifying anomalies
US11733688B2 (en) System and method for recognizing and forecasting anomalous sensory behavioral patterns of a machine
CN111143173A (zh) 一种基于神经网络的服务器故障监测方法及系统
EP4131094A1 (en) Prediction method and apparatus, readable medium, and electronic device
CN115454778A (zh) 大规模云网络环境下的时序指标异常智能监控系统
CN113835962A (zh) 一种服务器故障检测方法、装置、计算机设备及存储介质
KR20190008515A (ko) 개선된 sax 기법 및 rtc 기법을 이용한 공정 모니터링 장치 및 방법
CN115794588A (zh) 内存故障预测方法、装置、系统及监测服务器
Ram et al. Performance improvement of a parallel redundant system with coverage factor
CN112534371A (zh) 优化用于监视工业机器操作的机器学习算法的准确度
CN111314110B (zh) 一种用于分布式系统的故障预警方法
CN115114124A (zh) 主机风险的评估方法及评估装置
KR102108975B1 (ko) 함정설비의 상태기반 정비 지원 장치 및 방법
CN110990223A (zh) 一种基于系统日志的监控告警方法及装置
CN114443398A (zh) 内存故障预测模型的生成方法、检测方法、装置及设备
US11822323B2 (en) Providing corrective solution recommendations for an industrial machine failure

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination