CN112433896B - 一种服务器磁盘故障预测方法、装置、设备及存储介质 - Google Patents
一种服务器磁盘故障预测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112433896B CN112433896B CN202011226000.5A CN202011226000A CN112433896B CN 112433896 B CN112433896 B CN 112433896B CN 202011226000 A CN202011226000 A CN 202011226000A CN 112433896 B CN112433896 B CN 112433896B
- Authority
- CN
- China
- Prior art keywords
- data
- fault
- disk
- neural network
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013528 artificial neural network Methods 0.000 claims abstract description 76
- 238000012549 training Methods 0.000 claims abstract description 29
- 230000006870 function Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012546 transfer Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000004088 simulation Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 5
- 230000000903 blocking effect Effects 0.000 claims description 4
- 238000013075 data extraction Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 15
- 230000000694 effects Effects 0.000 abstract 1
- 238000004891 communication Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 210000004556 brain Anatomy 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2263—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3037—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Hardware Design (AREA)
- Mathematical Physics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请公开了一种服务器磁盘故障预测方法,该方法包括以下步骤:获得设定时间段内服务器中目标磁盘的运行状态信息;在运行状态信息中提取故障特征数据;获得设定时间段内前后时间点对应的IO数量跳变数据;基于故障特征数据和IO数量跳变数据,利用预先训练获得的神经网络预测模型,确定目标磁盘的故障风险级别;根据故障风险级别,预测目标磁盘是否会发生故障。应用本申请所提供的技术方案,可以准确预测得到目标磁盘是否会发生故障,以便能够及时对目标磁盘进行相应处理,提高磁盘可靠性,降低服务器宕机风险和运营复杂度,保障服务器系统的高效、稳定运行。本申请还公开了一种服务器磁盘故障预测装置、设备及存储介质,具有相应技术效果。
Description
技术领域
本申请涉及计算机应用技术领域,特别是涉及一种服务器磁盘故障预测方法、装置、设备及存储介质。
背景技术
随着云计算和互联网服务的迅速发展,网络服务器数量越来越多,服务器老龄化问题日益凸显,服务器发生硬件故障的几率也在加速上升,尤其是使用年份较长的服务器,其硬件故障率会出现陡升的情况。在服务器的硬件故障中,磁盘故障的占比较大,产生的影响也更严重,容易导致服务器宕机甚至数据丢失等灾难性影响,增加了企业运营复杂度和成本。
目前,多是在服务器的磁盘已经发生故障时进行修复、更换等处理,磁盘可靠性较低,无法保障服务器系统的高效、稳定运行。
发明内容
本申请的目的是提供一种服务器磁盘故障预测方法、装置、设备及存储介质,以对服务器磁盘故障进行预测,及时进行相应处理,提高磁盘可靠性,保障服务器系统的高效、稳定运行。
为解决上述技术问题,本申请提供如下技术方案:
一种服务器磁盘故障预测方法,包括:
获得设定时间段内服务器中目标磁盘的运行状态信息;
在所述运行状态信息中提取故障特征数据;
获得所述设定时间段内前后时间点对应的IO数量跳变数据;
基于所述故障特征数据和所述IO数量跳变数据,利用预先训练获得的神经网络预测模型,确定所述目标磁盘的故障风险级别;
根据所述故障风险级别,预测所述目标磁盘是否会发生故障。
在本申请的一种具体实施方式中,所述基于所述故障特征数据和所述IO数量跳变数据,利用预先训练获得的神经网络预测模型,确定所述目标磁盘的故障风险级别,包括:
确定所述故障特征数据中每个数据项的权重系数;
基于所述故障特征数据中每个数据项的权重系数,计算综合指标值;
根据所述IO数量跳变数据,计算IO跳变平均值;
将所述综合指标值和所述IO跳变平均值输入到预先训练获得的神经网络预测模型中,获得输出数据;
根据所述输出数据,确定所述目标磁盘的故障风险级别。
在本申请的一种具体实施方式中,所述确定所述故障特征数据中每个数据项的权重系数,包括:
根据所述故障特征数据中每个数据项的重要程度,确定每个数据项的权重系数。
在本申请的一种具体实施方式中,所述根据所述输出数据,确定所述目标磁盘的故障风险级别,包括:
确定所述输出数据所在的数据范围;
将所述输出数据所在的数据范围对应的故障风险级别确定为所述目标磁盘的故障风险级别。
在本申请的一种具体实施方式中,所述故障特征数据包括以下一个或多个数据项:
磁头状态、磁盘坏区、磁头寻道错误率、主轴电机频繁尝试启动、硬盘机械部件故障、已分配坏块数、非安全下电次数、硬件重启次数、硬盘总工作时间、不可恢复错误数、硬盘温度、读阻塞扇区数、硬盘启动时间。
在本申请的一种具体实施方式中,通过以下步骤预先训练获得所述神经网络预测模型:
获得样本数据集,所述样本数据集包括多组样本数据,每组样本数据包括故障特征样本数据、IO数量跳变样本数据和对应的磁盘故障结果;
基于所述样本数据集,对预先构建的神经网络初始模型进行训练,调整模型参数;
利用仿真函数对训练后的所述神经网络初始模型进行验证测试;
在训练后的所述神经网络初始模型的准确率达到设定准确率阈值或者循环迭代次数达到设定次数阈值时,将训练后的所述神经网络初始模型确定为神经网络预测模型。
在本申请的一种具体实施方式中,所述神经网络初始模型为多层前馈神经网络,包括输入层、隐含层、输出层,所述隐含层采用tansig传递函数,所述输出层采用purelin激活函数。
一种服务器磁盘故障预测装置,包括:
运行状态信息获得模块,用于获得设定时间段内服务器中目标磁盘的运行状态信息;
故障特征数据提取模块,用于在所述运行状态信息中提取故障特征数据;
IO数量跳变数据获得模块,用于获得所述设定时间段内前后时间点对应的IO数量跳变数据;
故障风险级别确定模块,用于基于所述故障特征数据和所述IO数量跳变数据,利用预先训练获得的神经网络预测模型,确定所述目标磁盘的故障风险级别;
磁盘故障预测模块,用于根据所述故障风险级别,预测所述目标磁盘是否会发生故障。
一种服务器磁盘故障预测设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述任一项所述服务器磁盘故障预测方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述服务器磁盘故障预测方法的步骤。
应用本申请实施例所提供的技术方案,在获得设定时间段内服务器中目标磁盘的运行状态信息后,在运行状态信息中提取故障特征数据,并在获得设定时间段内前后时间点对应的IO数量跳变数据后,基于故障特征数据和IO数量跳变数据,利用预先训练获得的神经网络预测模型,确定目标磁盘的故障风险级别,根据故障风险级别,预测目标磁盘是否会发生故障。通过准确得到的目标磁盘的故障风险级别,可以准确预测得到目标磁盘是否会发生故障,以便在预测到目标磁盘会发生故障时能够及时对目标磁盘进行相应处理,提高磁盘可靠性,降低服务器宕机风险和运营复杂度,保障服务器系统的高效、稳定运行。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中一种服务器磁盘故障预测方法的实施流程图;
图2为本申请实施例中一种神经网络初始模型的结构示意图;
图3为本申请实施例中一种服务器磁盘故障预测装置的结构示意图;
图4为本申请实施例中一种服务器磁盘故障预测设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1所示,为本申请实施例所提供的一种服务器磁盘故障预测方法的实施流程图,该方法可以包括以下步骤:
S110:获得设定时间段内服务器中目标磁盘的运行状态信息。
在本申请实施例中,服务器可以是构成服务器系统的任意一台服务器,也可以是单独的一台服务器。目标磁盘可以是服务器中的任意一个磁盘。对于服务器中的任意一个磁盘都可以按照本申请方案执行,以对其是否会发生故障进行预测。
在服务器正常运行中,可以对服务器的实时运行状态进行监测,获得设定时间段内服务器的目标磁盘的运行状态信息,为后续操作提供基本信息。具体的,可以通过在机柜中部署的代理进行监测,获得相应信息。
设定时间段的长短可以根据实际情况调整,如设定为一个月,或者15天等。
S120:在运行状态信息中提取故障特征数据。
获得设定时间段内服务器的目标磁盘的运行状态信息后,可以通过对运行状态信息进行数据分析,提取出与目标磁盘运行紧密相关的故障特征数据。
具体的,可以先对获得的运行状态信息进行去噪处理,剔除非法数据,如空值、超出正常数值范围的明显异常数据等,然后再提取故障特征数据。
在本申请的一种具体实施方式中,故障特征数据包括以下一个或多个数据项:
磁头状态、磁盘坏区、磁头寻道错误率、主轴电机频繁尝试启动、硬盘机械部件故障、已分配坏块数、非安全下电次数、硬件重启次数、硬盘总工作时间、不可恢复错误数、硬盘温度、读阻塞扇区数、硬盘启动时间。
在进行故障特征数据的提取时,可以利用SMART(Self-Monitoring Analysis andReporting Technology,自我检测、分析及报告技术)技术,得到较多维度的SMART信息,但是这些维度的SMART信息并不都跟故障密切相关,有些反而会成为干扰项,经过关联分析和聚类分析,层层筛选,本申请选取其中13项作为故障特征数据,如表1所示:
表1
S130:获得设定时间段内前后时间点对应的IO数量跳变数据。
经过大量试验、分析,申请人发现,IO数量跳变,也就是后一个时间点与前一个时间点对应的IO数量差的绝对值,与磁盘故障间存在明显关系。IO数量跳变越大,发生故障的几率越大。因此,本申请中考虑到了IO数量跳变因素。
在对服务器进行监测的过程中,可以获得设定时间段内每个前后时间点对应的IO数量跳变数据。具体的,可以通过在机柜中部署的代理进行监测,获得相应数据。
S140:基于故障特征数据和IO数量跳变数据,利用预先训练获得的神经网络预测模型,确定目标磁盘的故障风险级别。
在本申请实施例中,可以预先训练获得神经网络预测模型。
提取得到故障特征数据,获得IO数量跳变数据之后,可以将故障特征数据和IO数量跳变数据作为磁盘故障预测因子,基于故障特征数据和IO数量跳变数据,利用神经网络预测模型,确定目标磁盘的故障风险级别。
在本申请的一种具体实施方式中,该步骤可以包括以下步骤:
步骤一:确定故障特征数据中每个数据项的权重系数;
步骤二:基于故障特征数据中每个数据项的权重系数,计算综合指标值;
步骤三:根据IO数量跳变数据,计算IO跳变平均值;
步骤四:将综合指标值和IO跳变平均值输入到预先训练获得的神经网络预测模型中,获得输出数据;
步骤五:根据输出数据,确定目标磁盘的故障风险级别。
为便于描述,将上述五个步骤结合起来进行说明。
提取得到的故障特征数据包括一个或多个数据项,可以确定故障特征数据中每个数据项的权重系数。具体的,可以根据故障特征数据中每个数据项的重要程度,确定每个数据项的权重系数。在不同应用场景中,同一个数据项的重要程度可以相同或不同。对于一个数据项而言,该数据项的重要程度越大,权重系数越大,表明其对故障预测的影响越大。
基于故障特征数据中每个数据项的权重系数,可以计算综合指标值。具体的,可以将故障特征数据包含的每个数据项进行加权求和,得到综合指标值。
获得的设定时间段内前后时间点对应的IO数量跳变数据包含多个跳变值,获得IO数量跳变数据后,可以通过跳变值计算IO跳变平均值。
将主成分分析得到的综合指标值和经验分析得到的IO跳变平均值作为输入,输入到预先训练获得的神经网络预测模型中,可以得到输出数据。根据输出数据,可以确定目标磁盘的故障风险级别。采取主成分分析与经验分析相结合的方式,使得对于磁盘的故障风险级别确定的更加准确。
在实际应用中,磁盘状态的劣化有一个由量变到质变的过程,这一过程是不可逆的。本申请实施例划分多个故障风险级别,如划分为“Ⅰ级、Ⅱ级、Ⅲ级、Ⅳ级、V级”五个风险级别来表示磁盘故障严重性。划分故障风险级别,可以清晰展现磁盘运行状态的变化趋势。从磁盘运行状态来说,“Ⅰ级”表示磁盘状态正常,“Ⅱ级”预示着磁盘经过了潜在故障点,进入“Ⅲ级”则反映出故障的严重性上升了,“Ⅳ级”的严重性较“Ⅲ级”进一步上升,“V级”就预示着磁盘即将到达功能故障点。从趋势上说,从“Ⅰ级”到“Ⅴ级”反映出磁盘运行故障的概率在逐渐上升。
在本申请的一种具体实施方式中,可以先确定输出数据所在的数据范围,再将输出数据所在的数据范围对应的故障风险级别确定为目标磁盘的故障风险级别。
在本申请实施例中,可以根据历史数据等预先设定每个故障风险级别对应的数据范围。在获得神经网络预测模型的输出数据后,可以先确定输出数据所在的数据范围,然后将该输出数据所在的数据范围对应的故障风险级别确定为目标磁盘的故障风险级别。
S150:根据故障风险级别,预测目标磁盘是否会发生故障。
在本申请实施例中,故障风险级别越大,磁盘发生故障的概率越高。根据故障风险级别,可以预测目标磁盘是否会发生故障。如故障风险级别大于或等于“IV级”,则可以预测目标磁盘会发生故障,相反,可以预测目标磁盘不会发生故障。
通过确定的目标磁盘的故障风险级别,对目标磁盘是否会发生故障进行预测,一方面可以更直观的表示服务器的运行状态,另一方面也可以针对不同的故障风险级别对是否可能发生故障进行预测,及时进行故障处理,使得故障运维更灵活。
应用本申请实施例所提供的方法,在获得设定时间段内服务器中目标磁盘的运行状态信息后,在运行状态信息中提取故障特征数据,并在获得设定时间段内前后时间点对应的IO数量跳变数据后,基于故障特征数据和IO数量跳变数据,利用预先训练获得的神经网络预测模型,确定目标磁盘的故障风险级别,根据故障风险级别,预测目标磁盘是否会发生故障。通过准确得到的目标磁盘的故障风险级别,可以准确预测得到目标磁盘是否会发生故障,以便在预测到目标磁盘会发生故障时能够及时对目标磁盘进行相应处理,提高磁盘可靠性,降低服务器宕机风险和运营复杂度,保障服务器系统的高效、稳定运行。
在本申请的一个实施例中,通过以下步骤预先训练获得神经网络预测模型:
第一个步骤:获得样本数据集,样本数据集包括多组样本数据,每组样本数据包括故障特征样本数据、IO数量跳变样本数据和对应的磁盘故障结果;
第二个步骤:基于样本数据集,对预先构建的神经网络初始模型进行训练,调整模型参数;
第三个步骤:利用仿真函数对训练后的神经网络初始模型进行验证测试;
第四个步骤:在训练后的神经网络初始模型的准确率达到设定准确率阈值或者循环迭代次数达到设定次数阈值时,将训练后的神经网络初始模型确定为神经网络预测模型。
为便于描述,将上述几个步骤结合起来进行说明。
目前,神经网络技术被应用在各个领域。人工神经网络是通过采用一种在物理方面可实现的方式去模拟人脑神经细胞的结构和人脑神经细胞功能的系统。它是现代神经科学研究成果在计算机领域方面的一个延伸,模拟人脑神经网络处理和记忆信息的方式,使之拥有大规模并行处理和高度非线性问题处理等能力。人工神经网络通过神经元之间的互联和并行作用来处理信息,知识和信息存储在处理单元之间互连的权值中,神经网络的处理单元的动态深化过程由预先设定好的学习方式和学习规则决定。如今人工神经网络已发展出百余种模型和多种建立方法,其中应用最为广泛的是BP神经网络。BP神经网络是一种基于误差反向传播算法训练的多层前向人工神经网络。它能自适应和自学习地存储和学习大量的映射关系和输入—输出模式,不需要有事前揭示描述某种映射关系的数学方程。为了使神经网络的误差平方和取到最小值,它利用梯度下降法,通过反向传播来不断调整网络的权值和阈值等模型参数,这是其学习规则。由于采用的传递函数大多是Sigmoid型可微函数,BP神经网络的神经元可以实现输入和输出间的任意非线性映射。
本申请实施例预先构建一个神经网络初始模型。该神经网络初始模型为多层前馈神经网络,包括输入层、隐含层、输出层,隐含层采用tansig传递函数,输出层采用purelin激活函数。
具体的,如图2所示,该神经网络初始模型可以采用2层BP网络,设定输入层节点数为2,隐含层节点数为6个,采用tansig传递函数,输出层节点数为1个,采用purelin激活函数,训练函数为trainlm()。
在对神经网络初始模型进行训练之前,可以先获得样本数据集,样本数据集可以包括多组样本数据,每组样本数据可以包括故障特征样本数据、IO数量跳变样本数据和对应的磁盘故障结果。
基于样本数据集,可以对预先构建的神经网络初始模型进行训练,调整模型参数。具体的,可以先对每组样本数据进行归一化处理,通过故障特征样本数据得到综合指标样本值,通过IO数量跳变样本数据得到IO跳变平均样本值。
对于神经网络初始模型进行训练后,可以利用仿真函数,如sim()对训练后的神经网络初始模型进行验证测试。在训练后的神经网络初始模型的准确率达到设定准确率阈值或者循环迭代次数达到设定次数阈值时,认为当前训练后的神经网络初始模型符合应用条件,可以将其确定为神经网络预测模型。
在实际应用中,在应用神经网络预测模型过程中,可以对其准确率进行监测,如果在一段时间后其准确率低于设定准确率阈值,则可以获得更多的样本数据,对其进行重新训练,以使得其确定的故障风险级别更准确,从而提高对磁盘的故障的预测的准确性。
相应于上面的方法实施例,本申请实施例还提供了一种服务器磁盘故障预测装置,下文描述的服务器磁盘故障预测装置与上文描述的服务器磁盘故障预测方法可相互对应参照。
参见图3所示,该装置可以包括以下模块:
运行状态信息获得模块310,用于获得设定时间段内服务器中目标磁盘的运行状态信息;
故障特征数据提取模块320,用于在运行状态信息中提取故障特征数据;
IO数量跳变数据获得模块330,用于获得设定时间段内前后时间点对应的IO数量跳变数据;
故障风险级别确定模块340,用于基于故障特征数据和IO数量跳变数据,利用预先训练获得的神经网络预测模型,确定目标磁盘的故障风险级别;
磁盘故障预测模块350,用于根据故障风险级别,预测目标磁盘是否会发生故障。
应用本申请实施例所提供的装置,在获得设定时间段内服务器中目标磁盘的运行状态信息后,在运行状态信息中提取故障特征数据,并在获得设定时间段内前后时间点对应的IO数量跳变数据后,基于故障特征数据和IO数量跳变数据,利用预先训练获得的神经网络预测模型,确定目标磁盘的故障风险级别,根据故障风险级别,预测目标磁盘是否会发生故障。通过准确得到的目标磁盘的故障风险级别,可以准确预测得到目标磁盘是否会发生故障,以便在预测到目标磁盘会发生故障时能够及时对目标磁盘进行相应处理,提高磁盘可靠性,降低服务器宕机风险和运营复杂度,保障服务器系统的高效、稳定运行。
在本申请的一种具体实施方式中,故障风险级别确定模块340,用于:
确定故障特征数据中每个数据项的权重系数;
基于故障特征数据中每个数据项的权重系数,计算综合指标值;
根据IO数量跳变数据,计算IO跳变平均值;
将综合指标值和IO跳变平均值输入到预先训练获得的神经网络预测模型中,获得输出数据;
根据输出数据,确定目标磁盘的故障风险级别。
在本申请的一种具体实施方式中,故障风险级别确定模块340,用于:
根据故障特征数据中每个数据项的重要程度,确定每个数据项的权重系数。
在本申请的一种具体实施方式中,故障风险级别确定模块340,用于:
确定输出数据所在的数据范围;
将输出数据所在的数据范围对应的故障风险级别确定为目标磁盘的故障风险级别。
在本申请的一种具体实施方式中,故障特征数据包括以下一个或多个数据项:
磁头状态、磁盘坏区、磁头寻道错误率、主轴电机频繁尝试启动、硬盘机械部件故障、已分配坏块数、非安全下电次数、硬件重启次数、硬盘总工作时间、不可恢复错误数、硬盘温度、读阻塞扇区数、硬盘启动时间。
在本申请的一种具体实施方式中,还包括模型训练模块,用于通过以下步骤预先训练获得神经网络预测模型:
获得样本数据集,样本数据集包括多组样本数据,每组样本数据包括故障特征样本数据、IO数量跳变样本数据和对应的磁盘故障结果;
基于样本数据集,对预先构建的神经网络初始模型进行训练,调整模型参数;
利用仿真函数对训练后的神经网络初始模型进行验证测试;
在训练后的神经网络初始模型的准确率达到设定准确率阈值或者循环迭代次数达到设定次数阈值时,将训练后的神经网络初始模型确定为神经网络预测模型。
在本申请的一种具体实施方式中,神经网络初始模型为多层前馈神经网络,包括输入层、隐含层、输出层,隐含层采用tansig传递函数,输出层采用purelin激活函数。
相应于上面的方法实施例,本申请实施例还提供了一种服务器磁盘故障预测设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现上述服务器磁盘故障预测方法的步骤。
如图4所示,为服务器磁盘故障预测设备的组成结构示意图,服务器磁盘故障预测设备可以包括:处理器10、存储器11、通信接口12和通信总线13。处理器10、存储器11、通信接口12均通过通信总线13完成相互间的通信。
在本申请实施例中,处理器10可以为中央处理器(Central Processing Unit,CPU)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件等。
处理器10可以调用存储器11中存储的程序,具体的,处理器10可以执行服务器磁盘故障预测方法的实施例中的操作。
存储器11中用于存放一个或者一个以上程序,程序可以包括程序代码,程序代码包括计算机操作指令,在本申请实施例中,存储器11中至少存储有用于实现以下功能的程序:
获得设定时间段内服务器中目标磁盘的运行状态信息;
在运行状态信息中提取故障特征数据;
获得设定时间段内前后时间点对应的IO数量跳变数据;
基于故障特征数据和IO数量跳变数据,利用预先训练获得的神经网络预测模型,确定目标磁盘的故障风险级别;
根据故障风险级别,预测目标磁盘是否会发生故障。
在一种可能的实现方式中,存储器11可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及至少一个功能(比如提取功能、计算功能)所需的应用程序等;存储数据区可存储使用过程中所创建的数据,如故障特征数据、IO数量跳变数据等。
此外,存储器11可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。
通信接口13可以为通信模块的接口,用于与其他设备或者系统连接。
当然,需要说明的是,图4所示的结构并不构成对本申请实施例中服务器磁盘故障预测设备的限定,在实际应用中服务器磁盘故障预测设备可以包括比图4所示的更多或更少的部件,或者组合某些部件。
相应于上面的方法实施例,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述服务器磁盘故障预测方法的步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
Claims (9)
1.一种服务器磁盘故障预测方法,其特征在于,包括:
获得设定时间段内服务器中目标磁盘的运行状态信息;
在所述运行状态信息中提取故障特征数据;
获得所述设定时间段内前后时间点对应的IO数量跳变数据;其中,所述IO数量跳变数据为后一个时间点与前一个时间点对应的IO数量差的绝对值;
确定所述故障特征数据中每个数据项的权重系数;
基于所述故障特征数据中每个数据项的权重系数,计算综合指标值;
根据所述IO数量跳变数据,计算IO跳变平均值;
将所述综合指标值和所述IO跳变平均值输入到预先训练获得的神经网络预测模型中,获得输出数据;
根据所述输出数据,确定所述目标磁盘的故障风险级别;
根据所述故障风险级别,预测所述目标磁盘是否会发生故障。
2.根据权利要求1所述的方法,其特征在于,所述确定所述故障特征数据中每个数据项的权重系数,包括:
根据所述故障特征数据中每个数据项的重要程度,确定每个数据项的权重系数。
3.根据权利要求1所述的方法,其特征在于,所述根据所述输出数据,确定所述目标磁盘的故障风险级别,包括:
确定所述输出数据所在的数据范围;
将所述输出数据所在的数据范围对应的故障风险级别确定为所述目标磁盘的故障风险级别。
4.根据权利要求1所述的方法,其特征在于,所述故障特征数据包括以下一个或多个数据项:
磁头状态、磁盘坏区、磁头寻道错误率、主轴电机频繁尝试启动、硬盘机械部件故障、已分配坏块数、非安全下电次数、硬件重启次数、硬盘总工作时间、不可恢复错误数、硬盘温度、读阻塞扇区数、硬盘启动时间。
5.根据权利要求1至4之中任一项所述的方法,其特征在于,通过以下步骤预先训练获得所述神经网络预测模型:
获得样本数据集,所述样本数据集包括多组样本数据,每组样本数据包括故障特征样本数据、IO数量跳变样本数据和对应的磁盘故障结果;
基于所述样本数据集,对预先构建的神经网络初始模型进行训练,调整模型参数;
利用仿真函数对训练后的所述神经网络初始模型进行验证测试;
在训练后的所述神经网络初始模型的准确率达到设定准确率阈值或者循环迭代次数达到设定次数阈值时,将训练后的所述神经网络初始模型确定为神经网络预测模型。
6.根据权利要求5所述的方法,其特征在于,所述神经网络初始模型为多层前馈神经网络,包括输入层、隐含层、输出层,所述隐含层采用tansig传递函数,所述输出层采用purelin激活函数。
7.一种服务器磁盘故障预测装置,其特征在于,包括:
运行状态信息获得模块,用于获得设定时间段内服务器中目标磁盘的运行状态信息;
故障特征数据提取模块,用于在所述运行状态信息中提取故障特征数据;
IO数量跳变数据获得模块,用于获得所述设定时间段内前后时间点对应的IO数量跳变数据;其中,所述IO数量跳变数据为后一个时间点与前一个时间点对应的IO数量差的绝对值;
故障风险级别确定模块,用于确定所述故障特征数据中每个数据项的权重系数;基于所述故障特征数据中每个数据项的权重系数,计算综合指标值;根据所述IO数量跳变数据,计算IO跳变平均值;将所述综合指标值和所述IO跳变平均值输入到预先训练获得的神经网络预测模型中,获得输出数据;根据所述输出数据,确定所述目标磁盘的故障风险级别;
磁盘故障预测模块,用于根据所述故障风险级别,预测所述目标磁盘是否会发生故障。
8.一种服务器磁盘故障预测设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至6任一项所述服务器磁盘故障预测方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述服务器磁盘故障预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011226000.5A CN112433896B (zh) | 2020-11-05 | 2020-11-05 | 一种服务器磁盘故障预测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011226000.5A CN112433896B (zh) | 2020-11-05 | 2020-11-05 | 一种服务器磁盘故障预测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112433896A CN112433896A (zh) | 2021-03-02 |
CN112433896B true CN112433896B (zh) | 2023-12-22 |
Family
ID=74694694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011226000.5A Active CN112433896B (zh) | 2020-11-05 | 2020-11-05 | 一种服务器磁盘故障预测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112433896B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114595085A (zh) * | 2020-12-03 | 2022-06-07 | 中兴通讯股份有限公司 | 磁盘失效预测方法、预测模型训练方法、电子设备 |
CN112860523B (zh) * | 2021-03-16 | 2024-06-25 | 中国工商银行股份有限公司 | 批量作业处理的故障预测方法、装置和服务器 |
CN113722136A (zh) * | 2021-08-11 | 2021-11-30 | 浪潮(山东)计算机科技有限公司 | 一种服务器故障处理方法、系统、电子设备及存储介质 |
CN115185721B (zh) * | 2022-07-08 | 2023-01-31 | 北京天华星航科技有限公司 | 一种基于人工智能的数据处理方法及系统 |
CN115827356A (zh) * | 2023-02-23 | 2023-03-21 | 北京大道云行科技有限公司 | 服务器磁盘故障检测方法及系统、存储介质、电子设备 |
CN117912534B (zh) * | 2024-03-20 | 2024-06-07 | 济南浪潮数据技术有限公司 | 一种磁盘状态预测方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10191668B1 (en) * | 2016-06-27 | 2019-01-29 | EMC IP Holding Company LLC | Method for dynamically modeling medium error evolution to predict disk failure |
CN110175100A (zh) * | 2019-04-17 | 2019-08-27 | 华中科技大学 | 一种存储盘故障预测方法及预测系统 |
CN110399238A (zh) * | 2019-06-27 | 2019-11-01 | 浪潮电子信息产业股份有限公司 | 一种磁盘故障预警方法、装置、设备及可读存储介质 |
CN110471820A (zh) * | 2019-08-05 | 2019-11-19 | 南开大学 | 一种基于循环神经网络的云存储系统磁盘故障预测方法 |
-
2020
- 2020-11-05 CN CN202011226000.5A patent/CN112433896B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10191668B1 (en) * | 2016-06-27 | 2019-01-29 | EMC IP Holding Company LLC | Method for dynamically modeling medium error evolution to predict disk failure |
CN110175100A (zh) * | 2019-04-17 | 2019-08-27 | 华中科技大学 | 一种存储盘故障预测方法及预测系统 |
CN110399238A (zh) * | 2019-06-27 | 2019-11-01 | 浪潮电子信息产业股份有限公司 | 一种磁盘故障预警方法、装置、设备及可读存储介质 |
CN110471820A (zh) * | 2019-08-05 | 2019-11-19 | 南开大学 | 一种基于循环神经网络的云存储系统磁盘故障预测方法 |
Non-Patent Citations (1)
Title |
---|
分布式存储系统中磁盘故障检测机制;刘榴;李小勇;;信息技术(05);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112433896A (zh) | 2021-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112433896B (zh) | 一种服务器磁盘故障预测方法、装置、设备及存储介质 | |
CN110399238B (zh) | 一种磁盘故障预警方法、装置、设备及可读存储介质 | |
CN108052528A (zh) | 一种存储设备时序分类预警方法 | |
CN111638958B (zh) | 云主机负载处理方法、装置、控制设备及存储介质 | |
CN111539515A (zh) | 一种基于故障预测的复杂装备维修决策方法 | |
CN110083518B (zh) | 一种基于AdaBoost-Elman的虚拟机软件老化预测方法 | |
CN111414703B (zh) | 一种滚动轴承剩余寿命预测方法及装置 | |
CN108879732B (zh) | 电力系统暂态稳定评估方法及装置 | |
CN109525435A (zh) | 一种电网业务服务器运行状态预警方法 | |
CN116389316A (zh) | 电力光通信网络故障感知方法、装置、设备及存储介质 | |
CN111858265A (zh) | 一种存储系统的存储故障预测方法、系统及装置 | |
CN111027591B (zh) | 一种面向大规模集群系统的节点故障预测方法 | |
CN113342474A (zh) | 客户流量的预测、模型训练的方法、设备及存储介质 | |
CN111783242A (zh) | 一种基于rvm-kf的滚动轴承剩余寿命预测方法及装置 | |
CN115017819A (zh) | 一种基于混合模型的发动机剩余使用寿命预测方法及装置 | |
CN108415819B (zh) | 一种硬盘故障追踪方法和装置 | |
CN112766503B (zh) | 基于关键层回滚机制的卷积神经网络模型容错方法 | |
Souza et al. | Fast contingency selection through a pattern analysis approach | |
CN113723593A (zh) | 一种基于神经网络的切负荷预测方法及系统 | |
CN113051809A (zh) | 一种基于改进受限玻尔兹曼机的虚拟健康因子构建方法 | |
Liu et al. | Research on fault diagnosis method of board-level circuit based on genetic algorithm | |
Zhu et al. | Prediction of remaining useful life of metro traction motor bearings based on DCCNN-GRU and multi-information fusion | |
CN110826690A (zh) | 一种设备状态识别方法及其系统、计算机可读存储介质 | |
CN112685933B (zh) | 一种滚轮丝杠副剩余使用寿命预测方法 | |
CN114118685B (zh) | 一种评估配电网抗灾能力的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |