CN119166399B - 一种基于计算机硬盘状态指标进行故障判断的方法 - Google Patents
一种基于计算机硬盘状态指标进行故障判断的方法 Download PDFInfo
- Publication number
- CN119166399B CN119166399B CN202411189456.7A CN202411189456A CN119166399B CN 119166399 B CN119166399 B CN 119166399B CN 202411189456 A CN202411189456 A CN 202411189456A CN 119166399 B CN119166399 B CN 119166399B
- Authority
- CN
- China
- Prior art keywords
- data
- fault
- hard disk
- disk
- correlation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2205—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computer Hardware Design (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Probability & Statistics with Applications (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供一种基于计算机硬盘状态指标进行故障判断的方法,涉及计算机技术领域,本发明通过设定了一个周期性的数据采集机制,获取包括磁盘旋转不稳定性、数据传输速率以及读写错误率等多维特征数据,并对这些数据进行归一化和去噪处理;随后,利用自编码器实现数据降维,提取关键特征向量,进而通过支持向量机进行故障概率计算;在此基础上,构建了阈值微调模型,能够根据实时采集的物理状态和运行状态的关联性,以及其变化趋势,动态调整故障概率阈值;不仅提高了故障判断的准确性和及时性,还通过动态调整机制降低了误报警的几率,确保了数据存储的安全性和系统的正常运行。
Description
技术领域
本发明涉及计算机技术领域,具体为一种基于计算机硬盘状态指标进行故障判断的方法。
背景技术
硬盘是一种数据存储设备,由一个或多个坚硬的圆形盘片(称为“磁盘”或“盘片”)组成,这些盘片覆盖有磁性材料,可以存储数据,随着信息技术的迅猛发展,计算机硬盘作为数据存储的核心组件,其可靠性和稳定性对整个计算机系统的性能至关重要,传统的硬盘故障检测方法主要依赖于硬件级别的监控和故障代码的分析,这些方法虽然在一定程度上能够识别硬盘的物理故障,但在预测硬盘的早期故障和潜在运行问题方面存在明显的局限性;近年来,随着机器学习和数据分析技术的进步,基于软件的硬盘故障预测方法逐渐成为研究的热点,这些方法通过采集硬盘的运行状态指标和物理状态指标,利用复杂的算法模型进行数据分析,以实现对硬盘故障的早期预警和预测;
现有技术中的,公开号为CN114758714A,名称为一种硬盘故障预测方法、装置、电子设备及存储介质,所述方法包括:获取硬盘当前时刻的工作状态数据;利用故障预测模型对所述工作状态数据进行处理,获得所述硬盘在未来预设时长的故障预测结果;其中,所述故障预测模型为基于样本工作状态数据采用机器学习模型训练而成的。
公开号为CN111611117B,名称为一种硬盘故障的预测方法、装置、设备及计算机可读存储介质,在建立针对多种硬盘型号的硬盘故障预测模型时,先建立各硬盘型号的各项参数与基准硬盘型号的对应参数的转换关系,再根据该转换关系将硬盘的参数检测值进行转换,消除了不同硬盘型号之间的差异;利用转换后的参数检测值和硬盘的运行状态训练硬盘故障预测模型,由此建立了适用于多种硬盘型号的硬盘故障预测模型,相较于针对每种型号的硬盘单独训练硬盘故障预测模型要省时省力,而利用该硬盘故障预测模型进行硬盘故障预测,由于建立了各硬盘型号的参数与基准硬盘型号之间的关联,相较于现有技术中仅通过型号来区分不同的硬盘故障的预测模型能够得到更为准确的预测结果。
文章编号:1627-0385(2005)02-0035-04《硬盘常见故障诊断、处理步骤与方法的探讨》叙述了现有技术中计算机硬盘的故障类型:
然而,现有的基于软件的硬盘故障预测方法在实际应用中仍面临一些挑战,首先,数据采集的全面性和准确性是影响预测结果的关键因素,现有的方法往往只关注少数几个指标,而忽略了其他可能对硬盘健康状态有重要影响的参数;
其次,特征降维和选择的过程缺乏系统性和针对性,导致提取的特征向量不能全面反映硬盘的实际状态,此外,故障分类模型的选择和优化也是一个难点,不同的模型在不同的数据集上表现差异较大,且模型的泛化能力有待提高,当前的故障概率计算模型大多基于静态的初始故障概率阈值,往往依赖于经验值,未能根据硬盘状态的实时数据进行动态调节,导致在高负载或异常情况下,无法及时做出响应,从而增加了数据丢失和系统崩溃的风险;
在上述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明的目的在于提供一种基于计算机硬盘状态指标进行故障判断的方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于计算机硬盘状态指标进行故障判断的方法,具体步骤包括:
步骤S1:设定硬盘的采集周期为集合{1,2,…,n},其中i∈{1,2,…,n}表示采集周期内第i次数据采集的索引,n表示当前第n次数据采集的索引,采集硬盘的物理状态指标和运行状态指标,其中,物理状态指标包括磁盘旋转不稳定性数据和磁头加载次数,运行状态指标包括数据传输速率和读写错误率,并对采集到的数据进行归一化和去噪预处理,得到多维特征数据;
步骤S2:接收n次采集的多维特征数据,使用自编码器对多维特征进行降维,提取降维后的关键特征向量;
步骤S3:接收降维后的关键特征向量,利用支持向量机对关键特征向量进行故障概率计算,实现硬盘故障的二分类;
设定硬盘故障的初始故障概率阈值,并根据初始故障概率阈值,设置硬盘的故障预警触发条件;
步骤S4:获取磁盘旋转不稳定性数据、数据传输速率和读写错误率,并对磁盘旋转不稳定性数据与数据传输速率进行关联分析,得到第一关联评价系数,第一关联评价系数用于评价磁盘旋转不稳定性数据与数据传输速率之间的关联影响程度;
对磁盘旋转不稳定性数据与读写错误率进行关联分析,得到第二关联评价系数,第二关联评价系数用于评价磁盘旋转不稳定性数据与读写错误率之间的关联影响程度;
步骤S5:计算物理状态指标在当前采集周期的变化趋势数据,并针对该变化趋势数据进行分析处理,生成第一趋势评价系数,第一趋势评价系数用于评价物理状态指标在当前采集周期内的变化趋势;
计算运行状态指标在当前采集周期的变化趋势数据,并针对该变化趋势数据进行分析处理,生成第二趋势评价系数,第二趋势评价系数用于评价运行状态指标在当前采集周期内的变化趋势;
步骤S6:结合第一关联评价系数、第二关联评价系数、第一趋势评价系数和第二趋势评价系数,构建阈值微调模型,阈值微调模型用于对初始故障概率阈值提供微调策略;
步骤S7:获取经过微调策略调整后的故障概率阈值,并根据调整后的故障概率阈值,对故障预警触发条件进行调整,进一步计算硬盘在当前第n次数据采集的故障概率,若该故障概率超过调整后的故障概率阈值时,则触发故障预警。
进一步的,多维特征数据的获取,包括:
磁盘旋转不稳定性数据包括磁盘旋转速度波动率和磁盘振动幅度,并对磁盘旋转速度波动率和磁盘振动幅度分别标记为CVb、CZf;
结合磁盘旋转速度波动率和磁盘振动幅度,进行分析处理,构建第i次数据采集的磁盘旋转不稳定性值Ri,计算公式如下:
参数解释:Ri是第i次数据采集的磁盘旋转不稳定性值,CVbi是第i次数据采集的磁盘旋转速度波动率,CZfi是第i次数据采集的磁盘振动幅度,a1、a2、a3是权重系数,用于调节旋转速度波动率和振动幅度对磁盘旋转不稳定性的影响;
在设定的采集周期内定时获取物理状态指标数据和运行状态指标数据,并将采集的数据记录到数据库中,形成数据集D={(Ri,Li,Ti,Ei)|i∈{1,2,…,n}};
其中,Ri,Li,Ti,Ei分别表示第i次数据采集的磁盘旋转不稳定性值、磁头加载次数、数据传输速率和读写错误率;
对于归一化处理,采用min-max归一化方法,将每个指标值x归一化为x';
归一化后的数据范围是(0,1),其中,
对于去噪处理,使用移动平均法去除数据中的随机噪声,以对每个指标的归一化数据进行平滑处理:
得到多维特征数据:经过归一化和去噪处理后,最终获得的多维特征数据集表示为F={(R′i,L′i,T′i,E′i)|i∈{k-1,k,…,n}},其中R′i,L′i,T′i,E′i分别为数据预处理后的物理状态指标和运行状态指标,k-1表示经过去噪处理后的采集次数起始点。
进一步的,接收n次采集的多维特征数据,使用自编码器对多维特征进行降维,提取降维后的关键特征向量,包括:
选择自编码器作为降维工具;自编码器由编码器和解码器两部分组成,其中编码器将高维输入数据Fi压缩为低维特征向量Zi,解码器再将Zi恢复到高维空间;
对于每一个数据采集点i,输入的多维特征数据Fi表示为:
Fi={R′i,L′i,T′i,E′i}
编码器网络的输出为低维特征向量Zi:
Zi=fθ(Fi)=σ1(W1Fi+b1)
其中,W1是编码器的权重矩阵,b1是偏置向量,σ1是激活函数,θ表示编码器的所有参数集合;
通过最小化重构误差来训练自编码器,使得解码器输出的重构数据趋近原始输入数据Fi;
在自编码器训练完成后,直接使用编码器部分输出的低维特征向量Zi作为降维后的关键特征向量;
降维后的特征向量表示为:
Zi={zi1,zi2,…,zim}
其中,m是降维后特征向量的维度。
进一步的,利用支持向量机对关键特征向量进行故障概率计算,若当前故障概率超过该阈值时,触发故障预警,具体包括:
对当前的关键特征向量Zi进行故障二分类:
利用关键特征向量Zi构建SVM分类器;将关键特征向量划分为两类,分别对应硬盘的正常状态和故障状态,获取已知的训练数据集{(Zi,yi)},其中yi为二分类标签,二分类标签为:正常状态为1,故障状态为-1;
训练完成后,定义SVM的决策函数表示为:
f(Zi)=sign(w·Zi+b2)
其中,sign(·)是符号函数,当输入大于0时输出+1,表示“正常”;当输入小于或等于0时输出-1,表示“故障”;
设定初始故障概率阈值为Pfault,使用以下逻辑回归模型进行概率估计:
其中,c1是用于调整概率曲线的参数,该参数通过模型的交叉验证得到;Pfault取值范围为(0,1);
设定并计算硬盘在当前第n次数据采集的故障概率为Pth,n,当Pth,n≥Pfault时,判断硬盘处于故障状态,否则判断为正常状态。
进一步的,第一关联评价系数以及第二关联评价系数构建内容如下:
计算磁盘旋转不稳定性数据与数据传输速率之间的第一皮尔逊相关系数,计算公式为:
其中,ρ1为磁盘旋转不稳定性和数据传输速率之间的第一皮尔逊相关系数;
和分别为R′i和T′i在集合{1,2,…,n}内的均值;
定义第一关联评价系数为CRT,公式如下:
CRT=|ρ1|·d1
其中,|ρ1|为计算出的第一皮尔逊相关系数的绝对值,表示相关性的强度;
d1为调节因子,用于调整不同硬盘类型或工作负载下的关联程度;
第一皮尔逊相关系数ρ1的绝对值范围在0到1之间,因此CRT取值范围同样在0到1之间:
当CRT越趋近1时,表明磁盘旋转不稳定性和数据传输速率之间的关联性越强,这表示磁盘的旋转不稳定性对数据传输速率影响越大,是导致数据传输效率下降的关键因素;
当CRT越趋近0时,表明两者之间的关联性越弱,磁盘旋转不稳定性对数据传输速率的影响越小,故障的概率越小;
设定CRT的评价阈值为Cth;0.35≤Cth≤0.75,CRT与Cth之间的大小判断,用于区分正常状态和故障状态;
计算磁盘旋转不稳定性数据与读写错误率之间的第二皮尔逊相关系数,计算公式为:
其中,ρ2为磁盘旋转不稳定性和读写错误率之间的第二皮尔逊相关系数;
和分别为R′i和E′i在集合{1,2,…,n}内的均值;
定义第二关联评价系数为CRE,第二关联评价系数CRE的计算方式与第一关联评价系数相同,具体公式如下:
CRE=|ρ2|·d2
其中,|ρ2|为计算出的第二皮尔逊相关系数的绝对值,表示相关性的强度;
d2为调节因子,用于调整不同硬盘类型或工作负载下的关联程度;
CRE取值范围同样在0到1之间;
当CRE越趋近1时,表明磁盘旋转不稳定性和读写错误率之间的关联性越强,这表示磁盘的旋转不稳定性对读写错误率影响越大,是导致读写错误率上升的关键因素;
当CRE越趋近0时,表明两者之间的关联性越弱,磁盘旋转不稳定性对读写错误率的影响越小,故障的概率越小;
设定CRE的评价阈值为CEh;0.35≤CEh≤0.75,CRE与CEh之间的大小判断,用于区分正常状态和故障状态。
进一步的,第一趋势评价系数以及第二趋势评价系数构建内容如下:
计算磁盘旋转不稳定性数据的平均变化趋势:
其中,TR表示磁盘旋转不稳定性的平均变化趋势;ΔRi,i+1表示磁盘旋转不稳定性在第i次和第i+1次数据采集之间的变化量;
计算磁头加载次数的平均变化趋势:
其中,TL表示磁头加载次数的平均变化趋势;ΔLi,i+1表示磁头加载次数在第i次和第i+1次数据采集之间的变化量;
计算以下第一趋势评价系数:
其中,CT为第一趋势评价系数,0<CT<1,e1、e2分别为对应参数的权重系数;
当CT越趋近于1时,e1·TR+e2·TL输出值越小,导致物理状态指标在当前采集周期内的变化趋势越小;
当CT越趋近于0时,e1·TR+e2·TL输出值越大,导致物理状态指标在当前采集周期内的变化趋势越大;
计算数据传输速率的平均变化趋势:
其中,TS表示数据传输速率的平均变化趋势;ΔTi,i+1表示数据传输速率在第i次和第i+1次数据采集之间的变化量;
计算读写错误率的平均变化趋势:
其中,TC表示读写错误率的平均变化趋势;ΔEi,i+1表示读写错误率在第i次和第i+1次数据采集之间的变化量;
计算以下第二趋势评价系数:
其中,CU为第二趋势评价系数,0<CU<1,e2、e3分别为对应参数的权重系数;
当CU越趋近于1时,输出值越小,导致运行状态指标在当前采集周期内的变化趋势越小;
当CU越趋近于0时,输出值越大,导致运行状态指标在当前采集周期内的变化趋势越大。
进一步的,构建阈值微调模型,阈值微调模型用于对初始故障概率阈值提供微调策略,具体包括:
定义阈值微调模型的计算公式如下:
其中,WT1为结合第一关联评价系数和第二关联评价系数的第一综合指数,整体反映计算机硬盘状态的关联程度;WT2为结合第一趋势评价系数和第二趋势评价系数的第二综合指数,整体反映计算机硬盘状态的趋势程度,Pfault为初始故障概率阈值,P1′为降低Pfault取值后的故障概率阈值标记;P′2为提高Pfault取值后的故障概率阈值标记;
r1、r2、r3、r4分别为对应参数的回归系数,μRT、分别表示第一关联评价系数CRT的均值与标准差,用于归一化处理;μRE、分别表示第二关联评价系数CRE的均值与标准差,用于归一化处理;η1、η2、η3、η4均为正常数项;
分别设定第一综合指数与第二综合指数的划分阈值依次为Q1和Q2;
当WT1≥Q1时,代表磁盘的旋转不稳定性与数据传输速率之间的关联性显著;这表示硬盘的状态不佳,存在较高的故障风险,数据传输效率受到严重影响;
当WT1<Q1时,代表磁盘的旋转不稳定性与数据传输速率之间的关联性较弱,系统表现正常,故障风险较低;
当WT2≥Q2时,代表物理状态指标的变化趋势明显,表明硬盘的运行状态在当前采集周期内发生了较大的波动,这是由于外部环境变化或硬盘内部故障引起的;
当WT2<Q2时,代表物理状态指标的变化趋势较小,表示硬盘在当前采集周期内的运行状态相对稳定,故障风险较低,操作能够正常进行。
进一步的,微调策略如下:
当WT1≥Q1且WT2≥Q2时,使用P′2的微调策略;此时,磁盘旋转不稳定性对数据传输速率和读写错误率的影响均超过75%,且物理状态和运行状态的波动性也超过75%;这种情况下,表明系统的故障风险极高,需增加初始故障概率阈值,限定P′2提高量为Pfault的10%至20%以内,确保在高风险情况下提前预警;
当WT1≥Q1且WT2<Q2时,使用P′2的微调策略;此时,磁盘旋转不稳定性对数据传输速率和读写错误率的影响超过75%,但物理状态和运行状态的波动性小于25%;尽管运行状态较稳定,因数据传输和读写错误率相关性强,需提高初始故障概率阈值;限定P′2提高量为Pfault的10%以内,增加系统对关键性指标的敏感度;
当WT1<Q1且WT2≥Q2时,使用P′2的微调策略;此时,磁盘旋转不稳定性对数据传输速率和读写错误率的影响小于25%,但物理状态和运行状态的波动性超过75%;此情形下,虽然数据传输速率显示故障风险低,但由于物理和运行状态波动较大,需提高初始故障概率阈值,提高15%以内的初始故障概率阈值后,系统更好地应对运行状态波动导致的潜在故障风险;
当WT1<Q1且WT2<Q2时,使用P1′的微调策略;此时,磁盘旋转不稳定性对数据传输速率和读写错误率的影响小于25%,且物理状态和运行状态的波动性也小于25%;在此情况下,整体故障风险较低,能够降低初始故障概率阈值,系统避免了过度敏感性,减少了误报警的概率;
根据硬盘在当前第n次数据采集的故障概率Pth,n,当Pth,n符合中任意一个时,判断硬盘处于故障状态,否则判断为正常状态。
与现有技术相比,本发明的有益效果是:通过设定了一个周期性的数据采集机制,获取包括磁盘旋转不稳定性、数据传输速率以及读写错误率等多维特征数据,并对这些数据进行归一化和去噪处理;随后,利用自编码器实现数据降维,提取关键特征向量,进而通过支持向量机(SVM)进行故障概率计算;在此基础上,构建了阈值微调模型,能够根据实时采集的物理状态和运行状态的关联性,以及其变化趋势,动态调整故障概率阈值;不仅提高了故障判断的准确性和及时性,还通过动态调整机制降低了误报警的几率,确保了数据存储的安全性和系统的正常运行。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明整体方法流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
请参阅图1,本发明提供一种技术方案:
一种基于计算机硬盘状态指标进行故障判断的方法,具体步骤包括:
步骤S1:数据采集和预处理,设定硬盘的采集周期为集合{1,2,…,n},其中i∈{1,2,…,n}表示采集周期内第i次数据采集的索引,n表示当前第n次数据采集的索引,采集硬盘的物理状态指标和运行状态指标,其中,物理状态指标包括磁盘旋转不稳定性数据和磁头加载次数,运行状态指标包括数据传输速率和读写错误率,并对采集到的数据进行归一化和去噪预处理,得到多维特征数据;
步骤S2:特征降维,接收n次采集的多维特征数据,使用自编码器对多维特征进行降维,提取降维后的关键特征向量;以减少计算复杂度并保留重要信息;
步骤S3:故障分类与预警,接收降维后的关键特征向量,利用支持向量机对关键特征向量进行故障概率计算,实现硬盘故障的二分类;
根据历史数据以及专家组通过实验数据分析,设定硬盘故障的初始故障概率阈值,并根据初始故障概率阈值,设置硬盘的故障预警触发条件;
步骤S4:关联评价系数构建,获取磁盘旋转不稳定性数据、数据传输速率和读写错误率,并对磁盘旋转不稳定性数据与数据传输速率进行关联分析,得到第一关联评价系数,第一关联评价系数用于评价磁盘旋转不稳定性数据与数据传输速率之间的关联影响程度;
对磁盘旋转不稳定性数据与读写错误率进行关联分析,得到第二关联评价系数,第二关联评价系数用于评价磁盘旋转不稳定性数据与读写错误率之间的关联影响程度;
步骤S5:评价系数构建,计算物理状态指标在当前采集周期的变化趋势数据,并针对该变化趋势数据进行分析处理,生成第一趋势评价系数,第一趋势评价系数用于评价物理状态指标在当前采集周期内的变化趋势;
计算运行状态指标在当前采集周期的变化趋势数据,并针对该变化趋势数据进行分析处理,生成第二趋势评价系数,第二趋势评价系数用于评价运行状态指标在当前采集周期内的变化趋势;
步骤S6:综合微调指数构建,结合第一关联评价系数、第二关联评价系数、第一趋势评价系数和第二趋势评价系数,构建阈值微调模型,阈值微调模型用于对初始故障概率阈值提供微调策略;
步骤S7:获取经过微调策略调整后的故障概率阈值,并根据调整后的故障概率阈值,对故障预警触发条件进行调整,进一步计算硬盘在当前第n次数据采集的故障概率,若该故障概率超过调整后的故障概率阈值时,则触发故障预警。
进一步说明,多维特征数据的获取,包括:在数据采集中,重点关注以下两类指标:
物理状态指标:
磁盘旋转不稳定性数据:表示磁盘旋转的稳定性,通过高精度传感器获得;
磁盘旋转不稳定性数据包括磁盘旋转速度波动率和磁盘振动幅度,并对磁盘旋转速度波动率和磁盘振动幅度分别标记为CVb、CZf;
结合磁盘旋转速度波动率和磁盘振动幅度,进行分析处理,构建第i次数据采集的磁盘旋转不稳定性值Ri,计算公式如下:
参数解释:Ri是第i次数据采集的磁盘旋转不稳定性值,CVbi是第i次数据采集的磁盘旋转速度波动率,该值由磁盘的转速数据通过方差或标准差处理后获得,用来反映磁盘的旋转速度的波动;CZfi是第i次数据采集的磁盘振动幅度,该值通过振动传感器采集,表示磁盘在工作过程中的振动强度;a1、a2、a3是权重系数,用于调节旋转速度波动率和振动幅度对磁盘旋转不稳定性的影响;a1、a2、a3的值通过历史数据拟合得到,或者通过专家组通过实验数据进行确定,以确保合适的权重分布;
随着CVbi的增大,指数函数迅速增长,反映出旋转波动对不稳定性有显著的放大效应;同时,权重系数a1、a2用于调整该波动率对最终结果的影响权重;
以分式的形式确保当振动幅度较小,若CZfi≈0时,该项对Ri的影响较弱;而随着振动幅度增大,分式的值趋近于a3,反映出振动对不稳定性的重要性逐渐显现;此外,分母中的常数1确保公式在振动幅度接近0时不会发生奇异性;
磁盘旋转速度波动率(RPMVariance):
定义:表示磁盘在单位时间内旋转速度的变化率,以转每分钟(RPM)的标准差形式表示;
采集方法:通过高精度传感器或硬盘内置的自监测系统(如SMART)进行实时采集;
磁盘旋转速度的波动直接反映了磁盘旋转不稳定性,可以量化为波动率,这与磁盘的物理状态密切相关;
磁盘振动幅度(VibrationAmplitude):
定义:磁盘在工作中产生的机械振动幅度,以微米(μm)或加速度(g)为单位量化;
采集方法:通过内置或外置的振动传感器测量磁盘在运行过程中的振动情况;
振动是引起磁盘旋转不稳定的直接原因之一,因此振动幅度是一个重要的关联数据;
磁头加载次数(L):表示磁头在读写过程中加载次数,单位为次,通过硬盘控制器统计;
运行状态指标:
数据传输速率(T):表示单位时间内传输的数据量,单位为MB/s,通过硬盘的性能监测工具获取;
读写错误率(E):表示在单位时间内发生的读写错误次数,单位为次/小时,通过硬盘自监测系统(SMART)获取;
数据采集:通过编写脚本或使用硬件监测工具,在设定的采集周期内定时获取物理状态指标数据和运行状态指标数据,并将采集的数据记录到数据库中,形成数据集D={(Ri,Li,Ti,Ei)|i∈{1,2,…,n}};
其中,Ri,Li,Ti,Ei分别表示第i次数据采集的磁盘旋转不稳定性值、磁头加载次数、数据传输速率和读写错误率;
数据预处理:
对于归一化处理,为了消除不同指标值的量纲影响,采用min-max归一化方法,将每个指标值x归一化为x':
其中,xmin和xmax分别为该指标在数据集中最小值和最大值;归一化后的数据范围是(0,1),其中,
对于去噪处理,使用移动平均法去除数据中的随机噪声,以对每个指标的归一化数据进行平滑处理:
得到多维特征数据:经过归一化和去噪处理后,最终获得的多维特征数据集表示为F={(R′i,L′i,T′i,E′i)|i∈{k-1,k,…,n}},其中R′i,L′i,T′i,E′i分别为数据预处理后的物理状态指标和运行状态指标,k-1表示经过去噪处理后的采集次数起始点。
进一步说明,接收n次采集的多维特征数据,使用自编码器对多维特征进行降维,提取降维后的关键特征向量,包括:
选择自编码器(Autoencoder)作为降维工具;自编码器是一种无监督的神经网络,能够学习出数据的低维表示,同时保持尽可能多的原始信息;具体操作如下:
构建自编码器网络:自编码器由编码器和解码器两部分组成,其中编码器将高维输入数据Fi压缩为低维特征向量Zi,解码器再将Zi恢复到高维空间;
对于每一个数据采集点i,输入的多维特征数据Fi表示为:
Fi={R′i,L′i,T′i,E′i}
编码器网络的输出为低维特征向量Zi:
Zi=fθ(Fi)=σ1(W1Fi+b1)
其中,W1是编码器的权重矩阵,b1是偏置向量,σ1是激活函数(本实施例选用ReLU或Sigmoid函数),θ表示编码器的所有参数集合;
训练自编码器:通过最小化重构误差来训练自编码器,使得解码器输出的重构数据趋近原始输入数据Fi;重构误差表示为:
其中,gφ(Zi)是解码器的输出,φ表示解码器的参数集合;
提取关键特征向量:在自编码器训练完成后,直接使用编码器部分输出的低维特征向量Zi作为降维后的关键特征向量;
此时,Zi的维度远低于原始的Fi,但它仍然保留了原始数据中的主要信息,并消除了冗余特征;
降维后的特征向量表示为:
Zi={zi1,zi2,…,zim}
其中,m是降维后特征向量的维度,m<<4;即降维后的维度远小于原始维度;
确定降维结果的有效性:
在降维后,需要对提取的关键特征向量Zi进行评估,以确保其在保持信息完整性的同时,有效减少了数据的维度;通过以下方式进行验证:
重构精度验证:计算重构后的与原始输入Fi之间的均方误差(MSE),以评估降维的有效性;若重构误差较小,则说明降维后的特征向量Zi仍然保持了原始数据的大部分信息;
后续分析:将Zi输入到后续的故障判断模型中(本实施例为逻辑回归、支持向量机等),并与未降维的原始数据进行对比分析;如果降维后的数据在故障判断中的表现优于或接近于原始数据,且计算复杂度明显降低,则降维效果显著。
进一步说明,利用支持向量机对关键特征向量进行故障概率计算,若当前故障概率超过该阈值时,触发故障预警,具体包括:
对当前的关键特征向量Zi进行故障二分类,具体操作如下:
构建分类模型:利用关键特征向量Zi构建SVM分类器;SVM的目标是找到一个最优超平面,将关键特征向量划分为两类,分别对应硬盘的正常状态和故障状态,本实施例模型的目标函数表示为:
其中,w是超平面的法向量,b2是偏置项,ξi是松弛变量,用于处理不可分的数据,C是惩罚参数,用于平衡分类间隔与分类错误的权衡;
训练分类模型:获取已知的训练数据集{(Zi,yi)},其中yi为二分类标签,二分类标签为:正常状态为1,故障状态为-1;
使用训练数据来确定模型参数w和b2;训练过程通过最大化分类间隔并最小化分类错误来优化模型,使得分类器能精准地将关键特征向量划分到正确的类别中;
分类决策函数:训练完成后,定义SVM的决策函数表示为:
f(Zi)=sign(w·Zi+b2)
其中,sign(·)是符号函数,当输入大于0时输出+1,表示“正常”;当输入小于或等于0时输出-1,表示“故障”;
设定初始故障概率阈值为Pfault,故障概率Pfault的计算通过将SVM的决策值映射为概率来实现,使用以下逻辑回归模型进行概率估计:
其中,c1是用于调整概率曲线的参数,该参数通过模型的交叉验证得到;初始故障概率阈值Pfault表示硬盘出现故障的可能性,Pfault取值范围为(0,1);
根据初始故障概率阈值Pfault的计算结果,进行以下硬盘故障的判断:
预警触发条件为:同样根据将SVM的决策值映射为概率,设计并计算硬盘在当前第n次数据采集的故障概率为Pth,n,当Pth,n≥Pfault时,判断硬盘处于故障状态,否则判断为正常状态;
根据分类结果,输出故障报警信号或正常运行信号,提示用户当前硬盘状态。
进一步说明,第一关联评价系数以及第二关联评价系数构建内容如下:
计算磁盘旋转不稳定性数据与数据传输速率之间的第一皮尔逊相关系数,计算公式为:
其中,ρ1为磁盘旋转不稳定性和数据传输速率之间的第一皮尔逊相关系数;
和分别为R′i和T′i在集合{1,2,…,n}内的均值,计算方式为常规均值计算方式,不作赘述;
定义第一关联评价系数为CRT,公式如下:
CRT=|ρ1|·d1
其中,|ρ1|为计算出的第一皮尔逊相关系数的绝对值,表示相关性的强度;
d1为调节因子,用于调整不同硬盘类型或工作负载下的关联程度;d1根据专家组通过实验数据以及具体应用场景确定,本实施例中,0.12≤d1≤1;
第一皮尔逊相关系数ρ1的绝对值范围在0到1之间,因此CRT取值范围同样在0到1之间:
当CRT越趋近1时,表明磁盘旋转不稳定性和数据传输速率之间的关联性越强,这表示磁盘的旋转不稳定性对数据传输速率影响越大,是导致数据传输效率下降的关键因素;
当CRT越趋近0时,表明两者之间的关联性越弱,磁盘旋转不稳定性对数据传输速率的影响越小,故障的概率越小;
设定CRT的评价阈值为Cth;0.35≤Cth≤0.75,Cth通过历史数据分析和实际应用经验确定,CRT与Cth之间的大小判断,用于区分正常状态和故障状态;
高风险指示:当CRT≥Cth时,表示磁盘旋转的不稳定性对传输速率产生了显著的负面影响,表明硬盘已经处于或趋近故障状态;这种情况下,应当对硬盘进行更详细的检测或直接采取预防性维护措施;
低风险指示:当CRT<Cth时,则表明磁盘旋转不稳定性对数据传输速率的影响在可接受的范围内,硬盘的状态相对稳定,故障风险在20%以内;
计算磁盘旋转不稳定性数据与读写错误率之间的第二皮尔逊相关系数,计算公式为:
其中,ρ2为磁盘旋转不稳定性和读写错误率之间的第二皮尔逊相关系数;
和分别为R′i和E′i在集合{1,2,…,n}内的均值;
定义第二关联评价系数为CRE,第二关联评价系数CRE的计算方式与第一关联评价系数相同,具体公式如下:
CRE=|ρ2|·d2
其中,|ρ2|为计算出的第二皮尔逊相关系数的绝对值,表示相关性的强度;
d2为调节因子,用于调整不同硬盘类型或工作负载下的关联程度;d2根据专家组通过实验数据以及具体应用场景确定,本实施例中,0.06≤d2≤1;
CRE取值范围同样在0到1之间;
当CRE越趋近1时,表明磁盘旋转不稳定性和读写错误率之间的关联性越强,这表示磁盘的旋转不稳定性对读写错误率影响越大,是导致读写错误率上升的关键因素;
当CRE越趋近0时,表明两者之间的关联性越弱,磁盘旋转不稳定性对读写错误率的影响越小,故障的概率越小;
设定CRE的评价阈值为CEh;0.35≤CEh≤0.75,CEh通过历史数据分析和实际应用经验确定,CRE与CEh之间的大小判断,用于区分正常状态和故障状态;
高风险指示:当CRE≥CEh时,表示磁盘旋转的不稳定性对传输速率产生了显著的负面影响,表明硬盘已经处于或接近故障状态;这种情况下,应当对硬盘进行更详细的检测或直接采取预防性维护措施;
低风险指示:当CRE<CEh时,则表明磁盘旋转不稳定性对读写错误率的影响在可接受的范围内,硬盘的状态相对稳定,故障风险在15%以内。
进一步说明,第一趋势评价系数以及第二趋势评价系数构建内容如下:
计算磁盘旋转不稳定性数据的平均变化趋势:
其中,TR表示磁盘旋转不稳定性的平均变化趋势;ΔRi,i+1表示磁盘旋转不稳定性在第i次和第i+1次数据采集之间的变化量;
计算磁头加载次数的平均变化趋势:
其中,TL表示磁头加载次数的平均变化趋势;ΔLi,i+1表示磁头加载次数在第i次和第i+1次数据采集之间的变化量;
计算以下第一趋势评价系数:
其中,CT为第一趋势评价系数,0<CT<1,e1、e2分别为对应参数的权重系数,且e1、e2的具体取值根据专家组通过实验数据确定,例如,在高速读写场景下,磁头加载次数比磁盘旋转不稳定性对硬盘故障的影响更大,需要设定较高的e2值;
当CT越趋近于1时,e1·TR+e2·TL输出值越小,导致物理状态指标在当前采集周期内的变化趋势越小;
当CT越趋近于0时,e1·TR+e2·TL输出值越大,导致物理状态指标在当前采集周期内的变化趋势越大;
计算数据传输速率的平均变化趋势:
其中,TS表示数据传输速率的平均变化趋势;ΔTi,i+1表示数据传输速率在第i次和第i+1次数据采集之间的变化量;
计算读写错误率的平均变化趋势:
其中,TC表示读写错误率的平均变化趋势;ΔEi,i+1表示读写错误率在第i次和第i+1次数据采集之间的变化量;
计算以下第二趋势评价系数:
其中,CU为第二趋势评价系数,0<CU<1,e2、e3分别为对应参数的权重系数,且e2、e3的具体取值根据专家组通过实验数据确定;
当CU越趋近于1时,输出值越小,导致运行状态指标在当前采集周期内的变化趋势越小;
当CU越趋近于0时,输出值越大,导致运行状态指标在当前采集周期内的变化趋势越大。
进一步说明,构建阈值微调模型,阈值微调模型用于对初始故障概率阈值提供微调策略,具体包括:
定义阈值微调模型的计算公式如下:
其中,WT1为结合第一关联评价系数和第二关联评价系数的第一综合指数,整体反映计算机硬盘状态的关联程度;WT2为结合第一趋势评价系数和第二趋势评价系数的第二综合指数,整体反映计算机硬盘状态的趋势程度,Pfault为初始故障概率阈值,P1′为降低Pfault取值后的故障概率阈值标记;P′2为提高Pfault取值后的故障概率阈值标记;
r1、r2、r3、r4分别为对应参数的回归系数,通过历史数据训练获得并确定,能够反映各个变量对故障风险的影响程度,r1、r2、r3、r4取值均为正数,且r1+r2=1,,r3+r4=1,r1、r2、r3、r4具体取值根据专家组通过实验数据确定;
μRT、分别表示第一关联评价系数CRT的均值与标准差,用于归一化处理;μRE、分别表示第二关联评价系数CRE的均值与标准差,均值与标准差的计算方式为现有数据处理的常规手段,不作赘述,用于归一化处理;
η1、η2、η3、η4均为正常数项,且η1、η2、η3、η4的具体取值根据专家组通过实验数据确定;
分别设定第一综合指数与第二综合指数的划分阈值依次为Q1和Q2;
当WT1≥Q1时,代表磁盘的旋转不稳定性与数据传输速率之间的关联性显著;这表示硬盘的状态不佳,存在较高的故障风险,数据传输效率受到严重影响;此时,进行详细的硬盘健康检查,以避免潜在的数据丢失或系统崩溃;
当WT1<Q1时,代表磁盘的旋转不稳定性与数据传输速率之间的关联性较弱,系统表现正常,故障风险较低;此时,硬盘的操作可以继续进行,但仍需定期监测状态以确保不出现潜在问题;
当WT2≥Q2时,代表物理状态指标的变化趋势明显,表明硬盘的运行状态在当前采集周期内发生了较大的波动,这是由于外部环境变化或硬盘内部故障引起的;此时,采取措施检查硬盘的运行环境和维护状态;
当WT2<Q2时,代表物理状态指标的变化趋势较小,表示硬盘在当前采集周期内的运行状态相对稳定,故障风险较低,操作能够正常进行;然而,仍需注意观察长期趋势,以防止潜在的隐患累积;
微调策略如下:
当WT1≥Q1且WT2≥Q2时,使用P′2的微调策略;此时,磁盘旋转不稳定性对数据传输速率和读写错误率的影响均超过75%,且物理状态和运行状态的波动性也超过75%;这种情况下,表明系统的故障风险极高,需增加初始故障概率阈值,限定P′2提高量为Pfault的10%至20%以内,确保在高风险情况下提前预警;
当WT1≥Q1且WT2<Q2时,使用P′2的微调策略;此时,磁盘旋转不稳定性对数据传输速率和读写错误率的影响超过75%,但物理状态和运行状态的波动性小于25%;尽管运行状态较稳定,因数据传输和读写错误率相关性强,需提高初始故障概率阈值;限定P′2提高量为Pfault的10%以内,增加系统对关键性指标的敏感度;
当WT1<Q1且WT2≥Q2时,使用P′2的微调策略;此时,磁盘旋转不稳定性对数据传输速率和读写错误率的影响小于25%,但物理状态和运行状态的波动性超过75%;此情形下,虽然数据传输速率显示故障风险低,但由于物理和运行状态波动较大,需提高初始故障概率阈值,提高15%以内的初始故障概率阈值后,系统更好地应对运行状态波动导致的潜在故障风险;
当WT1<Q1且WT2<Q2时,使用P1′的微调策略;此时,磁盘旋转不稳定性对数据传输速率和读写错误率的影响小于25%,且物理状态和运行状态的波动性也小于25%;在此情况下,整体故障风险较低,能够降低初始故障概率阈值,系统避免了过度敏感性,减少了误报警的概率;
当WT1或WT2发生变化时:
若WT1增加超过25%,同时WT2保持不变或变化小于5%,则优先考虑提高Pfault值以应对故障风险;
若WT1减少超过25%,同时WT2保持不变或变化小于5%,则优先考虑降低Pfault值以避免系统过度敏感;
示例应用如下:
假设Pfault=0.5,以下是各情形下的故障阈值调整示例:
高风险情境:WT1=80%,WT2=85%;
调整后P′2=0.5+0.2=0.7(70%);
中等风险情境:WT1=80%,WT2=20%;
调整后P′2=0.5+0.1=0.6;
低风险情境:WT1=20%,WT2=85%;
调整后P′2=0.5+0.15=0.65;
无风险情境:WT1=20%,WT2=20%;
调整后P1′=0.5-0.15=0.35。
进一步说明,进一步计算硬盘在当前第n次数据采集的故障概率,若该故障概率超过调整后的故障概率阈值时,则触发故障预警,具体包括:
根据硬盘在当前第n次数据采集的故障概率Pth,n,当Pth,n符合中任意一个时,判断硬盘处于故障状态,否则判断为正常状态;
一旦触发故障预警,系统将自动启动后续的故障诊断程序,包括:
实时监控硬盘状态指标;
生成详细故障报告,系统自动将当前及过去一段时间内收集的硬盘状态数据进行整合和分析,生成详细的故障报告;生成的故障报告应当以标准化的格式保存,包括PDF和可编辑的文档格式;报告应自动归档至系统日志中,并与特定的硬盘序列号相关联,以便未来查询;
通知操作人员进行必要的故障处理或数据备份工作,具体如下:
自动通知机制:
即时通知:系统将通过多种渠道(如电子邮件、短信、实时通知系统)立即通知相关操作人员,通知内容包括故障预警的概要信息、当前硬盘状态,以及建议的初步处理措施;
优先级设定:根据故障的风险等级(如高、中、低),系统设置通知的优先级,高优先级故障将发送至主要负责人及其上级管理人员,中优先级故障则通知一般维护人员;
故障处理指导:
自动生成故障处理建议:根据故障报告的分析结果,系统将自动生成详细的故障处理建议;这些建议包括:
降低硬盘负载,减少写入操作;
增加散热设备,控制磁盘温度;
将重要数据从有风险的硬盘中迁移到其他存储设备上;
进行硬盘自检或引导SMART测试;
备份操作指引:对于数据安全有潜在威胁的情况,系统应当自动生成备份指引,帮助操作人员迅速将关键数据备份至安全位置,备份指引应包括推荐的备份方法(如镜像备份、增量备份)、备份目标设备,以及预计的备份时间;
响应确认与反馈:
确认机制:操作人员在收到通知后,应在系统中确认已收到并开始处理故障。系统应要求操作人员定期更新处理进展并提交最终处理结果;
反馈分析:故障处理结束后,系统将分析处理效果,记录处理过程中的经验教训,并将其纳入未来故障处理的参考资料库中。
实施例二:
在实施例一的基础上进一步说明,本实验的目的是验证基于阈值微调模型的故障预警系统在不同硬盘状态下的有效性,尤其是其在动态调整初始故障概率阈值中的表现;试验对象为5台运行超过2年的服务器硬盘,型号均为企业级SATA硬盘,每台硬盘在过去一年中平均运行时间约为6000小时;实验选择的数据采集指标包括硬盘的旋转不稳定性、数据传输速率、读写错误率等;
在实验过程中,利用实验数据对阈值微调模型进行实际验证,具体过程如下:
1)初始状态数据采集:
首先,基于硬盘的SMART(自我监测分析与报告技术)数据,获取每台硬盘在过去48小时内的状态指标,分别计算出第一关联评价系数CRT和第二关联评价系数CRE,以及相关的趋势评价系数CT和CU;这些指标的数据用于计算第一综合指数WT1和第二综合指数WT2;
2)阈值微调模型的参数设定:
根据历史数据,设定回归系数为r1=0.5、r2=0.4、r3=0.7、r4=0.6,并设定划分阈值Q1=0.75、Q2=0.75;初始故障概率阈值Pfault=0.5;
3)实验步骤:
a.利用阈值微调模型计算每台硬盘的WT1和WT2,公式如下:
根据计算出的WT1和WT2值,使用以下微调策略:
当WT1≥Q1且WT2≥Q2时,使用P′2进行故障阈值微调,并增加故障预警敏感度;
当WT1<Q1且WT2<Q2时,使用P1′,并降低故障预警敏感度;
4)监控及预警:
通过将实时数据与微调后的故障概率阈值进行比较,观察是否触发预警;系统将在超过阈值时触发警报,并记录故障发生时间及相关指标的变化;
实验数据表格如下:
表1
数据分析与结论:
从上述实验数据可以看出,当WT1和WT2均较高时(如硬盘A、C、E),系统提高了故障概率阈值,并在实时监控中触发了预警,提示硬盘存在出现故障的风险;而对于WT1和WT2较低的硬盘(如硬盘B、D),系统降低了阈值,未触发预警,显示硬盘状态相对稳定;
硬盘状态的分布与故障预警触发情况:
硬盘A、C和E在实验中均表现出高于设定阈值(WT1和WT2均≥Q1和Q2),这些硬盘的旋转不稳定性和趋势指数较高,分别为0.76、0.80和0.78;这些高值表明这些硬盘在运行过程中存在较大波动,发出预警进行干预是必要的;
硬盘B和D则显示出较低的WT1和WT2值(分别为0.68和0.62;0.62和0.60),因此未触发预警;这表明它们的状态相对稳定,降低了误报警的风险;
微调后的故障概率阈值:
对于硬盘A、C和E,在故障概率阈值的微调中,系统分别将P′2调高至0.61、0.64和0.63,体现出故障概率的提升幅度为22%、28%和26%(相对于初始故障概率0.50);这种调整确保系统在高风险情况下能够更加敏感,及时预警潜在的故障;
而对于硬盘B和D,微调后的阈值分别降低至0.46和0.45,降低幅度为8%和10%;这说明系统有效地避免了在硬盘状态正常时的误报警,提高了系统的稳定性和安全性;
参数间的相互关系:
在公式中,WT1与WT2的值直接影响到微调后的故障概率阈值;例如,若WT1增加,从0.68提高至0.76(如从硬盘B到硬盘A),将导致故障概率的提升幅度显著增加;这是因为在高风险状态下,系统需要提升对故障的敏感度;
具体来说,若WT1提高10%(从0.70到0.77),假设保持其他参数不变,会导致P′2的增加幅度达到15%,即P′2从0.50提升至0.65;这表明,增加的旋转不稳定性直接影响阈值微调策略的调整幅度,提升了系统的反应速度;
通过量化的微调机制,将硬盘的故障风险控制在一个可接受的范围内;通过设定不同的阈值区间,系统能够在不同状态下调整对应的故障概率阈值;
当WT1≥Q1且WT2≥Q2时,故障概率阈值提高10%-20%,有效地将风险预警提升至85%-90%的准确率;
当WT1<Q1且WT2<Q2时,故障概率阈值降低10%-15%,减少误报警的风险至5%-10%;
通过基于实际状态的微调,系统显著降低了在硬盘状态正常时的误报警几率,从表格数据分析中可以看出,硬盘B和D未触发警报,避免了不必要的维护成本;
本发明的微调模型有效识别出高风险硬盘,并在故障发生前进行预警,从而能及时采取措施,降低数据丢失风险;
根据不同的状态变化,系统灵活调整故障阈值,使得应对策略更具针对性;在故障风险较高的情况下,提升阈值提高警觉性;在状态稳定时,降低阈值减少干扰。
上述公式均是去量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式,公式中的预设参数由本领域的技术人员根据实际情况进行设置。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。本领域技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够通过电子硬件,或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方法来执行,取决于技术方案的特定应用和设计约束条件。
以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (4)
1.一种基于计算机硬盘状态指标进行故障判断的方法,其特征在于,具体步骤包括:
步骤S1:设定硬盘的采集周期为集合{1,2,…,n},其中i∈{1,2,…,n}表示采集周期内第i次数据采集的索引,n表示当前第n次数据采集的索引,采集硬盘的物理状态指标和运行状态指标,其中,物理状态指标包括磁盘旋转不稳定性数据和磁头加载次数,运行状态指标包括数据传输速率和读写错误率,并对采集到的数据进行归一化和去噪预处理,得到多维特征数据;多维特征数据的获取,包括:
磁盘旋转不稳定性数据包括磁盘旋转速度波动率和磁盘振动幅度,并对磁盘旋转速度波动率和磁盘振动幅度分别标记为CVb、CZf;
结合磁盘旋转速度波动率和磁盘振动幅度,进行分析处理,构建第i次数据采集的磁盘旋转不稳定性值,计算公式如下:
;
参数解释:是第i次数据采集的磁盘旋转不稳定性值,是第i次数据采集的磁盘旋转速度波动率,是第i次数据采集的磁盘振动幅度,均是为正数的权重系数,且;
在设定的采集周期内定时获取物理状态指标数据和运行状态指标数据,并将采集的数据记录到数据库中,形成数据集;
其中,分别表示第i次数据采集的磁盘旋转不稳定性值、磁头加载次数、数据传输速率和读写错误率;
对于归一化处理,采用min-max归一化方法,将每个指标值x归一化为x';
归一化后的数据范围限定在(0,1),其中,;
对于去噪处理,使用移动平均法去除数据中的随机噪声,以对每个指标的归一化数据进行平滑处理:
对于多维特征数据,经过归一化和去噪处理后,最终获得的多维特征数据集表示为,其中与分别为数据预处理后的物理状态指标和运行状态指标,k-1表示经过去噪处理后的采集次数起始点;
步骤S2:接收n次采集的多维特征数据,使用自编码器对多维特征进行降维,提取降维后的关键特征向量;
步骤S3:接收降维后的关键特征向量,利用支持向量机对关键特征向量进行故障概率计算,实现硬盘故障的二分类;
设定硬盘故障的初始故障概率阈值,并根据初始故障概率阈值,设置硬盘的故障预警触发条件;
步骤S4:获取磁盘旋转不稳定性数据、数据传输速率和读写错误率,并对磁盘旋转不稳定性数据与数据传输速率进行关联分析,得到第一关联评价系数,第一关联评价系数用于评价磁盘旋转不稳定性数据与数据传输速率之间的关联影响程度;
对磁盘旋转不稳定性数据与读写错误率进行关联分析,得到第二关联评价系数,第二关联评价系数用于评价磁盘旋转不稳定性数据与读写错误率之间的关联影响程度;
步骤S5:计算物理状态指标在当前采集周期的变化趋势数据,并针对该变化趋势数据进行分析处理,生成第一趋势评价系数,第一趋势评价系数用于评价物理状态指标在当前采集周期内的变化趋势;
计算运行状态指标在当前采集周期的变化趋势数据,并针对该变化趋势数据进行分析处理,生成第二趋势评价系数,第二趋势评价系数用于评价运行状态指标在当前采集周期内的变化趋势;
步骤S6:结合第一关联评价系数、第二关联评价系数、第一趋势评价系数和第二趋势评价系数,构建阈值微调模型,阈值微调模型用于对初始故障概率阈值提供微调策略;
步骤S7:获取经过微调策略调整后的故障概率阈值,并根据调整后的故障概率阈值,对故障预警触发条件进行调整,进一步计算硬盘在当前第n次数据采集的故障概率,若该故障概率超过调整后的故障概率阈值时,则触发故障预警。
2.根据权利要求1所述的一种基于计算机硬盘状态指标进行故障判断的方法,其特征在于:接收n次采集的多维特征数据,使用自编码器对多维特征进行降维,提取降维后的关键特征向量,包括:
选择自编码器作为降维工具;自编码器由编码器和解码器两部分组成,其中编码器将高维输入数据压缩为低维特征向量,解码器再将恢复到高维空间;
对于每一个数据采集点i,输入的多维特征数据表示为:
;
编码器网络的输出为低维特征向量:
;
其中,是编码器的权重矩阵,是偏置向量,是激活函数,表示编码器的所有参数集合;
通过最小化重构误差来训练自编码器,使得解码器输出的重构数据趋近原始输入数据;
在自编码器训练完成后,直接使用输出的低维特征向量作为降维后的关键特征向量;
降维后的特征向量表示为:
;
其中,m是降维后特征向量的维度。
3.根据权利要求2所述的一种基于计算机硬盘状态指标进行故障判断的方法,其特征在于:第一关联评价系数以及第二关联评价系数构建内容如下:
计算磁盘旋转不稳定性数据与数据传输速率之间的第一皮尔逊相关系数,计算公式为:
;
其中,为磁盘旋转不稳定性和数据传输速率之间的第一皮尔逊相关系数;
和分别为和在集合{1,2,…,n}内的均值;
计算磁盘旋转不稳定性数据与读写错误率之间的第二皮尔逊相关系数,计算公式为:
;
其中,为磁盘旋转不稳定性和读写错误率之间的第二皮尔逊相关系数;
和分别为和在集合{1,2,…,n}内的均值。
4.根据权利要求3所述的一种基于计算机硬盘状态指标进行故障判断的方法,其特征在于:构建阈值微调模型,阈值微调模型用于对初始故障概率阈值提供微调策略,具体包括:
定义阈值微调模型的计算公式如下:
;
其中,WT1为结合第一关联评价系数和第二关联评价系数的第一综合指数,整体反映计算机硬盘状态的关联程度;WT2为结合第一趋势评价系数和第二趋势评价系数的第二综合指数,为第一趋势评价系数,为第二趋势评价系数,整体反映计算机硬盘状态的趋势程度,为初始故障概率阈值,为降低取值后的故障概率阈值标记;为提高取值后的故障概率阈值标记;
r1、r2、r3、r4分别为对应参数的回归系数,分别表示第一关联评价系数的均值与标准差,用于归一化处理;分别表示第二关联评价系数的均值与标准差,用于归一化处理;均为正常数项;
分别设定第一综合指数与第二综合指数的划分阈值依次为Q1和Q2;
当时,代表磁盘的旋转不稳定性与数据传输速率之间的关联性显著;这表示硬盘的状态不佳,存在较高的故障风险,数据传输效率受到严重影响;
当时,代表磁盘的旋转不稳定性与数据传输速率之间的关联性较弱,系统表现正常,故障风险较低;
当时,代表物理状态指标的变化趋势明显,表明硬盘的运行状态在当前采集周期内发生了较大的波动;
当时,代表物理状态指标的变化趋势较小,表示硬盘在当前采集周期内的运行状态相对稳定,故障风险较低。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202411189456.7A CN119166399B (zh) | 2024-08-28 | 2024-08-28 | 一种基于计算机硬盘状态指标进行故障判断的方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202411189456.7A CN119166399B (zh) | 2024-08-28 | 2024-08-28 | 一种基于计算机硬盘状态指标进行故障判断的方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN119166399A CN119166399A (zh) | 2024-12-20 |
| CN119166399B true CN119166399B (zh) | 2025-05-23 |
Family
ID=93880004
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202411189456.7A Active CN119166399B (zh) | 2024-08-28 | 2024-08-28 | 一种基于计算机硬盘状态指标进行故障判断的方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN119166399B (zh) |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119356266A (zh) * | 2024-12-24 | 2025-01-24 | 闽江师范高等专科学校 | 一种基于工业互联网的工业设备生产管理系统 |
| CN119620740A (zh) * | 2025-02-12 | 2025-03-14 | 北京德京安科技有限公司 | 一种用于智能运维系统的故障预测方法及装置 |
| CN120429149B (zh) * | 2025-04-18 | 2025-10-31 | 兴容(上海)信息技术股份有限公司 | 基于多源数据的网络故障管理系统及方法 |
| CN120044935B (zh) * | 2025-04-24 | 2025-08-22 | 本溪钢铁(集团)信息自动化有限责任公司 | 一种故障实时检测方法、装置、设备及介质 |
| CN120448969B (zh) * | 2025-04-28 | 2026-02-03 | 兴容(上海)信息技术股份有限公司 | 基于多源数据融合的网络设备故障预测方法与系统 |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN108228377A (zh) * | 2017-12-29 | 2018-06-29 | 华中科技大学 | 一种面向磁盘故障检测的smart阈值优化方法 |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2650914B2 (ja) * | 1987-07-16 | 1997-09-10 | 三菱電機株式会社 | プロセス異常診断装置 |
| AU2015200309B2 (en) * | 2010-05-14 | 2016-07-07 | Joy Global Surface Mining Inc | Predicting failure of a mining machine |
| CN115757026A (zh) * | 2022-11-15 | 2023-03-07 | 中国工商银行股份有限公司 | 分布式消息服务平台的存储性能监测方法及装置 |
| CN118101421B (zh) * | 2023-12-20 | 2024-08-23 | 福建省电子政务建设运营有限公司 | 一种基于机器学习的智能告警阈值自适应方法 |
-
2024
- 2024-08-28 CN CN202411189456.7A patent/CN119166399B/zh active Active
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN108228377A (zh) * | 2017-12-29 | 2018-06-29 | 华中科技大学 | 一种面向磁盘故障检测的smart阈值优化方法 |
Non-Patent Citations (1)
| Title |
|---|
| 基于智能预警和自修复的高可靠磁盘阵列关键技术研究;胡维;《中国优秀硕士学位论文全文数据库》;20120215(第2期);I137-46 * |
Also Published As
| Publication number | Publication date |
|---|---|
| CN119166399A (zh) | 2024-12-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN119166399B (zh) | 一种基于计算机硬盘状态指标进行故障判断的方法 | |
| JP7105932B2 (ja) | アプリケーション情報に関連する時系列ズデータに関する深層学習を使用した異常検出 | |
| US11604934B2 (en) | Failure prediction using gradient-based sensor identification | |
| CN111538311B (zh) | 一种基于数据挖掘的机械设备柔性多状态自适应预警方法及装置 | |
| CN119197373B (zh) | 基于激光扫描的集电环碳刷磨损动态监测方法及系统 | |
| CN119414814A (zh) | 一种基于智慧电厂实现的智能预警诊断方法 | |
| CN118041762A (zh) | 工业控制系统的通信网络故障预测方法及装置 | |
| CN116907772A (zh) | 桥梁结构监测传感器的自诊断与故障源鉴别方法及系统 | |
| CN119603175A (zh) | 服务器故障预测方法、装置、电子设备及存储介质 | |
| US20250238302A1 (en) | Managing data processing system failures using hidden knowledge from predictive models for failure response generation | |
| CN119494028A (zh) | 基于图神经网络的送水泵组健康状态监测方法和系统 | |
| CN115017019B (zh) | 一种基于日志的系统异常检测方法、装置及存储介质 | |
| CN121350933A (zh) | 一种大规模设备能耗异常检测方法及存储介质 | |
| CN114358421A (zh) | 磁盘故障预测方法、装置、存储介质和电子设备 | |
| CN120317789B (zh) | 一种基于电子标签的智能集成仓储物流管理方法 | |
| CN121024868A (zh) | 风力发电机组控制参数异动的监测系统 | |
| CN120336989A (zh) | 硬件故障定位方法、装置、设备和存储介质 | |
| US12493512B2 (en) | Managing data processing system failures using hidden knowledge from predictive models for failure response generation | |
| CN119398910A (zh) | 企业信用风险评分卡模型的调整方法、设备及存储介质 | |
| WO2022143436A1 (zh) | 一种设备的状态分析方法和分析装置 | |
| CN120353631B (zh) | 存储链路故障诊断方法、装置、设备、介质及程序产品 | |
| CN121185621B (zh) | 基于健康状态指标的轴承故障检测方法及系统 | |
| CN118259731B (zh) | 一种基于大数据的电源诊断方法、装置及存储介质 | |
| CN120560960B (zh) | 硬盘故障预测方法、电子设备、存储介质和程序产品 | |
| CN120579076B (zh) | 基于历史数据分析的打印头管理方法及系统 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |